Ликбез по Data Governance, защита LLM и рейтинг BI-инструментов

Ликбез по Data Governance, защита LLM и рейтинг BI-инструментов

Станислав Валуев
Станислав Валуев Руководитель отдела Data/ML-продуктов
5 марта 2024

Делимся актуальными материалами, технологиями и другими нововведениями на рынке аналитики данных и машинного обучения.

Изображение записи

Подготовили подборку полезных материалов, которые помогут лучше разобраться в ML, AI и дата-аналитике. Внутри — эволюция СУБД, миграция с Apache Druid на ClickHouse и подходы к экономии ресурсов для инфраструктуры. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».

Теория

New Book: Implementing MLOps in the Enterprise

Игуазио Ярон Хавив и Ноа Гифт из Pragmatic AI Labs поделились основными выводами из книги о MLOps. Сильнее всех мне откликается шестой: «Вместо обслуживания модели, посмотрите на общую картину доставки приложения в целом». Соглашусь с авторами: во многих платформах пользователю пытаются показать всю глубину технических абстракций и «продать» возможность управлять ими через красивый интерфейс. При этом системный взгляд на решение практических задач размывается очень сильно. 

Книга «Implementing MLOps in the Enterprise».
Книга Iguazio Yaron Haviv и Noah Gift.

Подробнее →

Introduction to Apache Doris: A Next-Generation Real-Time Data Warehouse

Обзорная статья по работе с аналитической базой данных Apache Doris. Авторы поделились ее особенностями, архитектурой и пользовательскими сценариями. Все это вместе с подробными схемами и характеристикой инфраструктурных компонентов. 

Подробнее →

Data Monetization? Cue the Chief Data Monetization Officer

Автор решил раскрыть роль директора по монетизации данных (CDMO), его отличия от директора по данным (CDO) и IT-директора (CIO). В тексте есть несколько примеров решаемых задач и форматов взаимодействия с другими специалистами. Но кажется, что это история про очень большие компании.

Подробнее →

CNCF White Paper по observability: инструменты, виды, стратегии и проблемы

Некоммерческая организация CNCF написала статью о построении observability для ML-систем. Она содержит верхнеуровневый обзор разных видов и паттернов мониторинга, которые могут понадобиться при работе с высокими нагрузками в облаке. Чтобы вы понимали, чтение занимает около 40 минут.

Схема выходных данны, которые производит система.
Первичные observability-сигналы.

Подробнее →

Data Governance: MDM and RDM (Part 3)

Третья часть ликбеза по Data Governance, в которой авторы рассказывают об управлении референсными (RDM) и мастер-данными (MDM). Особенно понравились описания разных стилей имплементации MDM. Встретить такое на рынке — удивительная удача!

Подробнее →

БД — это скальпель или мультитул? Куда привела эволюция СУБД в 2023 году

Если вы находитесь в постоянном поиске СУБД, советую присмотреться к этой статье. Автор разделил системы на четыре класса: реляционные, in-memory, NoSQL, Distributed SQL — и рассказал подробнее о каждом. 

Эволюция функциональности in-memory баз данных. 
Эволюция функциональности in-memory баз данных. 

Про эволюцию СУБД принято рассказывать, что сначала были реляционные базы данных, потом появились NoSQL, а после — распределенные. Но автор рассмотрел, как эти системы эволюционировали одновременно и к чему это привело.

Подробнее →

Переход с ETL на ELT

Коллеги из ITSumma перевели статью об извлечении, загрузке и трансформации данных. Без вечного холивара между ETL и ELT-подходам, естественно, не обошлось. Несмотря на хейт в комментариях, статья показалась мне полезной. Для тех, кто не владеет иностранными языками, это отличная возможность ознакомиться с материалом. 

Подробнее →

Практика

Visualizing Feature Lineage with Tecton DataFlow

Чтобы понять, какие преобразования приводят функцию к текущему состояния, нужно постоянно отслеживать цепочку ее трансформаций. При этом делать это вручную, поскольку готовых решений нет. Ребята в Tecton решили, что «хватит это терпеть», и выкатили красивый визуализатор этапов преобразования. Кажется, это только начало, но уже сейчас можно им вдохновиться.

Подробнее →

Safeguarding Your RAG Pipelines: A Step-by-Step Guide to Implementing Llama Guard

В первый раз вижу практически применимую статью об обеспечении безопасности для ML-моделей. Для людей, мало знакомых с best practice по информационной безопасности, такой подход выглядит жутковато. Похоже к prompt-инженерам добавятся guard-инженеры или просто переложат эту ответственность на первых. А как у вас с этим?

Подробнее →

Druid Deprecation and ClickHouse Adoption at Lyft

Подробный рассказ от Lyft о миграции с Apache Druid на ClickHouse. Интересно, что не наоборот. Как всегда, у ребят все подробно описано и сопровождается схемами используемых решений.

Схема архитектуры Apache Druid в Lyft.
Архитектура Apache Druid в Lyft.

Подробнее →

Инструменты

Discover, download, and run local LLMs

Появилось время подробнее ознакомиться с инструментом для локального запуска LLM. Раньше я всем рассказывал о h2oGPT, но теперь буду советовать LM Studio. Его главная функция — запуск локального сервера с выбранной моделью. Причем он нативно поддерживается API OpenAI. 

Подробнее →

Simplify End-To-End MLOps with PostgresML

Какие только инструменты не встретишь. Например, плагин на Rust для создания MLOps-системы в PostgreSQL. Если у нас в сообществе есть администраторы по базам данных, покажите им этот инструмент — пусть переквалифицируются в MLOps-инженеры!

Подробнее →

Мнение

Cutting Your Data Stack Costs: How To Approach It And Common Issues

Статья-размышление о подходах к экономии средств на поддержку аналитической инфраструктуры. Из материала узнаете, как выбрать подходящее решение и определить его точную стоимость. 

Таблица стоимости решений по используемому методу из статьи.
Таблица стоимости решений по используемому методу из статьи.

Подробнее →

How To Plan To Data Roadmap For 2024 – Elevating Your Data Strategy

Небольшое напоминание о том, что для управления аналитикой и данными нужно формулировать стратегию. В статье автор предлагает для этого следующие шаги: 

  • поговорить со стейкхолдерами и зафиксировать ожидания,
  • оценить сильные стороны команды и прошлые успешные проекты,
  • не забыть про проекты на поддержке,
  • предложить собственные идеи улучшений.

Дальше остается только приоритезировать — и в бой!

Подробнее →

Инфраструктура

Inference performance on AMD Instinct™ MI300X

В последнее время NVIDIA и AMD спорят о правильности тестов своих GPU. Если не слышали, AMD выпустила тесты Instinct™ MI300X, но результаты не понравились NVIDIA и она выпустила собрала свои бенчмарки. А теперь показатели не понравились AMD, поэтому они опубликовали статью-опровержение. Напоминает маркетинговые войны Audi и BMW, ну или Pepsi и Coca Cola. Теперь ждем ответ от NVIDIA. 

Показатели инференсов Llama-70B. 
Показатели инференсов Llama-70B. 

Подробнее →

MTT S4000 48GB AI GPU with MTLink and zero-cost NVIDIA CUDA® framework translation

Китайская GPU, которую можно сравнивать с RTX™ A6000 Ada. Вот вам и реальность. Берете бывшего вице-президента из NVIDIA, даете ему ресурсы с поддержкой правительства получаете альтернативную железку, хоть и не на современной архитектуре. Особенно я повеселился с MTLink — альтернативы популярной NVlink™. Также заявлена нативная трансляция в CUDA®, но без тестов я не поверю.

Подробнее →

Обзоры рынка

Платформы бизнес-аналитики BI 2023

Ежегодный рейтинг отечественных BI-инструментов от Cnews. У меня есть вопросы к методологии и выставлению оценок. Например, они не затронули open-source и облачные решения. Тем не менее, можно изучить, если хотите ознакомиться с рынком коробочных инструментов.

Топ-5 BI-платформ 2023.
Топ-5 BI-платформ 2023. Источник.

Подробнее →

How To Read Gartner’s Magic Quadrants & 2024 Predictions

Каждый год выходят отраслевые отчеты Gartner и всегда возникает вопрос, что с ними делать. Для этого предлагаю ознакомиться с материалом, который помогает их интерпретировать. Прекрасный способ подвести итоги года для тех, кто интересуется не только настоящим, но и будущим в мире аналитических решений.

Подробнее →

15 Leading Cloud Providers for GPU-Powered LLM Fine-Tuning and Training

Неплохой обзор по ресурсам для LLM от разных провайдеров. Среди них — Lambda Labs, Microsoft Azure, Google Cloud и другие. Пригодится, если хотите посмотреть стоимость некоторых решений и составить по ним общее впечатление. 

Характеристики ресурсов для LLM от Microsoft Azure.
Характеристики ресурсов для LLM от Microsoft Azure.

Подробнее →

GenAI companies valuations 

Нестандартный формат: делюсь не статьей, а картинкой со стоимостью главных GenAI-компаний в мире. Кажется, если и нужно следовать рекомендациям в стиле «Топ-10 самых перспективных направлений для инвестирования», то нужно было выбрать генеративные модели, но увы. Удивительно, как сильно OpenAI опережает конкурентов!

Стоимость главных GenAI-компаний в мире
Стоимость главных GenAI-компаний в мире

Видео

Подкаст «Что такое MLOps?» 

В ноябре вышел подкаст с участием моего коллеги Антона, но делюсь им только сейчас. За полтора часа он подробно рассказал о использовании MLOps в российских реалиях: чем он отличается от DevOps, нужно ли внедрять эту практики любому бизнесу, а также о том, как ML-инженерам убедить руководство в этой необходимости. Пригодится компаниям, которые изучают или планируют построить MLOps-платформу. 

Подробнее →

MLOps Hands-on Guide: From Training to Deployment and Monitoring

Полуторачасовое видео о построении MLOps. В нем спикер Алексей Григорьев подробно рассказывает о реальных инструментах и подходах, позволяющих организовать минимально достаточный процесс работы с ML-моделями. Для опытных специалистов пользы будет не так много, а вот начинающие смогут своими глазами увидеть весь процесс построения «подобия» production ML. 

Подробнее →

MNC — MLOps

Я всегда за то, чтобы повышать насмотренность, поэтому представляю короткое демо-видео о корейской MLOps-платформе. Нового, к сожалению, я тут не увидел, но в видео есть общие паттерны работы с моделями и их публикации в сервисы.

Подробнее →

Building your ML Ops strategy for generative AI

В одном из предыдущих дайджестов я рассказывал о видео по MLOps от AWS, а теперь — от Google. Понятно, что там много про Vertex AI, но и концептуальных вещей достаточно. Специфика GenAI сейчас многим важна, так что пользуйтесь опытом лидеров.

Подробнее →

Community Paper Reading: Mixtral – Part One

На Youtube-канале Arize AI есть формат Community Paper Reading, в котором несколько специалистов обсуждают какую-то тему. В этом выпуске — нашумевшую модель Mixtral. Если вам тоже интересно, как можно на модели с 7 млрд параметров опережать более крупные модели по качеству результата, то приятного чтения.

Подробнее →

Qwak MLOps Platform Demo 2024

Уважаю компании, которые делают видео-гайды по своим продуктам. Не нужно читать огромные документации и сопоставлять концепции. Достаточно посмотреть один раз и получить комплексное представление по решению. Так, например, ребята из Qwak выпустили простое и понятие видео о своей MLOps-платформе.

Подробнее

The future of BI: Exploring the impact of BI-as-code tools with DuckDB

Помимо взгляда BI-аналитиков на BI-системы есть еще видение разработчиков. В последнее время растет популярность именно «кодового» подхода, как более гибкого и настраиваемого. Отсюда и появляются фреймворки для создания дашбордов с помощью программирования. 

В видео автор рассказывает о трех таких решениях: Evidence, Rill и Streamlit. Они выглядят перспективно и могут кому-то подойти, но для массового распространения порог входа высок. 

Подробнее →