Дайджест ML, AI и Data Analytics

Дайджест ML и Data Analytics: концепции MLOps, BI-инструменты и новинки от AMD

Станислав Валуев
Станислав Валуев Руководитель отдела Data/ML-продуктов
27 декабря 2023

Делимся актуальными материалами, технологиями и другими нововведениями на рынке аналитики данных и машинного обучения.

Изображение записи

В новом выпуске собрал для вас полезные материалы, которые помогут лучше разобраться в темах ML, искусственного интеллекта и дата-аналитики. Вы узнаете, какие Ops-практики входят в систему MLOps, как выбрать СУБД для анализа данных и как построить платформу для DS/ML-разработчиков. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».

Теория

Introduction to MLOps Principles

Статья с базовыми принципами MLOps, которые направлены на поддержание жизненного цикла моделей машинного обучения в продакшене. С их помощью компании сокращают время и затраты на разработку и развертывание ML-моделей, избегая технического долга. Всего автор выделил пять принципов:

  • Versioning (управление версиями),
  • Testing (тестирование),
  • Automation (автоматизация),
  • Monitoring and tracking (мониторинг и отслеживание),
  • Reproducibility (воспроизводимость).

Пригодится тем, кто только погружается в тему машинного обучения.

Подробнее →

Mastering LLM Techniques: LLMOps

Нечасто встретишь у NVIDIA концептуальные статьи о ML. В этой они рассказывают о нескольких практиках, которые входят в систему MLOps. Среди них — GenAIOps, LLMOps и RAGOps. Каждая из них выполняет свои задачи: генерирует текст, изображение или ответы на запросы пользователей. Нравятся мне все эти сложные Ops-термины, можно перекинуться ими с коллегами на кофепоинте.

Зеленым цветом отмечена специфика генеративных моделей (GenAIOps). Источник.
Зеленым цветом отмечена специфика генеративных моделей (GenAIOps). Источник.

Подробнее →

ML Model Registry: The Ultimate Guide

Полное руководство по Model Registry от Neptune. Чем он отличается от других методов хранения моделей, как настроить в MLOps-стек и все, что поможет с тестированием и развертыванием ML-моделей. Для большего понимания сопроводили информацию подробными схемами. 

Схема работы Model Registry. Источник.
Схема работы Model Registry. Источник.

Если любите обзорные статьи, рекомендую обратить внимание. Достаточно прочитать один раз, чтобы раз и навсегда разобраться в Model Registry.

Подробнее →

Real-Time Data Architecture Patterns

Мощная статья об архитектурных аспектах построения аналитических систем. В частности, для потоковой обработки данных в режиме реального времени. В ней описаны:

  • базовые сценарии (Stream-to-Stream, Batch-to-Stream, Stream-to-Batch),
  • архитектуры Lambda, Kappa, Streaming, CDC,
  • примеры на базе Apache Kafka и Druid.

Вся информация хорошо структурирована, поэтому подойдет тем, кто хочет освежить свои знания или разобраться с нуля в архитектуре аналитических систем. 

Подробнее →

Schmarzo and the Value·Nauts: The Journey from Data to Value

Тратить деньги на модернизацию аналитических систем и получать за счет этого экономическую выгоду — не одно и то же. Об этом рассказывает в своей статье Bill Schmarzo, стратег по AI- и DA-инновациям. Из интересного в ней есть четырехуровневая модель зрелости монетизации данных и собственная схема «Путешествие к ценным данным», напоминающая PDCA-циклы (Plan-Do-Check-Act).

Cхема «Путешествие к ценным данным». Источник.
Cхема «Путешествие к ценным данным». Источник.

Подробнее →

Performance Optimization in ETL Processes

Интересная теоретическая статья о способах оптимизации производительности ETL-процессов. Они нужны для улучшения обработки данных, повышения эффективности затрат и углубления понимания бизнеса. Всего автор выделил пять стратегий: 

  • предобработка данных,
  • параллельные вычисления,
  • in-memory обработка,
  • оптимизация кода и запросов к СУБД,
  • микробатчинг.

Статья могла быть еще лучше, если бы в ней были практические примеры, но пока довольствуемся тем, что есть. 

Подробнее →

Визуализация проявляет

Обычно в Бюро Горбунова пишут о креативных темах: редактуре, рекламе, дизайне и всяком таком. Однако меня заинтересовала обзорная статья о визуализации данных. В ней описаны семь принципов визуализации, которые можно использовать как ориентир при создании своих работ:

  • визуализация проявляет,
  • информативность,
  • многомерность,
  • наглядность,
  • логичность и удобство использования,
  • эстетичность,
  • правдивость.

В первом принципе автор приводит два эталонных примера: мировую карту землетрясений и схему очагов заражения холерой 1854 году в Лондоне. Если хотите глубже погрузиться в тему, можете почитать об информативности и многомерности. Остальные — в процессе у автора. 

Подробнее →

Integration of Big Data in Data Management

Еще не все считают большие данные умершими. Подтверждение — в статье о проблемах и перспективах использования данных в прикладной аналитике. При этом большинство вопросов касается технологий и платформенных решений. Пригодится, если хотите дать «вторую жизнь» своим данным и извлечь из них полезную информацию. 

Подробнее →

Практика

Mastering LLM Techniques: Inference Optimization

Большая статья от NVIDIA, в которой они учат своих потребителей ускорять инферес LMM. Для этого предлагают несколько методов: например, снижать точность представления вещественного числа (Quantization) и заменять плотные матрицы на разреженные (Sparsity). Или заменить большую LLM на маленькую, а затем мимикрировать ее под свою «старшую сестру» (Distillation).

И это не говоря о том, что можно всячески играться с распараллеливанием вычислений внутри модели, кэшировать Key/Value-тензоры, шарить их внутри self-attention слоя и многое другое.

Процесс кэширования Key/Value-тензоров. Источник.
Процесс кэширования Key/Value-тензоров. Источник.

Подробнее →

Динамический шеринг GPU в Kubernetes с помощью MIG

Вторая статья о технологии шеринга GPU — Dynamic MIG. В комментариях к первой нам писали, что нельзя переразбивать конфигурацию MIG при наличии активных процессов. Мы же говорим, что можно, и делимся способом, как это сделать. Использовать коммерческое решение Fractions от Run:ai или open source-модуль Nebuly Operating System.

Подробнее →

Scaling Data Teams: 5 Learnings from BlaBlaCar

История о децетрализирализации и масштабировании аналитических команд от BlaBlaCar. В 2021 году они начали с отдельных подразделений аналитиков, инженеров и дата-саентистов, а в 2023 пришли к пяти кросс-функциональным командам. Если помимо работы с данными вы сталкиваетесь с управленческими задачами, рекомендую ознакомиться с этой статьей. 

Подробнее →

Инфраструктура 

Apple M2 Max GPU vs Nvidia V100, P100 and T4

Автор не мог выбрать между графическими процессорами от Apple и NVIDIA, поэтому сравнил их по производительности. В дополнение протестировал на этих процессорах обучение ML-моделей: M2 Max в 4,38 раз быстрее M1 и, в некоторых сценариях, лучше по производительности, чем Nvidia T4 и P100. Чем это не аргумент в пользу Apple. 

Подробнее →

AMD launches Instinct MI300X and MI300A

В начале декабря AMD анонсировал новую линейку AI-ускорителей: Instinct MI300X и Instinct M1300A. Если в прошлом поколении на один чип приходилось 128 ГБ памяти, то теперь уже — 192 ГБ. При этом NVIDIA H200 получил 141 ГБ, что почти вдвое больше по сравнению с предшественником H100.

Интересно, будет ли доступен форм-фактор Open Compute Project Accelerator Module? Гарантии и поддержки вендора у нас нет, а так хотя бы замену комплектующих можно будет организовать.

Подробнее →

H100 and other GPUs — which are relevant for your ML workload?

Полезная статья для тех, кто планирует закупить GPU на следующий год. Во-первых, в ней вы узнаете термины FP64, TF32 и BF16. Во-вторых, ознакомитесь с показателями новых карт от NVIDIA (L4, L40, H100 SXM, H100 PCI).

Основные характеристики GPU и бенчмарки производительности для ML. Источник.
Основные характеристики GPU и бенчмарки производительности для ML. Источник.

L-линейка от NVIDIA используется для инференса, но может помочь и в стриминге, и с обучением ML-моделей. При этом она в несколько раз уступает H100, хотя в L40 целых 48 ГБ памяти, как и в A6000 Ada.

Подробнее →

Инструменты

The Return of the H2O.ai Database-like Ops Benchmark

В одной из статей NVIDIA ссылается на рейтинг инструментов и методов обработки информации — Database-like Ops Benchmark. Он измеряет производительность groupby и join различных аналитических инструментов, таких как data.table, polars, dplyr, clickhouse, duckdb и других.

Оригинальный бенчмарк от H2O.ai застрял в 2021 году, а ребята из DuckDB обновили его под современные реалии. Возникает вопрос, насколько объективно. Ведь теперь их СУБД побеждает во всех эталонных запросах.

Подробнее →

Выбор СУБД: шпаргалка, чтобы не запутаться

Неожиданно приятный материал о выборе СУБД для анализа данных. В нем автор делится тремя подходами с подробными схемами и дополнительными рекомендациями.

  1. Пройти тест и сопоставить результаты с таблицей соответствия СУБД.
  2. Следовать по стрелкам на предложенной в тексте схеме. 
  3. Использовать теорему САР: из трех факторов (доступность, согласованность и устойчивость к распределению) выбрать один. 

Как говорится, все гениальное — просто. 

Подробнее →

What Can You Expect from Apache Doris as a Data Warehouse?

Обзорная статья от создателей Apache Doris о том, насколько «быстрее, выше, сильнее» стала их аналитическая СУБД с релизом 2.X.X. Помимо перечисления всех преимуществ в ней описаны особенности выполнения запросов, хранения данных на дисках и S3, а также разные пользовательские сценарии: например, LakeHouse, анализ логов и другие. Пригодится, если присматриваете альтернативу ClickHouse.

Подробнее →

Сравнение Open Source BI-платформ

В статье автор сравнил BI-инструменты с открытым исходным кодом. В качестве испытуемых выбрал Superset, Metabase и DataLens, предварительно разделив критерии оценки на четыре группы: 

  • настройка внешнего вида и визуализации дашбордов,
  • работа с данными,
  • интерактивное взаимодействие с дашбордом,
  • администрирование и безопасность.

Выбрать лидера — сложно, поскольку каждая из BI-платформ обладает своими особенностями и ограничениями. Но вы можете ознакомиться с результатами в итоговой таблице: часть 1, часть 2.

Подробнее →

Видео

LLMs Mini Summit

Почти двухчасовая запись с обсуждением LLM на MLOps Mini Summit Meetup. В видео выступили четыре специалиста: 

  • Thomas Capelle, ML-инженер в компании Weights & Biases, рассказал о Fine-tune LLM, которое улучшает точность и производительность моделей;
  • Boris Dayma, генеральный директор Craiyo, поделился лучшими практиками обучения LLM: использование параллельного обучения, ведение журнала тренировок и другие; 
  • Robbie McCorkell, инженер-основатель Leap Labs, рассказал об интерпретируемых моделях на примере классификаторов изображений и показал, как применить эту концепцию к LLM; 
  • Jonathan Whitaker, AI Researcher в Data Science Castnet, поделился результатами конкурса «LLM Science Exam» от Kaggle, в котором ответил на вопросы GPT 3.5, основанные на статьях с Википедии. 

Подробнее →

Построение MLOPS платформы. Как мы обуздали хаос в головах и технике

Коллеги из МТС поделились опытом построения внутренней платформы для DS/ML-разработчиков: с какими проблемами они столкнулись и как их решили. Смотрел их доклад и вспоминал, как мы наступали на такие же грабли. 

Для своей системы они выбрали ClearML и дополнили его Seldon Core и JupyterHub. У них есть еще много дополнительных инструментов, но так у всех. 

Схема процесса работы у коллег из МТС. Источник.
Схема процесса работы у коллег из МТС. Источник.

Подробнее →

Scaling MLOps for Computer Vision

В последнее время MLOps.community зачастили с mini summit. На этот раз — прикольные доклады о Computer Vision с использованием платформы Flyte. У нас в России эта сфера сильно развита, поэтому многим будет интересно. В видео три доклада:

  • «Flyte: A Platform for the Agile Development of AI Products» от David Espejo, Open Source Developer Advocate в Union;
  • «Flyte at Recogni» от Fabio Grätz, старшего Software Engineer в Recogni;
  • «Lessons Learned from Running AI Models at Scale» от Arno Hollosi, технического директора Blackshark.ai.

Подробнее →

AWS re:Invent 2023 — Introduction to MLOps engineering on AWS 

Большой обзорный доклад о MLOps с конференции AWS re:Invent 2023. Сперва спикер погружает слушателей в саму концепцию, упоминая MLOps Security и MLOps Maturity. Затем показывает, как это работает в платформе Sagemaker. Однако у каждого свои взгляды на MLOps, поэтому с некоторыми моментами в видео можно поспорить.  

Подробнее →