Дайджест ML и Data Analytics: концепции MLOps, BI-инструменты и новинки от AMD
Делимся актуальными материалами, технологиями и другими нововведениями на рынке аналитики данных и машинного обучения.
В новом выпуске собрал для вас полезные материалы, которые помогут лучше разобраться в темах ML, искусственного интеллекта и дата-аналитики. Вы узнаете, какие Ops-практики входят в систему MLOps, как выбрать СУБД для анализа данных и как построить платформу для DS/ML-разработчиков. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».
Теория
Introduction to MLOps Principles
Статья с базовыми принципами MLOps, которые направлены на поддержание жизненного цикла моделей машинного обучения в продакшене. С их помощью компании сокращают время и затраты на разработку и развертывание ML-моделей, избегая технического долга. Всего автор выделил пять принципов:
- Versioning (управление версиями),
- Testing (тестирование),
- Automation (автоматизация),
- Monitoring and tracking (мониторинг и отслеживание),
- Reproducibility (воспроизводимость).
Пригодится тем, кто только погружается в тему машинного обучения.
Mastering LLM Techniques: LLMOps
Нечасто встретишь у NVIDIA концептуальные статьи о ML. В этой они рассказывают о нескольких практиках, которые входят в систему MLOps. Среди них — GenAIOps, LLMOps и RAGOps. Каждая из них выполняет свои задачи: генерирует текст, изображение или ответы на запросы пользователей. Нравятся мне все эти сложные Ops-термины, можно перекинуться ими с коллегами на кофепоинте.
ML Model Registry: The Ultimate Guide
Полное руководство по Model Registry от Neptune. Чем он отличается от других методов хранения моделей, как настроить в MLOps-стек и все, что поможет с тестированием и развертыванием ML-моделей. Для большего понимания сопроводили информацию подробными схемами.
Если любите обзорные статьи, рекомендую обратить внимание. Достаточно прочитать один раз, чтобы раз и навсегда разобраться в Model Registry.
Real-Time Data Architecture Patterns
Мощная статья об архитектурных аспектах построения аналитических систем. В частности, для потоковой обработки данных в режиме реального времени. В ней описаны:
- базовые сценарии (Stream-to-Stream, Batch-to-Stream, Stream-to-Batch),
- архитектуры Lambda, Kappa, Streaming, CDC,
- примеры на базе Apache Kafka и Druid.
Вся информация хорошо структурирована, поэтому подойдет тем, кто хочет освежить свои знания или разобраться с нуля в архитектуре аналитических систем.
Schmarzo and the Value·Nauts: The Journey from Data to Value
Тратить деньги на модернизацию аналитических систем и получать за счет этого экономическую выгоду — не одно и то же. Об этом рассказывает в своей статье Bill Schmarzo, стратег по AI- и DA-инновациям. Из интересного в ней есть четырехуровневая модель зрелости монетизации данных и собственная схема «Путешествие к ценным данным», напоминающая PDCA-циклы (Plan-Do-Check-Act).
Performance Optimization in ETL Processes
Интересная теоретическая статья о способах оптимизации производительности ETL-процессов. Они нужны для улучшения обработки данных, повышения эффективности затрат и углубления понимания бизнеса. Всего автор выделил пять стратегий:
- предобработка данных,
- параллельные вычисления,
- in-memory обработка,
- оптимизация кода и запросов к СУБД,
- микробатчинг.
Статья могла быть еще лучше, если бы в ней были практические примеры, но пока довольствуемся тем, что есть.
Визуализация проявляет
Обычно в Бюро Горбунова пишут о креативных темах: редактуре, рекламе, дизайне и всяком таком. Однако меня заинтересовала обзорная статья о визуализации данных. В ней описаны семь принципов визуализации, которые можно использовать как ориентир при создании своих работ:
- визуализация проявляет,
- информативность,
- многомерность,
- наглядность,
- логичность и удобство использования,
- эстетичность,
- правдивость.
В первом принципе автор приводит два эталонных примера: мировую карту землетрясений и схему очагов заражения холерой 1854 году в Лондоне. Если хотите глубже погрузиться в тему, можете почитать об информативности и многомерности. Остальные — в процессе у автора.
Integration of Big Data in Data Management
Еще не все считают большие данные умершими. Подтверждение — в статье о проблемах и перспективах использования данных в прикладной аналитике. При этом большинство вопросов касается технологий и платформенных решений. Пригодится, если хотите дать «вторую жизнь» своим данным и извлечь из них полезную информацию.
Практика
Mastering LLM Techniques: Inference Optimization
Большая статья от NVIDIA, в которой они учат своих потребителей ускорять инферес LMM. Для этого предлагают несколько методов: например, снижать точность представления вещественного числа (Quantization) и заменять плотные матрицы на разреженные (Sparsity). Или заменить большую LLM на маленькую, а затем мимикрировать ее под свою «старшую сестру» (Distillation).
И это не говоря о том, что можно всячески играться с распараллеливанием вычислений внутри модели, кэшировать Key/Value-тензоры, шарить их внутри self-attention слоя и многое другое.
Динамический шеринг GPU в Kubernetes с помощью MIG
Вторая статья о технологии шеринга GPU — Dynamic MIG. В комментариях к первой нам писали, что нельзя переразбивать конфигурацию MIG при наличии активных процессов. Мы же говорим, что можно, и делимся способом, как это сделать. Использовать коммерческое решение Fractions от Run:ai или open source-модуль Nebuly Operating System.
Scaling Data Teams: 5 Learnings from BlaBlaCar
История о децетрализирализации и масштабировании аналитических команд от BlaBlaCar. В 2021 году они начали с отдельных подразделений аналитиков, инженеров и дата-саентистов, а в 2023 пришли к пяти кросс-функциональным командам. Если помимо работы с данными вы сталкиваетесь с управленческими задачами, рекомендую ознакомиться с этой статьей.
Инфраструктура
Apple M2 Max GPU vs Nvidia V100, P100 and T4
Автор не мог выбрать между графическими процессорами от Apple и NVIDIA, поэтому сравнил их по производительности. В дополнение протестировал на этих процессорах обучение ML-моделей: M2 Max в 4,38 раз быстрее M1 и, в некоторых сценариях, лучше по производительности, чем Nvidia T4 и P100. Чем это не аргумент в пользу Apple.
AMD launches Instinct MI300X and MI300A
В начале декабря AMD анонсировал новую линейку AI-ускорителей: Instinct MI300X и Instinct M1300A. Если в прошлом поколении на один чип приходилось 128 ГБ памяти, то теперь уже — 192 ГБ. При этом NVIDIA H200 получил 141 ГБ, что почти вдвое больше по сравнению с предшественником H100.
Интересно, будет ли доступен форм-фактор Open Compute Project Accelerator Module? Гарантии и поддержки вендора у нас нет, а так хотя бы замену комплектующих можно будет организовать.
H100 and other GPUs — which are relevant for your ML workload?
Полезная статья для тех, кто планирует закупить GPU на следующий год. Во-первых, в ней вы узнаете термины FP64, TF32 и BF16. Во-вторых, ознакомитесь с показателями новых карт от NVIDIA (L4, L40, H100 SXM, H100 PCI).
L-линейка от NVIDIA используется для инференса, но может помочь и в стриминге, и с обучением ML-моделей. При этом она в несколько раз уступает H100, хотя в L40 целых 48 ГБ памяти, как и в A6000 Ada.
Инструменты
The Return of the H2O.ai Database-like Ops Benchmark
В одной из статей NVIDIA ссылается на рейтинг инструментов и методов обработки информации — Database-like Ops Benchmark. Он измеряет производительность groupby и join различных аналитических инструментов, таких как data.table, polars, dplyr, clickhouse, duckdb и других.
Оригинальный бенчмарк от H2O.ai застрял в 2021 году, а ребята из DuckDB обновили его под современные реалии. Возникает вопрос, насколько объективно. Ведь теперь их СУБД побеждает во всех эталонных запросах.
Выбор СУБД: шпаргалка, чтобы не запутаться
Неожиданно приятный материал о выборе СУБД для анализа данных. В нем автор делится тремя подходами с подробными схемами и дополнительными рекомендациями.
- Пройти тест и сопоставить результаты с таблицей соответствия СУБД.
- Следовать по стрелкам на предложенной в тексте схеме.
- Использовать теорему САР: из трех факторов (доступность, согласованность и устойчивость к распределению) выбрать один.
Как говорится, все гениальное — просто.
What Can You Expect from Apache Doris as a Data Warehouse?
Обзорная статья от создателей Apache Doris о том, насколько «быстрее, выше, сильнее» стала их аналитическая СУБД с релизом 2.X.X. Помимо перечисления всех преимуществ в ней описаны особенности выполнения запросов, хранения данных на дисках и S3, а также разные пользовательские сценарии: например, LakeHouse, анализ логов и другие. Пригодится, если присматриваете альтернативу ClickHouse.
Сравнение Open Source BI-платформ
В статье автор сравнил BI-инструменты с открытым исходным кодом. В качестве испытуемых выбрал Superset, Metabase и DataLens, предварительно разделив критерии оценки на четыре группы:
- настройка внешнего вида и визуализации дашбордов,
- работа с данными,
- интерактивное взаимодействие с дашбордом,
- администрирование и безопасность.
Выбрать лидера — сложно, поскольку каждая из BI-платформ обладает своими особенностями и ограничениями. Но вы можете ознакомиться с результатами в итоговой таблице: часть 1, часть 2.
Видео
LLMs Mini Summit
Почти двухчасовая запись с обсуждением LLM на MLOps Mini Summit Meetup. В видео выступили четыре специалиста:
- Thomas Capelle, ML-инженер в компании Weights & Biases, рассказал о Fine-tune LLM, которое улучшает точность и производительность моделей;
- Boris Dayma, генеральный директор Craiyo, поделился лучшими практиками обучения LLM: использование параллельного обучения, ведение журнала тренировок и другие;
- Robbie McCorkell, инженер-основатель Leap Labs, рассказал об интерпретируемых моделях на примере классификаторов изображений и показал, как применить эту концепцию к LLM;
- Jonathan Whitaker, AI Researcher в Data Science Castnet, поделился результатами конкурса «LLM Science Exam» от Kaggle, в котором ответил на вопросы GPT 3.5, основанные на статьях с Википедии.
Построение MLOPS платформы. Как мы обуздали хаос в головах и технике
Коллеги из МТС поделились опытом построения внутренней платформы для DS/ML-разработчиков: с какими проблемами они столкнулись и как их решили. Смотрел их доклад и вспоминал, как мы наступали на такие же грабли.
Для своей системы они выбрали ClearML и дополнили его Seldon Core и JupyterHub. У них есть еще много дополнительных инструментов, но так у всех.
Scaling MLOps for Computer Vision
В последнее время MLOps.community зачастили с mini summit. На этот раз — прикольные доклады о Computer Vision с использованием платформы Flyte. У нас в России эта сфера сильно развита, поэтому многим будет интересно. В видео три доклада:
- «Flyte: A Platform for the Agile Development of AI Products» от David Espejo, Open Source Developer Advocate в Union;
- «Flyte at Recogni» от Fabio Grätz, старшего Software Engineer в Recogni;
- «Lessons Learned from Running AI Models at Scale» от Arno Hollosi, технического директора Blackshark.ai.
AWS re:Invent 2023 — Introduction to MLOps engineering on AWS
Большой обзорный доклад о MLOps с конференции AWS re:Invent 2023. Сперва спикер погружает слушателей в саму концепцию, упоминая MLOps Security и MLOps Maturity. Затем показывает, как это работает в платформе Sagemaker. Однако у каждого свои взгляды на MLOps, поэтому с некоторыми моментами в видео можно поспорить.