Дайджест ML, AI и Data Analytics

Дайджест по ML и Data Analytics: языковой процессор LPU и GenAI в FinOps

Станислав Валуев
Станислав Валуев Руководитель отдела Data/ML-продуктов
15 апреля 2024

Делимся актуальными материалами, технологиями и другими нововведениями на рынке аналитики данных и машинного обучения.

Изображение записи

Новый выпуск полезных материалов, который поможет разобраться в ML, AI и дата-аналитике. Сегодня в программе — состояние MLOps в 2024 году, возможности дата-контрактов, оценка качества данных DQ Score и Python-библиотека для работы с SQL. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».

Теория

From Database to AI: The Evolution of Data Platforms

Рано или поздно каждая компания задумывается, как оценить платформу на актуальность и соответствие задачам. Тогда и появляются разные модели зрелости, одна из них — шестиступенчатая. С ее помощью можно оценить уровень развития аналитических решений — от нуля до пяти.  

Модель зрелости аналитических решений.
Пятый уровень модели зрелости аналитических решений. Источник.

Из интересного: прикладное использование ML и AI начинается только на предпоследнем уровне, а пятый полностью завязан на применении GenAI.

Подробнее →

What is the difference between LLMOps and MLOps?

Полезный материал о различиях между LLM- и MLOps. Если не хотите читать полную версию, можно ознакомиться с основными тезисами на картинке. Все коротко и по делу. 

Сравнительная таблица LLM- и MLOps.

Подробнее →

500 ресурсов для аналитиков

Ребята из NewHR подготовили таблицу с источниками по A/B-тестированию, BI, AI, маркетингу, менеджменту и другим категориям. Ознакомиться с самыми популярными можно в подборке от авторов. Пригодится, если хотите быть в курсе аналитического рынка и не тратить время на поиски интересного материала. 

Подробнее →

Практика

Deploying Deep Learning Models at Scale — Triton Inference Server 0 to 100

В статье автор рассказывает о принципах работы Triton и делится конфигурационными файлами. Все это — на примере запуска сервиса с ML-моделью для ресайза изображений. Возможно, для кого-то она станет точкой входа в мир Triton. К тому же подобные материалы редко увидишь. 

Подробнее →

Как проводят оценку качества данных в Airbnb

Перевод статьи о контроле качества в Airbnb и их системе оценки DQ Score. Идея внутренней сертификации данных в едином формате перспективная — еще не видел подобного у других компаний. Жаль, что решение закрытое. Хотя это не мешает использовать инструмент как источник вдохновения.

Шкала качества данных и весовые коэффициенты.
Шкала качества данных и весовые коэффициенты. Источник.

Подробнее →

Как мы не выбрали Airbyte, или почему собирать данные лучше по старинке

Коллеги из BI-отдела Selectel поделились своим опытом использования Airbyte — инструмента для сбора данных. Они могли и дальше применять его к своим боевым задачам, если бы не одно «но»… Не буду спойлерить, лучше почитайте самостоятельно.

Для меня это подтверждение того факта, что даже зрелое и популярное open source-решение может не подойти для решения некоторых задач. Но таких инструментов много, всегда есть из чего выбрать. 

Подробнее →

Инструменты

Power of Data Contracts in Simplifying Data Complexity and tools to build data Contracts

Интересный материал о дата-контрактах. Если коротко, это документ, который определяет параметры использования для обмена данными между поставщиками данных и их потребителями. Реализовать его можно с помощью нескольких инструментов — подробнее о каждом рассказывает автор.  

  • PayPal’s YAML Specification,
  • Data Mesh Manager,
  • Data Contract Studio,
  • Data Contract CLI,
  • Great Expectations,
  • Gable.ai.
Механизм работы дата-контрактов.
Механизм работы дата-контрактов. Источник

Подробнее →

Multi-engine data stack — v0

Еще один увлекательный термин из мира «стеков для работы с данными» — multi-engine. Пригодится, если хотите сэкономить средства с помощью использования разных движков для хранения и обработки данных. 

  • S3 и файлы в формате Parquet.
  • DuckDB.
  • Snowflake.
  • Dbt.
  • Dagster.

Дополнительно есть несколько сценариев работы multi-engine. Поможет параллельно использовать инструменты в одной экосистеме.

Схема используемых стеков для работы с данными.
Используемые стеки для работы с данными в одной экосистеме. Источник.

Подробнее →

Data Catalog Tools List & Evolution

Сравнение десяти дата-каталогов от создателей Castor. Компания использовала четырехуровневую модель зрелости и традиционный Landscape. Рейтинг по понятным причинам получился предвзятым, но с критериями оценки и продуктами ознакомиться это не мешает.

Landscape дата-каталогов.
Landscape дата-каталогов. Источник

Подробнее →

SQL Assistant: Text-to-SQL Application in Streamlit

Ребята поделились Python-библиотекой Vanna.ai, которая умеет генерировать SQL и графики на основании полученных данных. Конечно, после определенных манипуляций с LLM. Использовать ее можно прямо в Jupyter, без сторонних инструментов.

Архитектура Vanna.ai.
Архитектура Vanna.ai. Источник.

Выглядит амбициозно. Не нужно знать SQL: просто пишете запрос и получаете данные. Вот только насчет качества такого решения я не уверен. 

Подробнее →

Мнения

Data Management in 2024

Автор размышляет о влиянии открытых форматов хранения данных (Apache Iceberg, Apache Hudi, Delta Lake) на появление дата-платформ «новой волны». Похожие решения можно посмотреть на StarTree и Dremio, но до общепринятых и повсеместно используемых им еще далековато.

Подробнее →

It’s time to build

Кажется, я не перестану делиться материалами автора Benn Stansil. И это несмотря на то, что он пишет сложно, душно и неинформативными выводами, которые можно пропустить. 

В тексте автор поднимает сразу несколько злободневных тем:

  • популярность новых аналитических инструментов.
  • смещение фокуса в общественном пространстве на AI/ML,
  • подход к разработке новых дата-стартапов.

Если у вас хороший уровень английского — рекомендую к прочтению.

Подробнее →

What Will 2024 Bring to Advance Analytics?

CEO рынка аналитических решений рассуждают о векторах развития аналитики в 2024 году. Главный тренд, я полагаю, угадает каждый. Ведь это обработка естественного языка и LLM. В общем, «English will replace SQL» и все в таком духе.

Подробнее →

Инфраструктура

Delivering Efficient, High-Performance AI Clouds with NVIDIA DOCA 2.5

Исходя из опыта, один из самых сложных компонентов высокопроизводительного облака — сеть между вычислительными нодами. Если запустить регион с пропускной способностью 5 Гбит, то добавить еще 10 Гбит просто так не получится. Физическое оборудование, программные компоненты, гипервизоры и другие факторы накладывают свои ограничения.

Аппаратный и программный стек NVIDIA. Источник.

У NVIDIA есть целый аппаратно-программный комплекс для оптимизации производительности облачных вычислений. Подробнее о них можно почитать в материале. 

Подробнее →

Groq LPU Inference Engine

Мало нам было CPU, GPU, TPU, так теперь появился LPU — Processing Unit для LLM. Оказалось, малоизвестный стартап Groq стал лидером в инференсе LLM, выпустив языковой процессор (LPU) с «первым независимым бенчмарком LLM». Время покажет, так ли это на самом деле. 

Подробнее →

Обзоры рынка

Итоги-2023 от ServerNews: ИИ везде, ИИ повсюду

ServerNews собрал в одном тексте значимые релизы нового AI-железа за 2023 год. Среди них — два поколения процессоров Xeon® Scalable, ускорители от NVIDIA и другие. Конечно, за последнее время появилось много железа «круче» рассмотренного в обзоре, но он поможет составить общее впечатление о рынке и тенденциях.

Подробнее →

PostgreSQL возглавила мировой рейтинг роста популярности СУБД и стала абсолютным лидером среди популярных СУБД в России

Это один из тех случаев, когда суть материала передана в заголовке — хоть и объемном. Дополню, что PostgreSQL возглавила рейтинг DB-Engines. По данным Google Trends за 2023 год популярность этой СУБД в России оказалась на 65% выше, чем Oracle, на 76% — MySQL и на 95% — MS SQL Server. 

Подробнее →

Видео

Аналитические инструменты для ленивых. JupyterLab, SuperSet, Prefect на инфраструктуре с GPU

Недавно прошел вебинар, в котором мы рассказали о вариантах использования наших продуктов — DAVM, DSVM и ML-платформы. Для практики взяли кейс с sentiment-анализом комментариев под статьями из нашего блога на Хабре. Как результат — развернули инференс-сервис с моделью в Kserve и автоматизировали загрузку данных в дашборд Apache Superset. 

Подробнее →

Getting Started With CUDA for Python Programmers

Специалист по обработке данных Jeremy Howard выпустил обучающее видео по CUDA-программированию. В нем продемонстрировал весь процесс разработки прямо в Google Collab, аналоге Jupyter Notebook. Советую посмотреть урок Python-разработчикам, которые только начинают работу с CUDA.

Подробнее →

MLOps Best Practices in 2024

Компания Featureform обсудила состояние MLOps на 2024 год и поделилась лучшими практиками. Их еще нужно обосновать, но было интересно ознакомиться. 

Особенно понравились метрики MLOps. Лично знаю людей, которым необходимо отчитываться о результативности внутренних MLOps-платформ, поэтому эта часть может им пригодиться. 

Подробнее →

GenAI for Financial Services

McKinsey и Iguazio рассказали, как они используют GenAI в финансовой сфере. Всегда было интересно узнать прогнозы и результаты анализа, особенно с конкретными значениями. Вот они и представили их в виде «слайдумента». Можно просто читать и не слушать спикера — ничего важного не потеряете. 

Подробнее →

MLOps London Jan 2024: A tour of Model Serving Strategies

В прошлой статье я рассказывал о лондонском митапе по MLOps. В этом Ramon Perez из Seldon рассказывает о стратегиях сервинга моделей. Его система для меня не очень понятна: в нем находятся и streaming с batch-обработкой, и Bare metal с serverless, и edge device c mobile app. Даже о PostgresML вспомнил. Отдельно отмечу, что на каждый случай приводятся примеры инструментов для реализации.

Подробнее →