Новые чипы от Microsoft для искусственного интеллекта
В панель

Дайджест ML и Data Analytics: новые чипы от Microsoft и другие технологии

Станислав Валуев Станислав Валуев Руководитель отдела Data/ML-продуктов 21 ноября 2023

Делимся актуальными материалами, технологиями и другими нововведениями на рынке аналитики данных и машинного обучения.

Изображение записи

С прошлого дайджеста произошло много событий в мире MLOps и дата-аналитики. Например, Microsoft анонсировал свой AI-чип, Databricks стал скупать «игроков поменьше», а рынку аналитических решений прогнозируют рост на 40% каждый год. Подробнее об этом рассказываем в статье. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».

Теория

From Data Platform to ML Platform

Статья об эволюции систем для работы с данными в компаниях. Всего автор выделил четыре этапа с подробными иллюстрациями: 

  • базы данных с OLTP/OLAP-нагрузкой,
  • Data Lake для хранения неструктурированных данных,
  • инфраструктура для обработки данных в реальном времени,
  • MLOps.

Дополнительно автор поделился своим взглядом на объединенную Data/ML-платформу. В целом, такой подход выглядит логично, но не всегда его можно реализовать как на уровне инфраструктуры, так на уровне необходимых компетенций профильных специалистов.

Подробнее →

Why You Don’t Want to Use Your Data Warehouse as a Feature Store

Специалисты из Tecton решили отработать возражения насчет их Feature Store и рассказали, почему не нужно хранить фичи в Data Warehouse. Основной акцент сделали на недостатке возможностей для работы с real-time преобразованиями данных: streaming ingestion сделать можно, а вот превратить это в пайплайн уже сложно.

Подробнее →

Практика

Как работают Model Serving инструменты изнутри

Если планируете писать собственный serving в компании, рекомендую почитать эту статью. В ней автор делится собственным опытом разработки тематического фреймворка:

  1. Первоначальная настройка ML-модели.
  2. Создание интерфейса командной строки (CLI).
  3. Описание конфигураций с помощью YAML.
  4. Интеграция модели в Docker-контейнер.
  5. Деплой ServingML.

По его словам, он вдохновлялся исходным кодом BentoML и MLRun.

Подробнее →

From Big Data to Better Data: Ensuring Data Quality with Verity

Инженер из Lyft написал статью об обеспечении качества данных. В ней рассказал о внутреннем продукте Verity и описал пять аспектов внутренней концепции качества данных. Пригодится, если хотите улучшить свои бизнес-процессы.

Пять аспектов качества данных. Источник.

Подробнее →

Потоковая обработка данных: анализ альтернативных решений

Коллеги из ITSumma рассказали о своем опыте работы со Spark и Flink в качестве решений для потоковой обработки данных. Дополнительно сравнили их по трем критериям:

  • время задержки при прохождении данных через потоковую систему обработки,
  • наличие параллельной обработки с масштабированием общей пропускной способности,
  • гарантия однократной передачи каждой записи (Exactly Once Semantics).

Как часто бывает при работе с Open Source-продуктами, без написания собственного коннектора не обошлось.

Подробнее →

MLOps в билайн

Не знали, как обстоят дела с MLOps в крупных компаниях? Прочитайте статью от Билайн. В ней коллеги поделились, как и по каким причинам менялись их ML-процессы и инфраструктура. Особенно понравилось, что упомянули дообучение моделей (Retrain) — редко где встретишь информацию об этом. Теперь будем ждать продолжение, чтобы узнать, какие инструменты и технологии они применили.

Схема построения MLOps в Билайн. Источник.

Подробнее →

Обзор рынка

Microsoft AI-чип

На конференции Ignite 2023 Microsoft презентовал новый чип для искусственного интеллекта Maia 100. Несложно догадаться, что ребята из Redmond хотят получить собственные платформы для обучения и инференса больших языковых моделей. При таких масштабах не получится без оптимизации и кастомизации. 

Напомню, что у Google давно уже есть тензорные процессоры (TPU) и чипы Tensor для смартфонов. Какое решение займет рынок — покажет время.

Подробнее →

Российский рынок дата-решений вырастет до 170 млрд рублей за пять лет

TAdvisor поделились результатами исследования фонда «Центр стратегических разработок». Прогноз объема рынка получился оптимистичным — даже больше, чем обещают крупные аналитические агентства. Особенно годовой прирост на 40% в ближайшие два года. Из необычного: объем data governance-решений почти равен сегменту оказания услуг. По субъективным ощущениям столько быть не должно.

Структура продуктов и услуг на рынке в 2022 году. Источник.

Подробнее →

Does venture capital ruin great products?

Периодически я делюсь новостями об инвестициях в аналитические или ML-решения. Делаю это для того, чтобы показать динамику рынка и выделить перспективных игроков, которые влияют на его развитие. Очередной повод — статья о венчурных инвестициях. В ней автор размышляет, так ли хорошо они помогают разрабатывать качественные продукты. Спойлер: далеко не всегда.

Подробнее →

Gartner Top 10 Strategic Technology Trends for 2024

Статья о топ-10 технологических трендов, которые подходят для ML и AI. По мнению Gartner, эти инновации помогут компаниям быстрее достичь своих бизнес-целей. Platform Engineering не самый очевидный вариант для этого. Он больше о кастомизации платформы под задачи пользователя, но в этом и ценность для текущей аудитории. 

Инструментов появилось настолько много, что хочется выбрать галочками необходимые и больше не усложнять. В своей ML-платформе мы по такому пути и стараемся идти.

Подробнее →

Databricks acquires data replication startup Arcion

Новая тенденция: лидеры рынка решают свои стратегические задачи с помощью компаний поменьше. Вот, например, у Databricks была проблема: интеграция данных в платформу отнимала много — в том числе и материальных — ресурсов. Они подумали и решили выкупить стартап Arcion, занимающийся репликацией данных. Ранее они также приобрели MosaicML. Вопрос: кто следующий?

Подробнее →

Survey: Large Language Model Adoption Reaches Tipping Point

Исследовательская работа от Arise по внедрению LLM в бизнес. В ней поделились основными выводами с опроса. Главный поинт: у компаний увеличились барьеры c использованием LLM в продакшене. 

Мне кажется, все это связано. Компании начали мигрировать в on-premise для большей безопасности — и это привело к тому, что у сотрудников выросла ответственность за развертывание и точность ответов.

Подробнее →

AMD Rallies After Predicting Sales Surge for New AI Processor

Большая аналитика от Bloomberg по перспективам Instinct MI300. По их словам, многие компании уже сделали предзаказы GPU на основе этого чипа. Такое чувство, что скоро AMD поглотит большую часть рынка — хотя бы из-за возможного дефицита карт от Nvidia.

Ускоритель Instinct MI300 от AMD. Источник.

Подробнее →

Инструменты

BI Adoption Guide

Подробный mindmap о проблемах внедрения и использования BI-систем в компаниях. Автор выделил восемь причин низкой популярности BI и предложил варианты по их решению. Сама схема находится в Miro, ее можно сохранить и использовать в похожих ситуациях.

Подробнее →

Major Milestone: lakeFS 1.0 Is Now Generally Available

LakeFS выпустил обновленный инструмент для версионирования данных. Это некий «Git для аналитиков» при работе с Data Lake. Помимо косметических изменений, теперь в LakeFS можно интегрировать Databricks, Apache Iceberg, Microsoft Azure и другие решения. Выглядит стильно — посмотрим, как будет на деле.

Подробнее →

Burn Unstoppable Rusty Neurons

Rust сейчас в моде, поэтому делюсь фреймворком для машинного обучения. Он упрощает эксперименты, обучение и развертывание моделей. В целом, прикольный инструмент для людей со специфическими вкусами. 

Подробнее →

Autonomous DAta (Labeling) Agent framework

Наткнулся на новый для себя фреймворк c агентской схемой разметки текста — выглядит интересно. Кажется, теперь классификацию тикетов в техподдержку можно решить намного проще.

Подробнее →

CUDA Toolkit 12.3

Недавно вышла новая версия CUDA Toolkit. В ней есть важное обновление типа deprecated: 

«Starting in CUDA 12.4, the NVIDIA driver installation on Linux will be opt-in. The goal is to improve user experience for a wide range of use cases such as installing the open module flavor driver. The cuda-runtime dependency and therefore the cuda-drivers (NVIDIA driver) dependency will be removed from the top-level cuda meta-package. Effectively, the cuda and cuda-toolkit meta-packages will be equivalent in CUDA 12.4».

Подробнее →

Видео

MLOps London October 2023 — Testing ML Pipelines

В последнее время встречаю мало материалов о тестировании в ML-среде, поэтому советую посмотреть доклад с MLOps London. В нем спикер затрагивает много интересных аспектов о работе с синтетическими данными, о которых сразу и не вспомнишь. 

Подробнее →

Читайте также: