Релиз платформы Apache Hadoop 3.3.0

Apache Software Foundation выпустила свежий релиз своей платформы — Apache Hadoop 3.3.0. С момента последнего обновления прошло полтора года.

Платформа представляет собой инструмент для организации распределенной обработки больших объемов данных с использованием MapReduce. Hadoop включает в себя набор утилит, библиотек и фреймворков для разработки и выполнения распределенных программ, которые способны работать на кластерах из тысяч узлов.

Для Hadoop создана специализированная файловая система Hadoop Distributed File System (HDFS), которая обеспечивает резервирование данных и оптимизацию работы MapReduce-приложений. HDFS предназначена для хранения файлов больших размеров, распределенных между отдельными узлами вычислительного кластера. Благодаря своим возможностям Hadoop используется крупнейшими компаниями и организациями. Google даже предоставила Hadoop право на использование технологий, которые затрагивают патенты, связанные с методом MapReduce.

В общем, встречаем Apache Hadoop 3.3.0.

Вот список самых важных изменений в новой версии:

  • Поддержка платформ на основе ARM-архитектуры (кстати, у Selectel есть ARM-серверы, попробуйте).
  • Версия формата Protobuf (Protocol buffers) обновлена до 3.7.1. Protobuf используется для сериализации структурированных данных.
  • Для коннектора S3A добавлена функция Delegation Token (аутентификация), улучшена поддержка кэширования ответов с кодом 404, плюс увеличена производительность S3guard и общая надежность работы.
  • Разработчики заявили о решении проблем с автоматическим тюнингом в файловой системе ABFS.
  • Добавлена поддержка Java 11.
  • Появилась поддержка файловой системы Tencent Cloud COS, что необходимо для доступа к объектному хранилищу COS.
  • Добавлен сервис DNS Resolution, что дает возможность клиентам определять серверы через DNS по именам узлов. Соответственно, в настройках нет необходимости добавлять все хосты.
  • Появился каталог приложений YARN (Yet Another Resource Negotiator) с возможностью поиска.
  • Добавлена поддержка планирования запуска OPPORTUNISTIC-контейнеров через Resource Manager.

Благодаря тому, что Hadoop активно развивается, рынок решений на его основе быстро растет. Если в 2019 году объем рынка составлял около $1,7 млрд, то, по прогнозам экспертов, к 2024 году он достигнет $9,4 млрд.

Сейчас Hadoop занимает первое место среди репозиториев Apache по числу вносимых изменений. Размер кодовой базы платформы составляет около 4 млн строк. Наиболее крупные хранилища — Netflix, Twitter.

Что еще почитать по теме

T-Rex 19 августа 2020

Apple открывает доступ к оригинальным запчастям и инструментам

Компания Apple объявила о расширении программы Independent Repair Provider Program (IRPP) по предоставлению оригинальных запчастей и обучению сотрудников независимых ремонтных мастерских.
T-Rex 19 августа 2020
T-Rex 7 августа 2020

Быстрее, выше, сильнее: Clear Linux

На днях ресурс Phoronix опубликовал результаты тестов скорости работы разных дистрибутивов Linux на системе с Core i9 10980XE. Подробности тестирования — под катом.
T-Rex 7 августа 2020
T-Rex 4 августа 2020

Linux Kernel 5.8: что нового в ядре

Линус Торвальдс наконец-то представил релиз ядра Linux 5.8. О планируемых изменениях мы писали задолго до этого события. Теперь планы стали реальностью, так что новшества можно обсудить.
T-Rex 4 августа 2020

Новое в блоге

Михаил Фомин 24 июня 2022

Docker Swarm VS Kubernetes — как бизнес выбирает оркестраторы

Рассказываем, для каких задач бизнесу больше подойдет Docker Swarm, а когда следует выбрать Kubernetes.
Михаил Фомин 24 июня 2022
Владимир Туров 5 октября 2022

DBaaS: что такое облачные базы данных

Рассказываем о сервисе управляемых баз данных в облаке и объясняем, как разделяется ответственность за работу кластеров БД между провайдером и клиентом.
Владимир Туров 5 октября 2022
Ульяна Малышева 30 сентября 2022

«Нулевой» локальный диск. Как мы запустили облако только с сетевыми дисками и приручили Ceph

Чем хороши сетевые диски и почему именно Ceph, рассказал директор по развитию ядра облачной платформы Иван Романько.
Ульяна Малышева 30 сентября 2022
Валентин Тимофеев 30 сентября 2022

Как проходит онбординг сотрудников ИТО? Что нужно, чтобы выйти на смену в дата-центр

Рассказываем, как обучаем новых сотрудников, какие задачи и испытания проходят инженеры прежде, чем выйти на свою первую смену.
Валентин Тимофеев 30 сентября 2022