Через півтора року розвитку, випустив Фонд програмного забезпечення Apache запуск нової версії Apache Hadoop 3.3.0, версія в якому він додав вдосконалення для платформ ARM, підтримка планування запусків контейнерів та інших речей.
Apache Hadoop позиціонує себе як безкоштовну платформу організувати розподілена обробка великих обсягів даних за допомогою парадигма map / reduce, в якій завдання розділено на безліч менших ізольованих фрагментів, кожен з яких може виконуватися на окремому вузлі кластера.
Сховище на основі Hadoop він може охоплювати тисячі вузлів і містити екзабайти даних.
Про Apache Hadoop
Hadoop включає реалізацію розподіленої файлової системи Hadoop (HDFS), який автоматично забезпечує надмірність даних та оптимізований для додатків MapReduce.
Ключова функціональність полягає в тому, що для ефективного планування завдань кожна файлова система повинна знати і вказувати своє розташування, назву стійки (точніше, комутатора), де знаходиться робочий вузол.
Додатки Hadoop можуть використовувати цю інформацію для запуску роботи на вузлі, де знаходяться дані, а в разі відмови - на тій самій стійці / комутаторі, тим самим зменшуючи мережевий трафік.
Для спрощення доступу до даних в сховищі Hadoop, Розроблено базу даних HBase та SQL-подібну мову свиней, що є типом SQL для MapReduce, запити якого можуть бути паралелізовані та оброблені різними платформами Hadoop.
Проект оцінюється як повністю стабільний та готовий до промислової експлуатації. Hadoop активно використовується у великих промислових проектах, надаючи можливості, подібні до платформи Google Bigtable / GFS / MapReduce, тоді як Google офіційно делегував проекти Hadoop та інші проекти Apache вправі використовувати патентні технології, пов'язані з методом MapReduce.
Hadoop посідає перше місце серед сховищ Apache за кількістю внесених змін та п'ятою найбільшою базою коду (приблизно 4 мільйони рядків коду).
Що нового в Apache Hadoop 3.3?
Ця нова версія Hadoop позиціонується як перша версія, яка має el підтримка ARM-платформ, Завдяки чому ті, хто зацікавлений у можливості реалізувати цю платформу, зможуть знайти двійковий файл для ARM, який вже доступний.
Ще однією з основних змін, представлених у цій новій версії, є впровадження нової версії формату Protobuf (Буфери протоколів), що використовуються для серіалізації структурованих даних оновлено до версії 3.7.1 через закінчення життєвого циклу гілки protobuf-2.5.0.
На додаток до цього, також можливості роз'єму S3A вже розширені що зараз у нього додана підтримка автентифікації за допомогою маркерів, покращена підтримка кешування відповідей за допомогою коду 404, вища продуктивність S3guard та покращена надійність роботи.
також Додана послуга вирішення DNS для клієнта визначати сервери через DNS за іменами хостів, що дозволяє відмовитися від списку всіх хостів у конфігурації.
Як і підтримка планування запуску контейнера через централізований менеджер ресурсів (ResourceManager), навіть з можливістю розподіляти контейнери з урахуванням навантаження кожного вузла.
З інших змін, що виділяються цієї нової версії:
- Проблеми з автоматичним налаштуванням вирішено у файловій системі ABFS.
- Додана вбудована підтримка файлової системи Tencent Cloud COS для доступу до сховища об’єктів COS.
- Додана повна підтримка Java 11.
- Стабілізовано реалізацію HDFS RBF (Федерація на основі маршрутизаторів). До маршрутизатора HDFS додано засоби контролю.
- Додано пошуковий каталог додатків YARN (інший учасник обговорення ресурсів).
Нарешті, якщо ви хочете дізнатись більше про це, ви можете перевірити деталі нової версії за адресою оригінальний пост.
Для тих, хто зацікавлений у можливості отримати нову версію, вони можуть завантажити підготовлені двійкові файли У наступному посиланні.