Використовуючи Hadoop, ви можете аналізувати дані про продажі за будь-якою кількістю факторів. Наприклад, якби ви проаналізували дані про продажі з погодними даними, ви могли б визначити, які продукти найкраще продаються в жаркі дні, холодні дні чи дощові дні. Або, якби ви проаналізували дані про продажі за часом і днем.
Apache Hadoop — це фреймворк із відкритим кодом, який використовується для ефективного зберігання та обробки великих наборів даних розміром від гігабайтів до петабайтів. Замість того, щоб використовувати один великий комп’ютер для зберігання та обробки даних, Hadoop дозволяє кластеризувати кілька комп’ютерів для більш швидкого паралельного аналізу масивних наборів даних.
Hadoop може зберігати та обробляти будь-які файли даних: великі чи маленькі звичайні текстові файли або двійкові файли, такі як зображення, навіть кілька різних версій певного формату даних за різні періоди часу.
HDFS є призначений для надійного зберігання дуже великих файлів на машинах у великому кластері. Він зберігає кожен файл як послідовність блоків; усі блоки у файлі, крім останнього блоку, мають однаковий розмір. Блоки файлу копіюються для відмовостійкості. Розмір блоку та коефіцієнт реплікації можна налаштувати для кожного файлу.
Hadoop Common є набір загальних бібліотек і утиліт, які працюють з різними модулями Hadoop. Це важливий компонент або компонент Apache Hadoop Framework разом із розподіленою файловою системою Hadoop (HDFS) і Hadoop YARN, а також Hadoop MapReduce.
Apache Hadoop є програмна платформа з відкритим вихідним кодом на основі Java, яка керує обробкою та зберіганням даних для програм великих даних. Платформа працює, розподіляючи великі дані та аналітичні завдання Hadoop між вузлами обчислювального кластера, розбиваючи їх на менші робочі навантаження, які можна виконувати паралельно.