Apache Hadoop (Владимир Климонтович на ADD-2010)

50:35
 
Поделиться
 

Fetch error

Hmmm there seems to be a problem fetching this series right now. Last successful fetch was on June 22, 2021 01:08 (1M ago)

What now? This series will be checked again in the next day. If you believe it should be working, please verify the publisher's feed link below is valid and includes actual episode links. You can contact support to request the feed be immediately fetched.

Manage episode 200603822 series 2126160
Сделано Стас Фомин и найдено благодаря Player FM и нашему сообществу. Авторские права принадлежат издателю, а не Player FM, и аудиоматериалы транслируются прямо с его сервера. Нажмите на кнопку Подписаться, чтобы следить за обновлениями через Player FM или скопируйте и вставьте ссылку на канал в другое приложение для подкастов.
Владимир Климонтович поделился своим опытом обработки ОЧЕНЬ БОЛЬШИХ объемов данных, и использование для этого NOSQL-подходов, в частности Apache Hadoop.
История вопроса.
* Почему проблема обработки большего объема данных становится все более актуальной (пример роста количества данных в разных областях).
* Статья от компании Google про парадигму MapReduce. Краткое описание парадигмы.
* Краткое описание смежных областей (distributed file system, bigtable-like storage).
* История и краткое описание платформы Apache Hadoop.
Примеры использования.
* Использование платформы hadoop в трех отдельно взятых областях: в last.fm (построение charts), в online-advertising'e (построение статистики), в Yahoo (построение поискового индекса).
* Описание традиционного подхода (SQL базы данных) и подхода с использованием Hadoop для каждой из вышеобозначенных проблем. Достоинства и недостатки SQL/Hadoop подхода
* Общий принцип трансляции некоторого подтипа SQL запросов в MapReduce job'ы.
Платформы, построенные поверх Hadoop.
* Краткое описание ETL-framework'а Hive and Pig, построенных на базе Hadoop.
* Примеры использования (на примере facebook.com и Yahoo); сравнение со стандартным SQL подходом
Проблемы с real-time доступом к данным при использовании Apache Hadoop.
* Описания случаев, когда real-time нужен, а когда нет.
* Описание решения простых проблем с realtime: кэширование в памяти (memcached), симбиоз со SQL
* Симбиоз с bigtable-like БД на примере HBase. Краткое описание HBase.
Hadoop как тренд.
* Краткий обзор технических и бизнес проблем, возникающих при использовании Hadoop
* Шумиха вокруг Hadoop и NoSQL подхода. Описание случаев, когда SQL оказывается удобным.

27 эпизодов