Apache Hadoop (Владимир Климонтович на ADD-2010)
Архивные серии ("Канал не активен" status)
When? This feed was archived on March 20, 2023 22:26 (). Last successful fetch was on February 13, 2023 00:27 ()
Why? Канал не активен status. Нашим серверам не удалось получить доступ к каналу подкаста в течении длительного периода времени.
What now? You might be able to find a more up-to-date version using the search function. This series will no longer be checked for updates. If you believe this to be in error, please check if the publisher's feed link below is valid and contact support to request the feed be restored or if you have any other concerns about this.
Manage episode 200603822 series 2126160
История вопроса. * Почему проблема обработки большего объема данных становится все более актуальной (пример роста количества данных в разных областях). * Статья от компании Google про парадигму MapReduce. Краткое описание парадигмы. * Краткое описание смежных областей (distributed file system, bigtable-like storage). * История и краткое описание платформы Apache Hadoop. Примеры использования. * Использование платформы hadoop в трех отдельно взятых областях: в last.fm (построение charts), в online-advertising'e (построение статистики), в Yahoo (построение поискового индекса). * Описание традиционного подхода (SQL базы данных) и подхода с использованием Hadoop для каждой из вышеобозначенных проблем. Достоинства и недостатки SQL/Hadoop подхода * Общий принцип трансляции некоторого подтипа SQL запросов в MapReduce job'ы. Платформы, построенные поверх Hadoop. * Краткое описание ETL-framework'а Hive and Pig, построенных на базе Hadoop. * Примеры использования (на примере facebook.com и Yahoo); сравнение со стандартным SQL подходом Проблемы с real-time доступом к данным при использовании Apache Hadoop. * Описания случаев, когда real-time нужен, а когда нет. * Описание решения простых проблем с realtime: кэширование в памяти (memcached), симбиоз со SQL * Симбиоз с bigtable-like БД на примере HBase. Краткое описание HBase. Hadoop как тренд. * Краткий обзор технических и бизнес проблем, возникающих при использовании Hadoop * Шумиха вокруг Hadoop и NoSQL подхода. Описание случаев, когда SQL оказывается удобным. |
27 эпизодов