Кто работает с большими данными: разбираем проекты и инструменты

55:22
 
Поделиться
 

Manage episode 281054246 series 2789021
Сделано GeekBrains и найдено благодаря Player FM и нашему сообществу. Авторские права принадлежат издателю, а не Player FM, и аудиоматериалы транслируются прямо с его сервера. Нажмите на кнопку Подписаться, чтобы следить за обновлениями через Player FM или скопируйте и вставьте ссылку на канал в другое приложение для подкастов.

Мы позвали в подкаст bigdata-разработчика. Но во время разговора оказалось, что наш герой — дата-инженер. А мы хотели обратиться к нему как к дата-аналитику — это вообще другие ребята. Но за то, как разместить эту «дату» в хранилище, всё равно часто отвечает инженер, и называется это data governance. А ещё там есть свои собственные администраторы.

На факультете bigdata-аналитики GeekBrains Артём Гогин ведёт курсы по Hadoop, Spark и Kafka, а ещё он bigdata-разработчик в Сбербанке. Благодаря Артёму мы разберёмся в специальностях и обязанностях, а также в том, что это он вообще преподаёт.

0:59 Сколько данных в Сбербанке? Спойлер: много.

4:31 Почему для больших данных важна оперативная память?

10:01 Что делает дата-инженер в хранилище данных. Разбираемся в ролях: инженеры, аналитики, администраторы и не только.

15:03 Что такое Hadoop?

17:14 Можно ли назвать Windows базой данных?

22:07 А что такое Spark?

26:38 Переходим к Kafka. Становится сложнее.

31:54 Хозяева щеночков и кредиты — раскладываем по полочкам типичную задачу для банковской big data.

39:49 Когда вступает дата-инженер и при чём тут data governance.

47:11 Распространенные ошибки дата-инженеров.

Пишите нам на почту: podcast@geekbrains.ru

Ведущий: Николай Землянский

Звук: Фёдор Пудалов, Подкастерская

26 эпизодов