Artwork

Контент предоставлен VTB Bank. Весь контент подкастов, включая эпизоды, графику и описания подкастов, загружается и предоставляется непосредственно компанией VTB Bank или ее партнером по платформе подкастов. Если вы считаете, что кто-то использует вашу работу, защищенную авторским правом, без вашего разрешения, вы можете выполнить процедуру, описанную здесь https://ru.player.fm/legal.
Player FM - приложение для подкастов
Работайте офлайн с приложением Player FM !

MLOps, часть II: погружаемся в специфику работы с данными

1:19:09
 
Поделиться
 

Manage episode 377095778 series 2948420
Контент предоставлен VTB Bank. Весь контент подкастов, включая эпизоды, графику и описания подкастов, загружается и предоставляется непосредственно компанией VTB Bank или ее партнером по платформе подкастов. Если вы считаете, что кто-то использует вашу работу, защищенную авторским правом, без вашего разрешения, вы можете выполнить процедуру, описанную здесь https://ru.player.fm/legal.

Во второй части большой темы про MLOps, которую мы разбили на несколько эпизодов подкаста, ещё глубже погружаемся в тему машинного обучения и работы с данными, лежащей в основе ML. Рассматриваем вопросы обогащения данных, разбираемся с разметкой, говорим о специфических аспектах управления данными.

В этом выпуске вы услышите:

Почему общепринятых стандартов управления данными недостаточно для работы с большими данными для ML;

Что такое хвосты и артефакты в сверхбольших данных;

Может ли overfeeding стать причиной overfitting’a (или это одно и то же?);

И многое другое!

Юрий Карев, руководитель управления процессов и стандартов моделирования и машинного обучения ВТБ, и Алексей Незнанов, к.т.н, старший научный сотрудник международной лаборатории интеллектуальных систем и структурного анализа НИУ ВШЭ, подошли к теме с двух сторон: теоретической и практической. Помогли ведущей подкаста разобраться с терминологией. А также поговорили про специфику подходов к образованию для специалистов в Data Science, DataOps и MLOps.

Полезные ресурсы и ссылки:

Курс MLOps (OTUS): https://otus.ru/lessons/ml-bigdata/

Основные идеи из книги «Сотрудничество в DevOps-культуре»: http://agilemindset.ru/основные-идеи-из-книги-сотрудничест/

MLOps: Continuous delivery and automation pipelines in machine learning: https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning

Как создавать качественные ML-системы. Часть 1: каждый проект должен начинаться с плана: https://habr.com/ru/companies/vk/articles/749850/

Как создавать качественные ML-системы. Часть 2: приручаем хаос: https://habr.com/ru/companies/vk/articles/749852/

The Data Engineering Cookbook: https://github.com/andkret/Cookbook

Стандарты:

ISO/IEC DIS 5259-1: https://www.iso.org/standard/81088.html

ISO/IEC DIS 5259-4: https://www.iso.org/standard/81093.html

ISO/IEC 8183:2023: https://www.iso.org/standard/83002.html

  continue reading

47 эпизодов

Artwork
iconПоделиться
 
Manage episode 377095778 series 2948420
Контент предоставлен VTB Bank. Весь контент подкастов, включая эпизоды, графику и описания подкастов, загружается и предоставляется непосредственно компанией VTB Bank или ее партнером по платформе подкастов. Если вы считаете, что кто-то использует вашу работу, защищенную авторским правом, без вашего разрешения, вы можете выполнить процедуру, описанную здесь https://ru.player.fm/legal.

Во второй части большой темы про MLOps, которую мы разбили на несколько эпизодов подкаста, ещё глубже погружаемся в тему машинного обучения и работы с данными, лежащей в основе ML. Рассматриваем вопросы обогащения данных, разбираемся с разметкой, говорим о специфических аспектах управления данными.

В этом выпуске вы услышите:

Почему общепринятых стандартов управления данными недостаточно для работы с большими данными для ML;

Что такое хвосты и артефакты в сверхбольших данных;

Может ли overfeeding стать причиной overfitting’a (или это одно и то же?);

И многое другое!

Юрий Карев, руководитель управления процессов и стандартов моделирования и машинного обучения ВТБ, и Алексей Незнанов, к.т.н, старший научный сотрудник международной лаборатории интеллектуальных систем и структурного анализа НИУ ВШЭ, подошли к теме с двух сторон: теоретической и практической. Помогли ведущей подкаста разобраться с терминологией. А также поговорили про специфику подходов к образованию для специалистов в Data Science, DataOps и MLOps.

Полезные ресурсы и ссылки:

Курс MLOps (OTUS): https://otus.ru/lessons/ml-bigdata/

Основные идеи из книги «Сотрудничество в DevOps-культуре»: http://agilemindset.ru/основные-идеи-из-книги-сотрудничест/

MLOps: Continuous delivery and automation pipelines in machine learning: https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning

Как создавать качественные ML-системы. Часть 1: каждый проект должен начинаться с плана: https://habr.com/ru/companies/vk/articles/749850/

Как создавать качественные ML-системы. Часть 2: приручаем хаос: https://habr.com/ru/companies/vk/articles/749852/

The Data Engineering Cookbook: https://github.com/andkret/Cookbook

Стандарты:

ISO/IEC DIS 5259-1: https://www.iso.org/standard/81088.html

ISO/IEC DIS 5259-4: https://www.iso.org/standard/81093.html

ISO/IEC 8183:2023: https://www.iso.org/standard/83002.html

  continue reading

47 эпизодов

Все серии

×
 
Loading …

Добро пожаловать в Player FM!

Player FM сканирует Интернет в поисках высококачественных подкастов, чтобы вы могли наслаждаться ими прямо сейчас. Это лучшее приложение для подкастов, которое работает на Android, iPhone и веб-странице. Зарегистрируйтесь, чтобы синхронизировать подписки на разных устройствах.

 

Краткое руководство