Artwork

Контент предоставлен Mikhail. Весь контент подкастов, включая эпизоды, графику и описания подкастов, загружается и предоставляется непосредственно компанией Mikhail или ее партнером по платформе подкастов. Если вы считаете, что кто-то использует вашу работу, защищенную авторским правом, без вашего разрешения, вы можете выполнить процедуру, описанную здесь https://ru.player.fm/legal.
Player FM - приложение для подкастов
Работайте офлайн с приложением Player FM !

#062 ML Александр Резанов. Генеративный ИИ в компьютерном зрении

1:04:25
 
Поделиться
 

Manage episode 441572580 series 2602683
Контент предоставлен Mikhail. Весь контент подкастов, включая эпизоды, графику и описания подкастов, загружается и предоставляется непосредственно компанией Mikhail или ее партнером по платформе подкастов. Если вы считаете, что кто-то использует вашу работу, защищенную авторским правом, без вашего разрешения, вы можете выполнить процедуру, описанную здесь https://ru.player.fm/legal.
В гостях выпуска Александр Резанов - ML Engineer в Higgsfield AI, специалист по генеративному компьютерному зрению, о котором мы и будем говорить. Как развивалась область генеративного AI, какие подходы к генерации картинок применялись тогда и какие применяются сейчас. Нормализующие потоки, состязательные сети и диффузионные модели. Что с генерацией видео? Можно ли уже сейчас генерировать качественные видеоролики по текстовому описанию? Имеет ли смысл тягаться с корпорациями, вваливающими миллиарды долларов в вычислительные мощности, если у тебя одна не самая мощная видеокарточка? Где происходит все самое интересное по теме для обычного пользователя? Как учатся GAN'ы и как из шума получать фотореалистичные изображения? Reddit как источник идей и вдохновения для современных исследователей. Обо всем этом, и даже немного про сверхпроводимость в условиях комнатных температур, в выпуске!

Ссылки выпуска:

Статья на arxiv про вариационные автоэнкодеры (https://arxiv.org/abs/1312.6114)

Статья на arxiv про генеративно-состязательные сети (https://arxiv.org/abs/1406.2661)

Сайт с фотографиями несуществующих людей (https://thispersondoesnotexist.com/)

Статья на arxiv про Latent Diffusion Model (https://arxiv.org/abs/2112.10752)

OpenSource интерфейсы для диффузионных сетей:

1. AUTOMATIC1111 (https://github.com/AUTOMATIC1111/stable-diffusion-webui)

2. ComfyUI (https://github.com/comfyanonymous/ComfyUI)

Буду благодарен за обратную связь!

Мой телеграм для связи (https://t.me/kmsint)

Подписывайтесь на телеграм-канал "Стать специалистом по машинному обучению" (https://t.me/toBeAnMLspecialist)

Я сделал бесплатный курс по созданию телеграм-ботов на Python и aiogram на Степике (https://stepik.org/120924). Присоединяйтесь, если хотите научиться разрабатывать телеграм-ботов!

Также в соавторстве с крутыми разработчиками я пишу курс по продвинутой разработке телеграм-ботов с элементами микросервисной архитектуры (https://stepik.org/a/153850?utm_source=mlpodcast&utm_campaign=ep_62).

Выразить благодарность можно добрым словом и/или донатом (https://www.tinkoff.ru/rm/kryzhanovskiy.mikhail11/NkwE718878/)

  continue reading

64 эпизодов

Artwork
iconПоделиться
 
Manage episode 441572580 series 2602683
Контент предоставлен Mikhail. Весь контент подкастов, включая эпизоды, графику и описания подкастов, загружается и предоставляется непосредственно компанией Mikhail или ее партнером по платформе подкастов. Если вы считаете, что кто-то использует вашу работу, защищенную авторским правом, без вашего разрешения, вы можете выполнить процедуру, описанную здесь https://ru.player.fm/legal.
В гостях выпуска Александр Резанов - ML Engineer в Higgsfield AI, специалист по генеративному компьютерному зрению, о котором мы и будем говорить. Как развивалась область генеративного AI, какие подходы к генерации картинок применялись тогда и какие применяются сейчас. Нормализующие потоки, состязательные сети и диффузионные модели. Что с генерацией видео? Можно ли уже сейчас генерировать качественные видеоролики по текстовому описанию? Имеет ли смысл тягаться с корпорациями, вваливающими миллиарды долларов в вычислительные мощности, если у тебя одна не самая мощная видеокарточка? Где происходит все самое интересное по теме для обычного пользователя? Как учатся GAN'ы и как из шума получать фотореалистичные изображения? Reddit как источник идей и вдохновения для современных исследователей. Обо всем этом, и даже немного про сверхпроводимость в условиях комнатных температур, в выпуске!

Ссылки выпуска:

Статья на arxiv про вариационные автоэнкодеры (https://arxiv.org/abs/1312.6114)

Статья на arxiv про генеративно-состязательные сети (https://arxiv.org/abs/1406.2661)

Сайт с фотографиями несуществующих людей (https://thispersondoesnotexist.com/)

Статья на arxiv про Latent Diffusion Model (https://arxiv.org/abs/2112.10752)

OpenSource интерфейсы для диффузионных сетей:

1. AUTOMATIC1111 (https://github.com/AUTOMATIC1111/stable-diffusion-webui)

2. ComfyUI (https://github.com/comfyanonymous/ComfyUI)

Буду благодарен за обратную связь!

Мой телеграм для связи (https://t.me/kmsint)

Подписывайтесь на телеграм-канал "Стать специалистом по машинному обучению" (https://t.me/toBeAnMLspecialist)

Я сделал бесплатный курс по созданию телеграм-ботов на Python и aiogram на Степике (https://stepik.org/120924). Присоединяйтесь, если хотите научиться разрабатывать телеграм-ботов!

Также в соавторстве с крутыми разработчиками я пишу курс по продвинутой разработке телеграм-ботов с элементами микросервисной архитектуры (https://stepik.org/a/153850?utm_source=mlpodcast&utm_campaign=ep_62).

Выразить благодарность можно добрым словом и/или донатом (https://www.tinkoff.ru/rm/kryzhanovskiy.mikhail11/NkwE718878/)

  continue reading

64 эпизодов

Все серии

×
 
Loading …

Добро пожаловать в Player FM!

Player FM сканирует Интернет в поисках высококачественных подкастов, чтобы вы могли наслаждаться ими прямо сейчас. Это лучшее приложение для подкастов, которое работает на Android, iPhone и веб-странице. Зарегистрируйтесь, чтобы синхронизировать подписки на разных устройствах.

 

Краткое руководство