March 28, 2025

#070 ML Александр Резанов. Про генерацию видео и можно ли запустить Doom на Stable Diffusion

1 hour 17 minutes

Продолжаем разговор с Александром Резановым про генеративный искусственный интеллект. Александр - ML Engineer, специализирующийся на генеративном компьютерном зрении и сегодня поговорим про видео. Что проще генерировать, картинки или текст? Может ли беговая дорожка обыграть в шахматы чемпиона мира? Почему все модели неверны? Как машины могут ехать, если колёса крутятся в разные стороны? Как померить "волтность" модели и что это вообще такое? Зачем изучать старые архитектуры нейросетей, если сейчас миром правят трансформеры? Как задача генерации видео делает модели умнее? Как индустрия для взрослых в очередной раз двигает прогресс? Когда модели будут генерировать полноценные фильмы? Обо всём этом в выпуске!

Ссылки выпуска:

Статья про VizDoom (https://worldmodels.github.io)

Genie 2 от Deepmind (https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/)

Muse от Microsoft, появилось в феврале 2025 на ту же тему (https://www.microsoft.com/en-us/research/blog/introducing-muse-our-first-generative-ai-model-designed-for-gameplay-ideation/)

Буду благодарен за обратную связь!

Подписывайтесь на телеграм-канал "Стать специалистом по машинному обучению" (https://t.me/toBeAnMLspecialist)

Обо мне (https://t.me/toBeAnMLspecialist/935)

Мой телеграм для связи (https://t.me/kmsint)

Также со мной можно связаться по электронной почте: [email protected]

Я сделал бесплатный курс по созданию телеграм-ботов на Python и aiogram на Степике (https://stepik.org/120924). Присоединяйтесь, если хотите научиться разрабатывать телеграм-ботов!

Также в соавторстве с крутыми разработчиками я пишу курс по продвинутой разработке телеграм-ботов с элементами микросервисной архитектуры (https://stepik.org/a/153850?utm_source=mlpodcast&utm_campaign=ep_70).

Выразить благодарность можно добрым словом и/или донатом (https://www.tinkoff.ru/rm/kryzhanovskiy.mikhail11/NkwE718878/)

...more