
Sign up to save your podcasts
Or
Гости: Женя Брицын, руководитель направления голосовых технологий AI-Центра Т-Банка, и Валера Болдаков, тимлид команды синтеза голоса AI-Центра Т-Банка.
О чем болтаем?
Узнаем, в чем миссия AI-Центра и знакомимся с платформой VoiceKit. Сравниваем распознавание с ушами, а синтез с голосовыми связками робота. Разбираемся, почему разные голоса имеют разную эффективность и синтезируем голоса Маши и Стаса.
Выясняем, что такое расстояние Левенштейна и как оно помогает следить за качеством распознавания. Уточняем, какие еще метрики качества есть в распознавании и синтезе и что такое вайб-кодинг – методика программирования через генеративные текстовые модели.
Таймкоды:
00:40 О чем болтаем
4:42 Команда VoiceKit в Т-Банке
5:34 Синтез и появление новых голосов
6:42 Где применяются голосовые технологии в Т-Банке
8:07 Cинтез в VoiceKit
9:07 Зачем синтезировать разные голоса
10:23 Распознавание в VoiceKit
11:43 Как используется речевая аналитика
12:22 Как отслеживается качество распознавания
13:39 Как находят ошибки в распознавании и синтезе
17:23 Сравнение синтезированного голоса с оригиналом (эталоном)
20:35 Что такое вайб-кодинг
23:11 Как работают разметчики
26:49 Эффект зловещей долины
29:06 Как работает каскад моделей
31:50 Клонировали голоса Маши и Стаса
38:12 Синтез голоса Пушкина
39:11 Будущее голосовых технологий
43:38 LLM копируют людей и их ошибки
44:34 Омографы и ударение
45:28 Общение голосовых помощников между собой
47:14 Применение в озвучке и дубляже
49:50 Блиц
Ссылки:
Центр искусственного интеллекта Т-Банка: https://ai.tbank.ru/
VoiceKit от Т-Банка: https://www.tbank.ru/software/voicekit/
T-Meetup: CV & Speech: https://meetup.tbank.ru/conference/ml-cv-speech/
Turbo ML Conf 2024: CV & Speech: https://www.youtube.com/playlist?list=PLXEnq8LHVLRq0trLwRoL-JtgO6zwrLHGE
Еще больше полезного для всех MLE: https://t.me/zheltyi_ai
Канал QA-команды Т-Банка в Телеграме: https://l.tbank.ru/yellow_qa
Больше о разработке и технологиях Т-Банка: https://l.tbank.ru/kod_zheltyi
О жизни команды и свежих ИТ-вакансиях: https://l.tbank.ru/t_crew
Гости: Женя Брицын, руководитель направления голосовых технологий AI-Центра Т-Банка, и Валера Болдаков, тимлид команды синтеза голоса AI-Центра Т-Банка.
О чем болтаем?
Узнаем, в чем миссия AI-Центра и знакомимся с платформой VoiceKit. Сравниваем распознавание с ушами, а синтез с голосовыми связками робота. Разбираемся, почему разные голоса имеют разную эффективность и синтезируем голоса Маши и Стаса.
Выясняем, что такое расстояние Левенштейна и как оно помогает следить за качеством распознавания. Уточняем, какие еще метрики качества есть в распознавании и синтезе и что такое вайб-кодинг – методика программирования через генеративные текстовые модели.
Таймкоды:
00:40 О чем болтаем
4:42 Команда VoiceKit в Т-Банке
5:34 Синтез и появление новых голосов
6:42 Где применяются голосовые технологии в Т-Банке
8:07 Cинтез в VoiceKit
9:07 Зачем синтезировать разные голоса
10:23 Распознавание в VoiceKit
11:43 Как используется речевая аналитика
12:22 Как отслеживается качество распознавания
13:39 Как находят ошибки в распознавании и синтезе
17:23 Сравнение синтезированного голоса с оригиналом (эталоном)
20:35 Что такое вайб-кодинг
23:11 Как работают разметчики
26:49 Эффект зловещей долины
29:06 Как работает каскад моделей
31:50 Клонировали голоса Маши и Стаса
38:12 Синтез голоса Пушкина
39:11 Будущее голосовых технологий
43:38 LLM копируют людей и их ошибки
44:34 Омографы и ударение
45:28 Общение голосовых помощников между собой
47:14 Применение в озвучке и дубляже
49:50 Блиц
Ссылки:
Центр искусственного интеллекта Т-Банка: https://ai.tbank.ru/
VoiceKit от Т-Банка: https://www.tbank.ru/software/voicekit/
T-Meetup: CV & Speech: https://meetup.tbank.ru/conference/ml-cv-speech/
Turbo ML Conf 2024: CV & Speech: https://www.youtube.com/playlist?list=PLXEnq8LHVLRq0trLwRoL-JtgO6zwrLHGE
Еще больше полезного для всех MLE: https://t.me/zheltyi_ai
Канал QA-команды Т-Банка в Телеграме: https://l.tbank.ru/yellow_qa
Больше о разработке и технологиях Т-Банка: https://l.tbank.ru/kod_zheltyi
О жизни команды и свежих ИТ-вакансиях: https://l.tbank.ru/t_crew
57 Listeners
121 Listeners
6 Listeners
206 Listeners
98 Listeners
88 Listeners
20 Listeners
17 Listeners
17 Listeners
0 Listeners
113 Listeners
3 Listeners
0 Listeners
2 Listeners
5 Listeners
0 Listeners