Podlodka Podcast

Podlodka #433 – Как оцениваются LLM


Listen Later

Когда-то для оценки AI мы использовали только тест Тьюринга – человек общался с собеседником через чат, а потом пытался определить, кожаным или кремниевым был его собеседник. Сегодня мы видим, что оценка качества работы LLM – гораздо более сложная задача. Вместе с Пашей Чижовым из PleIAs мы закопались в то, как вообще сегодня оценивается AI, и обсудили все виды бенчмарков, арен, метрик, их врожденные недостатки, а заодно и как быть, когда по капоту вашего КАМАЗа ползет черт.
Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях!
Telegram-чат: https://t.me/podlodka
Telegram-канал: https://t.me/podlodkanews
Страница в Facebook: www.facebook.com/podlodkacast/
Twitter-аккаунт: https://twitter.com/PodcastPodlodka
Ведущие в выпуске:
Евгений Кателла, Егор Толстой
Полезные ссылки:
Бенчмарки
https://huggingface.co/datasets/cais/mmlu
https://huggingface.co/datasets/MMMU/MMMU
https://huggingface.co/datasets/allenai/ai2_arc
https://huggingface.co/datasets/Rowan/hellaswag
https://huggingface.co/datasets/allenai/winogrande
https://huggingface.co/datasets/Idavidrein/gpqa
https://lastexam.ai/
https://www.swebench.com/
https://arcprize.org/arc-agi
https://github.com/t3dotgg/SnitchBench
Арена
https://lmarena.ai/
Фреймворк для эвалов
https://github.com/EleutherAI/lm-evaluation-harness
Бумаги
https://arxiv.org/abs/2504.07825
https://arxiv.org/abs/2311.12022
https://arxiv.org/abs/2406.12045
Тех репорты с таблицами
https://www.anthropic.com/news/claude-4
https://ai.meta.com/blog/llama-4-multimodal-intelligence/
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro
https://openai.com/index/introducing-o3-and-o4-mini/
...more
View all episodesView all episodes
Download on the App Store

Podlodka PodcastBy Егор Толстой, Стас Цыганов, Екатерина Петрова и Евгений Кателла

  • 4.4
  • 4.4
  • 4.4
  • 4.4
  • 4.4

4.4

45 ratings


More shows like Podlodka Podcast

View all
Hobby Talks by Auralien, Domnin

Hobby Talks

71 Listeners

BeardyCast: гаджеты и медиакультура by 🧢 Kepka Production

BeardyCast: гаджеты и медиакультура

122 Listeners

Отвратительные мужики by Disgusting Men

Отвратительные мужики

77 Listeners

Не занесли by Максим Иванов, Павел Пивоваров, Артемий Леонов

Не занесли

58 Listeners

Завтракаст (Zavtracast) by Завтракаст (Zavtracast)

Завтракаст (Zavtracast)

121 Listeners

Что случилось by Медуза / Meduza

Что случилось

361 Listeners

КритМышь by Александр Головин

КритМышь

42 Listeners

kuji podcast by kuji podcast

kuji podcast

131 Listeners

Пробоина by Proboina

Пробоина

1 Listeners

Запуск завтра by libo/libo

Запуск завтра

89 Listeners

Закат империи by libo/libo

Закат империи

194 Listeners

Экономика на слух by РЭШ

Экономика на слух

10 Listeners

План Б by Т—Ж

План Б

17 Listeners

Почему мы еще живы by libo/libo

Почему мы еще живы

116 Listeners

Горящий бензовоз by Вадим Елистратов, Иван Талачев

Горящий бензовоз

31 Listeners

Бреслав и Ложечкин by Александр Ложечкин, Андрей Бреслав

Бреслав и Ложечкин

5 Listeners