Как измерить AI | Бенчмарки, тестирование и обучение LLM | Podlodka Podcast #433
Когда-то для оценки AI мы использовали только тест Тьюринга – человек общался с собеседником через чат, а потом пытался определить, кожаным или кремниевым был его собеседник. Сегодня мы видим, что оценка качества работы LLM – гораздо более сложная задача. Вместе с Пашей Чижовым из PleIAs мы закопались в то, как вообще сегодня оценивается AI, и обсудили все виды бенчмарков, арен, метрик, их врожденные недостатки, а заодно и как быть, когда по капоту вашего КАМАЗа ползет черт.Полезные ссылки:
— Бенчмарки
https://huggingface.co/datasets/cais/mmlu
https://huggingface.co/datasets/MMMU/MMMU
https://huggingface.co/datasets/allenai/ai2_arc
https://huggingface.co/datasets/Rowan/hellaswag
https://huggingface.co/datasets/allenai/winogrande
https://huggingface.co/datasets/Idavidrein/gpqa
https://lastexam.ai/
https://www.swebench.com/
https://arcprize.org/arc-agi
https://github.com/t3dotgg/SnitchBench
— Арена
https://lmarena.ai/
— Фреймворк для эвалов
https://github.com/EleutherAI/lm-evaluation-harness
— Бумаги
https://arxiv.org/abs/2504.07825
https://arxiv.org/abs/2311.12022
https://arxiv.org/abs/2406.12045
— Тех репорты с таблицами
https://www.anthropic.com/news/claude-4
https://ai.meta.com/blog/llama-4-multimodal-intelligence/
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro
https://openai.com/index/introducing-o3-and-o4-mini/
❓ Хочешь обсудить выпуск или задать вопрос эксперту? Вступай в наш Telegram-чат: https://t.me/podlodka
📰 Не любишь чаты, но хочешь оставаться в курсе дел и прокачивать свой IT кругозор? Подписывайся на наш Telegram-канал: там публикуются анонсы новых выпусков, а в комментах идут ценные и горячие обсуждения! 5 тысяч опытных IT-специалистов уже с нами: https://t.me/podlodkanews
👉Предложить себя в подкаст https://forms.gle/NtmaZmeDAa3MHSra7
Тайм-коды:
00:00 О чем выпуск
05:15 Зачем и кому нужны бенчмарки
11:48 Подходы к оценке качества моделей
16:53 Популярные бенчмарки
19:24 Оценка бенчмарков
27:12 Оценка моделей
35:34 Открытость задач в бенчмарках
39:09 Проблема доступности данных в интернете
58:12 Безопасность моделей
01:03:00 Актуальность теста Тьюринга
01:05:30 Технические аспекты оценки моделей
01:10:56 Проблемы при оценке моделей
01:15:55 В чём суть арен
01:24:10 Реальные результаты моделей
01:27:20 Создание собственного бенчмарка
01:31:35 Критерии хорошего бенчмарка
01:38:30 Будущее LLM
01:43:40 Заключение Receive SMS online on sms24.me
TubeReader video aggregator is a website that collects and organizes online videos from the YouTube source. Video aggregation is done for different purposes, and TubeReader take different approaches to achieve their purpose.
Our try to collect videos of high quality or interest for visitors to view; the collection may be made by editors or may be based on community votes.
Another method is to base the collection on those videos most viewed, either at the aggregator site or at various popular video hosting sites.
TubeReader site exists to allow users to collect their own sets of videos, for personal use as well as for browsing and viewing by others; TubeReader can develop online communities around video sharing.
Our site allow users to create a personalized video playlist, for personal use as well as for browsing and viewing by others.
@YouTubeReaderBot allows you to subscribe to Youtube channels.
By using @YouTubeReaderBot Bot you agree with YouTube Terms of Service.
Use the @YouTubeReaderBot telegram bot to be the first to be notified when new videos are released on your favorite channels.
Look for new videos or channels and share them with your friends.
You can start using our bot from this video, subscribe now to Как измерить AI | Бенчмарки, тестирование и обучение LLM | Podlodka Podcast #433
What is YouTube?
YouTube is a free video sharing website that makes it easy to watch online videos. You can even create and upload your own videos to share with others. Originally created in 2005, YouTube is now one of the most popular sites on the Web, with visitors watching around 6 billion hours of video every month.