.txt · .md · .docx · .xlsx · max 500 KB
.txt · .md · .docx · .xlsx · max 500 KB
VLLM_MAX_NUM_SEQS.Are you sure you want to delete ? This cannot be undone.
Вы уверены, что хотите удалить ? Это действие нельзя отменить.
Сначала — краткая сводка по сценариям. Ниже — описание каждого теста, длительность и интерпретация результатов.
Avg — среднее по выбранным тестам. Сравнивайте модели по Avg и по колонкам тех тестов, которые важны для вашего сценария.
Что измеряет: Широкие знания по 57 предметам (математика, история, право, медицина, естественные науки и др.) через вопросы с выбором ответа.
Длительность: ~5–15 мин (зависит от модели и числа потоков).
Интерпретация: Высокий % (70%+) — модель хорошо отвечает на фактологические вопросы. 50–70% — средний уровень. Ниже 50% — слабые знания.
Сценарии: Универсальные ассистенты, поиск фактов, обучение, справочные системы. Важен для «умных» чат-ботов.
Что измеряет: Здравый смысл и предсказание правдоподобного продолжения бытовых ситуаций (завершение предложений).
Длительность: ~3–8 мин.
Интерпретация: Высокий % — модель лучше понимает контекст и типичные сценарии. Часто даже сильные модели ~80–90%.
Сценарии: Диалоги, генерация текста, понимание контекста, чат-боты. Важен для естественного общения.
Что измеряет: Правдивость ответов, устойчивость к галлюцинациям и типичным заблуждениям (multiple choice).
Длительность: ~2–5 мин.
Интерпретация: Высокий % — меньше выдумок и ложных фактов. Критичен для доверия к ответам.
Сценарии: Фактологические ответы, поддержка, медицина, юриспруденция. Обязателен, если важна достоверность.
Что измеряет: Математическое рассуждение — многошаговые задачи уровня начальной школы (8.5k примеров).
Длительность: ~10–25 мин (самый долгий тест).
Интерпретация: Высокий % — модель умеет считать и рассуждать пошагово. 50%+ — уже неплохо для многих задач.
Сценарии: Калькуляторы, отчёты, финансы, научные расчёты. Ключевой тест для «математических» моделей.
Что измеряет: Научное рассуждение и знания — вопросы по естественным наукам повышенной сложности.
Длительность: ~2–5 мин.
Интерпретация: Высокий % — модель лучше рассуждает в научной области.
Сценарии: Образование, научные ассистенты, объяснение явлений. Важен для «умных» объяснений.
Что измеряет: Разрешение кореференций — понимание, к чему относится местоимение в контексте (здравый смысл).
Длительность: ~2–5 мин.
Интерпретация: Высокий % — модель лучше понимает контекст и связи между словами.
Сценарии: Понимание текста, суммаризация, диалоги. Дополняет HellaSwag для оценки здравого смысла.
Что измеряет: Расширенная версия BIG-Bench Hard — 23 задачи на рассуждение повышенной сложности (логика, временная арифметика, пространственное мышление и др.).
Длительность: BBEH full (4520 примеров) — долго; BBEH Mini (460 примеров) — ~15–30 мин.
Интерпретация: Даже сильные модели показывают 10–45%. Высокий % — отличное рассуждение.
Сценарии: Оценка рассуждений, сложные логические задачи. Рекомендуется BBEH Mini для быстрой проверки.
Вставленный промпт содержит плейсхолдеры. Заполните поля и нажмите «Отправить».
| # | Модель | Режим | Avg | MMLU | HellaSwag | TruthfulQA | GSM8K | ARC | Wino | BBEH | BBEHm | Время | Дата | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Загрузка… | ||||||||||||||