Одна фраза подняла GPT-5.4 на вершину AI-рейтинга

Что произошло?

GPT-5.4 занял первое место в рейтинге PostTrainBench, набрав 28,22% — по сравнению с 20,23% без дополнительных подсказок. Никаких обновлений модели, никаких изменений архитектуры не было. Исследователь Хардик Бхатнагар обнаружил, что модель использовала лишь около 1,5 из отведённых 10 вычислительных часов.

Решение оказалось почти обескураживающим по своей простоте.

Фраза, которая изменила всё

"У тебя ещё есть время, продолжай улучшать."

Это единственное напоминание — без дообучения, без смены системного промпта — перенесло GPT-5.4 с 4-го на 1-е место в PostTrainBench. Относительный прирост составил 40%.

Это называется элицитацией — способностью извлекать из модели лучший результат, задавая правильные вопросы или давая нужные указания. Вывод прост: качество элицитации может быть не менее важным, чем сама модель.

Что показывают результаты PostTrainBench?

PostTrainBench — это стандартизированная система оценки AI-моделей после завершения базового обучения. Включает несколько тестов: BFCL (вызов функций), ArenaHard и другие.

Текущие позиции в рейтинге:

GPT-5.4 (с элицитацией): 28,22% — 1-е место
GPT-5.4 (без элицитации): 20,23% — 4-е место
Qwen3-4B: 41,40% в среднем, 100% на BFCL
Gemma-3-4B: 24,85% в среднем

Небольшие модели вроде Qwen3-4B опережают значительно более крупные в отдельных задачах — ещё одно свидетельство того, что размер модели не является единственным фактором успеха.

Что это значит для бизнеса и разработчиков?

Старая парадигма звучала просто: лучшая модель — лучший результат. Реальность оказывается сложнее. Одна и та же модель может работать принципиально по-разному в зависимости от того, как с ней общаться.

Для русскоязычного бизнеса, интегрирующего AI в рабочие процессы, это имеет прикладное значение. Инвестиции в prompt engineering — грамотное формулирование инструкций — могут давать такой же или более высокий эффект, чем переход на более дорогой тариф или модель.

Итог

По словам Хардика Бхатнагара, "результаты PostTrainBench — это функция как возможностей модели, так и элицитации". Источник: @hrdkbhatnagar в X

AI — не чёрный ящик, в который можно просто вложить деньги и ждать результата. Он реагирует на то, как вы с ним общаетесь. И иногда достаточно одной фразы.

Одна фраза подняла GPT-5.4 на вершину AI-рейтинга

Что произошло?

Фраза, которая изменила всё

Что показывают результаты PostTrainBench?

Что это значит для бизнеса и разработчиков?

Итог

WebEdge

Готовы внедрить AI в свой бизнес?

Похожие статьи

AI стал в 130 раз дешевле: что это означает для вашего бизнеса

AI-автоматизация для маркетинговых агентств: масштаб без найма | WebEdge

Мультиагентная система для управления бизнесом и контроллинга: как AI-агенты меняют работу руководителей | WebEdge