ai-news Гид WebEdge

Одна фраза подняла GPT-5.4 на вершину AI-рейтинга

GPT-5.4 поднялся с 4-го на 1-е место в PostTrainBench благодаря одному указанию: 'у тебя ещё есть время, продолжай улучшать'. Прирост 40% — без обновления модели.

11 апреля 2026 г. 3 мин. чтения

В этой статье

  • Что произошло?
  • Фраза, которая изменила всё
  • Что показывают результаты PostTrainBench?
  • Что это значит для бизнеса и разработчиков?
  • Итог

Команда WebEdge

Что произошло?

GPT-5.4 занял первое место в рейтинге PostTrainBench, набрав 28,22% — по сравнению с 20,23% без дополнительных подсказок. Никаких обновлений модели, никаких изменений архитектуры не было. Исследователь Хардик Бхатнагар обнаружил, что модель использовала лишь около 1,5 из отведённых 10 вычислительных часов.

Решение оказалось почти обескураживающим по своей простоте.

Фраза, которая изменила всё

"У тебя ещё есть время, продолжай улучшать."

Это единственное напоминание — без дообучения, без смены системного промпта — перенесло GPT-5.4 с 4-го на 1-е место в PostTrainBench. Относительный прирост составил 40%.

Это называется элицитацией — способностью извлекать из модели лучший результат, задавая правильные вопросы или давая нужные указания. Вывод прост: качество элицитации может быть не менее важным, чем сама модель.

Что показывают результаты PostTrainBench?

PostTrainBench — это стандартизированная система оценки AI-моделей после завершения базового обучения. Включает несколько тестов: BFCL (вызов функций), ArenaHard и другие.

Текущие позиции в рейтинге:

  • GPT-5.4 (с элицитацией): 28,22% — 1-е место
  • GPT-5.4 (без элицитации): 20,23% — 4-е место
  • Qwen3-4B: 41,40% в среднем, 100% на BFCL
  • Gemma-3-4B: 24,85% в среднем

Небольшие модели вроде Qwen3-4B опережают значительно более крупные в отдельных задачах — ещё одно свидетельство того, что размер модели не является единственным фактором успеха.

Что это значит для бизнеса и разработчиков?

Старая парадигма звучала просто: лучшая модель — лучший результат. Реальность оказывается сложнее. Одна и та же модель может работать принципиально по-разному в зависимости от того, как с ней общаться.

Для русскоязычного бизнеса, интегрирующего AI в рабочие процессы, это имеет прикладное значение. Инвестиции в prompt engineering — грамотное формулирование инструкций — могут давать такой же или более высокий эффект, чем переход на более дорогой тариф или модель.

Итог

По словам Хардика Бхатнагара, "результаты PostTrainBench — это функция как возможностей модели, так и элицитации". Источник: @hrdkbhatnagar в X

AI — не чёрный ящик, в который можно просто вложить деньги и ждать результата. Он реагирует на то, как вы с ним общаетесь. И иногда достаточно одной фразы.

W

WebEdge

Специализируемся на создании AI-решений, систем автоматизации и веб-продуктов для компаний в Литве. Соответствие GDPR, EU-хостинг.

Связаться

Готовы внедрить AI в свой бизнес?

Запишитесь на бесплатный 30-минутный звонок — покажем, что стоит автоматизировать в первую очередь.

Похожие статьи

Все статьи