Kaip vienas sakinys pakelė GPT-5.4 į AI lyderių lentelės viršūnę

Kas nutiko?

GPT-5.4 modelis šią savaitę tapo PostTrainBench lyderių lentelės pirmuoju – pasiekė 28,22 %, palyginti su ankstesniu 20,23 % rezultatu. Tačiau tai nebuvo modelio atnaujinimas ar nauja versija. Tyrėjas Hardik Bhatnagar nustatė, kad modelis per testavimą naudojo vos 1,5 iš jam skirtų 10 skaičiavimo valandų.

Atsakymas, kaip paaiškėjo, buvo stulbinančiai paprastas.

Vienas sakinys pakeitė viską

"Dar turite laiko, tęskite tobulinimą." Šis vienas nurodymas – be jokio papildomo modelio apmokymo, be architektūros pakeitimų – leido GPT-5.4 pašokti iš 4 vietos į pirmą. Santykinis efektyvumo augimas siekė 40 %.

Tai vadinama elicitacija – gebėjimu išgauti iš modelio geresnį atsakymą, pateikiant tinkamus klausimus ar nurodymus. Šis rezultatas iš naujo uždavė klausimą: ar brangus modelis ar teisinga kalba yra svarbesnė?

Ką sako PostTrainBench rezultatai?

PostTrainBench – tai standartizuota lyderių lentelė, matuojanti modelių efektyvumą po pagrindinio mokymo etapo. Ji remiasi keliais testais: BFCL (funkcijų iškvietimas), ArenaHard ir kitais.

Šiuolaikiniai rezultatai lentelėje:

GPT-5.4 (su elicitacija): 28,22 % – 1 vieta
GPT-5.4 (be elicitacijos): 20,23 % – 4 vieta
Qwen3-4B: 41,40 % vidutiniškai, 100 % BFCL teste
Gemma-3-4B: 24,85 % vidutiniškai

Mažesni modeliai kaip Qwen3-4B tam tikrose srityse pralenkia žymiai didesnius – dar vienas ženklas, kad modelio dydis nėra vienintelis sėkmės veiksnys.

Ką tai reiškia Lietuvos kūrėjams ir verslui?

Žaidimo taisyklės keičiasi. Senoji paradigma skambėjo paprastai: geresnis modelis – geresnis rezultatas. Dabartiniai duomenys rodo kitaip: modelis gali dirbti gerokai geriau, jei žinote, kaip jo paklausti.

Lietuvos įmonėms, kurios diegia AI sprendimus arba svarsto, kurį modelį rinktis, tai turi praktinę reikšmę. Investicijos į prompt engineering – teisingų nurodymų formulavimą – gali duoti tokį pat ar net geresnį efektą nei brangesnio modelio prenumerata.

Išvada

Pasak tyrėjo Hardik Bhatnagar, "PostTrainBench rezultatai priklauso tiek nuo modelio gebėjimų, tiek nuo elicitacijos." Šaltinis: @hrdkbhatnagar, X / Twitter

Dirbtinis intelektas nėra magiška juodoji dėžė – rezultatai priklauso nuo to, kaip su juo bendraujate. Ir kartais tereikia pasakyti: Dar turite laiko.

FAQ

Kodėl elicitacija yra svarbi AI verslo sprendimams?

Ar mažas modelis gali pranokti didelį, jei naudojamas elicitacija?

Kas yra PostTrainBench ir kaip jis matuoja AI modelius?

Kaip vienas sakinys pakelė GPT-5.4 į AI lyderių lentelės viršūnę

Kas nutiko?

Vienas sakinys pakeitė viską

Ką sako PostTrainBench rezultatai?

Ką tai reiškia Lietuvos kūrėjams ir verslui?

Išvada

FAQ

WebEdge

Pasiruošę diegti AI savo versle?

Susiję straipsniai

Elektrikai be praleistų skambučių: AI asistentas vizitams ir kainų užklausoms

Kaip profesinės mokyklos automatizuoja stojamųjų procesą su AI

Muzikos instrumentų parduotuvė be perkrovos: AI konsultantas