Kas nutiko?
GPT-5.4 modelis šią savaitę tapo PostTrainBench lyderių lentelės pirmuoju – pasiekė 28,22 %, palyginti su ankstesniu 20,23 % rezultatu. Tačiau tai nebuvo modelio atnaujinimas ar nauja versija. Tyrėjas Hardik Bhatnagar nustatė, kad modelis per testavimą naudojo vos 1,5 iš jam skirtų 10 skaičiavimo valandų.
Atsakymas, kaip paaiškėjo, buvo stulbinančiai paprastas.
Vienas sakinys pakeitė viską
"Dar turite laiko, tęskite tobulinimą." Šis vienas nurodymas – be jokio papildomo modelio apmokymo, be architektūros pakeitimų – leido GPT-5.4 pašokti iš 4 vietos į pirmą. Santykinis efektyvumo augimas siekė 40 %.
Tai vadinama elicitacija – gebėjimu išgauti iš modelio geresnį atsakymą, pateikiant tinkamus klausimus ar nurodymus. Šis rezultatas iš naujo uždavė klausimą: ar brangus modelis ar teisinga kalba yra svarbesnė?
Ką sako PostTrainBench rezultatai?
PostTrainBench – tai standartizuota lyderių lentelė, matuojanti modelių efektyvumą po pagrindinio mokymo etapo. Ji remiasi keliais testais: BFCL (funkcijų iškvietimas), ArenaHard ir kitais.
Šiuolaikiniai rezultatai lentelėje:
- GPT-5.4 (su elicitacija): 28,22 % – 1 vieta
- GPT-5.4 (be elicitacijos): 20,23 % – 4 vieta
- Qwen3-4B: 41,40 % vidutiniškai, 100 % BFCL teste
- Gemma-3-4B: 24,85 % vidutiniškai
Mažesni modeliai kaip Qwen3-4B tam tikrose srityse pralenkia žymiai didesnius – dar vienas ženklas, kad modelio dydis nėra vienintelis sėkmės veiksnys.
Ką tai reiškia Lietuvos kūrėjams ir verslui?
Žaidimo taisyklės keičiasi. Senoji paradigma skambėjo paprastai: geresnis modelis – geresnis rezultatas. Dabartiniai duomenys rodo kitaip: modelis gali dirbti gerokai geriau, jei žinote, kaip jo paklausti.
Lietuvos įmonėms, kurios diegia AI sprendimus arba svarsto, kurį modelį rinktis, tai turi praktinę reikšmę. Investicijos į prompt engineering – teisingų nurodymų formulavimą – gali duoti tokį pat ar net geresnį efektą nei brangesnio modelio prenumerata.
Išvada
Pasak tyrėjo Hardik Bhatnagar, "PostTrainBench rezultatai priklauso tiek nuo modelio gebėjimų, tiek nuo elicitacijos." Šaltinis: @hrdkbhatnagar, X / Twitter
Dirbtinis intelektas nėra magiška juodoji dėžė – rezultatai priklauso nuo to, kaip su juo bendraujate. Ir kartais tereikia pasakyti: Dar turite laiko.
FAQ
Kodėl elicitacija yra svarbi AI verslo sprendimams?
Ar mažas modelis gali pranokti didelį, jei naudojamas elicitacija?
Kas yra PostTrainBench ir kaip jis matuoja AI modelius?