Mažas modelis nėra tik aparatinės įrangos klausimas
Reddit r/LocalLLaMA bendruomenėje paskelbta diskusija apie maždaug 4 mlrd. parametrų modelį asmeniniam DI agentui. Autorius aprašo paprastas, bet jautrias užduotis: kalendoriaus atnaujinimą, tvarkaraščio gavimą ir žinutės išsiuntimą nustatytu laiku. Pirminis įrašas pasiekiamas čia: r/LocalLLaMA diskusija.
Šis klausimas svarbus ne dėl vieno konkretaus modelio. Jis parodo platesnę ribą tarp pokalbio kokybės ir patikimo veiksmų vykdymo. DI pokalbių asistentas gali sklandžiai atsakyti į tekstą, bet DI agentas turi tiksliai suprasti ketinimą, pasirinkti tinkamą įrankį, perduoti teisingus argumentus ir nepadaryti klaidos su laiku, gavėju ar kalendoriaus įrašu.
Kodėl įrankių kvietimas tampa silpnąja vieta
Bendruomenės įraše minima, kad bandyti maži Gemma šeimos modeliai, tačiau įrankių kvietimas neatrodė pakankamai patikimas. Tai dažna vietinio diegimo dilema: mažesnis modelis patogesnis, pigesnis ir greitesnis, bet agentinėms užduotims neužtenka vien gero bendravimo tono.
- Kalendoriaus veiksmai reikalauja tikslaus datos ir laiko interpretavimo.
- Tvarkaraščio užklausa turi grąžinti struktūruotą, ne išgalvotą rezultatą.
- Žinutės siuntimas nustatytu metu turi būti atskirtas nuo paprasto teksto sugeneravimo.
- Įrankių iškvietimai turi būti stabilūs net tada, kai naudotojas formuluoja užklausą neidealiai.
WebEdge vertinimas
Ši diskusija primena, kad asmeniniam DI agentui modelio dydis yra tik viena architektūros dalis. Patikimumą dažnai labiau lemia aiški įrankių schema, griežtas atsakymų formatas, validavimas prieš veiksmą ir saugūs patvirtinimo žingsniai.
Praktiškai tai reiškia, kad maždaug 4 mlrd. parametrų klasės modelis gali būti tinkamas ribotai darbo eigai, jei užduotys gerai apibrėžtos. Tačiau jei agentas turi savarankiškai atlikti veiksmus su kalendoriumi, žinutėmis ar kitomis asmeninėmis sistemomis, reikėtų vertinti ne tik atsakymų kokybę, bet ir klaidų valdymą, leidimų modelį bei galimybę sustabdyti veiksmą prieš jam įvykstant.