llama.cpp pagaliau atpažįsta balsą: Gemma 4 atnešė kalbos supratimą į vietinius serverius

llama.cpp sulaukė garso palaikymo

2026 m. balandžio 12 d. į atvirojo kodo AI bibliotekos llama.cpp pagrindinę šaką buvo įtrauktas pull request, pridedantis garso apdorojimo palaikymą. Tai reiškia, kad tūkstančiai kūrėjų, jau naudojančių llama.cpp savo projektuose, dabar gali pridėti automatinį kalbos atpažinimą (ASR) be jokių papildomų servisų ar API.

Iki šiol llama.cpp puikiai tvarkėsi su tekstu ir vaizdais. Garso palaikymas buvo paskutinis svarbus trūkumas lyginant su komerciniais sprendimais, tokiais kaip OpenAI Whisper API arba Google Cloud Speech-to-Text.

Kokius modelius galima naudoti?

Garso apdorojimas šiuo metu veikia su dviem Google Gemma 4 modeliais:

Gemma-4-E4B-it — 4,5 mlrd. efektyvių parametrų (8 mlrd. su embedding), reikia apie 10 GB VRAM
Gemma-4-E2B-it — 2,3 mlrd. efektyvių parametrų (5,1 mlrd. su embedding), tinka mažesnei aparatūrai

Abu modeliai palaiko per 35 kalbų, įskaitant lietuvių, rusų ir anglų. Konteksto langas — 128 000 tokenų.

Kaip tai veikia techniškai?

Naudotojai atsisiunčia GGUF formato kvantizuotus modelius iš Hugging Face platformos. Rekomenduojama Q8_0 kvantizacija — ji subalansuoja tikslumą ir atminties poreikį. Garso įvesties ilgis šiuo metu ribotas iki maždaug 30 sekundžių.

Simon Willison parodė, kaip Gemma 4 E2B modelį galima paleisti per MLX — Apple Silicon optimizuotą skaičiavimo biblioteką:

uv run --with mlx_vlm mlx_vlm.generate \
  --model google/gemma-4-e2b-it \
  --audio failas.wav \
  --prompt "Transkribuok šį garsą"

„MacBook Pro" su M-serijos procesoriais dabar gali transkribuoti kalbą visiškai lokaliai, be interneto ryšio.

Ką tai reiškia Lietuvos kūrėjams ir verslui?

Privatumas ir BDAR atitiktis. Kai garso apdorojimas vyksta jūsų serveryje, kliento balsas niekada nepalieka jūsų infrastruktūros. Medicinai, teisei, finansams — tai labai svarbu.

Išlaidos. OpenAI Whisper API kainuoja $0,006 už minutę. Organizacijoms su dideliu garso srautu tai gali reikšti tūkstančius eurų per mėnesį. Lokali alternatyva — vienkartinė serverio išlaida.

Balsinis AI be debesų. Kompanijos, kuriančios balso robotus verslui, gali sukurti sprendimus, kurie veikia visiškai lokaliai — jokio priklausomumo nuo trečiųjų šalių API.

Išvada

llama.cpp garso palaikymas atveria kalbos AI plačiajai kūrėjų bendruomenei. Tiems, kas kuria balsinius asistentus ar transkribavimo įrankius Lietuvoje, verta sekti šią plėtrą artimai.

Pasak Habr autorių, viešas demo jau prieinamas, o Simon Willison parodė veikiantį MLX variantą.

llama.cpp pagaliau atpažįsta balsą: Gemma 4 atnešė kalbos supratimą į vietinius serverius

llama.cpp sulaukė garso palaikymo

Kokius modelius galima naudoti?

Kaip tai veikia techniškai?

Ką tai reiškia Lietuvos kūrėjams ir verslui?

Išvada

WebEdge

Pasiruošę diegti AI savo versle?

Susiję straipsniai

Elektrikai be praleistų skambučių: AI asistentas vizitams ir kainų užklausoms

Kaip profesinės mokyklos automatizuoja stojamųjų procesą su AI

Muzikos instrumentų parduotuvė be perkrovos: AI konsultantas