chatbot WebEdge gidas

llama.cpp pagaliau atpažįsta balsą: Gemma 4 atnešė kalbos supratimą į vietinius serverius

Atvirojo kodo AI biblioteka llama.cpp sulaukė esminio atnaujinimo — dabar ji palaiko garso apdorojimą ir kalbos atpažinimą naudojant Google Gemma 4 modelius. Balsinis AI apdorojimas taps prieinamas be debesų kompiuterijos.

2026 m. balandžio 13 d. 3 min. skaitymo

Šiame straipsnyje rasite

  • llama.cpp sulaukė garso palaikymo
  • Kokius modelius galima naudoti?
  • Kaip tai veikia techniškai?
  • Ką tai reiškia Lietuvos kūrėjams ir verslui?
  • Išvada

WebEdge komanda

llama.cpp sulaukė garso palaikymo

2026 m. balandžio 12 d. į atvirojo kodo AI bibliotekos llama.cpp pagrindinę šaką buvo įtrauktas pull request, pridedantis garso apdorojimo palaikymą. Tai reiškia, kad tūkstančiai kūrėjų, jau naudojančių llama.cpp savo projektuose, dabar gali pridėti automatinį kalbos atpažinimą (ASR) be jokių papildomų servisų ar API.

Iki šiol llama.cpp puikiai tvarkėsi su tekstu ir vaizdais. Garso palaikymas buvo paskutinis svarbus trūkumas lyginant su komerciniais sprendimais, tokiais kaip OpenAI Whisper API arba Google Cloud Speech-to-Text.

Kokius modelius galima naudoti?

Garso apdorojimas šiuo metu veikia su dviem Google Gemma 4 modeliais:

  • Gemma-4-E4B-it — 4,5 mlrd. efektyvių parametrų (8 mlrd. su embedding), reikia apie 10 GB VRAM
  • Gemma-4-E2B-it — 2,3 mlrd. efektyvių parametrų (5,1 mlrd. su embedding), tinka mažesnei aparatūrai

Abu modeliai palaiko per 35 kalbų, įskaitant lietuvių, rusų ir anglų. Konteksto langas — 128 000 tokenų.

Kaip tai veikia techniškai?

Naudotojai atsisiunčia GGUF formato kvantizuotus modelius iš Hugging Face platformos. Rekomenduojama Q8_0 kvantizacija — ji subalansuoja tikslumą ir atminties poreikį. Garso įvesties ilgis šiuo metu ribotas iki maždaug 30 sekundžių.

Simon Willison parodė, kaip Gemma 4 E2B modelį galima paleisti per MLX — Apple Silicon optimizuotą skaičiavimo biblioteką:

uv run --with mlx_vlm mlx_vlm.generate \
  --model google/gemma-4-e2b-it \
  --audio failas.wav \
  --prompt "Transkribuok šį garsą"

„MacBook Pro" su M-serijos procesoriais dabar gali transkribuoti kalbą visiškai lokaliai, be interneto ryšio.

Ką tai reiškia Lietuvos kūrėjams ir verslui?

Privatumas ir BDAR atitiktis. Kai garso apdorojimas vyksta jūsų serveryje, kliento balsas niekada nepalieka jūsų infrastruktūros. Medicinai, teisei, finansams — tai labai svarbu.

Išlaidos. OpenAI Whisper API kainuoja $0,006 už minutę. Organizacijoms su dideliu garso srautu tai gali reikšti tūkstančius eurų per mėnesį. Lokali alternatyva — vienkartinė serverio išlaida.

Balsinis AI be debesų. Kompanijos, kuriančios balso robotus verslui, gali sukurti sprendimus, kurie veikia visiškai lokaliai — jokio priklausomumo nuo trečiųjų šalių API.

Išvada

llama.cpp garso palaikymas atveria kalbos AI plačiajai kūrėjų bendruomenei. Tiems, kas kuria balsinius asistentus ar transkribavimo įrankius Lietuvoje, verta sekti šią plėtrą artimai.

Pasak Habr autorių, viešas demo jau prieinamas, o Simon Willison parodė veikiantį MLX variantą.

W

WebEdge

Specializuojamės kuriant individualius AI sprendimus, automatizavimo sistemas ir žiniatinklio produktus augimą orientuotoms įmonėms Lietuvoje. BDAR atitinkantys, su EU hostingu.

Susisiekti

Pasiruošę diegti AI savo versle?

Užsiregistruokite nemokamam 30 min. pokalbiui — parodysime, ką verta automatizuoti pirmiausia jūsų verslo procese.

Susiję straipsniai

Grįžti į visus straipsnius