chatbot Гид WebEdge

llama.cpp теперь умеет работать с речью: локальный AI распознаёт голос без облака

Крупное обновление llama.cpp добавляет обработку аудио через модели Google Gemma 4 — распознавание речи и транскрибация теперь доступны без облачных API, полностью на собственной инфраструктуре.

13 апреля 2026 г. 3 мин. чтения

В этой статье

  • llama.cpp получила поддержку аудио
  • Какие модели поддерживаются?
  • Как это работает технически?
  • Что это означает для бизнеса?
  • Ограничения и перспективы

Команда WebEdge

llama.cpp получила поддержку аудио

12 апреля 2026 года в основную ветку llama.cpp был влит pull request, добавляющий обработку аудиосигнала. Для тысяч разработчиков, уже использующих llama.cpp в продакшне, это означает автоматическое распознавание речи (ASR) без каких-либо сторонних сервисов, API или привязки к вендору.

До этого момента llama.cpp отлично справлялась с текстом и изображениями. Аудио оставалось последним существенным пробелом по сравнению с коммерческими решениями — OpenAI Whisper API и Google Cloud Speech-to-Text.

Какие модели поддерживаются?

Обработка аудио сейчас работает с двумя моделями Google Gemma 4:

  • Gemma-4-E4B-it — 4,5 млрд эффективных параметров (8 млрд с embedding), требует ~10 ГБ VRAM
  • Gemma-4-E2B-it — 2,3 млрд эффективных параметров (5,1 млрд с embedding), подходит для потребительского железа

Обе модели поддерживают 35+ языков, включая русский, контекстное окно 128k токенов и мультимодальный ввод — текст, изображения, видео и теперь аудио — в единой открытой архитектуре.

Как это работает технически?

Пользователи скачивают GGUF-квантизованные модели с Hugging Face. Рекомендуемая квантизация — Q8_0: она балансирует точность и требования к памяти. Длина аудиовхода сейчас ограничена примерно 30 секундами.

Simon Willison показал запуск Gemma 4 E2B через MLX — оптимизированный фреймворк Apple для Apple Silicon — одной командой:

uv run --with mlx_vlm mlx_vlm.generate \
  --model google/gemma-4-e2b-it \
  --audio zapiska.wav \
  --prompt "Transcribe this audio"

MacBook Pro на M-чипе теперь может транскрибировать речь полностью локально, без интернета.

Что это означает для бизнеса?

Приватность и соответствие регуляторным требованиям. Когда обработка аудио происходит на вашем сервере, голос клиента никогда не покидает вашу инфраструктуру. Для медицины, юриспруденции, финансов — отраслей с жёсткими требованиями к хранению данных — это принципиально важно. Особенно актуально для компаний, работающих в рамках GDPR.

Стоимость. Whisper API от OpenAI стоит $0,006 за минуту. Для организаций с большим объёмом аудио — колл-центров, сервисов транскрибации, голосовых ассистентов — это тысячи евро в месяц. Локальная альтернатива — разовые затраты на железо вместо ежемесячных счетов.

Голосовой AI без зависимости от облака. Компании, создающие голосовых роботов для бизнеса, теперь могут строить полностью on-premise решения без зависимости от сторонних API, которые могут изменить цены, условия или прекратить работу в любой момент.

Ограничения и перспективы

Главное ограничение сейчас — 30 секунд аудиовхода. Как только команда llama.cpp оптимизирует это, решение станет применимым для длинных записей: совещаний, лекций, звонков с клиентами.

Для стабильной работы требуются специальные параметры запуска (-b 1024 -ub 1024). Автор материала на Habr уже открыл публичный демо-доступ. Simon Willison подтвердил работоспособность MLX-варианта на macOS.

Вывод

Поддержка аудио в llama.cpp — это практический рубеж, а не просто цифры в бенчмарках. Голосовой AI движется на собственные серверы. Комбинация многоязычных возможностей Gemma 4 с гибкостью развёртывания llama.cpp даёт разработчикам серьёзную локальную альтернативу облачной транскрипции. Если вы строите голосовые ассистенты или инструменты транскрибации — следите за этим направлением.

W

WebEdge

Специализируемся на создании AI-решений, систем автоматизации и веб-продуктов для компаний в Литве. Соответствие GDPR, EU-хостинг.

Связаться

Готовы внедрить AI в свой бизнес?

Запишитесь на бесплатный 30-минутный звонок — покажем, что стоит автоматизировать в первую очередь.

Похожие статьи

Все статьи