llama.cpp теперь умеет работать с речью: локальный AI распознаёт голос без облака

llama.cpp получила поддержку аудио

12 апреля 2026 года в основную ветку llama.cpp был влит pull request, добавляющий обработку аудиосигнала. Для тысяч разработчиков, уже использующих llama.cpp в продакшне, это означает автоматическое распознавание речи (ASR) без каких-либо сторонних сервисов, API или привязки к вендору.

До этого момента llama.cpp отлично справлялась с текстом и изображениями. Аудио оставалось последним существенным пробелом по сравнению с коммерческими решениями — OpenAI Whisper API и Google Cloud Speech-to-Text.

Какие модели поддерживаются?

Обработка аудио сейчас работает с двумя моделями Google Gemma 4:

Gemma-4-E4B-it — 4,5 млрд эффективных параметров (8 млрд с embedding), требует ~10 ГБ VRAM
Gemma-4-E2B-it — 2,3 млрд эффективных параметров (5,1 млрд с embedding), подходит для потребительского железа

Обе модели поддерживают 35+ языков, включая русский, контекстное окно 128k токенов и мультимодальный ввод — текст, изображения, видео и теперь аудио — в единой открытой архитектуре.

Как это работает технически?

Пользователи скачивают GGUF-квантизованные модели с Hugging Face. Рекомендуемая квантизация — Q8_0: она балансирует точность и требования к памяти. Длина аудиовхода сейчас ограничена примерно 30 секундами.

Simon Willison показал запуск Gemma 4 E2B через MLX — оптимизированный фреймворк Apple для Apple Silicon — одной командой:

uv run --with mlx_vlm mlx_vlm.generate \
  --model google/gemma-4-e2b-it \
  --audio zapiska.wav \
  --prompt "Transcribe this audio"

MacBook Pro на M-чипе теперь может транскрибировать речь полностью локально, без интернета.

Что это означает для бизнеса?

Приватность и соответствие регуляторным требованиям. Когда обработка аудио происходит на вашем сервере, голос клиента никогда не покидает вашу инфраструктуру. Для медицины, юриспруденции, финансов — отраслей с жёсткими требованиями к хранению данных — это принципиально важно. Особенно актуально для компаний, работающих в рамках GDPR.

Стоимость. Whisper API от OpenAI стоит $0,006 за минуту. Для организаций с большим объёмом аудио — колл-центров, сервисов транскрибации, голосовых ассистентов — это тысячи евро в месяц. Локальная альтернатива — разовые затраты на железо вместо ежемесячных счетов.

Голосовой AI без зависимости от облака. Компании, создающие голосовых роботов для бизнеса, теперь могут строить полностью on-premise решения без зависимости от сторонних API, которые могут изменить цены, условия или прекратить работу в любой момент.

Ограничения и перспективы

Главное ограничение сейчас — 30 секунд аудиовхода. Как только команда llama.cpp оптимизирует это, решение станет применимым для длинных записей: совещаний, лекций, звонков с клиентами.

Для стабильной работы требуются специальные параметры запуска (-b 1024 -ub 1024). Автор материала на Habr уже открыл публичный демо-доступ. Simon Willison подтвердил работоспособность MLX-варианта на macOS.

Вывод

Поддержка аудио в llama.cpp — это практический рубеж, а не просто цифры в бенчмарках. Голосовой AI движется на собственные серверы. Комбинация многоязычных возможностей Gemma 4 с гибкостью развёртывания llama.cpp даёт разработчикам серьёзную локальную альтернативу облачной транскрипции. Если вы строите голосовые ассистенты или инструменты транскрибации — следите за этим направлением.

llama.cpp теперь умеет работать с речью: локальный AI распознаёт голос без облака

llama.cpp получила поддержку аудио

Какие модели поддерживаются?

Как это работает технически?

Что это означает для бизнеса?

Ограничения и перспективы

Вывод

WebEdge

Готовы внедрить AI в свой бизнес?

Похожие статьи

AI стал в 130 раз дешевле: что это означает для вашего бизнеса

AI-автоматизация для маркетинговых агентств: масштаб без найма | WebEdge

Мультиагентная система для управления бизнесом и контроллинга: как AI-агенты меняют работу руководителей | WebEdge