llama.cpp получила поддержку аудио
12 апреля 2026 года в основную ветку llama.cpp был влит pull request, добавляющий обработку аудиосигнала. Для тысяч разработчиков, уже использующих llama.cpp в продакшне, это означает автоматическое распознавание речи (ASR) без каких-либо сторонних сервисов, API или привязки к вендору.
До этого момента llama.cpp отлично справлялась с текстом и изображениями. Аудио оставалось последним существенным пробелом по сравнению с коммерческими решениями — OpenAI Whisper API и Google Cloud Speech-to-Text.
Какие модели поддерживаются?
Обработка аудио сейчас работает с двумя моделями Google Gemma 4:
- Gemma-4-E4B-it — 4,5 млрд эффективных параметров (8 млрд с embedding), требует ~10 ГБ VRAM
- Gemma-4-E2B-it — 2,3 млрд эффективных параметров (5,1 млрд с embedding), подходит для потребительского железа
Обе модели поддерживают 35+ языков, включая русский, контекстное окно 128k токенов и мультимодальный ввод — текст, изображения, видео и теперь аудио — в единой открытой архитектуре.
Как это работает технически?
Пользователи скачивают GGUF-квантизованные модели с Hugging Face. Рекомендуемая квантизация — Q8_0: она балансирует точность и требования к памяти. Длина аудиовхода сейчас ограничена примерно 30 секундами.
Simon Willison показал запуск Gemma 4 E2B через MLX — оптимизированный фреймворк Apple для Apple Silicon — одной командой:
uv run --with mlx_vlm mlx_vlm.generate \
--model google/gemma-4-e2b-it \
--audio zapiska.wav \
--prompt "Transcribe this audio"
MacBook Pro на M-чипе теперь может транскрибировать речь полностью локально, без интернета.
Что это означает для бизнеса?
Приватность и соответствие регуляторным требованиям. Когда обработка аудио происходит на вашем сервере, голос клиента никогда не покидает вашу инфраструктуру. Для медицины, юриспруденции, финансов — отраслей с жёсткими требованиями к хранению данных — это принципиально важно. Особенно актуально для компаний, работающих в рамках GDPR.
Стоимость. Whisper API от OpenAI стоит $0,006 за минуту. Для организаций с большим объёмом аудио — колл-центров, сервисов транскрибации, голосовых ассистентов — это тысячи евро в месяц. Локальная альтернатива — разовые затраты на железо вместо ежемесячных счетов.
Голосовой AI без зависимости от облака. Компании, создающие голосовых роботов для бизнеса, теперь могут строить полностью on-premise решения без зависимости от сторонних API, которые могут изменить цены, условия или прекратить работу в любой момент.
Ограничения и перспективы
Главное ограничение сейчас — 30 секунд аудиовхода. Как только команда llama.cpp оптимизирует это, решение станет применимым для длинных записей: совещаний, лекций, звонков с клиентами.
Для стабильной работы требуются специальные параметры запуска (-b 1024 -ub 1024). Автор материала на Habr уже открыл публичный демо-доступ. Simon Willison подтвердил работоспособность MLX-варианта на macOS.
Вывод
Поддержка аудио в llama.cpp — это практический рубеж, а не просто цифры в бенчмарках. Голосовой AI движется на собственные серверы. Комбинация многоязычных возможностей Gemma 4 с гибкостью развёртывания llama.cpp даёт разработчикам серьёзную локальную альтернативу облачной транскрипции. Если вы строите голосовые ассистенты или инструменты транскрибации — следите за этим направлением.