Проблема не только в размере модели
В сообществе Reddit r/LocalLLaMA появился практический вопрос: какая небольшая модель примерно класса 4B лучше подходит для агентных задач персонального ассистента. Автор приводит простые на вид сценарии: обновить календарь, получить расписание, отправить сообщение в WhatsApp в заданное время. Исходная дискуссия доступна здесь: тред r/LocalLLaMA.
Главный вывод шире выбора одной модели. Чат-модель может хорошо отвечать текстом, но агенту нужно больше: понять намерение, выбрать нужный инструмент, сформировать корректные параметры и не выполнить действие, которого пользователь не просил.
Почему вызов инструментов становится слабым местом
В публикации говорится, что автор тестировал небольшие модели семейства Gemma, но качество вызова инструментов оказалось неидеальным. Это типичная дилемма локальных AI-систем: маленькие модели проще запускать и они могут быть быстрыми, но агентные сценарии требуют высокой точности, а не только связного текста.
- Работа с календарем требует точной интерпретации даты, времени и полей события.
- Запрос расписания должен опираться на реальные данные, а не на правдоподобную генерацию.
- Отложенная отправка сообщения должна быть отделена от простого написания текста.
- Вызовы инструментов должны оставаться стабильными при коротких или неоднозначных запросах.
Оценка WebEdge
Для персонального AI-агента сама модель является лишь частью архитектуры. Надежность также зависят от схем инструментов, проверки параметров, ограничений прав, подтверждений перед действием и журналирования.
Модель класса около 4B может быть пригодна для узких и хорошо описанных сценариев. Но если агент получает право менять календарь или отправлять сообщения, оценивать нужно не только качество ответов, но и точность выполнения, обработку ошибок и механизм подтверждения со стороны пользователя.