Стоимость запросов в LLM складывается из входящих и исходящих токенов:
Выбирайте модель исходя из задачи:
При отправке запроса в LLM можно установить ограничение на количество токенов в ответе. Важно иметь в виду: если ответ модели окажется длиннее установленного лимита токенов, его избыточная часть будет отрезана, и ответ может потерять смысл.
При отправке запросов в LLM из сценария лимит токенов указывается в качестве одного из параметров запроса. При работе с AI-агентами лимит указывается в настройках конкретной модели в разделе Поставщик LLM параметров агента.
Разработка подсказок — это эффективный метод сокращения количества токенов и связанных с этим затрат. Создавая чёткие, лаконичные и однозначные системные подсказки, вы можете подсказать модели, как формировать более эффективные ответы. Исключите излишние формулировки и ненужный контекст, которые могут увеличить количество токенов. Подумайте о том, чтобы явно указать модели желаемую длину вывода — например, добавив фразы типа «Ограничьте ответ двумя предложениями» или «Предоставьте краткое резюме». Эти простые указания могут значительно сократить количество токенов в выводе, сохранив при этом качество и релевантность сгенерированного контента.
Оптимизация промпта – это эффективный метод сокращения количества используемых токенов.
При составлении промпта следует четко структурировать инструкции и убирать из него лишнюю либо повторяющуюся информацию. Чем меньше объем промпта, тем меньше входящих токенов будет затрачено на запрос.
Также в промпте можно задать ограничения на объем ответа LLM, добавив в промпт фразу по типу Ответ должен укладываться в максимум два предложения – это позволит сократить затраты на исходящие токены.
В некоторых кейсах можно значительно сократить объем ответа: например, если с помощью LLM требуется определить какую-либо категорию, к которой относится входная фраза, то в промпте можно указать чтобы в ответе вместо полного названия LLM возвращала только номер категории, и запретить писать какую-либо информацию кроме номера категории, а дальнейшую обработку ответа производить с помощью условий в сценарии бота. В данном кейсе такие жесткие ограничения позволяют многократно сократить количество используемых исходящих токенов.
Если задача LLM заключается в том, чтобы определить категорию, определить наличие информации во фразе, распознать намерение, или выполнить иное действие где есть ограниченное количество исходов, то следует подумать об установке аналогичных ограничений.
Для решения некоторых задач можно использовать API-запросы во внешние системы – это может быть более эффективно, чем тратить большое количество токенов на запрос в LLM.
При работе с запросами, возвращающими большой объем данных, следует ограничивать количество получаемых данных, так как все они будут тарифицироваться как входящие токены – это можно сделать с помощью параметров API запроса (наличие такой возможности зависит от используемого API).
При работе с инструментом Запрос во внешнюю систему для AI-агентов можно указать конкретные поля, которые нужно получить из ответа сервера, с помощью вкладки Контроль токенов в настройках запроса.
Также при работе с AI-агентами следует указывать точные инструкции о том когда и при каких условиях выполнять запросы, чтобы избежать лишних или повторных запросов, и тем самым сократить расходы на токены, которые будут потрачены при обработке ответов на запросы.