Так, ну шо, давайте разбираться по порядочку. Нарыли много инфы, но начнем с базы, чтобы ввести в курс дела.
Причина, по которой LLM (Chat GPT, Grok, Херок) Галлюцинирует - это ограничения в виде токенов. 🪙
Токены - это маленький кусочек текста, который GPT воспринимает как единицу смысла. Это не слово и не буква!
Hello = Hel + lo
Я люблю GPT = Я + лю + блю + G + PT
На английском - экономнее, на русском - тратит больше. Это похоже на морфемный разбор с приставками, суффиксами и т.д.
Когда вы пишете много запросов в чат, он может начать тупить и выдавать полную чушь. Это значит, что он упёрся в лимит контекстного окна.
Контекстное окно - это максимальное количество токенов, которое GPT может обработать за один запрос (у GPT оно = 128k токенов).
Каждый раз, когда вы пишете что-то в чат, это и есть новый запрос с лимитом в 128k токенов.
Сессия чата - это вся цепочка ваших запросов и ответов от начала до конца.
Получается, память GPT не накапливается бесконечно, а ограничена одним запросом. И если запрос превышает это окно (128k), то бот просто начинает забывать начало и генерировать дичь. Проверить сколько токенов в вашем тексте можно вот тут:
platform.openai.com/tokenizer
Не важно, насколько большой текст вы закинете на вход GPT, в ответе вы ВСЕГДА получите не больше 4k токенов (при стандартном обращении). Если используете глубокие исследования - окно ответа расширяется до 8k или 16k, в зависимости от инструмента и формата.
Токенами считается всё - текст, файлы, ссылки, даже картинки. Поэтому, если вы закинули огромный объем информации в один запрос, то не удивляйтесь, что ваш GPT начнёт тормозить и выдавать ерунду.
Поэтому если вы закинули "Войну и Мир", будьте готовы к тому, что вы выкинете PC в окно, от тупости жпт.
Все это можно обойти, расскажу дальше.
#СразбегавGPT