Так, ну шо, давайте разбираться по порядочку. Нарыли много инфы, но начнем с базы, чтобы ввести в курс дела.

Причина, по которой LLM (Chat GPT, Grok, Херок) Галлюцинирует - это ограничения в виде токенов. 🪙 Токены - это маленький кусочек текста, который GPT воспринимает как единицу смысла. Это не слово и не буква! Hello = Hel + lo Я люблю GPT = Я + лю + блю + G + PT На английском - экономнее, на русском - тратит больше. Это похоже на морфемный разбор с приставками, суффиксами и т.д. Когда вы пишете много запросов в чат, он может начать тупить и выдавать полную чушь. Это значит, что он упёрся в лимит контекстного окна. Контекстное окно - это максимальное количество токенов, которое GPT может обработать за один запрос (у GPT оно = 128k токенов). Каждый раз, когда вы пишете что-то в чат, это и есть новый запрос с лимитом в 128k токенов. Сессия чата - это вся цепочка ваших запросов и ответов от начала до конца. Получается, память GPT не накапливается бесконечно, а ограничена одним запросом. И если запрос превышает это окно (128k), то бот просто начинает забывать начало и генерировать дичь. Проверить сколько токенов в вашем тексте можно вот тут: platform.openai.com/tokenizer Не важно, насколько большой текст вы закинете на вход GPT, в ответе вы ВСЕГДА получите не больше 4k токенов (при стандартном обращении). Если используете глубокие исследования - окно ответа расширяется до 8k или 16k, в зависимости от инструмента и формата. Токенами считается всё - текст, файлы, ссылки, даже картинки. Поэтому, если вы закинули огромный объем информации в один запрос, то не удивляйтесь, что ваш GPT начнёт тормозить и выдавать ерунду. Поэтому если вы закинули "Войну и Мир", будьте готовы к тому, что вы выкинете PC в окно, от тупости жпт. Все это можно обойти, расскажу дальше. #СразбегавGPT
Изображение поста