Багаторівнева памʼять для довготривалих агентів

Довготривалі агенти накопичують більше стану, ніж вміщає одне контекстне вікно. Наївне рішення — вставляти все назад щоходу — спалює токени й погіршує пригадування у міру заповнення вікна. Ми розділяємо памʼять на три рівні за частотою доступу.

Рівні

Невеликий гарячий рівень лишається в памʼяті щоходу. Більший теплий рівень підтягується за потреби. Холодний рівень архівується й доступний лише через явний пошук.

Рівень	Резидентний	Типовий розмір	Доступ
Гарячий	Завжди	~2 КБ	Щоходу
Теплий	За потреби	~50 КБ	Підтягування
Холодний	Ніколи	Необмежений	Явний пошук

Чому це працює

Малий гарячий рівень означає, що вартість одного ходу лишається сталою, навіть коли загальна памʼять зростає. Пригадування не страждає, бо теплий і холодний рівні лишаються досяжними — їх підтягують лише тоді, коли хід цього справді потребує.

Вартість ходу має відповідати тому, що потрібно ходу, а не тому, що агент колись бачив.

Це не нова ідея — вона повторює ієрархії кешу процесора — але добре лягає на бюджети контексту агента. Обмеження: розміщення за рівнями є евристикою, і хибно розміщений гарячий факт усе одно коштує одного звернення по підтягування.