Многоуровневая память для долгоживущих агентов

Долгоживущие агенты накапливают больше состояния, чем вмещает одно контекстное окно. Наивное решение — вставлять всё обратно каждый ход — сжигает токены и ухудшает припоминание по мере заполнения окна. Мы разделяем память на три уровня по частоте доступа.

Уровни

Небольшой горячий уровень остаётся в памяти каждый ход. Более крупный тёплый уровень подгружается по требованию. Холодный уровень архивируется и доступен только через явный поиск.

Уровень	Резидентный	Типичный размер	Доступ
Горячий	Всегда	~2 КБ	Каждый ход
Тёплый	По требованию	~50 КБ	Подгрузка
Холодный	Никогда	Неограниченный	Явный поиск

Почему это работает

Маленький горячий уровень означает, что стоимость одного хода остаётся постоянной, даже когда общая память растёт. Припоминание не страдает, потому что тёплый и холодный уровни остаются достижимыми — их подгружают лишь тогда, когда ход этого действительно требует.

Стоимость хода должна соответствовать тому, что нужно ходу, а не тому, что агент когда-либо видел.

Это не новая идея — она повторяет иерархии кеша процессора — но хорошо ложится на бюджеты контекста агента. Ограничения: размещение по уровням — это эвристика, и неверно размещённый горячий факт всё равно стоит одного обращения за подгрузкой.