Исследования
Многоуровневая память для долгоживущих агентов
Долгоживущие агенты накапливают больше состояния, чем вмещает одно контекстное окно. Наивное решение — вставлять всё обратно каждый ход — сжигает токены и ухудшает припоминание по мере заполнения окна. Мы разделяем память на три уровня по частоте доступа.
Уровни
Небольшой горячий уровень остаётся в памяти каждый ход. Более крупный тёплый уровень подгружается по требованию. Холодный уровень архивируется и доступен только через явный поиск.
| Уровень | Резидентный | Типичный размер | Доступ |
|---|---|---|---|
| Горячий | Всегда | ~2 КБ | Каждый ход |
| Тёплый | По требованию | ~50 КБ | Подгрузка |
| Холодный | Никогда | Неограниченный | Явный поиск |
Почему это работает
Маленький горячий уровень означает, что стоимость одного хода остаётся постоянной, даже когда общая память растёт. Припоминание не страдает, потому что тёплый и холодный уровни остаются достижимыми — их подгружают лишь тогда, когда ход этого действительно требует.
Стоимость хода должна соответствовать тому, что нужно ходу, а не тому, что агент когда-либо видел.
Это не новая идея — она повторяет иерархии кеша процессора — но хорошо ложится на бюджеты контекста агента. Ограничения: размещение по уровням — это эвристика, и неверно размещённый горячий факт всё равно стоит одного обращения за подгрузкой.