Дослідження
Символьна система і є розмітником
Система, що ухвалює рішення, водночас є й тією, що розмічує. Коли символьне правило в нашому агенті «випускається» — заслуговує на місце, бо добре спрацьовує під підкріпленням, — воно не просто діє. Воно породжує приклад для навчання: ознаки сигналу в момент спрацювання, поєднані з патерном, який воно зіставило. Ця пара і є міткою з учителем, виробленою безкоштовно детерміністичною системою, яку ніколи не просили бути розмітником.
Ця нотатка описує механізм і його поточний стан. Це підхід, а не результат: нейронний шар, що споживає ці мітки, ще в розробці, і нам поки нема про які показники узагальнення звітувати.
Дві швидкості — і що саме не є нашою тезою
Агент навчається на двох швидкостях. Швидкий мозок оновлюється онлайн — подія скрапера, нечітке зіставлення, сила спрацювання, оновлення ваги, кожні кілька хвилин, на нерозмічених сигналах. Повільний мозок навчається офлайн на значно довшому циклі, лише на розмічених даних.
Поділ на дві швидкості не новий, і ми його не заявляємо. Він перегукується з ієрархічним RL, системами комплементарного навчання (McClelland et al., 1995) та «consciousness prior» Бенжіо. Внесок вужчий і лежить між двома мозками: звідки беруться мітки.
Механізм
Кожна подія «випуску» записує розмічений епізод:
{
"signal_features": {
"event_type": "metric_pod_restart",
"service": "pgbouncer",
"restart_count": 15,
"namespace": "default"
},
"pattern_label": "database_connection_failure",
"confidence": 1.0,
"source": "hitl"
}
Сховище рішень уже записує назву патерну й упевненість; додається вилучення ознак сигналу в момент рішення та експорт накопичених епізодів. Мітки надходять із чотирьох джерел — людина в контурі (HITL), розбори інцидентів, рушій автономного дослідження та попередньо класифіковані потоки аномалій, — тож набір даних густішає з кожним «випущеним» патерном, а не залежить від вручну написаних евристик.
Чому це не ANFIS і не просто Snorkel
ANFIS налаштовує форму функцій належності за розрідженими сигналами винагороди; тут інше питання — за даним сигналом, яка назва патерну застосовна? — і воно вчиться з накопичених міток. Контраст, пункт за пунктом:
| ANFIS | Конвеєр символьної розмітки |
|---|---|
| Навчається на розрідженій винагороді RL | Навчається на накопичених розмічених епізодах |
| Вчить параметри форми ФН | Узагальнює з розмічених патернів |
| Не працює при <100 прикладах | Густішає з кожним «випуском» |
| Потребує нагляду меж ФН | Мітки дає сама символьна система |
| Вхід: (сигнал, винагорода) | Вхід: (signal_features, pattern_label) |
Проти слабкого нагляду в стилі Snorkel відмінність ще різкіша: наші мітки — не написані вручну функції розмітки, а породжені системою, яка заслужила їх через «випуск» під RL, і вони несуть часову сигнатуру (ознаки такими, якими вони були в момент спрацювання). Саме поєднання самозавантаження й часовості ми й не знайшли в попередніх роботах.
На чому це ґрунтується
Родовід заявлено прямо — ми його розширюємо, а не витісняємо:
(2016). Logic Tensor Networks символьні факти обмежують навчання нейромережі (2018). A Semantic Loss Function for Deep Learning with Symbolic Knowledge логічні обмеження як диференційовна втрата (2016). Snorkel: Data Programming програмний слабкий нагляд (2018). DeepProbLog нейро-ймовірнісна логікаОбмеження
Сказано прямо, бо це і є чесний стан роботи:
- Поки немає результатів узагальнення. Етап навчання попереду, а не позаду. Усе вищесказане — це метод.
- Мінімальний достатній набір даних невідомий. Ми оцінюємо 50+ розмічених епізодів до того, як навчання стане осмисленим; не підтверджено.
- Перевизначати чи доповнювати — відкрите питання. Коли нейронне передбачення має перевизначати символьне зіставлення, а коли лише доповнювати його — не вирішено.
- Дизайн ознак відкритий. Які саме ознаки події формують вхідний вектор — не визначено.
Де це зараз
Робота виходить етапами: додати ознаки сигналу до запису рішення; експортувати трикомпонентний розмічений набір; навчити навмисно просту модель першою (логістична регресія чи невеликий MLP), перш ніж братися за щось більше; а далі дати повільному мозку пропонувати нові пробні патерни зі своїх передбачень. Починати з простого — навмисно: мета спершу підтвердити, що символьний «випуск» узагалі породжує навчабельні мітки, перш ніж тягтися до архітектури.
Якщо це справдиться, система правил агента стане відновлюваним джерелом нагляду для його нейронного шару. Ми дізнаємося, коли зʼявляться цифри.