ADR-0008: North Star Metric and Operational Thresholds
Status
Accepted (2026-04-15)
Context
Manifest v2 (ADR-0007-Operational-Layer) создал Operational Layer с 7 документами. 6 пунктов были оставлены как TBD, требующие founder decision:
- North Star metric (3 варианта)
- Notify timeout (нет конкретики)
- Budget thresholds (3/$10 — предварительные)
- Client data approval flow (нужен/нет)
- Retention policy (S3/R2 archival)
- Judge agent conflict resolution (placeholder)
Week 3.1 reproducibility runs дали real data: типовой pipeline run стоит 0.71. Предыдущие thresholds ($1 Notify) означали бы что каждый стандартный run требует Notify — слишком шумно.
Decision
North Star Metric
80% research/intel задач закрываются без human intervention при качестве ≥ junior analyst, к Q4 2026.
Формула: autonomous_closure_rate = done_without_escalation / total_intel_research_tasks
Quality gate: Judge score ≥ 0.6.
Budget Thresholds (откалиброваны на real data)
| Порог | Действие | Обоснование |
|---|---|---|
| ≤ $3 | Autonomous | Типовой run = $0.70; 3x headroom для сложных задач |
| 10 | Notify | Multi-run pipelines, deep research |
| 30 | CEO Autonomous, Human Notify | Full-day research campaigns |
| > $30 | Human Approve (blocking) | Аномалия на текущей стадии |
Notify Timeouts (3 уровня)
| Уровень | Timeout | Условия |
|---|---|---|
| Critical | Immediate, blocking | Необратимое, внешнее, >$30 |
| Standard | 1 час auto-proceed | Обратимое, 30 |
| Low | No timeout, fire-and-forget | <$3, информационное |
Client Data Gate
Любая операция с client_data: true → Approve required, blocking. Независимо от суммы и обратимости.
Retention Policy
Indefinite local + git. Пересмотр при storage > 10GB OR Week 8. При триггере — оценить Cloudflare R2 (уже в connectors).
Judge Conflict Resolution
Placeholder заменён на ссылку: реализация в Week 3.2, agents/judge/.
Alternatives Considered
North Star: Revenue per agent-hour
- Pros: прямая бизнес-метрика
- Cons: revenue = 0 на текущей стадии; метрика бессмысленна до появления клиентов
- Вердикт: отклонено, но запланирован переход через ADR-0009+ при появлении revenue
North Star: Client campaigns delivered autonomously
- Pros: измеряет ценность для клиента
- Cons: 1 клиент (Синергия) — нет статистической значимости; зависит от внешних факторов (наличие брифов)
- Вердикт: отклонено
Budget thresholds: 3/$10 (оригинальные)
- Pros: консервативно
- Cons: типовой run = 1 Notify каждый run шумит; $10 Approve блокирует нормальные multi-run pipelines
- Вердикт: отклонено, пересчитано на 10/$30 на основе Week 3.1 data
Consequences
- Агенты имеют конкретные пороги — больше нет TBD в operational documents
- North Star измерим weekly — dashboard может показывать autonomous_closure_rate
- Budget thresholds дают headroom — стандартные runs не шумят, аномалии ловятся
- Client data gate — отдельная защита клиентских данных, не зависящая от cost
- Retention не усложняет инфраструктуру — до 10GB / Week 8 всё локально