ADR-0008: North Star Metric and Operational Thresholds

Status

Accepted (2026-04-15)

Context

Manifest v2 (ADR-0007-Operational-Layer) создал Operational Layer с 7 документами. 6 пунктов были оставлены как TBD, требующие founder decision:

  1. North Star metric (3 варианта)
  2. Notify timeout (нет конкретики)
  3. Budget thresholds (3/$10 — предварительные)
  4. Client data approval flow (нужен/нет)
  5. Retention policy (S3/R2 archival)
  6. Judge agent conflict resolution (placeholder)

Week 3.1 reproducibility runs дали real data: типовой pipeline run стоит 0.71. Предыдущие thresholds ($1 Notify) означали бы что каждый стандартный run требует Notify — слишком шумно.

Decision

North Star Metric

80% research/intel задач закрываются без human intervention при качестве ≥ junior analyst, к Q4 2026.

Формула: autonomous_closure_rate = done_without_escalation / total_intel_research_tasks Quality gate: Judge score ≥ 0.6.

Budget Thresholds (откалиброваны на real data)

ПорогДействиеОбоснование
≤ $3AutonomousТиповой run = $0.70; 3x headroom для сложных задач
10NotifyMulti-run pipelines, deep research
30CEO Autonomous, Human NotifyFull-day research campaigns
> $30Human Approve (blocking)Аномалия на текущей стадии

Notify Timeouts (3 уровня)

УровеньTimeoutУсловия
CriticalImmediate, blockingНеобратимое, внешнее, >$30
Standard1 час auto-proceedОбратимое, 30
LowNo timeout, fire-and-forget<$3, информационное

Client Data Gate

Любая операция с client_data: true → Approve required, blocking. Независимо от суммы и обратимости.

Retention Policy

Indefinite local + git. Пересмотр при storage > 10GB OR Week 8. При триггере — оценить Cloudflare R2 (уже в connectors).

Judge Conflict Resolution

Placeholder заменён на ссылку: реализация в Week 3.2, agents/judge/.

Alternatives Considered

North Star: Revenue per agent-hour

  • Pros: прямая бизнес-метрика
  • Cons: revenue = 0 на текущей стадии; метрика бессмысленна до появления клиентов
  • Вердикт: отклонено, но запланирован переход через ADR-0009+ при появлении revenue

North Star: Client campaigns delivered autonomously

  • Pros: измеряет ценность для клиента
  • Cons: 1 клиент (Синергия) — нет статистической значимости; зависит от внешних факторов (наличие брифов)
  • Вердикт: отклонено

Budget thresholds: 3/$10 (оригинальные)

  • Pros: консервативно
  • Cons: типовой run = 1 Notify каждый run шумит; $10 Approve блокирует нормальные multi-run pipelines
  • Вердикт: отклонено, пересчитано на 10/$30 на основе Week 3.1 data

Consequences

  1. Агенты имеют конкретные пороги — больше нет TBD в operational documents
  2. North Star измерим weekly — dashboard может показывать autonomous_closure_rate
  3. Budget thresholds дают headroom — стандартные runs не шумят, аномалии ловятся
  4. Client data gate — отдельная защита клиентских данных, не зависящая от cost
  5. Retention не усложняет инфраструктуру — до 10GB / Week 8 всё локально