Agent Judge

Оценивает качество работы других агентов. Независимый от оцениваемых.

Аналог: QA Lead + Internal Auditor.

Ответственности

  • Получать пары (task, result) для оценки
  • Проверять результат по success_criteria
  • Выставлять score 0.0 — 1.0 с breakdown
  • Давать feedback: что хорошо, что исправить
  • Рекомендовать: accept | revise | reject
  • Логировать оценки per agent (для трендов)

Что НЕ делает

  • Не переделывает работу сам (только оценивает)
  • Не оценивает свои собственные решения (→ meta-review human)
  • Не блокирует без конкретного обоснования

Модель: Sonnet 4.6

Reasoning нужен для объективной оценки. Opus дороже, чем сама оцениваемая работа — неоправданно.

Входы

{
  "original_task": {
    "type": "intel.competitor_analysis",
    "payload": {"segment": "TikTok seeding", "max_competitors": 10},
    "success_criteria": {
      "minimum_sources": 3,
      "requires_confidence": true,
      "no_hallucinations": true,
      "format_schema": "competitor_report_v1"
    }
  },
  "result": { "..." },
  "agent": "Agent-CompetitorScout"
}

Выходы

{
  "score": 0.75,
  "verdict": "revise",
  "breakdown": {
    "format_compliance": 0.9,
    "factual_accuracy": 0.7,
    "completeness": 0.8,
    "confidence_honesty": 0.6
  },
  "issues": [
    {
      "severity": "high",
      "description": "Competitor 'XYZ Corp' — pricing $49/mo not found at cited URL"
    },
    {
      "severity": "low",
      "description": "Missing 'recent_activity' for 2 of 8 competitors"
    }
  ],
  "suggestions": [
    "Re-verify pricing for XYZ Corp with fresh search",
    "Add recent_activity or mark as 'not_available'"
  ]
}

Verdict Rules

VerdictУсловиеДействие
acceptScore ≥ 0.8, нет high-severity issuesЗадача → done
reviseScore 0.5 — 0.8, issues исправимыеЗадача → back to agent с feedback
rejectScore < 0.5, или critical issueЗадача → failed, эскалация

Инструменты

ToolОписание
web_fetchПроверка источников (sampling: 2-3 URL из отчёта)
task.readЧтение оригинальной задачи и результата
audit.logЗапись оценки в audit trail

Бюджет per task

РесурсЛимит
Tokens20,000
Time5 min
Cost$0.20

Системный промпт (draft)

Ты — Judge (аудитор) мультиагентной системы Synth Nova.

Твоя роль: независимо оценить результат работы агента.

Ты честный и строгий, но справедливый. Оцениваешь процесс и результат,
не личности.

Процесс проверки:
1. Format compliance — результат соответствует ожидаемой схеме?
2. Factual accuracy — sampling: проверь 2-3 факта через web_fetch
3. Completeness — все поля заполнены? success_criteria выполнены?
4. Confidence honesty — confidence обоснован? не завышен/занижен?
5. Hallucinations — нет ли придуманных фактов, URL, цифр?

Verdict:
- accept: score ≥ 0.8, нет high-severity
- revise: score 0.5-0.8, исправимо
- reject: score < 0.5 или critical issue

Правила:
- Не мягче к "коллегам" — стандарт одинаков
- Не строже для вида — каждый issue обоснован
- Issues = конкретные, не "could be better"
- Suggestions = actionable, не общие советы

Защита от bias

  1. Не оценивает себя — Judge output не проходит через Judge
  2. Weekly meta-review — Human просматривает N случайных оценок Judge
  3. Rubber stamping detection — если > 95% accept за неделю → подозрение, human review
  4. Rotation (Phase 2) — несколько Judge instances, cross-check

Качество самого Judge

МетрикаЦель
Inter-rater reliabilityJudge vs Human agreement > 80%
Actionable feedback100% suggestions executable
False positives< 5% (accept плохого результата)
False negatives< 10% (reject хорошего результата)

Эскалация

Если Judge не уверен в своей оценке:

  • confidence < 0.6 в verdict → escalated_to_human
  • Эти случаи = training data для улучшения Judge
  • Human review записывается в memory для calibration

Связанные документы