H-0002-niche-evaluation-dubai-realestate

Primary: evaluator score 0-100 при сравнении отчёта агентов с baseline (оценивает Max Nova слепым методом).
Secondary: cost_per_evaluation_usd (target: ≤ $15) duration_seconds (target: ≤ 3600) judge_score (Judge agent): target ≥ 0.7 hallucination_rate: конкретные числа/источники проверяются вручную на 10 случайных claims (target: ≤ 10% invented)

Отчёт генерируется end-to-end без human intervention

evaluator score ≥ 70/100 при сравнении с baseline

cost ≤ $15 per evaluation

duration ≤ 60 минут

hallucination rate ≤ 10%

Financial модель арифметически корректна (проверка через независимый Python recalc)

Judge acceptance ≥ 0.7

Quartz 4