H-0002: Niche Evaluation Pipeline даёт actionable отчёт дешевле $15
Statement
Мы верим, что многоагентный Niche Evaluation Pipeline
(NicheEvaluationDirector + Scout + Researcher + FinancialModeler +
GTMStrategist + RatingAgent)
для оценки бизнес-ниш на начальном этапе идеи
приведёт к структурированному отчёту, сопоставимому с работой
consulting junior analyst за 8 часов, за стоимость < $15 и время < 60 мин.
Baseline ниша: B2B tooling для Dubai real estate agencies
Выбрана потому что Max Nova знает Dubai рынок, может sanity-check вывод агентов против собственного опыта. Результаты, которые мы сможем сверить с реальностью:
- Конкуренты: Max Nova знает 3-5 игроков лично (PropertyFinder, Bayut для листинга; Huspy для mortgage; CRM-решения типа Masteryaft)
- Размер рынка: публичные отчёты Dubai Land Department доступны
- Pricing benchmarks: known (SaaS $50-500/month per agent)
- GTM: known (через RERA-сертифицированные agencies, события DAMAC / Emaar developers)
Metric
- Primary: evaluator score 0-100 при сравнении отчёта агентов с baseline (оценивает Max Nova слепым методом).
- Secondary:
- cost_per_evaluation_usd (target: ≤ $15)
- duration_seconds (target: ≤ 3600)
- judge_score (Judge agent): target ≥ 0.7
- hallucination_rate: конкретные числа/источники проверяются вручную на 10 случайных claims (target: ≤ 10% invented)
Timeline
- Start: после завершения Week 3 (предположительно 2026-05-12)
- Deadline: 2026-06-15
- Checkpoints:
- Week 4.1: 3 новых агента работают изолированно
- Week 4.2: end-to-end pipeline на Dubai realestate
- Week 4.3: iteration 2 если score < 70 (pivot или улучшения)
Success criteria
- Отчёт генерируется end-to-end без human intervention
- evaluator score ≥ 70/100 при сравнении с baseline
- cost ≤ $15 per evaluation
- duration ≤ 60 минут
- hallucination rate ≤ 10%
- Financial модель арифметически корректна (проверка через независимый Python recalc)
- Judge acceptance ≥ 0.7
Kill criteria
- Cost > $30 после 3 итераций
- evaluator score < 50 после 3 итераций
- Hallucination rate > 30% (невозможно доверять)
- Financial модель систематически неверна математически
Budget
- Max total spend during validation: $300 (до 20 прогонов с итерациями)
- Max iterations: 3
- Max duration: 30 дней от старта
MVP scope
Минимум для проверки:
- NicheEvaluationDirector с минимальной оркестрацией (sequential fallback если DAG не готов)
- FinancialModeler с одним сценарием (realistic), без 3-сценарной модели на первой итерации
- RatingAgent с простым weighted scoring (не sophisticated analysis)
- GTMStrategist только partnership strategy (без product line в MVP)
- Reuse существующих Scout + Researcher без доработок
Agents involved
- Agent-CEO
- Agent-NicheEvaluationDirector (new, L2)
- Agent-CompetitorScout (reuse)
- Agent-MarketResearcher (reuse)
- Agent-FinancialModeler (new, L3)
- Agent-GTMStrategist (new, L3)
- Agent-RatingAgent (new, L3)
- Agent-Judge
Parent module
Outcome (заполнить после завершения)
Status: TBD
Decision: persevere | pivot | kill — TBD
Evaluator score: —/100
Actual cost: $—
Actual duration: — min
Learnings: —
Next hypothesis: —