Backlog
Идеи за пределами текущей phase. Перед включением в работу — гипотеза + approval.
Подтверждённые модули
Многоагентный конвейер оценки ниш (planned: after Week 3).
3 новых агента + переиспользование Scout/Researcher.
Первая гипотеза H-0002-niche-evaluation-dubai-realestate —
B2B tooling для Dubai real estate agencies.
Agents
Idea Description Complexity Customer Interviewer Автоматизация Customer-Discovery interviews High Pricing Strategist Анализ ценообразования, рекомендации Medium Contract Reviewer Review договоров (human approval каждый!) High Bookkeeper Read-only финансовая отчётность Medium Patent/IP Researcher Поиск патентов и IP в нише Medium Legal Compliance Scout Jurisdiction-aware compliance checks High
Capabilities
Idea Description Multi-modal Анализ изображений, видео-фреймов (product screenshots, ad creatives) Voice Telegram Голосовые сообщения через Groq Whisper → text → agent Email channel Входящие/исходящие email через agent (с approval) CRM integration HubSpot / Pipedrive — sync contacts, deals, activities Calendar scheduling Google Calendar integration для встреч Financial reporting Read-only dashboards, cash flow, P&L
Infrastructure
Idea Description Multi-region Deployment на нескольких серверах (latency, compliance) Self-hosted LLM Для sensitive workloads (PII processing, financial) Workflow versioning LangGraph-style если понадобится для сложных flows A/B testing промптов Systematic prompt optimization with metrics Agent evaluation harness Automated testing: scenarios → expected outcomes → score
Governance
Idea Description Automated policy updates Pattern detection → policy suggestions on incidents Quarterly agent audit Independent review of agent behavior Red-teaming Adversarial testing of agents (prompt injection, boundary testing) Compliance framework GDPR, SOC2 — для enterprise sales
Productization (Phase 3+)
Idea Description SaaS Multi-agent system as a service для других компаний Agency-as-a-service Run operations for clients using our agents White-label Vertical-specific: seeding, media, e-commerce
Research Questions
Заменить CEO Opus → Sonnet с multi-step reasoning?
RAG по vault vs system prompt — что даёт лучшие результаты?
Optimal retry count для revise (2? 3? 5?)
Как измерять quality creative tasks (not just factual)?
Cost optimization: batching requests, caching, model selection
Rules for Adding to Backlog
Любой может предложить (PR к этому файлу)
Измеримость обязательна — “интересно исследовать” не принимается
В actionable — только через Template-Hypothesis
Prioritization — по impact × confidence × effort
Cleanup — quarterly review, удалять неактуальное
Связанные документы