Cenários de Investimento
Cada cenário atende uma fase diferente de maturidade e volume. Não são mutuamente excludentes — a recomendação é evoluir de A → B → C conforme a demanda cresce.
Bootstrap & Startup Grants — Custo Zero Inicial
Maximizar subsídios e créditos gratuitos para validar a solução sem investimento.
🎙️ Transcrição (STT)
- Deepgram Nova-2 com $200 em créditos grátis
- ~900+ horas de transcrição sem custo
- Suporte nativo a PT-BR
- Setup em minutos (API key)
🔊 Geração de Áudio (TTS)
- ElevenLabs Startup Grant — aplicar imediatamente
- 33 milhões de caracteres grátis por 12 meses
- ~220.000 mensagens de WhatsApp
- Clonagem de Pati & Otto incluída
Escala Profissional — Equilíbrio Custo × Controle
Infraestrutura GPU própria para STT + API gerenciada para TTS. Melhor relação custo-benefício em produção.
🎙️ Transcrição (STT)
- Whisper Self-Hosted em Azure T4 ($0.105/h)
- Custo real: ~$0.02/hora de áudio
- 10x mais barato que API da OpenAI
- Controle total: filtros, batch, otimizações
- Alternativa: Vultr ($0.20/h) — setup mais familiar
🔊 Geração de Áudio (TTS)
- ElevenLabs Scale ($330/mês, 2M chars)
- Modelo Flash para WhatsApp (baixa latência)
- Vozes Pati & Otto clonadas e em produção
- Qualidade premium comprovada em PT-BR
Massivo / High-Volume — Economia em Escala Total
GPU self-hosted para STT E TTS. Custo marginal tendendo a zero. Para quando a Robbu escalar dezenas de clientes com áudio.
🎙️ Transcrição (STT)
- Whisper em Azure T4/A10 com auto-scaling
- Processamento batch otimizado
- Múltiplos workers paralelos
- Fine-tuning para sotaques específicos
🔊 Geração de Áudio (TTS)
- XTTS v2 / F5-TTS em Azure T4
- Custo por 1M chars: ~$0.21 (vs $120+ na ElevenLabs)
- Vozes clonadas sem limite de uso
- Alternativa: Play.ht Unlimited a $49/mês
Resumo Comparativo dos Cenários
| Dimensão | A — Bootstrap | B — Profissional | C — Massivo |
|---|---|---|---|
| Custo Mensal | $0 | ~$332 | ~$12 |
| Setup Necessário | Minutos (API keys) | ~1 semana (GPU STT + config ElevenLabs) | ~2-3 semanas (GPU STT + GPU TTS + API) |
| Complexidade Ops | Nenhuma | Média (1 VM GPU) | Alta (múltiplas VMs, filas, monitoramento) |
| Qualidade TTS | Premium (ElevenLabs) | Premium (ElevenLabs) | Boa a Excelente (XTTS v2) |
| Clonagem de Voz | ✅ ElevenLabs | ✅ ElevenLabs | ✅ XTTS v2 (zero-shot) |
| Limite de Escala | Créditos finitos | Plano ElevenLabs | Virtualmente ilimitado |
| Ideal Para | Validação, MVP, primeiros clientes | Produção estável, vários clientes | Dezenas de clientes, alto volume |
Roadmap de Implementação
Plano de execução em três fases, partindo de ações imediatas até a arquitetura de longo prazo.
Ações Imediatas (Desbloqueio)
Foco em entrega rápida para Paschoalotto e fundação para os próximos passos.
- Aplicar para o ElevenLabs Startup Grant (33M chars grátis) — Felipe
- Criar conta Deepgram e ativar $200 em créditos grátis — Felipe
- Clonar vozes Pati & Otto na ElevenLabs usando áudios existentes — Felipe
- Prototipar pipeline STT com Deepgram API para validar integração — Felipe
- Testar envio de áudio gerado (ElevenLabs) via WhatsApp no bot Paschoalotto
- Verificar créditos Azure disponíveis no plano atual para GPU
Infraestrutura GPU + Produção Estável
Migrar STT para GPU self-hosted, consolidar TTS via ElevenLabs ou validar open-source.
- Deploy do Whisper em Azure T4 ($0.105/h) com FastAPI + Docker
- Migrar STT de Deepgram API para GPU self-hosted (economia de 10x)
- Testar XTTS v2 localmente (RTX 3060) com vozes Pati & Otto
- Avaliar qualidade XTTS v2 vs ElevenLabs em PT-BR com time de produto
- Configurar pipeline assíncrono: fila → GPU → áudio → WhatsApp
- Expandir para outros clientes além da Paschoalotto
Escala Total + Self-Hosted TTS
Eliminar dependências de APIs pagas. Infraestrutura de áudio como competência core da Robbu.
- Deploy XTTS v2 / F5-TTS em produção (Azure T4) se qualidade validada
- Auto-scaling de workers GPU baseado em demanda
- Fine-tuning do Whisper para sotaques/jargões específicos de clientes
- Banco de vozes clonadas por cliente — self-service para novos bots
- Oferecer "Audio AI" como feature diferencial da Robbu no mercado
- Avaliar modelos emergentes (F5-TTS, novos checkpoints HuggingFace)
⚠️ Análise de Risco e Mitigação
Risco 1 — Qualidade Open-Source em PT-BR: O XTTS v2 é excelente, mas precisa ser validado com as vozes específicas. Mitigação: manter ElevenLabs como fallback até validação completa.
Risco 2 — Gestão de Infra GPU: Requer expertise em DevOps e monitoramento. Mitigação: Felipe tem experiência com GPU cloud (Vultr, Modal). Começar simples com uma VM dedicada antes de auto-scaling.
Risco 3 — Lock-in ElevenLabs: Se depender demais da ElevenLabs, ficamos vulneráveis a mudanças de preço. Mitigação: investir em paralelo no caminho open-source (XTTS v2) como alternativa.
Risco 4 — Créditos Azure: Possibilidade de créditos no plano atual não é confirmada. Mitigação: GPU na Azure T4 custa apenas $0.105/h mesmo sem créditos — orçamento mínimo.
Recomendação Técnica Final
Iniciar imediatamente com o Cenário A (custo zero — Deepgram + ElevenLabs grants) para desbloquear o caso Paschoalotto esta semana. Em paralelo, preparar a migração para o Cenário B com GPU self-hosted para STT (economia de 10x) no próximo mês. A clonagem das vozes Pati e Otto deve ser feita na ElevenLabs já no D0, com teste de qualidade do XTTS v2 como projeto paralelo. O Cenário C (full self-hosted) é o destino final para quando a Robbu escalar a feature de áudio para múltiplos clientes — com custo marginal tendendo a zero.