Cenários, Roadmap & Recomendação

Três cenários de investimento, um roadmap temporal claro (D0 → médio → longo prazo) e a recomendação técnica final para a diretoria.

Cenários de Investimento

Cada cenário atende uma fase diferente de maturidade e volume. Não são mutuamente excludentes — a recomendação é evoluir de A → B → C conforme a demanda cresce.

Cenário A

Bootstrap & Startup Grants — Custo Zero Inicial

Maximizar subsídios e créditos gratuitos para validar a solução sem investimento.

🎙️ Transcrição (STT)

  • Deepgram Nova-2 com $200 em créditos grátis
  • ~900+ horas de transcrição sem custo
  • Suporte nativo a PT-BR
  • Setup em minutos (API key)

🔊 Geração de Áudio (TTS)

  • ElevenLabs Startup Grant — aplicar imediatamente
  • 33 milhões de caracteres grátis por 12 meses
  • ~220.000 mensagens de WhatsApp
  • Clonagem de Pati & Otto incluída
Custo mensal estimado
$0.00
Enquanto durarem os créditos (estimativa: 6-12 meses dependendo do volume)
Cenário B

Escala Profissional — Equilíbrio Custo × Controle

Infraestrutura GPU própria para STT + API gerenciada para TTS. Melhor relação custo-benefício em produção.

🎙️ Transcrição (STT)

  • Whisper Self-Hosted em Azure T4 ($0.105/h)
  • Custo real: ~$0.02/hora de áudio
  • 10x mais barato que API da OpenAI
  • Controle total: filtros, batch, otimizações
  • Alternativa: Vultr ($0.20/h) — setup mais familiar

🔊 Geração de Áudio (TTS)

  • ElevenLabs Scale ($330/mês, 2M chars)
  • Modelo Flash para WhatsApp (baixa latência)
  • Vozes Pati & Otto clonadas e em produção
  • Qualidade premium comprovada em PT-BR
Custo mensal estimado (100h áudio STT + 2M chars TTS)
~$332/mês
STT: ~$2 (GPU) + TTS: $330 (ElevenLabs Scale) — escalável linearmente
Cenário C

Massivo / High-Volume — Economia em Escala Total

GPU self-hosted para STT E TTS. Custo marginal tendendo a zero. Para quando a Robbu escalar dezenas de clientes com áudio.

🎙️ Transcrição (STT)

  • Whisper em Azure T4/A10 com auto-scaling
  • Processamento batch otimizado
  • Múltiplos workers paralelos
  • Fine-tuning para sotaques específicos

🔊 Geração de Áudio (TTS)

  • XTTS v2 / F5-TTS em Azure T4
  • Custo por 1M chars: ~$0.21 (vs $120+ na ElevenLabs)
  • Vozes clonadas sem limite de uso
  • Alternativa: Play.ht Unlimited a $49/mês
Custo mensal estimado (100h áudio STT + 5M chars TTS)
~$12/mês
STT: ~$2 (GPU) + TTS: ~$10 (GPU, 2 instâncias T4 × ~50h) — economia de 97% vs cenário B

Resumo Comparativo dos Cenários

Dimensão A — Bootstrap B — Profissional C — Massivo
Custo Mensal $0 ~$332 ~$12
Setup Necessário Minutos (API keys) ~1 semana (GPU STT + config ElevenLabs) ~2-3 semanas (GPU STT + GPU TTS + API)
Complexidade Ops Nenhuma Média (1 VM GPU) Alta (múltiplas VMs, filas, monitoramento)
Qualidade TTS Premium (ElevenLabs) Premium (ElevenLabs) Boa a Excelente (XTTS v2)
Clonagem de Voz ✅ ElevenLabs ✅ ElevenLabs ✅ XTTS v2 (zero-shot)
Limite de Escala Créditos finitos Plano ElevenLabs Virtualmente ilimitado
Ideal Para Validação, MVP, primeiros clientes Produção estável, vários clientes Dezenas de clientes, alto volume

Roadmap de Implementação

Plano de execução em três fases, partindo de ações imediatas até a arquitetura de longo prazo.

🔴 D0 — Hoje / Esta Semana

Ações Imediatas (Desbloqueio)

Foco em entrega rápida para Paschoalotto e fundação para os próximos passos.

  • Aplicar para o ElevenLabs Startup Grant (33M chars grátis) — Felipe
  • Criar conta Deepgram e ativar $200 em créditos grátis — Felipe
  • Clonar vozes Pati & Otto na ElevenLabs usando áudios existentes — Felipe
  • Prototipar pipeline STT com Deepgram API para validar integração — Felipe
  • Testar envio de áudio gerado (ElevenLabs) via WhatsApp no bot Paschoalotto
  • Verificar créditos Azure disponíveis no plano atual para GPU
🔵 Médio Prazo — 1 a 3 Meses

Infraestrutura GPU + Produção Estável

Migrar STT para GPU self-hosted, consolidar TTS via ElevenLabs ou validar open-source.

  • Deploy do Whisper em Azure T4 ($0.105/h) com FastAPI + Docker
  • Migrar STT de Deepgram API para GPU self-hosted (economia de 10x)
  • Testar XTTS v2 localmente (RTX 3060) com vozes Pati & Otto
  • Avaliar qualidade XTTS v2 vs ElevenLabs em PT-BR com time de produto
  • Configurar pipeline assíncrono: fila → GPU → áudio → WhatsApp
  • Expandir para outros clientes além da Paschoalotto
🟣 Longo Prazo — 6+ Meses

Escala Total + Self-Hosted TTS

Eliminar dependências de APIs pagas. Infraestrutura de áudio como competência core da Robbu.

  • Deploy XTTS v2 / F5-TTS em produção (Azure T4) se qualidade validada
  • Auto-scaling de workers GPU baseado em demanda
  • Fine-tuning do Whisper para sotaques/jargões específicos de clientes
  • Banco de vozes clonadas por cliente — self-service para novos bots
  • Oferecer "Audio AI" como feature diferencial da Robbu no mercado
  • Avaliar modelos emergentes (F5-TTS, novos checkpoints HuggingFace)

⚠️ Análise de Risco e Mitigação

Risco 1 — Qualidade Open-Source em PT-BR: O XTTS v2 é excelente, mas precisa ser validado com as vozes específicas. Mitigação: manter ElevenLabs como fallback até validação completa.

Risco 2 — Gestão de Infra GPU: Requer expertise em DevOps e monitoramento. Mitigação: Felipe tem experiência com GPU cloud (Vultr, Modal). Começar simples com uma VM dedicada antes de auto-scaling.

Risco 3 — Lock-in ElevenLabs: Se depender demais da ElevenLabs, ficamos vulneráveis a mudanças de preço. Mitigação: investir em paralelo no caminho open-source (XTTS v2) como alternativa.

Risco 4 — Créditos Azure: Possibilidade de créditos no plano atual não é confirmada. Mitigação: GPU na Azure T4 custa apenas $0.105/h mesmo sem créditos — orçamento mínimo.

Recomendação Técnica Final

Iniciar imediatamente com o Cenário A (custo zero — Deepgram + ElevenLabs grants) para desbloquear o caso Paschoalotto esta semana. Em paralelo, preparar a migração para o Cenário B com GPU self-hosted para STT (economia de 10x) no próximo mês. A clonagem das vozes Pati e Otto deve ser feita na ElevenLabs já no D0, com teste de qualidade do XTTS v2 como projeto paralelo. O Cenário C (full self-hosted) é o destino final para quando a Robbu escalar a feature de áudio para múltiplos clientes — com custo marginal tendendo a zero.

Felipe da Silva Pereira
Senior AI Engineer — Robbu
Abril de 2026