Robbu AI Audio — Cenários, Roadmap & Recomendação

Cenários de Investimento

Cada cenário atende uma fase diferente de maturidade e volume. Não são mutuamente excludentes — a recomendação é evoluir de A → B → C conforme a demanda cresce.

Cenário A

Bootstrap & Startup Grants — Custo Zero Inicial

Maximizar subsídios e créditos gratuitos para validar a solução sem investimento.

🎙️ Transcrição (STT)

Deepgram Nova-2 com $200 em créditos grátis
~900+ horas de transcrição sem custo
Suporte nativo a PT-BR
Setup em minutos (API key)

🔊 Geração de Áudio (TTS)

ElevenLabs Startup Grant — aplicar imediatamente
33 milhões de caracteres grátis por 12 meses
~220.000 mensagens de WhatsApp
Clonagem de Pati & Otto incluída

Custo mensal estimado

$0.00

Enquanto durarem os créditos (estimativa: 6-12 meses dependendo do volume)

Cenário B

Escala Profissional — Equilíbrio Custo × Controle

Infraestrutura GPU própria para STT + API gerenciada para TTS. Melhor relação custo-benefício em produção.

🎙️ Transcrição (STT)

Whisper Self-Hosted em Azure T4 ($0.105/h)
Custo real: ~$0.02/hora de áudio
10x mais barato que API da OpenAI
Controle total: filtros, batch, otimizações
Alternativa: Vultr ($0.20/h) — setup mais familiar

🔊 Geração de Áudio (TTS)

ElevenLabs Scale ($330/mês, 2M chars)
Modelo Flash para WhatsApp (baixa latência)
Vozes Pati & Otto clonadas e em produção
Qualidade premium comprovada em PT-BR

Custo mensal estimado (100h áudio STT + 2M chars TTS)

~$332/mês

STT: ~$2 (GPU) + TTS: $330 (ElevenLabs Scale) — escalável linearmente

Cenário C

Massivo / High-Volume — Economia em Escala Total

GPU self-hosted para STT E TTS. Custo marginal tendendo a zero. Para quando a Robbu escalar dezenas de clientes com áudio.

🎙️ Transcrição (STT)

Whisper em Azure T4/A10 com auto-scaling
Processamento batch otimizado
Múltiplos workers paralelos
Fine-tuning para sotaques específicos

🔊 Geração de Áudio (TTS)

XTTS v2 / F5-TTS em Azure T4
Custo por 1M chars: ~$0.21 (vs $120+ na ElevenLabs)
Vozes clonadas sem limite de uso
Alternativa: Play.ht Unlimited a $49/mês

Custo mensal estimado (100h áudio STT + 5M chars TTS)

~$12/mês

STT: ~$2 (GPU) + TTS: ~$10 (GPU, 2 instâncias T4 × ~50h) — economia de 97% vs cenário B

Resumo Comparativo dos Cenários

Dimensão	A — Bootstrap	B — Profissional	C — Massivo
Custo Mensal	$0	~$332	~$12
Setup Necessário	Minutos (API keys)	~1 semana (GPU STT + config ElevenLabs)	~2-3 semanas (GPU STT + GPU TTS + API)
Complexidade Ops	Nenhuma	Média (1 VM GPU)	Alta (múltiplas VMs, filas, monitoramento)
Qualidade TTS	Premium (ElevenLabs)	Premium (ElevenLabs)	Boa a Excelente (XTTS v2)
Clonagem de Voz	✅ ElevenLabs	✅ ElevenLabs	✅ XTTS v2 (zero-shot)
Limite de Escala	Créditos finitos	Plano ElevenLabs	Virtualmente ilimitado
Ideal Para	Validação, MVP, primeiros clientes	Produção estável, vários clientes	Dezenas de clientes, alto volume

Roadmap de Implementação

Plano de execução em três fases, partindo de ações imediatas até a arquitetura de longo prazo.

🔴 D0 — Hoje / Esta Semana

Ações Imediatas (Desbloqueio)

Foco em entrega rápida para Paschoalotto e fundação para os próximos passos.

Aplicar para o ElevenLabs Startup Grant (33M chars grátis) — Felipe
Criar conta Deepgram e ativar $200 em créditos grátis — Felipe
Clonar vozes Pati & Otto na ElevenLabs usando áudios existentes — Felipe
Prototipar pipeline STT com Deepgram API para validar integração — Felipe
Testar envio de áudio gerado (ElevenLabs) via WhatsApp no bot Paschoalotto
Verificar créditos Azure disponíveis no plano atual para GPU

🔵 Médio Prazo — 1 a 3 Meses

Infraestrutura GPU + Produção Estável

Migrar STT para GPU self-hosted, consolidar TTS via ElevenLabs ou validar open-source.

Deploy do Whisper em Azure T4 ($0.105/h) com FastAPI + Docker
Migrar STT de Deepgram API para GPU self-hosted (economia de 10x)
Testar XTTS v2 localmente (RTX 3060) com vozes Pati & Otto
Avaliar qualidade XTTS v2 vs ElevenLabs em PT-BR com time de produto
Configurar pipeline assíncrono: fila → GPU → áudio → WhatsApp
Expandir para outros clientes além da Paschoalotto

🟣 Longo Prazo — 6+ Meses

Escala Total + Self-Hosted TTS

Eliminar dependências de APIs pagas. Infraestrutura de áudio como competência core da Robbu.

Deploy XTTS v2 / F5-TTS em produção (Azure T4) se qualidade validada
Auto-scaling de workers GPU baseado em demanda
Fine-tuning do Whisper para sotaques/jargões específicos de clientes
Banco de vozes clonadas por cliente — self-service para novos bots
Oferecer "Audio AI" como feature diferencial da Robbu no mercado
Avaliar modelos emergentes (F5-TTS, novos checkpoints HuggingFace)

⚠️ Análise de Risco e Mitigação

Risco 1 — Qualidade Open-Source em PT-BR: O XTTS v2 é excelente, mas precisa ser validado com as vozes específicas. Mitigação: manter ElevenLabs como fallback até validação completa.

Risco 2 — Gestão de Infra GPU: Requer expertise em DevOps e monitoramento. Mitigação: Felipe tem experiência com GPU cloud (Vultr, Modal). Começar simples com uma VM dedicada antes de auto-scaling.

Risco 3 — Lock-in ElevenLabs: Se depender demais da ElevenLabs, ficamos vulneráveis a mudanças de preço. Mitigação: investir em paralelo no caminho open-source (XTTS v2) como alternativa.

Risco 4 — Créditos Azure: Possibilidade de créditos no plano atual não é confirmada. Mitigação: GPU na Azure T4 custa apenas $0.105/h mesmo sem créditos — orçamento mínimo.

Recomendação Técnica Final

Iniciar imediatamente com o Cenário A (custo zero — Deepgram + ElevenLabs grants) para desbloquear o caso Paschoalotto esta semana. Em paralelo, preparar a migração para o Cenário B com GPU self-hosted para STT (economia de 10x) no próximo mês. A clonagem das vozes Pati e Otto deve ser feita na ElevenLabs já no D0, com teste de qualidade do XTTS v2 como projeto paralelo. O Cenário C (full self-hosted) é o destino final para quando a Robbu escalar a feature de áudio para múltiplos clientes — com custo marginal tendendo a zero.

Felipe da Silva Pereira

Senior AI Engineer — Robbu

Abril de 2026