🎯 Demanda Imediata — Paschoalotto (Clonagem de Voz)
A Paschoalotto Serviços Financeiros precisa que certos bots enviem mensagens em áudio no WhatsApp usando vozes clonadas. Já possuímos gravações de referência para treinamento. A entrega é assíncrona (WhatsApp), portanto latência ultra-baixa não é mandatória — o foco é naturalidade da voz em PT-BR e custo em escala.
Opção 1 — Geração de Voz via API
Serviços gerenciados com clonagem de voz, qualidade premium e escalabilidade automática.
🎵 ElevenLabs — Modelos de Geração
Referência de mercado em qualidade e naturalidade. Suporta clonagem de voz com poucos segundos de áudio.
| Modelo | Latência | Uso Ideal | Custo (Base Business) | Clonagem |
|---|---|---|---|---|
| Flash / Turbo | ~75ms | Agentes de voz, WhatsApp, alto volume | $0.06 / 1k chars | ✅ Sim |
| Multilingual v2/v3 | ~250ms | Narração premium, dublagem, alta fidelidade | $0.12 / 1k chars | ✅ Sim |
🎵 ElevenLabs — Planos e Escalabilidade
O custo unitário cai drasticamente conforme o plano. Importante para projeção de escala.
| Plano | Custo Mensal | Caracteres Incluídos | Custo Adicional / 1k | Observação |
|---|---|---|---|---|
| Starter | $5 | 30.000 | $0.30 | Teste / PoC |
| Creator | $22 | 100.000 | $0.24 | Projetos pequenos |
| Pro | $99 | 500.000 | $0.18 | Produção regular |
| Recomendado Scale | $330 | 2.000.000 | $0.12 | Alto volume, melhor custo/char |
| Business | $1.320 | 11.000.000 | $0.12 | Massivo, SLA enterprise |
🎁 ElevenLabs Startup Grant — 33 Milhões de Caracteres GRÁTIS
A ElevenLabs oferece um subsídio de 12 meses para startups, incluindo 33 milhões de caracteres. Para referência: uma mensagem de WhatsApp típica tem ~150 caracteres. Isso equivale a aproximadamente 220.000 mensagens de áudio sem custo algum. A Robbu se qualifica — devemos aplicar imediatamente.
Alternativas API para TTS
| Serviço | Custo | Clonagem | PT-BR | Observação |
|---|---|---|---|---|
| Deepgram Aura | $0.015–$0.030 / 1k chars | Limitado | ⭐⭐⭐ | Muito barato, mas naturalidade inferior em PT-BR |
| Play.ht | $49/mês (ilimitado) | ✅ Sim | ⭐⭐⭐⭐ | Caracteres ilimitados no plano Unlimited |
🖥️ GPU-Based
Opção 2 — Modelos Open-Source em GPU
Rodar modelos de geração de voz em servidores GPU próprios. Custo por hora de máquina, não por caractere. Clonagem de voz nativa. Ideal para alto volume e controle total.
XTTS v2
VRAM necessária
- ✅ PT-BR nativo, naturalidade excelente
- ✅ Zero-shot voice cloning (3s de áudio)
- ✅ Roda múltiplas instâncias numa T4
- ✅ Ideal para Pati & Otto
F5-TTS
VRAM necessária
- ✅ Muito rápido, sem gagueira
- ✅ Clonagem espetacular
- ⚠️ PT-BR depende do checkpoint
- ✅ Comunidade ativa no HuggingFace
Bark
VRAM necessária
- ✅ Suporta [risos], [suspiro], hesitações
- ✅ Áudio "humanizado" natural
- ⚠️ Pode alucinar / mudar tom
- ⚠️ Mais lento que XTTS
Piper
VRAM necessária
- ✅ Roda até em CPU
- ✅ Latência mínima
- ⚠️ Qualidade mais "robótica"
- ⚠️ Pode soar como URA
🏗️ Arquitetura de Deploy Self-Hosted
1. Prototipagem Local → Docker/Python nas RTX 3060 do Felipe para validar sotaque e velocidade.
2. Produção → Azure Standard_NC4as_T4_v3 ($0.105/h) com FastAPI na frente do modelo.
3. Resultado → Custo por caractere na casa dos centésimos de centavo, esmagando o $0.12/1k da ElevenLabs em volume.
💰 Simulação: 1 Milhão de Caracteres/Mês (~6.600 msgs WhatsApp)
500k inclusos + 500k excedente × $0.18/1k = $99 + $90 = $189.00/mês
ElevenLabs Scale ($330/mês):
2M inclusos (1M usado) = $330.00/mês (sobra 1M)
Play.ht Unlimited:
$49.00/mês (ilimitado — avaliar qualidade PT-BR)
GPU Self-Hosted (XTTS v2, Azure T4):
~2h de GPU para processar 1M chars = 2 × $0.105 = $0.21/mês 🏆
Startup Grant (se aprovado):
$0.00/mês por ~12 meses (33M chars grátis)
🎯 Recomendação para o Caso Paschoalotto (Pati & Otto)
Curto prazo (D0): Aplicar para o Startup Grant da ElevenLabs. Enquanto isso, usar ElevenLabs Starter/Creator para validar a clonagem das vozes Pati e Otto com os áudios que já temos.
Médio prazo: Deploy do XTTS v2 em GPU (Azure T4) com as vozes clonadas, eliminando custo por caractere. A qualidade do XTTS v2 em PT-BR é excelente e suporta zero-shot cloning com apenas 3 segundos de referência.
Fallback: Se a qualidade open-source não atender ao padrão Paschoalotto, manter ElevenLabs Scale como produção com o Startup Grant cobrindo os primeiros 12 meses.