Geração de Áudio — Text-to-Speech

Transformar texto em voz natural para os chatbots WhatsApp. Inclui clonagem de voz para personagens específicos como Pati e Otto (Paschoalotto).

🎯 Demanda Imediata — Paschoalotto (Clonagem de Voz)

A Paschoalotto Serviços Financeiros precisa que certos bots enviem mensagens em áudio no WhatsApp usando vozes clonadas. Já possuímos gravações de referência para treinamento. A entrega é assíncrona (WhatsApp), portanto latência ultra-baixa não é mandatória — o foco é naturalidade da voz em PT-BR e custo em escala.

🎤 Pati 🎤 Otto
🔑 API / Token-Based

Opção 1 — Geração de Voz via API

Serviços gerenciados com clonagem de voz, qualidade premium e escalabilidade automática.

🎵 ElevenLabs — Modelos de Geração

Referência de mercado em qualidade e naturalidade. Suporta clonagem de voz com poucos segundos de áudio.

Modelo Latência Uso Ideal Custo (Base Business) Clonagem
Flash / Turbo ~75ms Agentes de voz, WhatsApp, alto volume $0.06 / 1k chars ✅ Sim
Multilingual v2/v3 ~250ms Narração premium, dublagem, alta fidelidade $0.12 / 1k chars ✅ Sim

🎵 ElevenLabs — Planos e Escalabilidade

O custo unitário cai drasticamente conforme o plano. Importante para projeção de escala.

Plano Custo Mensal Caracteres Incluídos Custo Adicional / 1k Observação
Starter $5 30.000 $0.30 Teste / PoC
Creator $22 100.000 $0.24 Projetos pequenos
Pro $99 500.000 $0.18 Produção regular
Recomendado Scale $330 2.000.000 $0.12 Alto volume, melhor custo/char
Business $1.320 11.000.000 $0.12 Massivo, SLA enterprise

🎁 ElevenLabs Startup Grant — 33 Milhões de Caracteres GRÁTIS

A ElevenLabs oferece um subsídio de 12 meses para startups, incluindo 33 milhões de caracteres. Para referência: uma mensagem de WhatsApp típica tem ~150 caracteres. Isso equivale a aproximadamente 220.000 mensagens de áudio sem custo algum. A Robbu se qualifica — devemos aplicar imediatamente.

Alternativas API para TTS

Serviço Custo Clonagem PT-BR Observação
Deepgram Aura $0.015–$0.030 / 1k chars Limitado ⭐⭐⭐ Muito barato, mas naturalidade inferior em PT-BR
Play.ht $49/mês (ilimitado) ✅ Sim ⭐⭐⭐⭐ Caracteres ilimitados no plano Unlimited

🖥️ GPU-Based

Opção 2 — Modelos Open-Source em GPU

Rodar modelos de geração de voz em servidores GPU próprios. Custo por hora de máquina, não por caractere. Clonagem de voz nativa. Ideal para alto volume e controle total.

XTTS v2

by Coqui — Padrão-ouro open-source
~3-4GB

VRAM necessária

  • ✅ PT-BR nativo, naturalidade excelente
  • ✅ Zero-shot voice cloning (3s de áudio)
  • ✅ Roda múltiplas instâncias numa T4
  • Ideal para Pati & Otto

F5-TTS

Flow Matching — Estado da arte
~4-6GB

VRAM necessária

  • ✅ Muito rápido, sem gagueira
  • ✅ Clonagem espetacular
  • ⚠️ PT-BR depende do checkpoint
  • ✅ Comunidade ativa no HuggingFace

Bark

by Suno — Áudio universal
~8GB+

VRAM necessária

  • ✅ Suporta [risos], [suspiro], hesitações
  • ✅ Áudio "humanizado" natural
  • ⚠️ Pode alucinar / mudar tom
  • ⚠️ Mais lento que XTTS

Piper

Ultra-leve e rápido
~1-2GB

VRAM necessária

  • ✅ Roda até em CPU
  • ✅ Latência mínima
  • ⚠️ Qualidade mais "robótica"
  • ⚠️ Pode soar como URA

🏗️ Arquitetura de Deploy Self-Hosted

1. Prototipagem Local → Docker/Python nas RTX 3060 do Felipe para validar sotaque e velocidade.
2. Produção → Azure Standard_NC4as_T4_v3 ($0.105/h) com FastAPI na frente do modelo.
3. Resultado → Custo por caractere na casa dos centésimos de centavo, esmagando o $0.12/1k da ElevenLabs em volume.

💰 Simulação: 1 Milhão de Caracteres/Mês (~6.600 msgs WhatsApp)

ElevenLabs Pro ($99/mês):
500k inclusos + 500k excedente × $0.18/1k = $99 + $90 = $189.00/mês

ElevenLabs Scale ($330/mês):
2M inclusos (1M usado) = $330.00/mês (sobra 1M)

Play.ht Unlimited:
$49.00/mês (ilimitado — avaliar qualidade PT-BR)

GPU Self-Hosted (XTTS v2, Azure T4):
~2h de GPU para processar 1M chars = 2 × $0.105 = $0.21/mês 🏆

Startup Grant (se aprovado):
$0.00/mês por ~12 meses (33M chars grátis)

🎯 Recomendação para o Caso Paschoalotto (Pati & Otto)

Curto prazo (D0): Aplicar para o Startup Grant da ElevenLabs. Enquanto isso, usar ElevenLabs Starter/Creator para validar a clonagem das vozes Pati e Otto com os áudios que já temos.

Médio prazo: Deploy do XTTS v2 em GPU (Azure T4) com as vozes clonadas, eliminando custo por caractere. A qualidade do XTTS v2 em PT-BR é excelente e suporta zero-shot cloning com apenas 3 segundos de referência.

Fallback: Se a qualidade open-source não atender ao padrão Paschoalotto, manter ElevenLabs Scale como produção com o Startup Grant cobrindo os primeiros 12 meses.