Robbu AI Audio — Geração de Áudio (TTS)

🎯 Demanda Imediata — Paschoalotto (Clonagem de Voz)

A Paschoalotto Serviços Financeiros precisa que certos bots enviem mensagens em áudio no WhatsApp usando vozes clonadas. Já possuímos gravações de referência para treinamento. A entrega é assíncrona (WhatsApp), portanto latência ultra-baixa não é mandatória — o foco é naturalidade da voz em PT-BR e custo em escala.

🎤 Pati 🎤 Otto

🔑 API / Token-Based

Opção 1 — Geração de Voz via API

Serviços gerenciados com clonagem de voz, qualidade premium e escalabilidade automática.

🎵 ElevenLabs — Modelos de Geração

Referência de mercado em qualidade e naturalidade. Suporta clonagem de voz com poucos segundos de áudio.

Modelo	Latência	Uso Ideal	Custo (Base Business)	Clonagem
Flash / Turbo	~75ms	Agentes de voz, WhatsApp, alto volume	$0.06 / 1k chars	✅ Sim
Multilingual v2/v3	~250ms	Narração premium, dublagem, alta fidelidade	$0.12 / 1k chars	✅ Sim

🎵 ElevenLabs — Planos e Escalabilidade

O custo unitário cai drasticamente conforme o plano. Importante para projeção de escala.

Plano	Custo Mensal	Caracteres Incluídos	Custo Adicional / 1k	Observação
Starter	$5	30.000	$0.30	Teste / PoC
Creator	$22	100.000	$0.24	Projetos pequenos
Pro	$99	500.000	$0.18	Produção regular
Recomendado Scale	$330	2.000.000	$0.12	Alto volume, melhor custo/char
Business	$1.320	11.000.000	$0.12	Massivo, SLA enterprise

🎁 ElevenLabs Startup Grant — 33 Milhões de Caracteres GRÁTIS

A ElevenLabs oferece um subsídio de 12 meses para startups, incluindo 33 milhões de caracteres. Para referência: uma mensagem de WhatsApp típica tem ~150 caracteres. Isso equivale a aproximadamente 220.000 mensagens de áudio sem custo algum. A Robbu se qualifica — devemos aplicar imediatamente.

Alternativas API para TTS

Serviço	Custo	Clonagem	PT-BR	Observação
Deepgram Aura	$0.015–$0.030 / 1k chars	Limitado	⭐⭐⭐	Muito barato, mas naturalidade inferior em PT-BR
Play.ht	$49/mês (ilimitado)	✅ Sim	⭐⭐⭐⭐	Caracteres ilimitados no plano Unlimited

🖥️ GPU-Based

Opção 2 — Modelos Open-Source em GPU

Rodar modelos de geração de voz em servidores GPU próprios. Custo por hora de máquina, não por caractere. Clonagem de voz nativa. Ideal para alto volume e controle total.

XTTS v2

by Coqui — Padrão-ouro open-source

~3-4GB

VRAM necessária

✅ PT-BR nativo, naturalidade excelente
✅ Zero-shot voice cloning (3s de áudio)
✅ Roda múltiplas instâncias numa T4
✅ Ideal para Pati & Otto

F5-TTS

Flow Matching — Estado da arte

~4-6GB

VRAM necessária

✅ Muito rápido, sem gagueira
✅ Clonagem espetacular
⚠️ PT-BR depende do checkpoint
✅ Comunidade ativa no HuggingFace

Bark

by Suno — Áudio universal

~8GB+

VRAM necessária

✅ Suporta [risos], [suspiro], hesitações
✅ Áudio "humanizado" natural
⚠️ Pode alucinar / mudar tom
⚠️ Mais lento que XTTS

Piper

Ultra-leve e rápido

~1-2GB

VRAM necessária

✅ Roda até em CPU
✅ Latência mínima
⚠️ Qualidade mais "robótica"
⚠️ Pode soar como URA

🏗️ Arquitetura de Deploy Self-Hosted

1. Prototipagem Local → Docker/Python nas RTX 3060 do Felipe para validar sotaque e velocidade.
2. Produção → Azure Standard_NC4as_T4_v3 ($0.105/h) com FastAPI na frente do modelo.
3. Resultado → Custo por caractere na casa dos centésimos de centavo, esmagando o $0.12/1k da ElevenLabs em volume.

💰 Simulação: 1 Milhão de Caracteres/Mês (~6.600 msgs WhatsApp)

ElevenLabs Pro ($99/mês):
500k inclusos + 500k excedente × $0.18/1k = $99 + $90 = $189.00/mês

ElevenLabs Scale ($330/mês):
2M inclusos (1M usado) = $330.00/mês (sobra 1M)

Play.ht Unlimited:
$49.00/mês (ilimitado — avaliar qualidade PT-BR)

GPU Self-Hosted (XTTS v2, Azure T4):
~2h de GPU para processar 1M chars = 2 × $0.105 = $0.21/mês 🏆

Startup Grant (se aprovado):
$0.00/mês por ~12 meses (33M chars grátis)

🎯 Recomendação para o Caso Paschoalotto (Pati & Otto)

Curto prazo (D0): Aplicar para o Startup Grant da ElevenLabs. Enquanto isso, usar ElevenLabs Starter/Creator para validar a clonagem das vozes Pati e Otto com os áudios que já temos.

Médio prazo: Deploy do XTTS v2 em GPU (Azure T4) com as vozes clonadas, eliminando custo por caractere. A qualidade do XTTS v2 em PT-BR é excelente e suporta zero-shot cloning com apenas 3 segundos de referência.

Fallback: Se a qualidade open-source não atender ao padrão Paschoalotto, manter ElevenLabs Scale como produção com o Startup Grant cobrindo os primeiros 12 meses.

Geração de Áudio — Text-to-Speech

🎯 Demanda Imediata — Paschoalotto (Clonagem de Voz)

Opção 1 — Geração de Voz via API

🎵 ElevenLabs — Modelos de Geração

🎵 ElevenLabs — Planos e Escalabilidade

🎁 ElevenLabs Startup Grant — 33 Milhões de Caracteres GRÁTIS

Alternativas API para TTS

Opção 2 — Modelos Open-Source em GPU

XTTS v2

F5-TTS

Bark

Piper

🏗️ Arquitetura de Deploy Self-Hosted

💰 Simulação: 1 Milhão de Caracteres/Mês (~6.600 msgs WhatsApp)

🎯 Recomendação para o Caso Paschoalotto (Pati & Otto)