O Desafio
A Robbu constrói chatbots para WhatsApp que precisam de duas capacidades de áudio distintas, cada uma com trade-offs de custo, controle e escalabilidade.
Transcrição (STT)
Converter áudios recebidos dos usuários em texto para processamento pelo chatbot. Volume variável por cliente, áudios curtos a médios.
Entrada de DadosGeração de Áudio (TTS)
Gerar respostas em áudio com vozes naturais — incluindo clonagem de vozes específicas (ex: Pati e Otto da Paschoalotto).
Saída de DadosMatriz de Abordagens: GPU-Based vs. Token-Based
| Dimensão | 🖥️ GPU-Based (Self-Hosted) | 🔑 Token-Based (API) |
|---|---|---|
| Como funciona | Modelos rodando em servidores GPU nossos (Azure, Modal, Vultr) | Envio de áudio/texto para APIs externas, pagamento por uso |
| Custo | Paga-se hora de máquina — 1h de GPU transcreve muitas horas de áudio | Paga-se por minuto/caractere processado |
| Controle | Total — filtros, pré/pós-processamento, otimizações, fine-tuning | Limitado ao que a API oferece |
| Escalabilidade | Requer gestão de infra (auto-scaling, filas, monitoramento) | Escala automática, zero gestão de infra |
| Latência | Controlável — pode ser muito rápida com infra adequada | Dependente do provedor (~200-500ms rede) |
| Melhor para | Alto volume, controle fino, custos preditivos | Início rápido, baixo volume, zero ops |
🏢 Caso de Uso Imediato — Paschoalotto Serviços Financeiros
A Paschoalotto precisa que determinados bots enviem mensagens no WhatsApp com áudio gerado a partir de vozes clonadas de dois personagens específicos. Já temos áudios gravados como base para o treinamento/clonagem.
Ecossistema de Provedores Mapeado
Levantamento completo de preços e capacidades — detalhes nas páginas específicas.
Azure GPU
VMs com GPU a partir de $0.105/h (T4). Possibilidade de créditos no plano atual.
GPU InfraModal.com
GPU serverless. T4 a $0.59/h, L4 a $0.80/h, até H200 a $4.54/h. Paga só quando usa.
GPU InfraVultr
Cloud GPU a partir de ~$0.20/h. Infraestrutura já familiar da equipe.
GPU InfraOpenAI Whisper API
Transcrição a $0.006/min ($0.36/h de áudio). Zero setup, alta qualidade.
API STTElevenLabs
TTS premium com clonagem de voz. De $0.06 a $0.30 por 1k caracteres. Startup grant disponível.
API TTSOpen-Source (XTTS, F5, Bark)
Modelos TTS gratuitos com clonagem de voz. Rodando em GPU, custo tende a centésimos de centavo.
GPU TTS