Estratégia de IA de Áudio para a Robbu

Proposta técnica e financeira para soluções de transcrição e geração de voz nos chatbots WhatsApp — abrangendo dezenas de clientes no Brasil e exterior.

Speech-to-Text Text-to-Speech Clonagem de Voz Caso Paschoalotto — Pati & Otto

O Desafio

A Robbu constrói chatbots para WhatsApp que precisam de duas capacidades de áudio distintas, cada uma com trade-offs de custo, controle e escalabilidade.

🎙️

Transcrição (STT)

Converter áudios recebidos dos usuários em texto para processamento pelo chatbot. Volume variável por cliente, áudios curtos a médios.

Entrada de Dados
🔊

Geração de Áudio (TTS)

Gerar respostas em áudio com vozes naturais — incluindo clonagem de vozes específicas (ex: Pati e Otto da Paschoalotto).

Saída de Dados

Matriz de Abordagens: GPU-Based vs. Token-Based

Dimensão 🖥️ GPU-Based (Self-Hosted) 🔑 Token-Based (API)
Como funciona Modelos rodando em servidores GPU nossos (Azure, Modal, Vultr) Envio de áudio/texto para APIs externas, pagamento por uso
Custo Paga-se hora de máquina — 1h de GPU transcreve muitas horas de áudio Paga-se por minuto/caractere processado
Controle Total — filtros, pré/pós-processamento, otimizações, fine-tuning Limitado ao que a API oferece
Escalabilidade Requer gestão de infra (auto-scaling, filas, monitoramento) Escala automática, zero gestão de infra
Latência Controlável — pode ser muito rápida com infra adequada Dependente do provedor (~200-500ms rede)
Melhor para Alto volume, controle fino, custos preditivos Início rápido, baixo volume, zero ops

🏢 Caso de Uso Imediato — Paschoalotto Serviços Financeiros

A Paschoalotto precisa que determinados bots enviem mensagens no WhatsApp com áudio gerado a partir de vozes clonadas de dois personagens específicos. Já temos áudios gravados como base para o treinamento/clonagem.

🎤 Pati 🎤 Otto

Ecossistema de Provedores Mapeado

Levantamento completo de preços e capacidades — detalhes nas páginas específicas.

☁️

Azure GPU

VMs com GPU a partir de $0.105/h (T4). Possibilidade de créditos no plano atual.

GPU Infra

Modal.com

GPU serverless. T4 a $0.59/h, L4 a $0.80/h, até H200 a $4.54/h. Paga só quando usa.

GPU Infra
🌐

Vultr

Cloud GPU a partir de ~$0.20/h. Infraestrutura já familiar da equipe.

GPU Infra
🤖

OpenAI Whisper API

Transcrição a $0.006/min ($0.36/h de áudio). Zero setup, alta qualidade.

API STT
🎵

ElevenLabs

TTS premium com clonagem de voz. De $0.06 a $0.30 por 1k caracteres. Startup grant disponível.

API TTS
🔬

Open-Source (XTTS, F5, Bark)

Modelos TTS gratuitos com clonagem de voz. Rodando em GPU, custo tende a centésimos de centavo.

GPU TTS

Explorar em Detalhe

2
Transcrição (STT)
GPU vs API — tabelas de preço detalhadas
3
Geração de Áudio (TTS)
ElevenLabs, open-source, clonagem de voz
4
Cenários & Roadmap
Bootstrap → Escala → Massivo + D0