Robbu AI Audio — Visão Geral

O Desafio

A Robbu constrói chatbots para WhatsApp que precisam de duas capacidades de áudio distintas, cada uma com trade-offs de custo, controle e escalabilidade.

🎙️

Transcrição (STT)

Converter áudios recebidos dos usuários em texto para processamento pelo chatbot. Volume variável por cliente, áudios curtos a médios.

Entrada de Dados

🔊

Geração de Áudio (TTS)

Gerar respostas em áudio com vozes naturais — incluindo clonagem de vozes específicas (ex: Pati e Otto da Paschoalotto).

Saída de Dados

Matriz de Abordagens: GPU-Based vs. Token-Based

Dimensão	🖥️ GPU-Based (Self-Hosted)	🔑 Token-Based (API)
Como funciona	Modelos rodando em servidores GPU nossos (Azure, Modal, Vultr)	Envio de áudio/texto para APIs externas, pagamento por uso
Custo	Paga-se hora de máquina — 1h de GPU transcreve muitas horas de áudio	Paga-se por minuto/caractere processado
Controle	Total — filtros, pré/pós-processamento, otimizações, fine-tuning	Limitado ao que a API oferece
Escalabilidade	Requer gestão de infra (auto-scaling, filas, monitoramento)	Escala automática, zero gestão de infra
Latência	Controlável — pode ser muito rápida com infra adequada	Dependente do provedor (~200-500ms rede)
Melhor para	Alto volume, controle fino, custos preditivos	Início rápido, baixo volume, zero ops

🏢 Caso de Uso Imediato — Paschoalotto Serviços Financeiros

A Paschoalotto precisa que determinados bots enviem mensagens no WhatsApp com áudio gerado a partir de vozes clonadas de dois personagens específicos. Já temos áudios gravados como base para o treinamento/clonagem.

🎤 Pati 🎤 Otto

Ecossistema de Provedores Mapeado

Levantamento completo de preços e capacidades — detalhes nas páginas específicas.

☁️

Azure GPU

VMs com GPU a partir de $0.105/h (T4). Possibilidade de créditos no plano atual.

GPU Infra

⚡

Modal.com

GPU serverless. T4 a $0.59/h, L4 a $0.80/h, até H200 a $4.54/h. Paga só quando usa.

GPU Infra

🌐

Vultr

Cloud GPU a partir de ~$0.20/h. Infraestrutura já familiar da equipe.

GPU Infra

🤖

OpenAI Whisper API

Transcrição a $0.006/min ($0.36/h de áudio). Zero setup, alta qualidade.

API STT

🎵

ElevenLabs

TTS premium com clonagem de voz. De $0.06 a $0.30 por 1k caracteres. Startup grant disponível.

API TTS

🔬

Open-Source (XTTS, F5, Bark)

Modelos TTS gratuitos com clonagem de voz. Rodando em GPU, custo tende a centésimos de centavo.

GPU TTS

Explorar em Detalhe

Transcrição (STT)

GPU vs API — tabelas de preço detalhadas

Geração de Áudio (TTS)

ElevenLabs, open-source, clonagem de voz

Cenários & Roadmap

Bootstrap → Escala → Massivo + D0

Estratégia de IA de Áudio para a Robbu

O Desafio

Transcrição (STT)

Geração de Áudio (TTS)

Matriz de Abordagens: GPU-Based vs. Token-Based

🏢 Caso de Uso Imediato — Paschoalotto Serviços Financeiros

Ecossistema de Provedores Mapeado

Azure GPU

Modal.com

Vultr

OpenAI Whisper API

ElevenLabs

Open-Source (XTTS, F5, Bark)

Explorar em Detalhe