Robbu AI Audio — Transcrição (STT)

🖥️ GPU-Based

Opção 1 — Whisper Self-Hosted em GPU

Rodamos o Whisper Large v2 (ou faster-whisper) em servidores GPU na nuvem. Pagamos por hora de máquina, não por minuto de áudio. Uma hora de GPU transcreve potencialmente centenas de áudios curtos.

☁️ Azure — VMs com GPU (Região: East US)

Possibilidade de créditos no plano Azure atual da empresa — a ser verificado.

Categoria	Azure SKU	GPU (VRAM)	Preço/Hora	~Mensal (730h)	Uso
Melhor Custo	Standard_NC4as_T4_v3	NVIDIA T4 (16GB)	$0.105	~$76.65	Volume constante, produção estável
Performance	Standard_NV12ads_A10_v5	NVIDIA A10 (24GB)	$0.182	~$132.86	Mais rápido (Ampere), alto volume
High-End	Standard_NC24ads_A100_v4	NVIDIA A100 (80GB)	$0.735	~$536.55	Paralelo, fine-tuning, batch pesado
Spot	Standard_NC24ads_A100_v4	NVIDIA A100 (80GB)	$0.678	—	Economia em batch não-crítico

⚡ Modal.com — GPU Serverless (Pay-per-Use)

Paga apenas pelo tempo efetivo de uso. Ideal para cargas variáveis.

GPU	Preço/Hora	VRAM	Observação
NVIDIA T4	$0.59	16GB	Econômica, suficiente para Whisper
NVIDIA L4	$0.80	24GB	Boa relação custo × velocidade
NVIDIA A10	$1.10	24GB	Rápida, arquitetura Ampere
NVIDIA L40S	$1.95	48GB	Para modelos maiores ou paralelo
NVIDIA A100 40GB	$2.10	40GB	Alto desempenho
NVIDIA A100 80GB	$2.50	80GB	Batch massivo
NVIDIA H100	$3.95	80GB	Última geração
NVIDIA H200	$4.54	141GB	Máxima performance
NVIDIA B200	$6.25	192GB	Blackwell - estado da arte

🌐 Vultr — Cloud GPU

Infraestrutura já familiar da equipe. GPU a partir de ~$0.20/hora. Opção provável para início imediato, com menor curva de aprendizado de setup. Experiência prévia da equipe reduz tempo de deploy.

💡 Custo Real Estimado — GPU Self-Hosted

O Whisper Large v2 com faster-whisper em uma T4 processa áudio ~10x mais rápido que tempo real. Para áudios curtos de WhatsApp (5-30s), o throughput pode ser ainda maior pelo batching.

Azure T4: $0.105/hora de máquina ÷ ~5h de áudio processado = ~$0.02 por hora de áudio
Modal T4: $0.59/hora de máquina ÷ ~5h de áudio = ~$0.12 por hora de áudio
Vultr: $0.20/hora de máquina ÷ ~5h de áudio = ~$0.04 por hora de áudio

🔑 Token-Based

Opção 2 — Transcrição via API (Pay-per-Audio)

Envie o áudio e receba texto de volta. Sem infraestrutura para gerenciar. Custo previsível por minuto de áudio.

Comparativo de APIs de Transcrição

Serviço	Modelo	Custo/Minuto	Custo/Hora de Áudio	Qualidade PT-BR	Observações
OpenAI	Whisper (Large-v2/v3)	$0.006	$0.36	⭐⭐⭐⭐⭐	Referência de mercado
OpenAI	GPT-4o Audio Transcribe	$0.006	$0.36	⭐⭐⭐⭐⭐	Pode integrar com texto
OpenAI	GPT-4o Mini Audio	$0.003	$0.18	⭐⭐⭐⭐	Metade do preço, qualidade boa
Deepgram	Nova-2	$0.0043–$0.0058	$0.22–$0.35	⭐⭐⭐⭐	PT-BR nativo, $200 créditos grátis
ElevenLabs	Scribe	~$0.0037	$0.22	⭐⭐⭐⭐	Se já usar ElevenLabs para TTS

💰 Oportunidade — $200 em Créditos Grátis da Deepgram

A Deepgram oferece $200 em créditos para novos usuários, o que dá aproximadamente 900+ horas de transcrição. Excelente para validação inicial e primeiros meses de produção enquanto a infraestrutura GPU é preparada.

Comparativo Direto: GPU vs. API

Para um cenário de 100 horas de áudio transcritas por mês.

🖥️ GPU Self-Hosted (Azure T4)

~$2.10/mês

Cálculo: 100h áudio ÷ 5 (throughput) = 20h de GPU × $0.105 = $2.10
Setup: Requer deploy de scripts, Docker, API
Controle: Total — filtros, pré-processamento, logs
Risco: Gestão de infra, cold starts, manutenção
Economia vs API: até 17x mais barato

🔑 API Token-Based (OpenAI)

~$36.00/mês

Cálculo: 100h × $0.36/h = $36.00
Setup: Zero — API key e pronto
Controle: Limitado ao que a API oferece
Risco: Dependência do provedor, rate limits
Vantagem: Operacional em minutos

📊 Break-even: Quando GPU compensa?

Considerando que GPU requer ~4h de setup inicial e manutenção mensal mínima, o break-even acontece muito rápido:

Economia mensal com GPU (100h áudio): $36.00 - $2.10 = $33.90/mês
Custo de setup (estimado): ~8h de engenheiro
GPU se paga no 1º mês se o volume for ≥ 10h de áudio/mês

Transcrição Speech-to-Text

Opção 1 — Whisper Self-Hosted em GPU

☁️ Azure — VMs com GPU (Região: East US)

⚡ Modal.com — GPU Serverless (Pay-per-Use)

🌐 Vultr — Cloud GPU

💡 Custo Real Estimado — GPU Self-Hosted

Opção 2 — Transcrição via API (Pay-per-Audio)

Comparativo de APIs de Transcrição

💰 Oportunidade — $200 em Créditos Grátis da Deepgram

Comparativo Direto: GPU vs. API

🖥️ GPU Self-Hosted (Azure T4)

🔑 API Token-Based (OpenAI)

📊 Break-even: Quando GPU compensa?