Opção 1 — Whisper Self-Hosted em GPU
Rodamos o Whisper Large v2 (ou faster-whisper) em servidores GPU na nuvem. Pagamos por hora de máquina, não por minuto de áudio. Uma hora de GPU transcreve potencialmente centenas de áudios curtos.
☁️ Azure — VMs com GPU (Região: East US)
Possibilidade de créditos no plano Azure atual da empresa — a ser verificado.
| Categoria | Azure SKU | GPU (VRAM) | Preço/Hora | ~Mensal (730h) | Uso |
|---|---|---|---|---|---|
| Melhor Custo | Standard_NC4as_T4_v3 | NVIDIA T4 (16GB) | $0.105 | ~$76.65 | Volume constante, produção estável |
| Performance | Standard_NV12ads_A10_v5 | NVIDIA A10 (24GB) | $0.182 | ~$132.86 | Mais rápido (Ampere), alto volume |
| High-End | Standard_NC24ads_A100_v4 | NVIDIA A100 (80GB) | $0.735 | ~$536.55 | Paralelo, fine-tuning, batch pesado |
| Spot | Standard_NC24ads_A100_v4 | NVIDIA A100 (80GB) | $0.678 | — | Economia em batch não-crítico |
⚡ Modal.com — GPU Serverless (Pay-per-Use)
Paga apenas pelo tempo efetivo de uso. Ideal para cargas variáveis.
| GPU | Preço/Hora | VRAM | Observação |
|---|---|---|---|
| NVIDIA T4 | $0.59 | 16GB | Econômica, suficiente para Whisper |
| NVIDIA L4 | $0.80 | 24GB | Boa relação custo × velocidade |
| NVIDIA A10 | $1.10 | 24GB | Rápida, arquitetura Ampere |
| NVIDIA L40S | $1.95 | 48GB | Para modelos maiores ou paralelo |
| NVIDIA A100 40GB | $2.10 | 40GB | Alto desempenho |
| NVIDIA A100 80GB | $2.50 | 80GB | Batch massivo |
| NVIDIA H100 | $3.95 | 80GB | Última geração |
| NVIDIA H200 | $4.54 | 141GB | Máxima performance |
| NVIDIA B200 | $6.25 | 192GB | Blackwell - estado da arte |
🌐 Vultr — Cloud GPU
Infraestrutura já familiar da equipe. GPU a partir de ~$0.20/hora. Opção provável para início imediato, com menor curva de aprendizado de setup. Experiência prévia da equipe reduz tempo de deploy.
💡 Custo Real Estimado — GPU Self-Hosted
O Whisper Large v2 com faster-whisper em uma T4 processa áudio ~10x mais rápido que tempo real. Para áudios curtos de WhatsApp (5-30s), o throughput pode ser ainda maior pelo batching.
Modal T4: $0.59/hora de máquina ÷ ~5h de áudio = ~$0.12 por hora de áudio
Vultr: $0.20/hora de máquina ÷ ~5h de áudio = ~$0.04 por hora de áudio
🔑 Token-Based
Opção 2 — Transcrição via API (Pay-per-Audio)
Envie o áudio e receba texto de volta. Sem infraestrutura para gerenciar. Custo previsível por minuto de áudio.
Comparativo de APIs de Transcrição
| Serviço | Modelo | Custo/Minuto | Custo/Hora de Áudio | Qualidade PT-BR | Observações |
|---|---|---|---|---|---|
| OpenAI | Whisper (Large-v2/v3) | $0.006 | $0.36 | ⭐⭐⭐⭐⭐ | Referência de mercado |
| OpenAI | GPT-4o Audio Transcribe | $0.006 | $0.36 | ⭐⭐⭐⭐⭐ | Pode integrar com texto |
| OpenAI | GPT-4o Mini Audio | $0.003 | $0.18 | ⭐⭐⭐⭐ | Metade do preço, qualidade boa |
| Deepgram | Nova-2 | $0.0043–$0.0058 | $0.22–$0.35 | ⭐⭐⭐⭐ | PT-BR nativo, $200 créditos grátis |
| ElevenLabs | Scribe | ~$0.0037 | $0.22 | ⭐⭐⭐⭐ | Se já usar ElevenLabs para TTS |
💰 Oportunidade — $200 em Créditos Grátis da Deepgram
A Deepgram oferece $200 em créditos para novos usuários, o que dá aproximadamente 900+ horas de transcrição. Excelente para validação inicial e primeiros meses de produção enquanto a infraestrutura GPU é preparada.
Comparativo Direto: GPU vs. API
Para um cenário de 100 horas de áudio transcritas por mês.
🖥️ GPU Self-Hosted (Azure T4)
- Cálculo: 100h áudio ÷ 5 (throughput) = 20h de GPU × $0.105 = $2.10
- Setup: Requer deploy de scripts, Docker, API
- Controle: Total — filtros, pré-processamento, logs
- Risco: Gestão de infra, cold starts, manutenção
- Economia vs API: até 17x mais barato
🔑 API Token-Based (OpenAI)
- Cálculo: 100h × $0.36/h = $36.00
- Setup: Zero — API key e pronto
- Controle: Limitado ao que a API oferece
- Risco: Dependência do provedor, rate limits
- Vantagem: Operacional em minutos
📊 Break-even: Quando GPU compensa?
Considerando que GPU requer ~4h de setup inicial e manutenção mensal mínima, o break-even acontece muito rápido:
Custo de setup (estimado): ~8h de engenheiro
GPU se paga no 1º mês se o volume for ≥ 10h de áudio/mês