Transcrição Speech-to-Text

Converter áudios recebidos no WhatsApp em texto. Comparativo completo entre rodar modelos em GPU própria vs. consumir APIs por token.

🖥️ GPU-Based

Opção 1 — Whisper Self-Hosted em GPU

Rodamos o Whisper Large v2 (ou faster-whisper) em servidores GPU na nuvem. Pagamos por hora de máquina, não por minuto de áudio. Uma hora de GPU transcreve potencialmente centenas de áudios curtos.

☁️ Azure — VMs com GPU (Região: East US)

Possibilidade de créditos no plano Azure atual da empresa — a ser verificado.

Categoria Azure SKU GPU (VRAM) Preço/Hora ~Mensal (730h) Uso
Melhor Custo Standard_NC4as_T4_v3 NVIDIA T4 (16GB) $0.105 ~$76.65 Volume constante, produção estável
Performance Standard_NV12ads_A10_v5 NVIDIA A10 (24GB) $0.182 ~$132.86 Mais rápido (Ampere), alto volume
High-End Standard_NC24ads_A100_v4 NVIDIA A100 (80GB) $0.735 ~$536.55 Paralelo, fine-tuning, batch pesado
Spot Standard_NC24ads_A100_v4 NVIDIA A100 (80GB) $0.678 Economia em batch não-crítico

⚡ Modal.com — GPU Serverless (Pay-per-Use)

Paga apenas pelo tempo efetivo de uso. Ideal para cargas variáveis.

GPU Preço/Hora VRAM Observação
NVIDIA T4$0.5916GBEconômica, suficiente para Whisper
NVIDIA L4$0.8024GBBoa relação custo × velocidade
NVIDIA A10$1.1024GBRápida, arquitetura Ampere
NVIDIA L40S$1.9548GBPara modelos maiores ou paralelo
NVIDIA A100 40GB$2.1040GBAlto desempenho
NVIDIA A100 80GB$2.5080GBBatch massivo
NVIDIA H100$3.9580GBÚltima geração
NVIDIA H200$4.54141GBMáxima performance
NVIDIA B200$6.25192GBBlackwell - estado da arte

🌐 Vultr — Cloud GPU

Infraestrutura já familiar da equipe. GPU a partir de ~$0.20/hora. Opção provável para início imediato, com menor curva de aprendizado de setup. Experiência prévia da equipe reduz tempo de deploy.

💡 Custo Real Estimado — GPU Self-Hosted

O Whisper Large v2 com faster-whisper em uma T4 processa áudio ~10x mais rápido que tempo real. Para áudios curtos de WhatsApp (5-30s), o throughput pode ser ainda maior pelo batching.

Azure T4: $0.105/hora de máquina ÷ ~5h de áudio processado = ~$0.02 por hora de áudio
Modal T4: $0.59/hora de máquina ÷ ~5h de áudio = ~$0.12 por hora de áudio
Vultr: $0.20/hora de máquina ÷ ~5h de áudio = ~$0.04 por hora de áudio

🔑 Token-Based

Opção 2 — Transcrição via API (Pay-per-Audio)

Envie o áudio e receba texto de volta. Sem infraestrutura para gerenciar. Custo previsível por minuto de áudio.

Comparativo de APIs de Transcrição

Serviço Modelo Custo/Minuto Custo/Hora de Áudio Qualidade PT-BR Observações
OpenAI Whisper (Large-v2/v3) $0.006 $0.36 ⭐⭐⭐⭐⭐ Referência de mercado
OpenAI GPT-4o Audio Transcribe $0.006 $0.36 ⭐⭐⭐⭐⭐ Pode integrar com texto
OpenAI GPT-4o Mini Audio $0.003 $0.18 ⭐⭐⭐⭐ Metade do preço, qualidade boa
Deepgram Nova-2 $0.0043–$0.0058 $0.22–$0.35 ⭐⭐⭐⭐ PT-BR nativo, $200 créditos grátis
ElevenLabs Scribe ~$0.0037 $0.22 ⭐⭐⭐⭐ Se já usar ElevenLabs para TTS

💰 Oportunidade — $200 em Créditos Grátis da Deepgram

A Deepgram oferece $200 em créditos para novos usuários, o que dá aproximadamente 900+ horas de transcrição. Excelente para validação inicial e primeiros meses de produção enquanto a infraestrutura GPU é preparada.

Comparativo Direto: GPU vs. API

Para um cenário de 100 horas de áudio transcritas por mês.

🖥️ GPU Self-Hosted (Azure T4)

~$2.10/mês
  • Cálculo: 100h áudio ÷ 5 (throughput) = 20h de GPU × $0.105 = $2.10
  • Setup: Requer deploy de scripts, Docker, API
  • Controle: Total — filtros, pré-processamento, logs
  • Risco: Gestão de infra, cold starts, manutenção
  • Economia vs API: até 17x mais barato

🔑 API Token-Based (OpenAI)

~$36.00/mês
  • Cálculo: 100h × $0.36/h = $36.00
  • Setup: Zero — API key e pronto
  • Controle: Limitado ao que a API oferece
  • Risco: Dependência do provedor, rate limits
  • Vantagem: Operacional em minutos

📊 Break-even: Quando GPU compensa?

Considerando que GPU requer ~4h de setup inicial e manutenção mensal mínima, o break-even acontece muito rápido:

Economia mensal com GPU (100h áudio): $36.00 - $2.10 = $33.90/mês
Custo de setup (estimado): ~8h de engenheiro
GPU se paga no 1º mês se o volume for ≥ 10h de áudio/mês