Se você transcreve áudios, entrevistas, reuniões, podcasts ou aulas e já se perguntou "tem um jeito mais simples e barato de fazer isso?", a resposta é sim. E o melhor: dá pra rodar no seu próprio notebook, sem mandar arquivo nenhum pra nuvem.
1. Pra quem é esse guia
Você é jornalista, pesquisador(a), professor(a), advogado(a), assistente administrativo, psicólogo(a), produtor(a) de conteúdo, estudante de pós… enfim, você lida com muitas horas de áudio no mês, mas não é programador(a). Talvez tenha até tentado usar ferramentas online e descobriu que:
- Têm limite de tamanho de arquivo (e aquela reunião de 2h não cabe).
- Cobram por minuto transcrito (e no fim do mês a fatura dói).
- Não garantem privacidade (o áudio do seu cliente vai pra servidor de terceiros).
- Ou simplesmente travam no meio do arquivo.
Esse artigo é pra você. Vou te mostrar, passo a passo, como instalar e usar o Whisper da OpenAI direto no seu computador, mesmo que ele não tenha placa de vídeo boa, mesmo que você nunca tenha aberto o terminal na vida.
2. O que é o Whisper (em 30 segundos, sem jargão)
O Whisper é um modelo de inteligência artificial criado pela OpenAI (os mesmos do ChatGPT), que serve para ouvir áudios e transformá-los em texto. Ele entende português muito bem — sotaques, gírias, termos técnicos — e funciona offline, ou seja, depois de instalado, não precisa mais de internet para transcrever.
Ele é gratuito e open source (código aberto). Você não paga nada por uso, não tem limite de minutos e ninguém fica olhando seus arquivos.
Existem várias formas de usar o Whisper. Aqui a gente vai usar a versão openai-whisper em Python, que é a mais estável e a mais fácil de automatizar.
3. O que você vai precisar (e provavelmente já tem)
| Item | O que é | Mínimo aceitável |
|---|---|---|
| Computador | Windows 10/11, macOS 11+ ou Linux | Qualquer um dos últimos 6 anos |
| Memória RAM | O "curto prazo" do seu PC | 8 GB (recomendado 16 GB) |
| Espaço em disco | Onde o Whisper vai morar | 5 GB livres |
| Processador | O "cérebro" do PC | Intel i5 de 8ª geração / Ryzen 5 2000+ ou Apple M1+ |
| Placa de vídeo (GPU) | Acelera o processo — opcional | Não precisa |
| Conexão com internet | Só pra instalar (uma única vez) | Banda comum |
| Python | A linguagem que vamos usar | Versão 3.9 a 3.12 |
Não tem GPU? Relaxa. O Whisper roda 100% no processador (CPU). É mais devagar que com placa de vídeo, mas funciona igualzinho — só dá pra ir tomar um café enquanto ele processa arquivos bem grandes.
4. Parte 1 — Instalando o Python (sem medo)
Se você já tem o Python instalado, pule pra Parte 2. Se não tem, vem comigo.
No Windows
- Acesse python.org/downloads.
- Clique no botão grande "Download Python 3.x.x".
- Importante: ao rodar o instalador, marque a caixinha "Add Python to PATH" lá embaixo. Essa é a parte que a maioria esquece e depois fica quebrando a cabeça.
- Clique em Install Now e pronto.
No macOS
Abra o terminal (aperte Cmd + Espaço, digite "terminal" e dê Enter) e cole:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
brew install python
No Linux (Ubuntu/Debian)
sudo apt update
sudo apt install python3 python3-pip python3-venv
Como saber se deu certo
Abra o terminal (no Windows, procure por "cmd" ou "PowerShell") e digite:
python --versionSe aparecer algo como Python 3.11.5 (ou similar), tá no caminho certo. ✅
5. Parte 2 — Criando um cantinho seguro pro projeto
Esse é um truque que programadores usam pra não misturar as coisas: a gente cria uma pasta isolada com tudo o que precisa dentro. Assim, se algo der errado, é só apagar a pasta e recomeçar.
mkdir whisper-local
cd whisper-local
python -m venv venvAgora ative o ambiente:
Windows (PowerShell)
.\venv\Scripts\Activate.ps1
Se aparecer um erro em vermelho sobre "execução de scripts desabilitada", abra o PowerShell como administrador e rode:
Set-ExecutionPolicy -Scope CurrentUser RemoteSigned. Depois feche e abra de novo.
Windows (cmd)
venv\Scripts\activate.bat
macOS / Linux
source venv/bin/activateVocê vai notar que aparece (venv) no início da linha. Isso é bom sinal — significa que você está "dentro" do cantinho.
6. Parte 3 — Instalando o Whisper (a parte mágica)
Com o ambiente ativado, rode:
pip install openai-whisperVai aparecer muita coisa rolando na tela — downloads, instalação, compilaçõezinhas. É normal. Pode demorar de 2 a 10 minutos dependendo da sua internet.
Em seguida, instale o ffmpeg, que é o "decodificador" de áudio que o Whisper usa por baixo dos panos:
Windows (com Chocolatey instalado)
choco install ffmpegSem Chocolatey: baixe em gyan.dev/ffmpeg/builds, extraia e adicione a pasta bin ao PATH do Windows.
macOS
brew install ffmpeg
Linux (Ubuntu/Debian)
sudo apt install ffmpeg
7. Parte 4 — Sua primeira transcrição
Crie um arquivo chamado transcrever.py dentro da pasta whisper-local (pode usar o Bloco de Notas, o VS Code, ou o que preferir) e cole isto:
import whisper
# Carrega o modelo. Na primeira vez, ele baixa da internet (uns 150 MB).
# Opções: tiny | base | small | medium | large
# tiny e base = mais rápidos, qualidade menor
# small e medium = equilíbrio ideal pra CPU
# large = melhor qualidade, mas exige máquina boa
modelo = whisper.load_model("small")
# Coloque aqui o caminho do seu arquivo (mp3, m4a, wav, mp4, etc.)
arquivo = "minha_reuniao.mp3"
# A mágica acontece aqui
resultado = modelo.transcribe(arquivo, language="portuguese")
# Salva em um arquivo de texto
with open("transcricao.txt", "w", encoding="utf-8") as f:
f.write(resultado["text"])
print("✅ Pronto! Arquivo salvo como transcricao.txt")Como usar:
- Coloque um arquivo de áudio (ex:
minha_reuniao.mp3) dentro da pastawhisper-local. - No terminal (com o
(venv)ainda ativo), rode:python transcrever.py - Vá tomar um café. ☕ Para um áudio de 30 minutos, espere entre 10 e 25 minutos (depende do seu processador).
- Quando voltar, abra o arquivo
transcricao.txte veja a mágica.
8. Parte 5 — Versão turbinada (com timestamps e legendas)
Se você precisa saber em que minuto cada frase foi dita (útil pra legendagem, pra citar trechos em uma tese, ou pra achar uma parte específica da reunião), use esta versão:
import whisper
from whisper.utils import get_writer
modelo = whisper.load_model("small")
resultado = modelo.transcribe(
"minha_reuniao.mp3",
language="portuguese",
task="transcribe",
verbose=True # mostra o progresso em tempo real
)
# Texto puro
with open("transcricao.txt", "w", encoding="utf-8") as f:
f.write(resultado["text"])
# Legenda .srt (perfeita pra vídeos)
escritor = get_writer("srt", ".")
escritor(resultado, "minha_reuniao.mp3")
print("✅ Texto e legenda .srt gerados!")Bônus: troque "srt" por "vtt" se precisar de legendas para a web, ou por "tsv" se quiser uma planilha com cada frase numa linha (com horário de início, fim e texto).
9. Dicas práticas (a parte que economiza horas)
9.1. Escolhendo o modelo certo
| Modelo | Tamanho | RAM necessária | Velocidade em CPU | Qualidade |
|---|---|---|---|---|
tiny |
75 MB | ~1 GB | ⚡⚡⚡⚡⚡ | ⭐⭐ |
base |
140 MB | ~1 GB | ⚡⚡⚡⚡ | ⭐⭐⭐ |
small |
460 MB | ~2 GB | ⚡⚡⚡ | ⭐⭐⭐⭐ |
medium |
1.5 GB | ~5 GB | ⚡⚡ | ⭐⭐⭐⭐⭐ |
large |
3 GB | ~10 GB | ⚡ | ⭐⭐⭐⭐⭐ |
Minha recomendação honesta pra quem está começando: vá de small. É o melhor equilíbrio entre velocidade e qualidade em máquinas comuns. Se você perceber que está errando muitos nomes próprios ou termos técnicos, suba para medium.
9.2. Transcrevendo vários arquivos de uma vez
import whisper
from pathlib import Path
modelo = whisper.load_model("small")
pasta = Path("./audios") # coloque seus arquivos nesta pasta
for arquivo in pasta.glob("*"):
if arquivo.suffix.lower() in [".mp3", ".wav", ".m4a", ".mp4"]:
print(f"🎙️ Transcrevendo: {arquivo.name}")
resultado = modelo.transcribe(str(arquivo), language="portuguese")
saida = arquivo.with_suffix(".txt")
saida.write_text(resultado["text"], encoding="utf-8")
print("✅ Todos os arquivos foram transcritos!")
9.3. Traduzindo áudio em outra língua pra português
resultado = modelo.transcribe("palestra_ingles.mp3", task="translate")Ele vai te entregar o áudio em inglês traduzido para português. Bem útil pra quem consome muito conteúdo gringo.
9.4. Forçando a transcrição a reconhecer termos específicos
resultado = modelo.transcribe(
"entrevista.mp3",
language="portuguese",
initial_prompt="Entrevista com Dr. Almeida sobre LGPD, COAF e compliance."
)O initial_prompt é tipo um "contexto" — o Whisper usa pra entender melhor do que se trata e errar menos nomes próprios e termos técnicos.
10. Problemas comuns (e como resolver)
❌ "ModuleNotFoundError: No module named 'whisper'"
Você provavelmente esqueceu de ativar o (venv) antes de rodar. Volte lá e ative.
❌ "ffmpeg not found"
O ffmpeg não foi instalado ou não está no PATH. Reinstale seguindo a Parte 3.
❌ O processo morre com erro de memória
Tente um modelo menor (tiny ou base) ou feche o navegador, Spotify e outros programas pesados enquanto transcreve.
❌ A qualidade da transcrição tá ruim
- Verifique se o áudio não tem muito ruído de fundo. Whisper faz milagre, mas áudio ruim vira texto ruim.
- Tente um modelo maior (
small→medium). - Use o truque do
initial_promptcom palavras-chave do seu contexto.
❌ Tá MUITO demorado
- Áudios longos (acima de 1h) em CPU podem levar várias horas mesmo. É normal.
- Se você tem muitos arquivos, pode deixar o PC ligado de noite processando.
- Se isso é um problema constante no seu trabalho, talvez valha a pena investir numa solução mais robusta (mais sobre isso já já 👇).
11. E quando o "faça você mesmo" começa a atrapalhar?
Olha, vou ser bem honesto: o Whisper local é ótimo, mas nem sempre é a melhor escolha pro dia a dia. Antes de você passar a próxima semana configurando tudo, se pergunde:
- 📦 Você transcreve mais de 10 horas de áudio por semana? Provavelmente já tá na hora de ter um pipeline automatizado (pasta de entrada → transcrição → planilha ou documento final pronto).
- 👥 Você ou sua equipe perdem horas em tarefas repetitivas (renomear arquivos, quebrar transcrição por entrevistado, gerar resumo, formatar)?
- 🔒 Os áudios são sensíveis (clientes, pacientes, processos jurídicos) e você precisa garantir que NADA sai da sua máquina?
- 📊 Você precisa integrar a transcrição com outras ferramentas (planilha do Google, Notion, CRM, gerador de petições, etc.)?
Se você respondeu sim pra pelo menos uma dessas perguntas, talvez não faça sentido continuar fazendo tudo na mão.
É exatamente aí que a gente entra.
👋 Conheça a Vem pra Descomplica
A gente é um time que tira a parte técnica do seu caminho pra você voltar a fazer o que importa no seu trabalho. Ajudamos profissionais e empresas a:
- 🛠️ Montar o ambiente de transcrição local na sua máquina (sim, a gente instala e configura tudo pra você, em chamada de vídeo, sem você precisar aprender nada de Python).
- ⚙️ Criar fluxos automatizados que transformam áudio em texto, resumo, planilha, ata de reunião, legenda de vídeo — automaticamente.
- 🔐 Soluções 100% locais pra quem lida com dados sensíveis (jurídico, saúde, pesquisa acadêmica).
- 🧩 Integrações sob medida com as ferramentas que você já usa (Google Drive, Notion, ClickUp, planilhas, e-mail, etc.).
- 🧪 POC e provas de conceito pra empresas que querem testar IA de transcrição antes de investir.
Você não precisa virar programador(a) pra usar inteligência artificial a seu favor. Você só precisa de alguém que descomplica isso pra você.
💬 Fale com a gente
A primeira conversa é de graça e sem compromisso. A gente olha junto o seu caso e te diz, com honestidade, se dá pra resolver sozinho(a) ou se vale a pena a gente construir uma solução personalizada.
12. Resumindo (pra quem só quer a cola)
- Instale o Python 3.9+ (não esqueça de marcar "Add to PATH" no Windows).
- Crie uma pasta, abra o terminal dentro dela e rode
python -m venv venv. - Ative o ambiente (
.\venv\Scripts\Activate.ps1no Windows ousource venv/bin/activateno Mac/Linux). - Rode
pip install openai-whispere instale o ffmpeg. - Copie o script da Parte 4, troque o nome do arquivo de áudio, e rode
python transcrever.py. - Abra o
transcricao.txte celebre. 🎉
Pronto. Você acabou de transcrever áudio com IA rodando 100% na sua máquina, sem pagar nada, sem mandar nada pra nuvem, sem limite de tempo. E se um dia isso virar um gargalo no seu trabalho — você já sabe quem chamar. 😉