如果你曾经转写过音频、采访、会议、播客或课程,并且问过自己“有没有更简单、更便宜的办法?”,答案是。更棒的是:你可以在自己的笔记本电脑上运行,完全不用把任何文件传到云端。

1. 这份指南适合谁

你是记者、研究人员、教师、律师、行政助理、心理咨询师、内容创作者、研究生……总之,你每个月都要处理很多小时的音频,但不是程序员。也许你已经试过在线工具,结果发现:

  • 文件大小有限制(那场 2 小时的会议根本传不上去)。
  • 按转写分钟收费(月底账单真的会让人心痛)。
  • 无法保证隐私(你的客户音频会被送到第三方服务器)。
  • 或者干脆在文件中途卡死。

这篇文章就是写给你的。我会一步一步教你如何在电脑上直接安装和使用OpenAI 的 Whisper,即使你的电脑没有很好的显卡,即使你这辈子从没打开过终端,也没关系。

2. Whisper 是什么(30 秒讲完,不讲术语)

Whisper 是 OpenAI(也就是 ChatGPT 的开发团队)创建的一个人工智能模型,用来音频并把它转换成文字。它对葡萄牙语非常友好——口音、俚语、专业术语都能处理——而且可以离线运行,也就是说,安装完成后,不再需要互联网也能转写。

它是免费的,而且是开源的。你不用为使用付费,没有分钟限制,也没人会查看你的文件。

Whisper 有很多使用方式。这里我们将使用 Python 版的 openai-whisper,它最稳定,也最容易自动化。

3. 你需要什么(大概率你已经有了)

项目 是什么 最低可接受配置
电脑 Windows 10/11、macOS 11+ 或 Linux 近 6 年内的任意一台
内存 RAM 电脑的“短期记忆” 8 GB(建议 16 GB)
磁盘空间 Whisper 存放的位置 5 GB 可用空间
处理器 电脑的“脑袋” Intel 第 8 代 i5 / Ryzen 5 2000+ 或 Apple M1+
显卡(GPU) 加速处理——可选 不需要
网络连接 只用于安装(仅一次) 普通宽带即可
Python 我们要使用的语言 3.9 至 3.12 版本

没有 GPU?别担心。 Whisper 可以 100% 在处理器(CPU)上运行。虽然比有显卡时慢一些,但效果是一样的——只是处理特别大的文件时,你可以去喝杯咖啡。

4. 第 1 部分——安装 Python(别害怕)

如果你已经安装了 Python,请跳到第 2 部分。没有的话,跟我来。

在 Windows 上

  1. 打开 python.org/downloads
  2. 点击大按钮 “Download Python 3.x.x”
  3. 重要:运行安装程序时,勾选底部的 “Add Python to PATH”。这是大多数人会忘记、然后反复折腾的地方。
  4. 点击 Install Now,完成。

在 macOS 上

打开终端(按 Cmd + 空格,输入“terminal”,然后按回车),并粘贴:

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
brew install python

在 Linux(Ubuntu/Debian)上

sudo apt update
sudo apt install python3 python3-pip python3-venv

如何确认成功

打开终端(在 Windows 上,搜索“cmd”或“PowerShell”)并输入:

python --version

如果显示类似 Python 3.11.5(或类似版本),就说明你走在正确的路上。✅

5. 第 2 部分——为项目创建一个安全的小空间

这是程序员常用的技巧,目的是不把东西混在一起:我们创建一个独立文件夹,把所有需要的东西都放进去。这样如果出问题,只要删掉文件夹重新来过就行。

mkdir whisper-local
cd whisper-local
python -m venv venv

现在激活这个环境:

Windows(PowerShell)

.\venv\Scripts\Activate.ps1

如果出现关于“脚本执行被禁用”的红色错误,请以管理员身份打开 PowerShell,然后运行:Set-ExecutionPolicy -Scope CurrentUser RemoteSigned。之后关闭并重新打开。

Windows(cmd)

venv\Scripts\activate.bat

macOS / Linux

source venv/bin/activate

你会注意到行首出现了 (venv)。这是好兆头——说明你已经进入了这个“小空间”。

6. 第 3 部分——安装 Whisper(魔法时刻)

在环境激活的情况下,运行:

pip install openai-whisper

屏幕上会出现很多内容——下载、安装、编译。这是正常的。根据你的网络速度,可能需要 2 到 10 分钟。

接着安装 ffmpeg,它是 Whisper 在后台使用的音频“解码器”:

Windows(已安装 Chocolatey)

choco install ffmpeg

如果没有 Chocolatey:请从 gyan.dev/ffmpeg/builds 下载,解压后将 bin 文件夹添加到 Windows 的 PATH 中。

macOS

brew install ffmpeg

Linux(Ubuntu/Debian)

sudo apt install ffmpeg

7. 第 4 部分——你的第一次转写

whisper-local 文件夹里创建一个名为 transcrever.py 的文件(可以用记事本、VS Code,或任何你喜欢的工具),然后粘贴以下内容:

import whisper

# 加载模型。第一次运行时,它会从互联网下载(大约 150 MB)。
# 选项:tiny | base | small | medium | large
# tiny 和 base = 更快,质量较低
# small 和 medium = 对 CPU 来说最均衡
# large = 质量最好,但需要更好的机器
modelo = whisper.load_model("small")

# 在这里填写你的文件路径(mp3、m4a、wav、mp4 等)
arquivo = "minha_reuniao.mp3"

# 魔法在这里发生
resultado = modelo.transcribe(arquivo, language="portuguese")

# 保存为文本文件
with open("transcricao.txt", "w", encoding="utf-8") as f:
    f.write(resultado["text"])

print("✅ 完成!文件已保存为 transcricao.txt")

如何使用:

  1. 把一个音频文件(例如 minha_reuniao.mp3)放进 whisper-local 文件夹。
  2. 在终端中(确保 (venv) 仍处于激活状态)运行:python transcrever.py
  3. 去喝杯咖啡。☕ 对于 30 分钟的音频,预计需要 10 到 25 分钟(取决于你的处理器)。
  4. 回来后,打开 transcricao.txt 文件,看看魔法。

8. 第 5 部分——增强版(带时间戳和字幕)

如果你需要知道每句话是在哪一分钟说的(用于字幕、在论文中引用片段,或者查找会议中的某一部分),请使用这个版本:

import whisper
from whisper.utils import get_writer

modelo = whisper.load_model("small")
resultado = modelo.transcribe(
    "minha_reuniao.mp3",
    language="portuguese",
    task="transcribe",
    verbose=True  # 实时显示进度
)

# 纯文本
with open("transcricao.txt", "w", encoding="utf-8") as f:
    f.write(resultado["text"])

# .srt 字幕(非常适合视频)
escritor = get_writer("srt", ".")
escritor(resultado, "minha_reuniao.mp3")

print("✅ 文本和 .srt 字幕已生成!")

额外提示:如果需要网页字幕,可以把 "srt" 换成 "vtt";如果想要一个每句话一行的表格(带开始时间、结束时间和文本),可以换成 "tsv"

9. 实用技巧(节省大量时间的部分)

9.1. 选择合适的模型

模型 大小 所需 RAM CPU 速度 质量
tiny 75 MB 约 1 GB ⚡⚡⚡⚡⚡ ⭐⭐
base 140 MB 约 1 GB ⚡⚡⚡⚡ ⭐⭐⭐
small 460 MB 约 2 GB ⚡⚡⚡ ⭐⭐⭐⭐
medium 1.5 GB 约 5 GB ⚡⚡ ⭐⭐⭐⭐⭐
large 3 GB 约 10 GB ⭐⭐⭐⭐⭐

我给初学者的真诚建议:选择 small。它在普通电脑上的速度和质量最平衡。如果你发现专有名词或技术术语错得很多,就升级到 medium

9.2. 一次转写多个文件

import whisper
from pathlib import Path

modelo = whisper.load_model("small")
pasta = Path("./audios")  # 把你的文件放到这个文件夹里

for arquivo in pasta.glob("*"):
    if arquivo.suffix.lower() in [".mp3", ".wav", ".m4a", ".mp4"]:
        print(f"🎙️ 正在转写:{arquivo.name}")
        resultado = modelo.transcribe(str(arquivo), language="portuguese")
        saida = arquivo.with_suffix(".txt")
        saida.write_text(resultado["text"], encoding="utf-8")

print("✅ 所有文件都已转写!")

9.3. 将其他语言的音频翻译成葡萄牙语

resultado = modelo.transcribe("palestra_ingles.mp3", task="translate")

它会把英文音频翻译成葡萄牙语。对经常接触外文内容的人来说非常有用。

9.4. 强制转写更好地识别特定术语

resultado = modelo.transcribe(
    "entrevista.mp3",
    language="portuguese",
    initial_prompt="与 Dr. Almeida 关于 LGPD、COAF 和 compliance 的访谈。"
)

initial_prompt 就像“上下文”——Whisper 会借助它更好地理解内容,减少专有名词和专业术语的错误。

10. 常见问题(以及如何解决)

❌ “ModuleNotFoundError: No module named 'whisper'”
你大概率是在运行前忘记激活 (venv) 了。回去把它激活。

❌ “ffmpeg not found”
说明 ffmpeg 没装好,或者没有加入 PATH。请按照第 3 部分重新安装。

❌ 进程因为内存错误崩溃
试试更小的模型(tinybase),或者在转写时关闭浏览器、Spotify 和其他占内存的大程序。

❌ 转写质量不好

  • 检查音频是否有太多背景噪音。Whisper 很神,但糟糕的音频还是会变成糟糕的文本。
  • 试试更大的模型(smallmedium)。
  • 使用带有你所在领域关键词的 initial_prompt 技巧。

❌ 太慢了

  • 很长的音频(超过 1 小时)在 CPU 上处理几个小时也是正常的。
  • 如果你有很多文件,可以让电脑晚上开着继续处理。
  • 如果这已经成为你工作中的持续问题,也许值得投资更强大的方案(下面会讲到 👇)。

11. 当“自己动手”开始拖后腿时怎么办?

说实话:本地 Whisper 很棒,但它并不总是日常工作的最佳选择。在你接下来一周都在配置这些东西之前,先问问自己:

  • 📦 你每周转写超过 10 小时音频吗? 那可能已经到了该使用自动化流程的时候了(输入文件夹 → 转写 → 最终表格或文档自动生成)。
  • 👥 你或你的团队是否把大量时间浪费在重复任务上(重命名文件、按采访对象拆分转写、生成摘要、排版)?
  • 🔒 音频是否很敏感(客户、患者、法律案件),并且你需要确保没有任何内容离开你的电脑?
  • 📊 你是否需要把转写结果 集成到其他工具中(Google 表格、Notion、CRM、起诉书生成器等)?

如果你对以上至少一个问题回答的是,那也许就不该继续手工处理了。

这正是我们介入的地方。

👋 认识一下 Vem pra Descomplica

我们是一支把技术难题从你面前移开的团队,让你能回到工作中真正重要的事情上。我们帮助个人和企业:

  • 🛠️ 在你的电脑上搭建本地转写环境(没错,我们会通过视频通话帮你安装和配置好一切,你完全不用学 Python)。
  • ⚙️ 创建自动化流程,把音频自动转换成文字、摘要、表格、会议纪要、视频字幕。
  • 🔐 为处理敏感数据的人提供100% 本地化方案(法律、医疗、学术研究)。
  • 🧩 根据你已经在用的工具进行定制集成(Google Drive、Notion、ClickUp、表格、电子邮件等)。
  • 🧪 为想在投资前测试转写 AI 的公司提供POC 和概念验证

你不需要变成程序员才能让人工智能为你所用。你只需要有人帮你把它变简单。

💬 联系我们

第一次沟通免费且无义务。我们会一起查看你的情况,并诚实告诉你,是你自己就能解决,还是值得我们为你打造一个定制方案。

我想和 Descomplica 聊聊 →

12. 总结一下(给只想要速查版的人)

  1. 安装 Python 3.9+(别忘了在 Windows 上勾选“Add to PATH”)。
  2. 创建一个文件夹,在里面打开终端,然后运行 python -m venv venv
  3. 激活环境(Windows 上用 .\venv\Scripts\Activate.ps1,Mac/Linux 上用 source venv/bin/activate)。
  4. 运行 pip install openai-whisper 并安装 ffmpeg
  5. 复制第 4 部分的脚本,修改音频文件名,然后运行 python transcrever.py
  6. 打开 transcricao.txt,庆祝一下。🎉

好了。你刚刚已经在自己的机器上 100% 本地运行 AI 完成了音频转写,不用付费,不用把任何内容上传云端,也没有时间限制。若有一天这成为你工作中的瓶颈——你已经知道该找谁了。😉