—— 使用 yt-dlp + Whisper 的完整教程(Windows 版)

你是否也曾被 B站上的某段配乐、翻唱、演讲打动,想提取音频、生成歌词并同步播放?本教程将手把手带你完成 从下载音频、提取 MP3、生成歌词字幕、转为 LRC 同步歌词 的全过程。


🧰 核心工具简介

  • 🎬 yt-dlp:下载 B站等平台视频/音频内容的命令行工具
  • 🛠 FFmpeg:音视频处理工具,是 yt-dlp 和 Whisper 的必要依赖
  • 🧠 Whisper:OpenAI 开源语音识别工具,可自动生成带时间戳的字幕
  • 🐍 Python:Whisper 所需运行环境(需预先安装,建议使用 3.8+)

🛠 第一步:环境准备与工具安装

1.1 安装 FFmpeg 🧪

  1. 打开 FFmpeg 官网 https://ffmpeg.org/download.html
  2. 点击 Windows 图标,推荐选择 Windows builds by Gyan.dev
  3. 下载如 ffmpeg-release-full.7z 的压缩包并解压(推荐目录如 D:\tools\ffmpeg
  4. 确保 D:\tools\ffmpeg\bin 目录下有 ffmpeg.exeffprobe.exe
  5. D:\tools\ffmpeg\bin 添加到系统环境变量 Path
  6. 打开命令提示符,输入:
   ffmpeg -version

若看到版本信息,说明安装成功 ✅


1.2 安装 yt-dlp 🎬

使用 pip 安装(适合 Python 用户)

如果你已经安装了 Python,可以直接使用 pip 安装 yt-dlp:

pip install -U yt-dlp

安装完成后,执行:

yt-dlp --version

如果提示找不到命令,说明 Scripts 目录未添加到环境变量,可手动添加:

C:\Users\你的用户名\AppData\Local\Programs\Python\PythonXX\Scripts

1.3 安装 Whisper 🤖

Whisper 是基于 Python 的命令行工具,可自动生成带时间戳的字幕文件。

确保已安装 Python 后,在命令行中运行:

pip install -U openai-whisper

⚠️ 如你使用 NVIDIA 显卡,建议先安装 支持 CUDA 的 PyTorch,再安装 Whisper,可加速识别过程。


🎵 第二步:下载 B站视频并提取 MP3 音频

打开 PowerShell 或命令提示符,切换到保存音频的目录,例如:

cd F:\music

然后执行下载命令(以示例视频为例):

yt-dlp -x --audio-format mp3 --audio-quality 0 "https://www.bilibili.com/video/BV1pf4y1g7qE/" -o "%(title)s.%(ext)s"

📌 参数说明:

  • -x:仅提取音频
  • --audio-format mp3:转为 MP3 格式
  • --audio-quality 0:最高音质
  • -o:按视频标题命名输出文件

成功后,你将获得一个 .mp3 文件。


🧠 第三步:使用 Whisper 生成字幕文本

确保当前目录下已有 MP3 文件,或指定其完整路径。

执行如下命令开始识别:

whisper "文件名.mp3" --model medium --language Chinese --verbose True

📌 参数说明:

  • --model medium:模型越大识别越准(可选 tiny, base, small, medium, large)
  • --language Chinese:指定中文语言
  • --verbose True:显示详细进度

📝 生成结果包括:

  • 文件名.txt:纯文本
  • 文件名.srt ✅:带时间戳的字幕(可转为 LRC)
  • 文件名.vtt:网络视频字幕格式
  • 文件名.tsv / .json:其他分析数据

✍️ 第四步:校对字幕并转换为 LRC 同步歌词

打开 .srt 文件,手动校对句子内容(尤其是歌曲、诗朗诵等),格式如下:

1
00:00:00,000 --> 00:00:08,000
我独自一人 躲在无人的角落里

🎵 LRC 格式只需“开始时间 + 歌词内容”,格式如下:

[00:00.00] 我独自一人 躲在无人的角落里  
[00:08.00] 细数你给的伤悲

可以使用如下方式进行转换:

  • 在线工具(搜索“SRT 转 LRC”)
  • 使用简单 Python 脚本(支持批量处理)
  • 手动编辑(适合少量歌词)

🎧 (可选)播放测试 LRC 歌词

使用支持 LRC 的音乐播放器播放并同步歌词:

  • 🎵 Foobar2000 + 歌词插件
  • 🎶 AIMP
  • 📺 Jellyfin、MPV 等也支持字幕文件同步播放

✅ 结语

现在,你已经掌握了完整流程:

  1. 🎬 使用 yt-dlp 下载并提取音频
  2. 🛠 借助 FFmpeg 完成格式转换
  3. 🧠 用 Whisper 自动转录并生成字幕
  4. ✍️ 校对 + 转换为 LRC 歌词

虽然 Whisper 非常强大,但最终歌词质量仍需你亲自打磨。 你的耳朵,是最好的校对器!👂🎧