基于Gemini的一款一站式全自动字幕生成工具
Gemini-Subtitle-Pro 是一款一站式全自动字幕生成工具,使用 Google Gemini AI 和 OpenAI Whisper 等模型,实现从视频下载到字幕压制的完整流程,无需人工干预。主要功能包括:
- 全自动流程:支持从视频链接自动下载、语音转写、翻译、时间轴对齐、字幕压制导出。
- 视频下载:支持 YouTube(包括 Shorts)和 Bilibili(BV 号、分 P)视频下载(桌面版专有)。
- 语音转写:使用 Whisper 模型(支持本地离线模型 whisper.cpp 或在线 OpenAI API),实现高精度语音识别。
- 翻译与润色:使用 Gemini 模型(Gemini 1.5 Flash、1.5 Pro、2.0 Flash 等)进行高质量翻译,支持长上下文分段处理。
- 精准时间轴对齐:毫秒级字符同步,支持强制对齐,实现字幕与音频/视频精确匹配。
- 智能后处理:自动断句、时间轴校正、术语自动提取与替换(通过 Google Search 验证标准译法)、说话人识别与标注。
- 字幕预览与渲染:实时所见即所得预览,支持 ASS 样式(字体、颜色、位置等)。
- 视频压制:内置 FFmpeg,支持 H.264/H.265 编码,双语 SRT/ASS 格式导出。
- 性能优化:智能并发处理、GPU 加速(NVIDIA 显卡可提升 Whisper 速度 5-10 倍),30 分钟视频约 8-10 分钟完成。
- 其他:缓存管理、自定义 API、版本快照等。
整体适合影视字幕制作、听障辅助、专业配音等高精度需求。
如何使用(详细步骤)
项目主要提供 Windows 桌面便携版,使用非常简单,以下是完整步骤:
下载程序:
- 访问 GitHub Releases 页面:https://github.com/corvo007/Gemini-Subtitle-Pro/releases
- 下载最新版便携包(如
Gemini-Subtitle-Pro-x.x.x-win-x64.zip)。
安装与启动:
- 解压 ZIP 文件到任意文件夹。
- 双击
Gemini Subtitle Pro.exe启动程序(无需安装)。
配置 API Key(必须):
- 打开程序后,进入“设置”页面。
- 填写 Gemini API Key(推荐使用支持 Gemini 1.5/2.0 模型的公益站或官方 Key)。
- 填写 OpenAI API Key(用于在线 Whisper 转写,可选)。
- 保存配置。
可选:启用本地离线 Whisper 转写(推荐,避免 API 费用):
- 从 Hugging Face 下载 GGML 模型(如
ggml-base.bin或ggml-small.bin):https://huggingface.co/ggerganov/whisper.cpp/tree/main - 在设置 → 常规 → 选择“使用本地 Whisper”。
- 点击“浏览”选择下载的
.bin模型文件。 - 保存(推荐
ggml-small.bin或更高以获得更好质量)。
- 从 Hugging Face 下载 GGML 模型(如
可选:启用 GPU 加速(NVIDIA 显卡):
- 从 whisper.cpp Releases 下载 GPU 版(如
whisper-cublas-bin-x64.zip):https://github.com/ggerganov/whisper.cpp/releases - 解压得到
whisper-cli.exe和相关 DLL 文件。 - 将这些文件放入程序主目录或
resources/文件夹。 - 重启程序,即可自动使用 GPU 加速。
- 从 whisper.cpp Releases 下载 GPU 版(如
可选:启用高精度时间轴强制对齐(实现毫秒级字符同步):
- 从项目 Releases 下载
aligner-windows-x64.zip,解压得到align.exe。 - 从 Hugging Face 下载对齐模型:https://huggingface.co/MahmoudAshraf/mms-300m-1130-forced-aligner
- 在设置中选择“强制对齐”。
- 设置“执行文件”为
align.exe路径。 - 设置“模型路径”为下载的模型文件夹。
- 保存启用。
- 从项目 Releases 下载
开始生成字幕:
- 在主界面输入视频文件路径或支持的视频链接(YouTube/Bilibili)。
- 配置目标语言、翻译模型、输出格式等参数。
- 点击开始处理,程序会自动完成下载 → 转写 → 翻译 → 对齐 → 压制全流程。
- 处理完成后,可实时预览字幕效果,并导出 SRT/ASS 文件或压制视频。
注意事项:
- 不支持播放列表、直播、付费内容下载。
- 处理长视频时建议使用本地 Whisper + GPU 以提升速度和降低成本。
部署方式
- 是否只能本地部署:是的,主要设计为本地桌面应用(Windows 便携版),依赖 Electron + Node.js 图形界面和本地资源文件(如 whisper-cli.exe、align.exe),适合个人电脑本地运行。
- 是否可以在 VPS Linux 上部署使用:不支持。项目没有提供 Linux 版本或服务器端部署方式,无法在无图形界面的 Linux VPS 上运行(缺少 GUI 支持和 Windows 专用的可执行文件)。即使通过源码构建,也仅生成 Windows 桌面包,不适用于 Linux 服务器环境。
如果需要在 Linux 上实现类似功能,建议寻找其他开源项目(如基于 Python 的 Whisper + Gemini 脚本工具),但本项目不直接支持。