标签 字幕生成工具 下的文章

Gemini-Subtitle-Pro 是一款一站式全自动字幕生成工具,使用 Google Gemini AI 和 OpenAI Whisper 等模型,实现从视频下载到字幕压制的完整流程,无需人工干预。主要功能包括:

  • 全自动流程:支持从视频链接自动下载、语音转写、翻译、时间轴对齐、字幕压制导出。
  • 视频下载:支持 YouTube(包括 Shorts)和 Bilibili(BV 号、分 P)视频下载(桌面版专有)。
  • 语音转写:使用 Whisper 模型(支持本地离线模型 whisper.cpp 或在线 OpenAI API),实现高精度语音识别。
  • 翻译与润色:使用 Gemini 模型(Gemini 1.5 Flash、1.5 Pro、2.0 Flash 等)进行高质量翻译,支持长上下文分段处理。
  • 精准时间轴对齐:毫秒级字符同步,支持强制对齐,实现字幕与音频/视频精确匹配。
  • 智能后处理:自动断句、时间轴校正、术语自动提取与替换(通过 Google Search 验证标准译法)、说话人识别与标注。
  • 字幕预览与渲染:实时所见即所得预览,支持 ASS 样式(字体、颜色、位置等)。
  • 视频压制:内置 FFmpeg,支持 H.264/H.265 编码,双语 SRT/ASS 格式导出。
  • 性能优化:智能并发处理、GPU 加速(NVIDIA 显卡可提升 Whisper 速度 5-10 倍),30 分钟视频约 8-10 分钟完成。
  • 其他:缓存管理、自定义 API、版本快照等。

整体适合影视字幕制作、听障辅助、专业配音等高精度需求。

如何使用(详细步骤)

项目主要提供 Windows 桌面便携版,使用非常简单,以下是完整步骤:

  1. 下载程序

  2. 安装与启动

    • 解压 ZIP 文件到任意文件夹。
    • 双击 Gemini Subtitle Pro.exe 启动程序(无需安装)。
  3. 配置 API Key(必须)

    • 打开程序后,进入“设置”页面。
    • 填写 Gemini API Key(推荐使用支持 Gemini 1.5/2.0 模型的公益站或官方 Key)。
    • 填写 OpenAI API Key(用于在线 Whisper 转写,可选)。
    • 保存配置。
  4. 可选:启用本地离线 Whisper 转写(推荐,避免 API 费用):

    • 从 Hugging Face 下载 GGML 模型(如 ggml-base.binggml-small.bin):https://huggingface.co/ggerganov/whisper.cpp/tree/main
    • 在设置 → 常规 → 选择“使用本地 Whisper”。
    • 点击“浏览”选择下载的 .bin 模型文件。
    • 保存(推荐 ggml-small.bin 或更高以获得更好质量)。
  5. 可选:启用 GPU 加速(NVIDIA 显卡)

    • 从 whisper.cpp Releases 下载 GPU 版(如 whisper-cublas-bin-x64.zip):https://github.com/ggerganov/whisper.cpp/releases
    • 解压得到 whisper-cli.exe 和相关 DLL 文件。
    • 将这些文件放入程序主目录或 resources/ 文件夹。
    • 重启程序,即可自动使用 GPU 加速。
  6. 可选:启用高精度时间轴强制对齐(实现毫秒级字符同步):

    • 从项目 Releases 下载 aligner-windows-x64.zip,解压得到 align.exe
    • 从 Hugging Face 下载对齐模型:https://huggingface.co/MahmoudAshraf/mms-300m-1130-forced-aligner
    • 在设置中选择“强制对齐”。
    • 设置“执行文件”为 align.exe 路径。
    • 设置“模型路径”为下载的模型文件夹。
    • 保存启用。
  7. 开始生成字幕

    • 在主界面输入视频文件路径或支持的视频链接(YouTube/Bilibili)。
    • 配置目标语言、翻译模型、输出格式等参数。
    • 点击开始处理,程序会自动完成下载 → 转写 → 翻译 → 对齐 → 压制全流程。
    • 处理完成后,可实时预览字幕效果,并导出 SRT/ASS 文件或压制视频。

注意事项

  • 不支持播放列表、直播、付费内容下载。
  • 处理长视频时建议使用本地 Whisper + GPU 以提升速度和降低成本。

部署方式

  • 是否只能本地部署:是的,主要设计为本地桌面应用(Windows 便携版),依赖 Electron + Node.js 图形界面和本地资源文件(如 whisper-cli.exe、align.exe),适合个人电脑本地运行。
  • 是否可以在 VPS Linux 上部署使用不支持。项目没有提供 Linux 版本或服务器端部署方式,无法在无图形界面的 Linux VPS 上运行(缺少 GUI 支持和 Windows 专用的可执行文件)。即使通过源码构建,也仅生成 Windows 桌面包,不适用于 Linux 服务器环境。

如果需要在 Linux 上实现类似功能,建议寻找其他开源项目(如基于 Python 的 Whisper + Gemini 脚本工具),但本项目不直接支持。