Auto Caption | HiMeditator

v0.2.0版本已经发布。预计将添加本地字幕引擎的v1.0.0版本正在开发中...

Star History

📥 下载

GitHub Releases

📚 相关文档

Auto Caption 用户手册

字幕引擎说明文档

项目 API 文档

📖 基本使用

目前提供了 Windows 和 macOS 平台的可安装版本。

国际版的阿里云服务并没有提供 Gummy 模型，因此目前非中国用户无法使用 Gummy 字幕引擎。

如果要使用默认的 Gummy 字幕引擎（使用云端模型进行语音识别和翻译），首先需要获取阿里云百炼平台的 API KEY，然后将 API KEY 添加到软件设置中或者配置到环境变量中（仅 Windows 平台支持读取环境变量中的 API KEY），这样才能正常使用该模型。相关教程：

Vosk 模型的识别效果较差，请谨慎使用。

如果要使用 Vosk 本地字幕引擎，首先需要在 Vosk Models 页面下载你需要的模型，并将模型解压到本地，并将模型文件夹的路径添加到软件的设置中。目前 Vosk 字幕引擎还不支持翻译字幕内容。

如果你觉得上述字幕引擎不能满足你的需求，而且你会 Python，那么你可以考虑开发自己的字幕引擎。详细说明请参考字幕引擎说明文档。

✨ 特性

多界面语言支持
丰富的字幕样式设置
灵活的字幕引擎选择
多语言识别与翻译
字幕记录展示与导出
生成音频输出和麦克风输入的字幕

说明：

Windows 和 macOS 平台支持生成音频输出和麦克风输入的字幕，但是 macOS 平台获取系统音频输出需要进行设置，详见Auto Caption 用户手册
Linux 平台目前无法获取系统音频输出，仅支持生成麦克风输入的字幕

⚙️ 自带字幕引擎说明

目前软件自带 2 个字幕引擎，正在规划 1 个新的引擎。它们的详细信息如下。

Gummy 字幕引擎（云端）

基于通义实验室Gummy语音翻译大模型进行开发，基于阿里云百炼的 API 进行调用该云端模型。

模型详细参数：

音频采样率支持：16kHz及以上
音频采样位数：16bit
音频通道数支持：单通道
可识别语言：中文、英文、日语、韩语、德语、法语、俄语、意大利语、西班牙语
支持的翻译：
- 中文 → 英文、日语、韩语
- 英文 → 中文、日语、韩语
- 日语、韩语、德语、法语、俄语、意大利语、西班牙语 → 中文或英文

网络流量消耗：

字幕引擎使用原生采样率（假设为 48kHz）进行采样，样本位深为 16bit，上传音频为为单通道，因此上传速率约为：

48000 samples/second \times 2 bytes/sample \times 1 channel = 93.75 KB/s

而且引擎只会获取到音频流的时候才会上传数据，因此实际上传速率可能更小。模型结果回传流量消耗较小，没有纳入考虑。

Vosk 字幕引擎（本地）

基于 vosk-api 开发。目前只支持生成音频对应的原文，不支持生成翻译内容。

FunASR 字幕引擎（本地）

如果可行，将基于 FunASR 进行开发。还未进行调研和可行性验证。

🚀 项目运行

安装依赖

bash

npm install

构建字幕引擎

首先进入 caption-engine 文件夹，执行如下指令创建虚拟环境：

bash

# in ./caption-engine folder
python -m venv subenv
# or
python3 -m venv subenv

然后激活虚拟环境：

bash

# Windows
subenv/Scripts/activate
# Linux or macOS
source subenv/bin/activate

然后安装依赖（注意如果是 Linux 或 macOS 环境，需要注释掉 requirements.txt 中的 PyAudioWPatch，该模块仅适用于 Windows 环境）。

这一步可能会报错，一般是因为构建失败，需要根据报错信息安装对应的构建工具包。

bash

pip install -r requirements.txt

然后使用 pyinstaller 构建项目：

bash

pyinstaller ./main-gummy.spec
pyinstaller ./main-vosk.spec

注意 main-vosk.spec 文件中 vosk 库的路径可能不正确，需要根据实际状况配置。

# Windows
vosk_path = str(Path('./subenv/Lib/site-packages/vosk').resolve())
# Linux or macOS
vosk_path = str(Path('./subenv/lib/python3.x/site-packages/vosk').resolve())

此时项目构建完成，在进入 caption-engine/dist 文件夹可见对应的可执行文件。即可进行后续操作。

运行项目

bash

npm run dev

构建项目

注意目前软件只在 Windows 和 macOS 平台上进行了构建和测试，无法保证软件在 Linux 平台下的正确性。

bash

# For windows
npm run build:win
# For macOS
npm run build:mac
# For Linux
npm run build:linux

注意，根据不同的平台需要修改项目根目录下 electron-builder.yml 文件中的配置内容：

yml

extraResources:
  # For Windows
  - from: ./caption-engine/dist/main-gummy.exe
    to: ./caption-engine/main-gummy.exe
  - from: ./caption-engine/dist/main-vosk.exe
    to: ./caption-engine/main-vosk.exe
  # For macOS and Linux
  # - from: ./caption-engine/dist/main-gummy
  #   to: ./caption-engine/main-gummy
  # - from: ./caption-engine/dist/main-vosk
  #   to: ./caption-engine/main-vosk

Star History ​

📥 下载 ​

📚 相关文档 ​

📖 基本使用 ​

✨ 特性 ​

⚙️ 自带字幕引擎说明 ​

Gummy 字幕引擎（云端） ​

Vosk 字幕引擎（本地） ​

FunASR 字幕引擎（本地） ​

🚀 项目运行 ​

安装依赖 ​

构建字幕引擎 ​

运行项目 ​

构建项目 ​

Star History

📥 下载

📚 相关文档

📖 基本使用

✨ 特性

⚙️ 自带字幕引擎说明

Gummy 字幕引擎（云端）

Vosk 字幕引擎（本地）

FunASR 字幕引擎（本地）

🚀 项目运行

安装依赖

构建字幕引擎

运行项目

构建项目