Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

语音到文字

概述

此数据流创建一个完整的语音转文字流水线:

麦克风 -> VAD -> Whisper (STT) -> Rerun (显示)

流水线从麦克风捕获音频,检测您何时在说话,使用 Whisper 模型将语音转录为文字,并在 Rerun 查看器中显示结果。

节点

  • dora-microphone:从麦克风捕获音频
  • dora-vad:语音活动检测 - 检测您何时在说话
  • dora-distil-whisper:使用 Distil-Whisper 模型进行语音转文字
  • dora-rerun:在 Rerun 查看器中可视化转录结果

先决条件

  • Python 3.11+
  • dora-rs
  • 麦克风
  • uv(Python 包管理器)

快速开始

1. 安装 dora

# 安装 dora CLI
cargo install dora-cli

# 或安装 Python 包(必须与 CLI 版本匹配)
pip install dora-rs

2. 构建和运行

cd examples/speech-to-text

# 创建虚拟环境
uv venv --seed -p 3.11

# 构建数据流
dora build whisper.yml --uv

# 运行数据流
dora run whisper.yml --uv

3. 查看结果

# 连接到 Rerun 查看器
rerun --connect rerun+http://127.0.0.1:9876/proxy

配置

Whisper 节点配置

变量描述默认值
TARGET_LANGUAGE转录目标语言english

数据流变体

  • whisper.yml:使用预打包节点的生产版本
  • whisper-dev.yml:用于本地开发的开发版本

架构

+------------+     +---------+     +------------------+
|   麦克风   | --> |   VAD   | --> | distil-whisper   |
+------------+     +---------+     | (语音转文字)     |
                                   +------------------+
                                            |
                                            v
                                       +--------+
                                       | rerun  |
                                       | (显示) |
                                       +--------+

故障排除

麦克风问题

  • 检查系统麦克风权限
  • 验证是否选择了正确的音频输入设备
  • 首先在其他应用程序中测试麦克风

模型下载缓慢

  • 首次运行需要下载 Whisper 模型,可能需要一些时间
  • 确保网络连接稳定
  • 模型在首次下载后会被缓存

中国用户可以使用 hf-mirror 镜像加速模型下载:

HF_ENDPOINT=https://hf-mirror.com dora build whisper.yml --uv

Rerun 版本不匹配

  • 如果看到版本警告,请安装匹配的 Rerun SDK:
    pip install rerun-sdk==<version>
    

源码

完整源码请参考:dora-examples/speech-to-text