为什么建议将多声道录音转换为单声道？

单声道音频能避免左右声道互相干扰，使 AI 引擎对发言人的识别更加精准。

中英文声纹模型可以通用吗？

不可以。中英文声纹模型生成的特征空间互不兼容。如果处理英文会议，请确保在设置中切换为[英文]声纹语言。

返回首页

音视频转写模式（离线模式）专为处理现有的录音、视频文件而设计。所有处理均在本地完成，确保您的商业隐私与数据安全。

最后更新：2026-04-21 · 文档语言：简体中文

Owl Meeting 具备极强的文件兼容性，但在开始前了解以下细节可以显著提升准确率：

文件拖入与格式支持

您可以根据文件内容的复杂程度灵活组合识别策略：

分段方式与设置面板

分段策略：
- 时间间隔 (VAD)：基于语气停顿自动分段，适用于个人陈述、播客。
- 说话人分离：根据声音特征自动切分。提示：开始处理前需指定声纹模型（中/英），其他语言可根据语系选择。

预览设置项识别效果。

离线设置面板中，VAD 分段参数（语音判定阈值、最小静音/语音/最大语音时间、边缘填充）与实时识别相同，详见实时转写文档。以下是文件转写专属的配置项：

当分段方式选择"说话人"时，以下参数决定分离质量：

说话人数量：明确知道音频中有几人说话时，直接指定具体数字（1~10），效果最佳。设为"自动"则由聚类阈值自行判断人数。
聚类阈值（仅"自动"模式生效）：控制系统对声音差异的敏感度。值越低，越容易把不同音色分成不同的人（可能一人被拆成两人）；值越高，越容易将相近音色归为同一人（可能两人被合并）。
最小语音时间：低于此时长的语音片段会被丢弃，可过滤咳嗽、语气词等极短杂音。
最大合并间隔：时间间隔小于此值的相邻同一说话人片段会被自动合并，减少碎片化分段。
身份标记：开启后，系统会将识别出的说话人与声纹库中已录入的人员进行比对，自动标注真实姓名。这也是使用"智能模式"的前提条件。
声纹语言：中文场景选"中文"，英文场景选"英文"。注意：中英文声纹模型的特征空间互不兼容，选错会导致匹配完全失效。其他语言需根据语系自行测试。
识别匹配阈值（需开启身份标记）：声纹比对结果高于此值才判定身份。不宜设置过高，否则已知人员可能无法被识别。

识别完成后，您可以利用内置工具直接生成高质量文稿：

得益于深度优化的本地推理引擎，即便在普通办公电脑的 CPU 上，Owl Meeting 也能跑出极速：

Q: 为什么文档中多次强调要将多声道转换为单声道？
A: 多声道（立体声）录音在复杂环境下容易产生回声干扰。转换为单声道后，AI 引擎对声纹特征的提取会更加纯净，能显著提升说话人分离的准确率。
Q: 识别出的发言人变成了 Speaker_0, Speaker_1...？
A: 这是系统赋予的临时 ID。您可以在结果页面直接点击这些 ID 进行全局重命名。系统会自动记录并在后续导出的 SRT 或 TXT 中生效。
Q: 我想让识别出的文字直接转为繁体？
A: 识别完成后，点击下方的“简繁转换”按钮，选择对应的地区编码（如“繁体中文”或“台繁”），即可一键全篇转换。

提示： 对于多通道视频文件，建议利用内置工具先提取/转换为单声道音频，以获得最精准的识别体验。