🎞️ 音视频文件转写
离线模式支持对本地磁盘中的音频或视频文件进行转录,所有处理均在本地完成,确保隐私安全。
1. 支持的媒体格式
Owl Meeting 具备极强的文件兼容性,能够处理各种格式的录音与视频文件:
- 识别音视频文件:支持 MP3, WAV, M4A, MP4, MKV, MOV 等几乎所有主流音视频格式。
- 全能转换:可以使用工具界面中的格式转换功能,转换音视频文件。
2. 分段方式
合理的音频分段是高效整理文稿的基础,您可以选择最适合内容场景的切分策略:
- 时间间隔:基于语音活动检测 (VAD) 自动分段。适用于个人演讲、播客或单人陈述。
- 说话人分段:根据不同发言人的声音特征进行切分。适用于会议或访谈场景。
- 身份标记:配合说话人分段使用,自动为不同发言段落打上身份标签,并支持后续快速修改。
3. 智能模式
在该模式下,您可以为不同说话人指定专属的识别模型进行针对性识别。可以极大地提高识别速度和准确率。
针对不同的语言或口音使用最匹配的模型,能够有效应对复杂的多人对话场景。
4. 测试模式
随机在长音频中抽取 3 分钟样本进行识别,快速预览识别效果,根据测试结果动态调整参数和模型。
5. 性能
CPU 识别飞快:得益于深度优化的推理引擎,在普通电脑 CPU 上也能实现极速转写:
- i5-11400H(五年前的 CPU):30 分钟音频约 1 分钟即可处理完。
- i5-4210m(十年前的 CPU):30 分钟音频约 3 分钟即可处理完。
提示: 对于多通道视频文件,建议利用内置工具先提取/转换为单声道音频,以获得最精准的识别体验。