🎞️ 오디오/비디오 파일 전사
오프라인 모드는 로컬 디스크에 있는 오디오 또는 비디오 파일의 전사를 지원합니다. 모든 처리는 로컬에서 완료되어 프라이버시가 완벽하게 보호됩니다.
1. 지원 미디어 형식
Owl Meeting은 강력한 파일 호환성을 갖추고 있어 다양한 형식의 녹음 및 비디오 파일을 처리할 수 있습니다.
- 인식 파일: MP3, WAV, M4A, MP4, MKV, MOV 등 거의 모든 주요 미디어 형식을 지원합니다.
- 강력한 변환: 도구 인터페이스의 '오디오 변환' 기능을 사용하여 오디오/비디오 파일을 변환할 수 있습니다.
2. 분할 방식
합리적인 원고 정리를 위한 기초로서, 콘텐츠 시나리오에 가장 적합한 분할 전략을 선택할 수 있습니다.
- 시간 간격: 음성 활동 탐지(VAD)를 기반으로 자동 분할합니다. 개인 강연, 팟캐스트 또는 단독 발표에 적합합니다.
- 화자 분할: 서로 다른 발언자의 목소리 특징에 따라 분할합니다. 회의나 인터뷰 시나리오에 적합합니다.
- ID 태깅: 화자 분할과 함께 사용하여 각 발언 단락에 화자 태그를 자동으로 지정하며, 사후 수정을 지원합니다.
3. 스마트 모드
이 모드에서는 화자별로 전용 인식 모델을 지정하여 맞춤형 인식을 수행할 수 있습니다. 이를 통해 인식 속도와 정확도를 크게 향상시킬 수 있습니다.
서로 다른 언어나 억양에 가장 적합한 모델을 사용함으로써 복잡한 다인 대화 시나리오에 효과적으로 대응할 수 있습니다.
4. 테스트 모드
긴 오디오에서 무작위로 3분 분량의 샘플을 추출하여 인식을 실행합니다. 인식 효과를 빠르게 미리 보고 결과에 따라 매개변수와 모델을 동적으로 조정할 수 있습니다.
5. 성능
CPU 인식 최적화: 딥러닝 최적화 추론 엔진 덕분에 일반적인 PC CPU에서도 초고속 전사가 가능합니다.
- i5-11400H (5년 전 CPU): 30분 분량의 오디오를 약 1분 내에 처리합니다.
- i5-4210m (10년 전 CPU): 30분 분량의 오디오를 약 3분 내에 처리합니다.
팁: 다중 채널 비디오 파일의 경우, 내장 도구를 사용하여 먼저 모노 오디오로 추출/변환하면 가장 정확한 인식 결과를 얻을 수 있습니다.