Gestão de impressões vocais e locutores
A biblioteca de impressões vocais é a função central do Owl Meeting para "saber quem está falando". Ao gravar previamente amostras de voz de cada pessoa, o sistema pode identificar e marcar automaticamente o nome do locutor durante a transcrição de arquivos e até especificar o modelo de reconhecimento mais adequado para diferentes pessoas.
1. Adicionar um locutor
- Acesse a "Biblioteca de impressões vocais" na barra de ferramentas à esquerda.
- Clique em "Adicionar pessoa", preencha o nome (obrigatório) e as observações (opcional).
- Atribua um modelo de reconhecimento para o locutor: quando o "Modo inteligente" em Transcrição de arquivos estiver ativado, o sistema usará automaticamente o modelo especificado aqui para reconhecer a voz do locutor.
Interface de gestão da biblioteca de impressões vocais
2. Adicionar amostras de impressão vocal
- Selecione um locutor e clique em "Adicionar áudio".
- Selecione um arquivo de áudio que contenha a voz humana clara do locutor.
- Defina a hora de início/término na janela de recorte e clique em audição para confirmar.
- Selecione Idioma da impressão vocal: selecione "Chinês" para amostras chinesas e "English" para amostras inglesas. Outros idiomas podem ser selecionados com base na família linguística.
- Clique em salvar, o sistema extrairá automaticamente as características da impressão vocal e as associará ao locutor.
Adição e recorte de amostras de impressões vocais
Melhores práticas para coleta de amostras
- Qualidade de áudio: escolha clipes com um fundo silencioso e apenas a voz do locutor de destino; evite segmentos onde várias pessoas falam ao mesmo tempo.
- Recomendação de duração: cada segmento de amostra deve ter de 5 a 30 segundos. As características são insuficientes se for muito curto, e não há benefício adicional se for muito longo.
- Várias amostras: um locutor pode ter várias amostras adicionadas. Se a mesma pessoa tiver uma grande diferença de timbre sob diferentes cenários (como presencial/telefone), adicionar mais amostras de cenários diferentes pode melhorar a taxa de reconhecimento.
- Correspondência de idioma: o idioma selecionado ao adicionar amostras deve ser coerente com o "Idioma da impressão vocal" nas configurações de transcrição de arquivos; caso contrário, a correspondência falhará completamente. Os espaços de características dos modelos de impressões vocais em chinês e inglês são incompatíveis entre si.
3. Manutenção diária
- Modifique o nome, observações e modelo especificado do locutor a qualquer momento.
- Alterne entre visualizar diferentes amostras e ouça-as diretamente.
- Ao excluir uma amostra, o arquivo de áudio local correspondente será apagado ao mesmo tempo.
4. Como a biblioteca de impressões vocais entra em vigor na transcrição
A biblioteca de impressões vocais desempenha um papel principalmente na Transcrição de arquivos offline. Para que os resultados da transcrição exibam automaticamente o nome do locutor, as seguintes condições devem ser atendidas simultaneamente:
- Selecione "Locutor" como método de segmentação.
- Ative a chave "Marcação de identidade".
- O "Idioma da impressão vocal" nas configurações de transcrição de arquivos é coerente com o idioma selecionado ao adicionar amostras.
Ao atender às condições acima, a etiqueta do locutor no resultado de reconhecimento será substituída automaticamente pelo nome real inserido na biblioteca de impressões vocais.
5. FAQ e resolução de problemas
- P: Por que os resultados do reconhecimento exibem apenas Speaker_0, Speaker_1 e nenhum nome?
R: Verifique os três itens em "Como as impressões vocais entram em vigor na transcrição" um por um. O motivo mais comum é esquecer de ativar a "Marcação de identidade" ou uma incompatibilidade no idioma da impressão vocal. - P: Os nomes são marcados, mas estão incorretamente atribuídos às pessoas erradas?
R: Tente aumentar o "Limite de correspondência de reconhecimento" (na área "Diarização e marcação do locutor" das configurações de transcrição de arquivos) ou adicione novamente amostras de impressões vocais mais claras para o locutor correspondente. - P: O número de pessoas reconhecidas automaticamente está incorreto?
R: Recomenda-se especificar manualmente o "Número de locutores" nas configurações. Se estiver usando o modo automático, você pode ajustar o "Limite de agrupamento" para controlar a sensibilidade do sistema a diferenças de som.