Por que o nome do locutor não é exibido nos resultados de reconhecimento?

Certifique-se de que a 'Diarização de locutor' foi selecionada como método de segmentação e que a função 'Marcação de identidade' está ligada, e verifique se o idioma da impressão vocal corresponde.

Como melhorar a precisão do reconhecimento de locutor?

Recomenda-se fornecer 1 ou 2 amostras de voz humana claras para cada locutor, e o limite de agrupamento pode ser ajustado dinamicamente nas configurações de acordo com o efeito real.

Voltar ao início

Gestão de impressões vocais e locutores

A biblioteca de impressões vocais é a função central do Owl Meeting para "saber quem está falando". Ao gravar previamente amostras de voz de cada pessoa, o sistema pode identificar e marcar automaticamente o nome do locutor durante a transcrição de arquivos e até especificar o modelo de reconhecimento mais adequado para diferentes pessoas.

Última atualização: 21-04-2026 · Idioma do documento: Português

1. Adicionar um locutor

Acesse a "Biblioteca de impressões vocais" na barra de ferramentas à esquerda.
Clique em "Adicionar pessoa", preencha o nome (obrigatório) e as observações (opcional).
Atribua um modelo de reconhecimento para o locutor: quando o "Modo inteligente" em Transcrição de arquivos estiver ativado, o sistema usará automaticamente o modelo especificado aqui para reconhecer a voz do locutor.

Interface de gestão da biblioteca de impressões vocais

2. Adicionar amostras de impressão vocal

Selecione um locutor e clique em "Adicionar áudio".
Selecione um arquivo de áudio que contenha a voz humana clara do locutor.
Defina a hora de início/término na janela de recorte e clique em audição para confirmar.
Selecione Idioma da impressão vocal: selecione "Chinês" para amostras chinesas e "English" para amostras inglesas. Outros idiomas podem ser selecionados com base na família linguística.
Clique em salvar, o sistema extrairá automaticamente as características da impressão vocal e as associará ao locutor.

Adição e recorte de amostras de impressões vocais

Melhores práticas para coleta de amostras

Qualidade de áudio: escolha clipes com um fundo silencioso e apenas a voz do locutor de destino; evite segmentos onde várias pessoas falam ao mesmo tempo.
Recomendação de duração: cada segmento de amostra deve ter de 5 a 30 segundos. As características são insuficientes se for muito curto, e não há benefício adicional se for muito longo.
Várias amostras: um locutor pode ter várias amostras adicionadas. Se a mesma pessoa tiver uma grande diferença de timbre sob diferentes cenários (como presencial/telefone), adicionar mais amostras de cenários diferentes pode melhorar a taxa de reconhecimento.
Correspondência de idioma: o idioma selecionado ao adicionar amostras deve ser coerente com o "Idioma da impressão vocal" nas configurações de transcrição de arquivos; caso contrário, a correspondência falhará completamente. Os espaços de características dos modelos de impressões vocais em chinês e inglês são incompatíveis entre si.

3. Manutenção diária

Modifique o nome, observações e modelo especificado do locutor a qualquer momento.
Alterne entre visualizar diferentes amostras e ouça-as diretamente.
Ao excluir uma amostra, o arquivo de áudio local correspondente será apagado ao mesmo tempo.

4. Como a biblioteca de impressões vocais entra em vigor na transcrição

A biblioteca de impressões vocais desempenha um papel principalmente na Transcrição de arquivos offline. Para que os resultados da transcrição exibam automaticamente o nome do locutor, as seguintes condições devem ser atendidas simultaneamente:

Selecione "Locutor" como método de segmentação.
Ative a chave "Marcação de identidade".
O "Idioma da impressão vocal" nas configurações de transcrição de arquivos é coerente com o idioma selecionado ao adicionar amostras.

Ao atender às condições acima, a etiqueta do locutor no resultado de reconhecimento será substituída automaticamente pelo nome real inserido na biblioteca de impressões vocais.

5. FAQ e resolução de problemas

P: Por que os resultados do reconhecimento exibem apenas Speaker_0, Speaker_1 e nenhum nome?
R: Verifique os três itens em "Como as impressões vocais entram em vigor na transcrição" um por um. O motivo mais comum é esquecer de ativar a "Marcação de identidade" ou uma incompatibilidade no idioma da impressão vocal.
P: Os nomes são marcados, mas estão incorretamente atribuídos às pessoas erradas?
R: Tente aumentar o "Limite de correspondência de reconhecimento" (na área "Diarização e marcação do locutor" das configurações de transcrição de arquivos) ou adicione novamente amostras de impressões vocais mais claras para o locutor correspondente.
P: O número de pessoas reconhecidas automaticamente está incorreto?
R: Recomenda-se especificar manualmente o "Número de locutores" nas configurações. Se estiver usando o modo automático, você pode ajustar o "Limite de agrupamento" para controlar a sensibilidade do sistema a diferenças de som.

Sugestão: adicione 1 ou 2 amostras de voz humana claras para cada participante recorrente ao estabelecer a biblioteca. Assim que a biblioteca de impressões vocais estiver estabelecida, todas as transcrições de arquivos subsequentes poderão identificar identidades automaticamente, sem configuração repetida.