PROCESSAMENTO DE SENTENÇAS PARA COMPOSIÇÃO DE TESTES DE RECONHECIMENTO DE FALA EM PORTUGUÊS
Knappmann, K. ;
Ogawa, F. E. U. ;
Paul, S. ;
Introdução: No âmbito da avaliação e reabilitação auditiva de deficientes auditivos, testes de reconhecimento da fala tem grande importância. Na fase do desenvolvimento de testes de reconhecimento da fala, o material de fala e eventuais ruídos competitivos precisam ser manipulados para terem características desejadas e controladas. Entre as características a serem controladas figuram por exemplo um volume sonoro equilibrado entre as sentenças, ausência de artefatos de gravação, entre outros. Ainda, para fase de desenvolvimento de testes voltados para usuários de implantes cocleares, precisam ser simulados os efeitos do implante coclear. Como o número de sentenças a serem processadas é tipicamente muito grande, especialmente na fase de desenvolvimento, tais modificações dificilmente podem ser realizadas de forma manual, e o desenvolvimento de rotinas computacionais que automatizam o processo é desejável. Objetivo: Desenvolver, validar e aplicar códigos computacionais para manipulação automática de um grande número de dos sinais sonoros das sentenças e ruídos competitivos que integrarão o teste AzBio em português simulando os efeitos de um implante coclear. Metodologia: Por meio da linguagem computacional Python foram implementadas rotinas de processamento de sinais a serem aplicados a sinais sonoros das sentenças do AzBio em português. Resultados: As etapas do processamento podem ser classificados em três grupos: 1) modificações pré-vocoderização: mudança de formato .mp3 → .wav; fade-in e fade-out; filtro passa-alta; 2) vocoderização; 3) pós-vocoderização: adição de silêncio pré e pós sentença; além do ajuste de RMS. A função de fade-in e fade-out é responsável por suavizar o som do início e do final do arquivo da sentença, por meio de ajustes graduais na amplitude do som, proporcionando uma transição suave no início e no final da sentença durante 1 segundo. O filtro passa-alta foi implementado por meio de um filtro Butterworth de ordem 5 com frequência de corte em 80Hz, garantindo que frequências da voz não sejam afetadas, mas que ruídos de baixa frequência sejam filtradas. No que concerne a etapa da vocoderização, esta foi implementada por meio de um software externo, já que ela é necessária apenas para estudos que desejam modificar materiais de áudio no contexto de pesquisa com usuários de implantes cocleares. A adição de silêncio no início e no fim de cada sentença serve para estabelecer uma transição entre os arquivos, auxiliando o ouvinte a preparar-se para a próxima sentença falada. Por fim, foi implementada uma rotina de ajuste do “volume sonoro” das sentenças, em que a raiz da média quadrática RMS (Root Mean Square) das amplitudes do arquivo sonoro é ajustado para um valor a ser definido pelo usuário. Com estes ajustes, a expectativa é que todas as sentenças sejam percebidas com volume sonoro semelhante, mesmo que de forma aproximada. Por fim, todos os arquivos são salvos em formato .WAV com taxa de amostragem em 44.100Hz e RMS em -20dB e nome de arquivo gerado de forma automática. Conclusão: As rotinas foram implementadas e validadas processando-se 987 sentenças gravadas para fins do desenvolvimento do teste AzBio em português, demonstrando eficácia na manipulação precisa dos sinais sonoros.
DADOS DE PUBLICAÇÃO