universidade tecnologica federal do paran´ a´ programa de...

107
UNIVERSIDADE TECNOL ´ OGICA FEDERAL DO PARAN ´ A PROGRAMA DE P ´ OS-GRADUAC ¸ ˜ AO EM ENGENHARIA BIOM ´ EDICA ANDR ´ EA ALVES GUIMAR ˜ AES DRESCH M ´ ETODO PARA RECONHECIMENTO DE VOGAIS E EXTRAC ¸ ˜ AO DE PAR ˆ AMETROS AC ´ USTICOS PARA AN ´ ALISES FORENSES DISSERTAC ¸ ˜ AO CURITIBA 2015

Upload: others

Post on 26-Jan-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

  • UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA BIOMÉDICA

    ANDRÉA ALVES GUIMARÃES DRESCH

    MÉTODO PARA RECONHECIMENTO DE VOGAIS E EXTRAÇÃO DEPARÂMETROS ACÚSTICOS PARA ANÁLISES FORENSES

    DISSERTAÇÃO

    CURITIBA

    2015

  • ANDRÉA ALVES GUIMARÃES DRESCH

    MÉTODO PARA RECONHECIMENTO DE VOGAIS E EXTRAÇÃO DEPARÂMETROS ACÚSTICOS PARA ANÁLISES FORENSES

    Dissertação apresentada ao Programa dePós-Graduação em Engenharia Biomédicada Universidade Tecnológica Federal doParaná como requisito parcial para obtençãodo grau de “Mestre em Ciências” – Área deConcentração: Engenharia Biomédica.

    Orientador: Prof. Dr. Hugo Vieira Neto

    Coorientador: Prof. Dr. Rubens Alexandre deFaria

    CURITIBA

    2015

  • Dados Internacionais de Catalogação na Publicação

    D773m Dresch, Andréa Alves Guimarães

    2015 Método para reconhecimento de vogais e extração de

    parâmetros acústicos para análises forenses / Andréa Alves

    Guimarães Dresch.-- 2015.

    105 f.: il.; 30 cm

    Texto em português, com resumo em inglês.

    Dissertação (Mestrado) - Universidade Tecnológica

    Federal do Paraná. Programa de Pós-graduação em Engenharia

    Biomédica, Curitiba, 2015.

    Bibliografia: f. 67-72.

    1. Fonética acústica. 2. Fonética forense. 3. Língua

    portuguesa - Vogais. 4. Processamento de sinais -

    Modelos matemáticos. 5. Teoria da previsão. 6. Medição.

    7. Métodos de simulação. 8. Engenharia biomédica -

    Dissertações. I. Vieira Neto, Hugo, orient. II. Faria,

    Rubens Alexandre de, coorient. III. Universidade Tecnológica

    Federal do Paraná. Programa de Pós-graduação em Engenharia

    Biomédica. IV. Título.

    CDD: Ed. 22 -- 610.28

    Biblioteca Central da UTFPR, Câmpus Curitiba

  • UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ

    Campus Curitiba

    Programa de Pós-Graduação em Engenharia Biomédica

    Título da Dissertação Nº 048

    “Método para reconhecimento de vogais e extração de parâmetros acústicos para análises forenses”

    por

    Andréa Alves Guimarães Dresch ÁREA DE CONCENTRAÇÃO: Engenharia Biomédica.

    LINHA DE PESQUISA: Instrumentação Biomédica.

    Esta dissertação foi apresentada como requisito parcial à obtenção do grau de MESTRE EM CIÊNCIAS (M.Sc.) – Área de Concentração: Engenharia Biomédica, pelo Programa de Pós-Graduação em Engenharia Biomédica (PPGEB), – da Universidade Tecnológica Federal do Paraná (UTFPR), Campus Curitiba, às 10h00min do dia 14 de dezembro de 2015. O trabalho foi aprovado pela Banca Examinadora, composta pelos professores:

    ________________________________ Prof. Rubens Alexandre de Faria, Dr.

    (Presidente – UTFPR)

    ________________________________ Prof. Luiz Eduardo Soares de Oliveira , Dr.

    (UFPR)

    ________________________________ Prof. André Eugênio Lazzaretti, Dr.

    (UTFPR)

    Visto da coordenação:

    ________________________________ Profª. Leandra Ulbricht.,Drª. (Coordenadora do PPGEB)

    AVISO: A Folha de Aprovação assinada encontra-se na Coordenação do PPGEB.

  • À vovó Corina (in memoriam).

  • AGRADECIMENTOS

    O caminho dessa etapa da minha vida só foi possı́vel de ser percorrido por

    valiosas contribuições que recebi. Por isso expresso minha gratidão a essas pessoas.

    Agradeço ao Grupo de Estudos dos Sons da Fala da UTFPR, em especial à

    professora Malu, pela cessão de amostras de áudio utilizadas neste trabalho.

    Agradeço aos colegas do LAPIS, especialmente Eduardo, Philipe, Charles e

    Ricardo, pelo convı́vio que permitiu um imenso aprendizado.

    Agradeço aos meus colegas da Seção de Perı́cias Audiovisuais, Aninha, Ivo,

    Márcia, Lucas, Denise e Marilisa. O apoio de vocês foi muito importante.

    Agradeço ao meu orientador Hugo Vieira Neto, que tem tido um papel

    fundamental em minha formação. Nos momentos crı́ticos sempre soube trazer a

    motivação necessária.

    Ao meu coorientador Rubens Alexandre Faria por abrir as portas para

    Engenharia Forense no programa.

    A André Eugênio Lazzareti, pelo auxı́lio com as análises dos resultados dos

    experimentos.

    Agradeço aos meus familiares e amigos, por toda compreensão neste perı́odo.

    À minha mãe, dona Aparecida, por todas as orações sempre que eu precisava.

    Aos meus irmãos Karine, Rogério e Lucas, sempre irmãozinhos no meu

    coração.

    À Josianne, irmã por afinidade, pela amizade que atravessa os anos.

    Agradeço ao meu esposo, Marcio, companheiro de jornada e meu melhor

    amigo, sempre me amparando em todos os passos.

  • “Caminhante, não há caminho, faz-se caminho ao andar.”(Antônio Machado Ruiz)

    “NÃO ENTRE EM PÂNICO!”(Douglas Adams, Guia do Mochileiro das Galáxias)

  • RESUMO

    Dresch, Andréa Alves Guimarães. MÉTODO PARA RECONHECIMENTO DE VOGAISE EXTRAÇÃO DE PARÂMETROS ACÚSTICOS PARA ANÁLISES FORENSES. 105 f.Dissertação – Programa de Pós-Graduação em Engenharia Biomédica, UniversidadeTecnológica Federal do Paraná. Curitiba, 2015.

    Exames de Comparação Forense de Locutores apresentam caracterı́sticascomplexas, demandando análises demoradas quando realizadas manualmente.Propõe-se um método para reconhecimento automático de vogais com extração decaracterı́sticas para análises acústicas, objetivando-se contribuir com uma ferramentade apoio nesses exames. A proposta baseia-se na medição dos formantes atravésde LPC (Linear Predictive Coding), seletivamente por detecção da frequênciafundamental, taxa de passagem por zero, largura de banda e continuidade, sendo oagrupamento das amostras realizado por meio do método k-means. Experimentosrealizados com amostras de três diferentes bases de dados trouxeram resultadospromissores, com localização das regiões correspondentes a cinco das vogais doPortuguês Brasileiro, propiciando a visualização do comportamento do trato vocal deum falante, assim como detecção de trechos correspondentes às vogais-alvo.

    Palavras-chave: Análise Acústica, Exame de Comparação de Locutores, FonéticaForense, Processamento de Sinais de Áudio, Trapézio Fonético.

  • ABSTRACT

    Dresch, Andréa Alves Guimarães. METHOD FOR RECOGNITION OF VOWELS ANDEXTRACTION OF ACOUSTIC PARAMETERS FOR FORENSIC ANALYSIS. 105 f.Master’s Dissertation – Post-graduation Program in Biomedical Engineering, FederalUniversity of Technology - Paraná. Curitiba, 2015.

    Forensic Speaker Comparison exams have complex characteristics, demanding a longtime for manual analysis. A method for automatic recognition of vowels, providingfeature extraction for acoustic analysis is proposed, aiming to contribute as a supporttool in these exams. The proposal is based in formant measurements by LPC (LinearPredictive Coding), selectively by fundamental frequency detection, zero crossing rate,bandwidth and continuity, with the clustering being done by the k-means method.Experiments using samples from three different databases have shown promisingresults, in which the regions corresponding to five of the Brasilian Portuguese vowelswere successfully located, providing visualization of a speaker’s vocal tract behavior,as well as the detection of segments corresponding to target vowels.

    Keywords: Acoustic Analysis, Audio Signal Processing, Forensic Phonetics, ForensicSpeaker Comparison Exam, Phonetic Trapezium.

  • LISTA DE FIGURAS

    –FIGURA.1 Fluxograma das etapas principais da proposta . . . . . . . . . . . . . . . . . . . . 18–FIGURA.2 Diagrama em corte sagital do aparelho fonador com indicação dos

    sistemas que o compõem e seus principais elementos . . . . . . . . . . . . 22–FIGURA.3 Diagrama esquemático do mecanismo de produção de voz humana 23–FIGURA.4 Comparação entre os espectros LPC e FFT . . . . . . . . . . . . . . . . . . . . . . . 26–FIGURA.5 Trapézio vocálico fonético de acordo com o IPA . . . . . . . . . . . . . . . . . . . 28–FIGURA.6 Sobreposição do gráfico de F1×F2 com ilustração com posição da

    lı́ngua durante a produção das vogais orais tônicas . . . . . . . . . . . . . . . . 29–FIGURA.7 Fluxograma dos algoritmos implementados . . . . . . . . . . . . . . . . . . . . . . . 35–FIGURA.8 Gráfico de nuvem de pontos F1×F2 com os valores de formantes

    obtidos para todos os pontos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36–FIGURA.9 Gráfico de nuvem de pontos F1×F2 com os valores de formantes

    após análise de F0 e de ZCR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37–FIGURA.10 Gráfico de nuvem de pontos F1×F2 com os valores de formantes

    após análise inicial de agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38–FIGURA.11 Gráficos de um trecho de áudio: forma de onda com sobreposição

    de traçados de STE e ZCR e espectrogramas com sobreposição decurvas de F0 e de formantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    –FIGURA.12 Gráficos de nuvens de pontos F1×F2 referentes a diferentes trilhasde formantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    –FIGURA.13 Fluxogramas dos algoritmos implementados para agrupamento ebusca de centroides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    –FIGURA.14 Divisão do espaço F1 × F2 em regiões horizontais a partir dosmı́nimos obtidos através da função da densidade de probabilidade 44

    –FIGURA.15 Subdivisão de região do espaço F1 × F2 a partir dos mı́nimos emáximos da função densidade de probabilidade para inicializaçãodos centroides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    –FIGURA.16 Distribuição dos valores de razão entre as distâncias resultantes dosMétodos 1 e 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    –FIGURA.17 Gráfico de nuvem de pontos F1 × F2 com indicação do centroideassociado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

    –FIGURA.18 Gráficos de nuvens de pontos e trechos F1×F2 sobrepostos peloscentroides resultantes obtidos pelos Métodos 1 e 2 . . . . . . . . . . . . . . . . 53

    –FIGURA.19 Gráficos LTAS (Long Term Average Spectrum) . . . . . . . . . . . . . . . . . . . . 55–FIGURA.20 Boxplots com comparativo das distribuições de F1×F2 de amostras

    do grupo GC com degradações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60–FIGURA.21 Gráficos de nuvens de pontos F1×F2 e boxplots das distribuições

    dos formantes em diferentes trechos de uma amostra. . . . . . . . . . . . . 62

  • LISTA DE TABELAS

    –TABELA.1 Amostras de dados utilizadas nos experimentos . . . . . . . . . . . . . . . . . . . 34–TABELA.2 Resultados dos centroides do grupo GC da UTFPR obtidos após

    agrupamento por meio dos Métodos 1 e 2 . . . . . . . . . . . . . . . . . . . . . . . . . 48–TABELA.3 Diferenças entre os centros as referências do grupo GC da UTFPR

    após agrupamento por meio dos Métodos 1 e 2 . . . . . . . . . . . . . . . . . . . . 49–TABELA.4 Diferença percentual da distância entre a fronteira de cada região a

    referência mais próxima, com agrupamento pelos Métodos 1 e 2 . . . 51–TABELA.5 Quantidade de referências localizadas internamente às regiões

    delimitadas por meio dos Métodos 1 e 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 51–TABELA.6 Corpus UTFPR: percentual de vogais-alvo representadas na nuvem

    final e percentual médio das amostras dessas vogais . . . . . . . . . . . . . . 54–TABELA.7 Diferença dos valores F1 e F2 dos centroides em relação aos valores

    de referência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56–TABELA.8 Percentual de vogais-alvo representadas na nuvem final - grupos do

    corpus UTFPR sem degradação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56–TABELA.9 Diferença dos valores F1 e F2 dos centroides em relação aos valores

    de referência, amostras com codificação . . . . . . . . . . . . . . . . . . . . . . . . . . . 57–TABELA.10 Teste t de Student para comparar valores obtidos com amostras

    submetidas a codificações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57–TABELA.11 Percentual de vogais-alvo representadas na nuvem final - grupos do

    corpus UTFPR com codificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58–TABELA.12 Número de centroides reconhecidos nos grupos analisados após

    adição de ruı́do ao sinal das amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58–TABELA.13 Diferença dos valores F1 e F2 dos centroides em relação aos valores

    de referência, amostras com adição de ruı́do . . . . . . . . . . . . . . . . . . . . . . 59–TABELA.14 Teste t de Student para comparar valores obtidos com amostras com

    adição de ruı́do codificações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59–TABELA.15 Percentual de vogais-alvo representadas na nuvem final - grupos do

    corpus UTFPR com adição de ruı́do . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60–TABELA.16 Diferença dos valores de centroides em comparações intrafalantes

    para amostras do corpus C-ORAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

  • LISTA DE SIGLAS

    CL Comparação de LocutoresMFCC Mel-Frequency Cepstral CoefficientsLPCC Linear Prediction Cepstral CoefficientsHMM Hidden Markov ModelGMM Gaussian Mixture ModelSVM Support Vector MachineZCR Zero Crossing RateSTE Short Term EnergyMDF Most Dominant FrequencyF0 Frequência FundamentalF1 Primeiro FormanteF2 Segundo FormanteFn Enésimo FormanteLPC Linear Predictive CodingFFT Fast Fourier TransformPB Português BrasileiroIPA International Phonetic AlphabetBW1 Banda de passagem de F1BW2 Banda de passagem de F2PCM Pulse Code ModulationAMR-nb Adaptative multi rate - narrow bandAMR Adaptative multi rate3GPP 3rd Generation Partnership ProjectMP3 MPEG layer 3LTAS Long Term Average Spectrum

  • LISTA DE SÍMBOLOS

    rx(τ) Autocorrelação do sinalrxw(τ) Autocorrelação do sinal após janelamentorw(τ) Autocorrelação da janelas[n] Sinal de saı́dax[n] Sinal de áudio de entradam Número de coeficientes LPCŝ[n] Sinal de saı́da estimado através dos coeficientes LPCa[i] Coeficientes LPCe[n] Erro de predição do sistema LPCyn Predição linear das amostras anterioreszn Predição linear das amostras posterioresK Número de agrupamentos do método k-meansd Distância Euclidianaµµµkkk K-ésimo centro de agrupamento do método k-meansrnk Rótulo do enésimo padrão de entradaxxxnnn Enésimo padrão de entrada do método k-meansµ Média da distribuição

  • SUMÁRIO

    1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.1 MOTIVAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.2 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.2.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.2.2 Objetivos Especı́ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.3 ABORDAGEM PROPOSTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.4 ESTRUTURA DA DISSERTAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 TRABALHOS CORRELATOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.1 PRODUÇÃO DE VOZ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.1.1 Sistema Respiratório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.1.2 Sistema Laringeal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.1.3 Sistema Articulatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.2 TEORIA FONTE-FILTRO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.2.1 Frequência Fundamental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2.2 Formantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.3 FONEMAS DO PORTUGUÊS BRASILEIRO (PB) . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3.1 Vogais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3.2 Semivogais ou Glides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.3.3 Consoantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.4 MODELO DE AGRUPAMENTO K-MEANS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314 MATERIAIS E MÉTODOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.1 AMOSTRAS DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.1.1 Corpus UTFPR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.1.2 Corpus SPOLTECH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.1.3 Corpus C-ORAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.2 FERRAMENTAL DE EDIÇÃO DE ÁUDIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.3 ALGORITMOS UTILIZADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.3.1 Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.3.2 Rotina para Cálculo da Taxa de Passagem por Zero . . . . . . . . . . . . . . . . . . . . . . . 374.3.3 Detecção da Frequência Fundamental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.3.4 Cálculo de Formantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.3.5 Seleção de Amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.3.6 Continuidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.3.7 Modelo de Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.3.8 Inicialização dos Centroides - “Método 1” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.3.9 Inicialização dos Centroides - “Método 2” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455 EXPERIMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.1 COMPARAÇÃO ENTRE OS MÉTODOS DE INICIALIZAÇÃO . . . . . . . . . . . . . . . 465.2 ALOCAÇÃO DOS CENTROIDES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.3 RECONHECIMENTO DOS TRECHOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.4 CODIFICAÇÃO DOS SINAIS DE ÁUDIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

  • 5.5 ADIÇÃO DE RUÍDO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475.6 COMPARAÇÃO INTRAFALANTES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476 RESULTADOS E DISCUSSÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486.1 COMPARAÇÃO ENTRE OS MÉTODOS DE INICIALIZAÇÃO . . . . . . . . . . . . . . . 486.1.1 Alocação dos Centroides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486.1.2 Reconhecimento dos Trechos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536.1.3 Média Espectral após o Reconhecimento dos Trechos . . . . . . . . . . . . . . . . . . . . . 546.2 RESULTADOS PARA DEGRADAÇÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556.2.1 Codificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 566.2.2 Adição de Ruı́do . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 586.3 RESULTADOS PARA COMPARAÇÃO INTRAFALANTES . . . . . . . . . . . . . . . . . . . 617 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 637.1 TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67APÊNDICE A - CÓDIGO DOS PROGRAMAS GERADOS NO PRAAT . . . . . . . . . . 73A.1 ROTINA PARA CÁLCULO E GERAÇÃO DE TABELAS COM VALORES DE

    STE, ZCR, F0 E TRILHAS DE F1,2,3 E BW1,2,3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73A.2 ROTINA PARA CRIAÇÃO DE TEXTGRIDS COM VALORES DE TRECHOS 82APÊNDICE B - CÓDIGO DOS PROGRAMAS GERADOS NO MATLAB . . . . . . . . . 86B.1 FUNÇÃO PRINCIPAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86B.2 FUNÇÃO PARA FORMATAR TABELAS GERADAS NO PRAAT . . . . . . . . . . . . . 87B.3 FUNÇÕES PARA GERAR NUVEM DE PONTOS F1×F2 - MÉTODO 1 . . . . . . 88B.4 FUNÇÕES PARA GERAR NUVEM DE PONTOS F1×F2 - MÉTODO 2 . . . . . . 92B.5 FUNÇÃO PARA CALCULAR VALORES MÉDIOS NOS TRECHOS . . . . . . . . . 95APÊNDICE C - RESULTADOS OBTIDOS DURANTE OS EXPERIMENTOS . . . . . 97C.1 RESULTADOS OBTIDOS POR MEIO DOS MÉTODOS 1 E 2 . . . . . . . . . . . . . . . 97C.2 DISTÂNCIAS RESULTANTES APÓS AGRUPAMENTO POR MEIO DOS

    MÉTODOS 1 E 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98C.3 DIFERENÇA DOS VALORES F1 E F2 DOS CENTROIDES EM RELAÇÃO

    AOS VALORES DE REFERÊNCIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99C.4 PERCENTUAL DE VOGAIS-ALVO REPRESENTADAS NA NUVEM FINAL -

    GRUPOS DO CORPUS UTFPR SEM DEGRADAÇÃO . . . . . . . . . . . . . . . . . . . . . 99C.5 DIFERENÇA DOS VALORES F1 E F2 DOS CENTROIDES EM RELAÇÃO

    AOS VALORES DE REFERÊNCIA, AMOSTRAS COM CODIFICAÇÃO . . . . .100C.6 PERCENTUAL DE ACERTO DE VOGAIS-ALVO PARA AMOSTRAS COM

    CODIFICAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101C.7 NÚMERO DE CENTROIDES RECONHECIDOS APÓS ADIÇÃO DE RUÍDO

    AO SINAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .102C.8 DIFERENÇA DOS VALORES F1 E F2 DOS CENTROIDES EM RELAÇÃO

    AOS VALORES DE REFERÊNCIA, AMOSTRAS COM ADIÇÃO DE RUÍDO 103C.9 PERCENTUAL DE ACERTO DE VOGAIS-ALVO PARA AMOSTRAS COM

    ADIÇÃO DE RUÍDO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .104C.10 DIFERENÇA DOS VALORES DE CENTROIDES EM COMPARAÇÕES

    INTRAFALANTES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .105

  • 14

    1 INTRODUÇÃO

    A produção de provas, regulamentada através do Código de Processo Penal

    (BRASIL, 1941; BRASIL, 2008), tem sido cada vez mais comum por meio de

    registros de áudio, em especial após a promulgação da Lei 9296/96 que trata das

    interceptações telefônicas (BRASIL, 1996), disciplinada pelas Resoluções nº 59 e

    nº 84 (CNJ, 2008; CNJ, 2009). Consequentemente, as demandas da área forense

    referentes às perı́cias audiovisuais para atribuição de autorias têm se intensificado.

    O exame de Comparação de Locutores (CL) tem por finalidade verificar se

    dois registros de voz e fala foram produzidos por um mesmo indivı́duo, consistindo

    na comparação entre um registro de áudio denominado questionado - sobre o qual

    pairam dúvidas quanto à autoria das falas - e um registro padrão - registros de fala

    de identidade conhecida (MORISSON, 2003; GRECO, 2013; GONÇALVES; PETRY,

    2015). A importância desse exame reside na possibilidade de vincular ou desvincular

    um indivı́duo a um fato delituoso materializado através de um registro de áudio

    (BRAID, 2003).

    Um exemplo no qual um exame de CL seria destacadamente importante

    supõe uma gravação oriunda de interceptação telefônica, cumprindo todos os

    requisitos legais, seja a única prova material para esclarecimento de um crime. Seu

    conteúdo trata-se de um diálogo entre duas pessoas, identificadas como João e

    Maria, que trocam informações sobre um homicı́dio perpetrado por ambos contra

    um terceiro indivı́duo, sendo que os falantes não apenas explicitam sua participação,

    como também mencionam detalhes que alteram a classificação do delito de homicı́dio

    simples para qualificado, de acordo com o Código Penal (BRASIL, 1940). Ocorre que,

    durante o processo penal, o defensor dos acusados argumenta que as vozes ouvidas

    na gravação não são de seus clientes.

    É indiscutı́vel a importância do exame de CL para dirimir dúvidas como a

    descrita no exemplo. Nesse caso hipotético, associar ou não, equivocadamente,

    as vozes presentes na gravação às pessoas João e Maria, leva a dois cenários

    diametralmente opostos: impunidade de indivı́duos culpados de um crime de maior

    potencial ofensivo, ou situação eticamente ainda pior, reclusão injusta de cidadãos

    inocentes do crime imputado.

  • 15

    Relatórios de diagnóstico da Segurança Pública e da Perı́cia Criminal

    brasileira apontam a carência de peritos criminais (SENASP, 2012; ENASP, 2012), o

    que consequentemente culmina em passivo de laudos nos Institutos de Criminalı́stica.

    O represamento de materiais a serem examinados prejudica a celeridade necessária

    para a produção de provas, o que, de acordo com Vargas e colaboradores (2006),

    contribui para a morosidade de um processo penal.

    Nesse contexto, agravado pela complexidade das análises envolvidas, uma

    vez que o exame de CL requer um tempo de execução muito superior à média dos

    demais exames periciais, a gestão de recursos humanos de Seções de Perı́cias

    Audiovisuais é dificultada, analogamente ao constatado por Vrubel e colaboradores

    (2013) em relação à Seção de Computação Forense .

    Segundo Gomes e Carneiro (2014), nos órgãos brasileiros que realizam

    exames de CL, observa-se uma preponderância de fonoaudiólogos e engenheiros

    eletricistas. Contudo, independentemente da área de formação do perito criminal,

    a interdisciplinaridade inerente a esse exame (GOMES et al., 2012) exige uma grande

    construção de conhecimento. Portanto, a capacitação deve ser rigorosa, pois em

    cada exame um diferente aspecto poderá ser decisivo para determinação/exclusão

    de autoria (MIQUILUSSI et al., 2014). Dessa forma, torna-se ainda mais reduzido

    o número de peritos criminais aptos para receberem designações de exames de

    CL. É desejável, portanto, que se busque o aperfeiçoamento das técnicas adotadas,

    para melhor aproveitamento dos recursos humanos disponı́veis e para otimização -

    quantitativa e qualitativa - do exame.

    Em pesquisa realizada por Gold e French (2011), foi efetuado um

    levantamento das técnicas utilizadas para esse exame em 13 paı́ses, sendo

    constatada a predominância da utilização das análises classificadas como perceptivo-

    auditiva e acústico-instrumental, ou simplesmente perceptiva e acústica (MORISSON

    et al., 2009). Os autores observaram ainda que, mesmo quando algum sistema de

    reconhecimento automático é utilizado, não se abandona por completo as análises

    humanas, tanto que recentemente tem-se adotado a nomenclatura “Automático com

    Supervisão Humana” (MORRISON et al., 2015).

    No cenário brasileiro, a constatação de Gold e French (2011) é de que as

    análises perceptiva e acústica são adotadas combinadamente, sendo tal apontamento

    corroborado por autores brasileiros (MORISSON et al., 2009; GONÇALVES; PETRY,

    2015).

  • 16

    A análise perceptiva requer um profissional capacitado para identificar

    propriedades da qualidade da voz, padrões articulatórios, traços linguı́sticos, entre

    outros atributos. Recentemente foi proposto por Gonçalves e Petry (2015) o ”Protocolo

    Forense para Análise Perceptivo-Auditiva de Amostras de Fala”, para auxiliar a

    identificação e análise de caracterı́sticas relativas à qualidade de voz, que também

    ampara análises de sociofonética (GONÇALVES; BRESCANCINI, 2014).

    Por sua vez, a análise acústica engloba medições de curto e de longo

    termo, nos domı́nios temporal e espectral, sendo que, de acordo com Morisson

    e colaboradores (2009), os parâmetros acústicos servem como suporte para

    achados em análises perceptivas. Contudo, algumas análises requerem extensiva

    segmentação de trechos com fonemas a serem submetidos à extração de parâmetros,

    o que, dependendo do volume do material, pode tornar o exame extremamente

    laborioso.

    Sendo assim, a proposta desta pesquisa é o desenvolvimento de um método

    para contribuir para o desenvolvimento de uma ferramenta para auxı́lio de análises

    acústicas que facilite a visualização de caracterı́sticas úteis para o exame de CL:

    energia, frequência fundamental, frequência e banda de formantes, taxa de subida

    ou descida de formantes em um trecho.

    1.1 MOTIVAÇÃO

    Objetiva-se que o método proposto seja integrado em ferramenta de apoio em

    exames de CL. Para tal implementação, a escolha do aproveitamento de interfaces do

    aplicativo Praat (BOERSMA; WEENINK, 2015) se deve pelo mesmo ser um software

    livre e amplamente difundido tanto no ambiente acadêmico como no forense, tal que

    os profissionais da área já estão familiarizados com o mesmo.

    Embora o foco seja forense, a ferramenta também poderá ser utilizada em

    outras áreas de linguı́stica ou de fonoaudiologia. O intento é o reconhecimento

    de trechos vozeados de uma gravação, sem a obrigatoriedade de pré-segmentação

    manual, além da disponibilização de gráficos, com possibilidade de seleção de áreas

    a serem reavaliadas com a visualização de oscilograma e espectrograma, com os

    trechos de interesse concatenados ou simplesmente etiquetados.

    Tal funcionalidade seria útil, por exemplo, em análises do comportamento

    formântico a longo termo do trato vocal de um dado falante. Porém, nos casos

  • 17

    em que tal hipótese não se confirme devido à interferência agressiva de ruı́do ou a

    particularidades da voz em questão, ou mesmo no caso de outliers, o perito teria a

    possibilidade de confirmar perceptivamente o que ocorreu.

    O método proposto poderá auxiliar em análises acústicas manuais, sem

    detrimento da utilização de sistemas de reconhecimento automático. Além disso, um

    padrão visual auxiliaria em análise intra e inter-sujeito, pois se espera em uma CL que

    sejam encontrados elementos estáveis o suficiente e que denotem similaridades em

    falas pertencentes a um falante, mas que não sejam comuns a outros indivı́duos.

    1.2 OBJETIVOS

    1.2.1 Objetivo Geral

    Obter um método para reconhecimento de vogais, com a finalidade de

    segmentar automaticamente e extrair caracterı́sticas acústicas de fonemas vocálicos

    em exames de CL.

    1.2.2 Objetivos Especı́ficos

    • Selecionar amostras de áudio viáveis para extração e análise de parâmetros

    acústicos.

    • Implementar funções nos software Praat e Matlab para segmentação de trechos

    vocálicos, assim como a obtenção do trapézio fonético vocálico.

    • Estabelecer critérios para avaliação de desempenho dos métodos

    implementados.

    • Conduzir experimentos com diversos tipos de degradação do sinal de áudio, tais

    como codificação, compressão e adição de ruı́do.

    1.3 ABORDAGEM PROPOSTA

    Com a finalidade de proporcionar uma visão geral da metodologia proposta,

    apresenta-se a seguir um resumo de suas etapas, as quais estão ilustradas na

    Figura 1.

  • 18

    ENTRADA

    Seleção de trechos apartir de três corpora,e preparação dasamostras

    EXTRAÇÃO DECARACTERÍSTICAS

    Cálculo de parâmetrosacústicos e geração detabelas com resultados

    PROCESSAMENTODO SINAL

    Processamento do sinal paraclassificação das amostras eseu agrupamento, comutilização de dois métodosde inicialização

    SAÍDA

    Nuvem resultante dosprimeiros formantes esegmentação emtrechos vocálicos enão-vocálicos

    Figura 1: Fluxograma das etapas principais da proposta.

    • Entrada: para realização dos experimentos foram selecionadas amostras de

    áudio de três diferentes corpora. Para avaliação da robustez do método, as

    análises foram efetuadas não apenas para os sinais de áudio sem degradação,

    como também com os mesmos submetidos a codificação, compressão ou adição

    de ruı́do. A escolha das degradações foi feita com base na natureza de materiais

    que costumeiramente são encaminhados para perı́cia: provenientes de ligações

    telefônicas, gravadas em formatos que utilizam compressão com perdas ou com

    ruı́do de fundo.

    • Extração de Caracterı́sticas: cálculo de parâmetros acústicos do sinal. No

    método proposto, a medição dos formantes é feita pela técnica LPC (Linear

    Predictive Coding), conforme o método de Burg (COLLOMB, 2009), com

    posterior ponderação de custos para determinação final dos valores de cada

    formante (com base na frequência e na banda). São descartados os pontos

    em que não há detecção de F0 (frequência fundamental), calculados através de

    autocorrelação nas janelas (trechos em análise) com energia acima e taxa de

    passagem por zero abaixo de limiares pré-estabelecidos.

    • Processamento do sinal: reconhecimento de agrupamentos de pontos (ou

    clusters) relacionados à anterioridade e à altura das vogais, identificando que

    vogal se refere a cada região especı́fica (/a/, /e/, /E/, /i/, /o/, /O/ e /u/).

    Embora, como constatado por Escudero e colaboradores (2009), no Português

    Brasileiro (PB) tal determinação possa ser feita por meio de várias combinações

    de parâmetros, a combinação dos formantes F1×F2 é a que melhor evidencia adistribuição das vogais.

    Com o mecanismo desenvolvido foi possı́vel proceder à análise das vogais, com

    base em seus parâmetros acústicos, sem necessidade de segmentação prévia.

    A estratégia explorada foi a de utilizar a detecção da frequência fundamental

    (F0), a determinação de limiares de taxa de passagem por zero e de energia de

  • 19

    curto termo, assim como a avaliação da continuidade de valores em amostras

    subsequentes, para possibilitar a seleção dos instantes com valores válidos de

    formantes, de forma a minimizar a interferência de fonemas consonantais.

    Foram avaliadas duas variações de métodos para reconhecimento das vogais,

    os quais diferiam entre si na forma de realizar o agrupamento dos pontos F1×F2.No denominado “Método 1”, obtém-se uma matriz com valores de formantes

    calculados a partir de um valor médio de vogais como referência e a busca de

    centroides se baseia nos picos das distribuições de F1 × F2. Por outro lado,no “Método 2”, trabalha-se com várias matrizes de formantes, designadas de

    “trilhas”, e a busca de centroides parte de valores iniciais definidos a priori.

    • Saı́da: foram obtidas nuvens resultantes para os primeiros formantes F1×F2,assim como a segmentação do sinal de áudio em trechos vocálicos e não-

    vocálicos. Os resultados obtidos demonstraram sucesso na segmentação

    automática de vogais, sendo constatado um melhor desempenho do “Método

    2” tanto em relação ao número de centroides localizados, como à quantidade e

    duração dos trechos-alvo reconhecidos.

    1.4 ESTRUTURA DA DISSERTAÇÃO

    Esta dissertação está organizada da seguinte maneira: no Capı́tulo 2 são

    trazidos trabalhos recentes de reconhecimento automático de vogais, enquanto que no

    Capı́tulo 3 são abordados conceitos relacionados à produção de voz, à Teoria Fonte-

    Filtro, caracterı́sticas acústicas associados aos fonemas, assim como ao modelo de

    agrupamento k-means. O Capı́tulo 4 trata da descrição das amostras de dados,

    ferramental e algoritmos utilizados. No Capı́tulo 5 são elencados os experimentos

    realizados, sendo os resultados obtidos apresentados e discutidos no Capı́tulo 6. No

    Capı́tulo 7, os principais resultados são retomados, sendo feita uma discussão acerca

    da contribuição do método desenvolvido e de trabalhos futuros.

  • 20

    2 TRABALHOS CORRELATOS

    Dentro da área de processamento de sinais de fala encontra-se a aplicação de

    reconhecimento de locutor (ou falante), a qual apresenta três subdivisões principais:

    detecção, identificação e verificação de locutor, podendo as mesmas ser classificadas

    como dependentes ou independentes de texto (CAMPBELL JR, 1997).

    A identificação de locutor ocorre em um contexto 1:N, pois efetua-se a

    comparação do alvo com os indivı́duos de um dado grupo, podendo ou não existir

    uma correspondência. Na verificação de locutor, por outro lado, existe uma relação

    1:1 para comparação, uma vez que há uma identidade alegada para o alvo (ADAMI,

    2004).

    Os sistemas de reconhecimento automático de locutor apresentam estruturas

    similares às dos sistemas de reconhecimento de fala. Englobam etapas de extração

    de parâmetros, comparação e de decisão. A etapa de extração de parâmetros tem por

    objetivo estimar um vetor de caracterı́sticas do sinal de áudio, a fim de possibilitar que

    comparações possam ser feitas a partir desse vetor. A etapa de comparação envolve

    o cálculo de um valor de correspondência, que expresse a similaridade entre as

    caracterı́sticas extraı́das dos sinais sob análise. Por fim, à etapa de decisão compete

    determinar se as vozes comparadas foram produzidas por um mesmo indivı́duo

    (CAMPBELL JR, 1997).

    O desenvolvimento de tais sistemas baseia-se, principalmente, na extração

    de caracterı́sticas por meio de técnicas MFCC (Mel-Frequency Cepstral Coefficients),

    LPCC (Linear Prediction Cepstral Coefficients), com modelamento HMM (Hidden

    Markov Model), GMM (Gaussian Mixture Model), SVM (Support Vector Machine) ou

    redes neurais (DRYGAJLO, 2012; FURUI, 2005; REYNOLDS, 2002; KINNUNEN; LI,

    2010).

    Ressalta-se, contudo, que a motivação deste trabalho foi contribuir com

    ferramental para auxiliar peritos criminais durante a realização do exame, por meio

    da segmentação de fonemas vocálicos. Com base nisso, buscou-se na literatura

    trabalhos relacionados ao reconhecimento automático de vogais, especialmente em

    contexto de fala encadeada.

  • 21

    Alotaibi e Hussain (2010) realizaram um sistema para reconhecimento de

    vogais do idioma Árabe. Os autores efetuaram modelamento HMM, sendo a

    extração de caracterı́sticas feita por meio de MFCC e de formantes, tendo obtido um

    desempenho similar para ambas as técnicas, com taxa de acerto de até 91,6%.

    Pradhan e Prasanna (2013) propõem a segmentação de regiões vocálicas

    e não-vocálicas como estratégia para melhorar o desempenho na tarefa de

    reconhecimento de falante. No método aplicado, essas regiões são submetidas de

    forma independente ao estágio de extração de caracterı́sticas por meio de MFCC, e

    em seguida à etapa de classificação com uso de GMM. Para decisão, os resultados

    obtidos são combinados, porém com uma atribuição distinta de pesos (há um

    favorecimento das regiões vocálicas que são menos degradadas por ruı́do). Tal

    implementação resultou em redução da taxa de erro de 6,63% para 6%.

    Deekshitha e Leena (2014) propõem um sistema para classificação de

    fonemas presentes no Malaiala, uma das lı́nguas oficiais da Índia. O método de

    extração de caracterı́sticas, que foi indicado como tendo melhor resultado, foi baseado

    na combinação de coeficientes MFCC com caracterı́sticas do sinal - ZCR (Zero

    Crossing Rate - taxa de passagem por zero), STE (Short Term Energy - energia

    de curto termo), MDF (Most Dominant Frequency - frequência dominante), spectral

    flatness (nivelamento espectral). Para classificação foram utilizadas redes neurais

    artificiais. As autoras buscavam o reconhecimento das diferentes categorias de

    consoantes além das vogais, para as quais foi obtida uma taxa de acerto de 60%

    com o método de extração indicado.

    Na abordagem proposta por Beke e Horvárth (2015) para reconhecimento

    de vogais nasais do idioma Húngaro, a partir de um corpus de fala espontânea, a

    extração de caracterı́sticas foi feita com MFCC e a classificação com HMM, sendo

    utilizados 1490 vogais para treino e 745 para teste. Com essa abordagem os autores

    conseguiram uma taxa de acerto de 75,8% no reconhecimento das vogais.

    No presente trabalho optou-se pela extração de caracterı́sticas acústicas do

    sinal, sendo a classificação das regiões vocálicas realizadas com a aplicação do

    método de agrupamento k-means na nuvem de pontos F1× F2, após refinamentose inicialização detalhados na Seção 4.3. Adotou-se tal metodologia para ser possı́vel

    realizar a segmentação sem a etapa de treinamento, procedimento necessário nos

    métodos de classificação utilizados nos trabalhos mencionados anteriormente.

  • 22

    3 FUNDAMENTAÇÃO TEÓRICA

    3.1 PRODUÇÃO DE VOZ

    A fala é um dos principais recursos de comunicação humana. Inicia-se por um

    processo interno do falante, que mentalmente formula a mensagem a ser transmitida,

    ocorrendo em seguida a ativação motora dos músculos e órgãos do aparelho fonador

    para a articulação da fala.

    Após emissão da mensagem pelo falante e transmissão através do meio (o

    próprio ar ou um canal telefônico, por exemplo), terá vez o processo de percepção dos

    sons de fala pelo ouvinte. Tal processo é mais complexo do que a simples detecção de

    sinais acústicos (como tons puros ou ruı́do), pois é necessário identificar, categorizar e

    reconhecer esses sons em sua forma, para atribuir à fala seu significado (mensagem)

    (RUSSO; BEHLAU, 1993; RABINER; SCHAFER, 2011).

    Os elementos envolvidos na produção de voz compõem o aparelho fonador

    (ilustrado na Figura 2), constituı́do pelos sistemas elencados na sequência.Produção da Fala

    19

    2 FUNDAMENTAÇÃO TEÓRICA

    2.1 PRODUÇÃO DE VOZ

    A fala é um dos principais recursos de comunicação humana. Inicia-se por um

    processo interno do falante, que mentalmente formula a mensagem a ser transmitida,

    ocorrendo em seguida a ativação motora dos músculos e órgãos do aparelho fonador

    para a articulação da fala.

    Após emissão da mensagem pelo falante e transmissão através do meio (o

    próprio ar ou um canal telefônico, por exemplo), terá vez o processo de percepção dos

    sons de fala pelo ouvinte. Tal processo é mais complexo do que a simples detecção de

    sinais acústicos (como tons puros ou ruı́do), pois é necessário identificar, categorizar e

    reconhecer esses sons em sua forma, para atribuir à fala seu significado (mensagem)

    (RUSSO; BEHLAU, 1993; RABINER; SCHAFER, 2011).

    Os elementos envolvidos na produção de voz compõem o aparelho fonador

    (ilustrado na Figura 1), constituı́do pelos sistemas elencados na sequência.

    Sistema Articulatório

    Sistema Laringeal

    Sistema Respiratório

    Cavidade nasal

    Narinas

    Lábios

    Lı́ngua

    Dentes

    Cavidade oral

    Traqueia

    Pulmões

    Diafragma

    Laringe

    Palato duro

    Palato mole(véu palatino)

    Figura 1: Diagrama em corte sagital do aparelho fonador.

    Fonte: Adaptado de (DELLER et al., 2000).

    Fonte: Adaptado de (DELLER et al., 2000).

    9 / 54

    Figura 2: Diagrama em corte sagital do aparelho fonador,os sistemas que o compõem e seus principais elementos.

    Fonte: Adaptado de (DELLER et al., 2000).

  • 23

    3.1.1 Sistema Respiratório

    A geração da voz tem inı́cio no sistema respiratório (diafragma, pulmões,

    traqueia), que produz a energia aerodinâmica necessária pra produção dos sons

    da fala (LADEFOGED; JOHNSON, 2010). Na Figura 3 é possı́vel observar como o

    volume de ar expelido pelos pulmões atua como fonte de energia para os demais

    sistemas integrantes do aparelho fonador.Produção da Fala

    20

    2.1.1 Sistema Respiratório

    A geração da voz tem inı́cio no sistema respiratório (diafragma, pulmões,

    traqueia), que produz a energia aerodinâmica necessária pra produção dos sons

    da fala (LADEFOGED; JOHNSON, 2010). Na Figura 2 é possı́vel observar como o

    volume de ar expelido pelos pulmões atua como fonte de energia para os demais

    sistemas integrantes do aparelho fonador.

    ��

    ����� ���������������

    ������������� ��������������

    �����������������������

    ����� ��������������

    �����!���������

    �����������������

    ����"�#$%&'$#()&*+�&+����� �+%����������������,���

    ����

    �������

    �-������������������������������������

    ������

    ������������������

    ��.�������

    /012345

    61540789:027

    ;95?97@=A957

    B012345

    /CD34=0

    ;C5=@0=7:=

  • 24

    caracterı́stica de vozeamento das vogais e de algumas consoantes. A frequência

    dessa vibração corresponde à frequência fundamental (F0), que possui como correlato

    acústico o pitch (DELLER et al., 2000).

    3.1.3 Sistema Articulatório

    O sistema articulatório, também chamado por trato vocal, é composto pela

    faringe, cavidade oral e cavidade nasal, elementos esses que participam da produção

    sonora (RUSSO; BEHLAU, 1993). As caracterı́sticas anatomofisiológicas do trato

    vocal produzem ressonâncias nos sons originados dos pulsos glóticos ou friccionais,

    conforme descrito no modelo fonte-filtro (KENT; READ, 2002), apresentado na

    Seção 3.2.

    Durante a produção de fonemas vocálicos, as frequências amplificadas

    resultam nos formantes (F1, F2, F3, ..., Fn) (RABINER; SCHAFER, 2011). Os primeiros

    formantes, F1 e F2, têm relação direta com a altura e o recuo da lı́ngua (RUSSO;

    BEHLAU, 1993). Sua representação gráfica é normalmente realizada através do

    diagrama de Vogais Cardeais, também chamado de Trapézio Vocálico (CRISTÓFARO-

    SILVA, 2011), conforme Figura 5 (p. 28).

    3.2 TEORIA FONTE-FILTRO

    A Teoria Fonte-Filtro é um legado de Fant 1960 e considera o sinal de voz

    como uma composição de uma fonte de excitação acoplado a um filtro modelado pela

    anatomia do trato vocal.

    Conforme descrito em (KENT; READ, 2002), a aplicação da Teoria Fonte-Filtro

    envolve suposições que permitem simplificações do modelo, tornando-o “tratável”

    matematicamente. Sendo assim, é importante fazer as seguintes ressalvas sobre

    algumas simplificações realizadas:

    • Desconsidera-se a atuação dos tecidos do trato vocal na absorção e reflexão dos

    sons.

    • Considera-se que o trato vocal atua de forma invariante no tempo.

    • Considera-se a propagação longitudinal das ondas, porém algumas podem se

    propagar de forma transversal.

  • 25

    • Considera-se interações entre o sistema respiratório e o trato vocal.

    • Considera-se o trato vocal como uma associação de tubos retos, embora

    apresente curvatura e variações no calibre ao longo da passagem.

    A Teoria Fonte-Filtro é considerada válida e tem sido adotada por diversos

    autores em diferentes aplicações, contudo é importante se considerar as limitações

    inerentes ao modelo nos casos práticos.

    3.2.1 Frequência Fundamental

    Estimadores de frequência fundamental procuram a componente frequencial

    que se sobressai em um trecho do sinal, valor que deverá ser equivalente ao

    perı́odo entre pulsos glóticos. Duas abordagens tradicionalmente utilizadas são

    a autocorrelação e a análise cepstral. Neste trabalho, optou-se pelo método de

    autocorrelação, por se mostrar mais robusto à presença de ruı́do (SHIMAMURA;

    KOBAYASHI, 2001).

    O algoritmo nativo do software Praat calcula a autocorrelação de cada bloco

    de sinal submetido a uma janela de Hanning ou Gaussiana. O resultado é obtido pela

    divisão da função de autocorrelação do sinal pela autocorrelação da própria janela,

    como demonstrado na Equação (1), em que rx(τ) é correspondente à autocorrelação

    resultante, rxw(τ) à autocorrelação do sinal após janelamento e rw(τ) à autocorrelação

    da janela utilizada. Dessa forma, evita-se que harmônicos sejam confundidos com a

    frequência fundamental (BOERSMA, 1993).

    rx(τ)≈rxw(τ)rw(τ)

    . (1)

    Para estimativa de F0 no segmento do sinal em análise, busca-se o máximo

    local da autocorrelação rx(τ), em que τ0 = (F0)−1. O algoritmo possui ainda

    refinamentos, com limiares de silêncio e de vozeamento e a atribuição de custos para

    transições de vozeamento/desvozeamento, valor de oitava e salto de oitava entre duas

    janelas consecutivas. O tamanho da janela de análise também está atrelado ao limite

    inferior para busca de frequência (pitch floor ) (BOERSMA; WEENINK, 2015).

  • 26

    3.2.2 Formantes

    Uma forma de reconhecer as regiões vocálicas de um sinal de voz é através da

    obtenção dos formantes, que pode ser feita pela aproximação do envelope espectral

    desse sinal através de uma análise de predição linear, ou LPC (Linear Predictive

    Coding). Na Figura 4 é possı́vel visualizar o espectro LPC, mais suavizado que o

    espectro FFT, evidenciado os picos que correspondem aos formantes daquele instante

    de tempo do sinal de voz em análise. Tal técnica consiste em separar o sinal de

    excitação da resposta do trato vocal, extraindo justamente a informação de formantes

    que é de interesse para a análise (RABINER; SCHAFER, 2011).Formantes Frequência (Hz)

    Nív

    el d

    e pr

    essã

    o so

    nora

    (dB/

    Hz)

    0 1000 2000 3000 400010

    20

    30

    40

    50

    60

    70

    80

    90

    Frequência (Hz)

    Nív

    el d

    e pr

    essã

    o so

    nora

    (dB/

    Hz)

    0 1000 2000 3000 400010

    20

    30

    40

    50

    60

    70

    80

    90PADRÃO

    Tempo (s)

    Fre

    quên

    cia

    (Hz)

    3.639 3.7790

    4000PADRÃO ESPECTRO LPC

    Frequência (Hz)

    Nív

    el d

    e pr

    essã

    o so

    nora

    (dB/

    Hz)

    0 1000 2000 3000 400010

    20

    30

    40

    50

    60

    70

    80

    90QUESTIONADO

    Tempo (s)

    Fre

    quên

    cia

    (Hz)

    3.639 3.7790

    4000QUESTIONADO

    PDFil

    l PDF

    Editor

    with F

    ree W

    riter an

    d Tool

    s

    Espectro FFTEspectro LPC

    F1

    F2F3 · · ·

    15 / 54

    Figura 4: Figura contemplando o espectro LPC (em azul na partesuperior), mais suavizado, em contraste com o espectro FFT (emvermelho na parte inferior).

    A análise de predição linear parte do pressuposto de que cada amostra do

    sinal de fala é, aproximadamente, uma combinação linear das amostras anteriores.

    Normalmente é feita através de métodos de covariância ou de autocorrelação

    (BARBOSA; REIS, 2012). Uma representação deste modelo pode ser visualizada

    na Equação (2), em que s[n] representa o sinal de saı́da, x[n] o sinal de entrada e m o

    número de coeficientes que corresponderá à ordem do sistema.

    s[n] =m

    ∑i=1

    ais[n− i]+ x[n]. (2)

    Uma vez que o sinal de entrada é desconhecido, o valor ŝ[n] na Equação (3)

  • 27

    é uma estimativa do valor da amostra atual. O objetivo da análise preditiva é a

    determinação dos coeficientes a[i] (em que i = 1, . . . ,m), de forma que o erro de

    predição e[n] constante na Equação (4) seja o menor possı́vel.

    ŝ[n] =m

    ∑i=1

    ais[n− i]. (3)

    e[n] = s[n]− ŝ[n]. (4)

    Para este trabalho foi escolhido o algoritmo de Burg, por ser considerado um

    modelo estável e que apresenta bons resultados para gravações de curta duração

    (COLLOMB, 2009). O algoritmo de Burg considera, além da predição referente às

    amostras anteriores, yn na Equação (5), também a predição referente às amostras

    posteriores, zn na Equação (6).

    yn =−m

    ∑i=1

    aix[n− i]. (5)

    zn =−m

    ∑i=1

    aix[n+ i]. (6)

    A escolha dos coeficientes é feita de forma a minimizar o erro de ambos os

    sentidos. A quantidade máxima de número de coeficientes, na prática, é determinada

    pelo valor da frequência de amostragem (em kHz) mais dois (BARBOSA; REIS, 2012).

    Os valores e as bandas de passagens dos formantes são calculados a partir do

    polinômio obtido com os coeficientes estimados.

    3.3 FONEMAS DO PORTUGUÊS BRASILEIRO (PB)

    As unidades linguı́sticas que organizam uma determinada lı́ngua são

    denominadas fonemas. No PB os fonemas são subdivididos em vogais, semivogais

    ou glides e consoantes.

    3.3.1 Vogais

    Representam o único tipo de segmento que pode atuar como núcleo

    silábico. São segmentos vozeados ou sonoros, devido à vibração das pregas vocais

  • 28

    que sempre ocorre durante a sua articulação. Um ponto importante para sua

    caracterização é que, durante a sua produção, o fluxo de ar não sofre obstruções no

    trato vocal, e, como consequência, os segmentos vocálicos geralmente apresentam

    maior energia que os consonantais (RUSSO; BEHLAU, 1993; RABINER; SCHAFER,

    2011).

    Na Figura 5 é apresentado o trapézio fonético das vogais, em que as barras

    verticais e horizontais são alusivas à posição da lı́ngua nos respectivos eixos durante

    a produção de cada vogal. Dessa forma, cada vogal corresponde a uma configuração

    do trato vocal, interferindo diretamente nos valores dos formantes.

    O formante F1 diz respeito à posição da lı́ngua no eixo vertical e F2 à sua

    posição no eixo horizontal, conforme Figura 6, que ilustra as posições da lı́ngua

    durante a produção das vogais orais tônicas /a/, /e/, /E/, /i/, /o/, /O/ e /u/ (“a”,

    “ê”, “é”, “i”, “ô”, “ó” e “u”) (RUSSO; BEHLAU, 1993; ENGELBERT, 2011).Trapézio Vocálico

    25

    Na Figura 4 é apresentado o trapézio fonético das vogais, em que as barras

    verticais e horizontais são alusivas à posição da lı́ngua nos respectivos eixos durante

    a produção de cada vogal. Dessa forma, cada vogal corresponde a uma configuração

    do trato vocal, interferindo diretamente nos valores dos formantes.

    O formante F1 diz respeito à posição da lı́ngua no eixo vertical e F2 à sua

    posição no eixo horizontal, conforme Figura 5, que ilustra as posições da lı́ngua

    durante a produção das vogais orais tônicas /a/, /e/, /E/, /i/, /o/, /O/ e /u/ (“a”,

    “ê”, “é”, “i”, “ô”, “ó” e “u”) (RUSSO; BEHLAU, 1993; ENGELBERT, 2011).

    i y 1 0 W u

    I Y U

    e ø 9 8 G o

    E œ 3 Æ 2 O

    æ

    a × A 6

    @

    5

    Anterior Central Posterior

    Alta (fechada)

    Média-alta (meia fechada)

    Média-baixa (meia aberta)

    Baixa (aberta)

    Figura 4: Trapézio vocálico fonético de acordo com o IPA -International Phonetic Alphabet (IPA, 2005). Pares de vogaiscom vogais arredondadas à direita e não-arredondadas àesquerda. Destaque em vermelho para as vogais queocorrem no PB.

    Fonte: Adaptado de (CRISTÓFARO-SILVA; YEHIA, 2009).

    Outra caracterı́stica que interfere nas vogais é o arredondamento dos lábios,

    que pode ser observado nas vogais posteriores /O/, /o/ e /u/. Além disso, as vogais

    podem ser nasais ou nasalizadas, situação em que o véu palatino é abaixado,

    permitindo o acoplamento da cavidade nasal ao trato vocal e por conseguinte

    alterando a configuração das formantes.

    Fonte: Adaptado de (CRISTÓFARO-SILVA; YEHIA, 2009).

    21 / 54

    Figura 5: Trapézio vocálico fonético de acordo com o IPA -International Phonetic Alphabet (IPA, 2005). Pares de vogaiscom vogais arredondadas à direita e não-arredondadas àesquerda. Destaque em vermelho para as vogais queocorrem no PB.

    Fonte: Adaptado de (CRISTÓFARO-SILVA; YEHIA, 2009).

    Outra caracterı́stica que interfere nas vogais é o arredondamento dos lábios,

    que pode ser observado nas vogais posteriores /O/, /o/ e /u/. Além disso, as vogais

    podem ser nasais ou nasalizadas, situação em que o véu palatino é abaixado,

    permitindo o acoplamento da cavidade nasal ao trato vocal e por conseguinte

  • 29Trapézio Vocálico 26 ��

    ����

    ����

    ����

    �����

    ���

    ����

    ������������������ !"�#�$�%"&��#"�'�$"����"��()�*��"�#�+,*����"� ��-��.��/����0'"1����#�������*(���"�"2"��1�("�""*%"1���34"�15�(�"� !"��*#��"*#�"����� !"�#"1%6*$5"#5�"*(�"���#5� !"�#�����2�*�0"�7

    �89:;�?:�>8>;@ABCCDEFGHI=BJKLLMN

    �7O7� ��0�'�$"���5PQRSTU

    V"0�%�0 �!"�2�*�0"�'�W�"#����0�1"���4"�'�$"��X���%�0 ��0 0�*��

    �*(�*��#"#��#5�"� !"�7Y�+,��*��("0Z��"'�$"���"�"2��0"�#�(�*$���5(��(�*$��X

    ��#�*#�����[\[X��0�*"�"1"'�"]�"\̂Z_�"�̀a�[b[X��0�*"�"1"'�"]0"b̂ Z_0"5̀7

    �7O7O c�*��"*(��

    d���*(�%"���#"�'�$"��X#5�"*(�"���#5� !"�#�50"��*��"*(��e5/�#�"�

    �$�����#���510!������(�5� !"�(�("1�5�"���"17d���*��"*(���!"��"(�$���W"#"��0

    25*� !"�#�0�#�X��0��0�#���*(�#"���(�5� !"�������#".fg��ha,ijkdgX�llOa

    iYmik,ifVX����37d���0X��*��#��"*#�n5�#5�"*(�""�(��51"� !"�#�502�*�0"

    ��*��*"*("1������"0�'�0�*("� !"�#�50"�(��51"#��"(�'�.dd3�0#���� !"�"��5(��

    �"���'�.d+3�X�0#�����)�*��"#�0�#�#�"�(��51"� !"�"���*��"*(����#�0����

    o+1���'"��5��15��'"�����(�5� !"�(�("14"�"��"$�0#�"�.[�[X[�[X[([X[#[X[p[X[$[37

    �d�(��51"#�����!"��1�0�*(�������*(��*"�"'�#"#��5�"1Xn5���!"�"(5"����(�5�*#�"�"��"$�0#�"�#5�"*(�"���#5� !"�#�2�*�0"�7Y��(�����������("�!"��*'�1'�#��#���"�(��51"#����X"(�'���"���'�X��n5"��#�&*�0���*(�#�"�(��51"� !"�7

    Figura 5: Sobreposição do gráfico das vogais orais tônicasdo PB no espaço F1×F2 (eixos com valores decrescentespara facilitar a análise) à ilustração indicando a posição dalı́ngua durante a produção desses fonemas.

    Fonte: Adaptado de (RUSSO; BEHLAU, 1993)

    2.3.2 Semivogais ou Glides

    Também são fonemas vozeados similares às vogais, porém com menor

    intensidade e duração. No PB conectam-se a vogais para formar ditongos ou tritongos,

    podendo ser: /j/, como na palavra [paj] - “pai”; e /w/, como na palavra [maw] - “mau”.

    2.3.3 Consoantes

    Ao contrário das vogais, durante a produção de uma consoante o fluxo de ar

    egresso dos pulmões obstrução total ou parcial. As consoantes são categorizadas em

    função do modo, bem como do ponto da obstrução ocorrida (RUSSO; BEHLAU, 1993;

    ENGELBERT, 2011). Assim, considerando que durante a articulação de um fonema

    consonantal ocorre a movimentação de um articulador ativo (AA) em direção ao outro

    passivo (AP) 1, em decorrência do modo de articulação as consoantes podem ser:

    1Articuladores são elementos presentes na cavidade bucal, que irão atuar obstruindo a passagemde ar durante a produção de fonemas. Neste processo estarão envolvidos dois articuladores, ativo epassivo, os quais definem o ponto de articulação.

    F1 l

    F2 ↔

    Fonte: Adaptado de (RUSSO;BEHLAU, 1993). 22 / 54Figura 6: Sobreposição do gráfico das vogais orais tônicasdo PB no espaço F1×F2 (eixos com valores decrescentespara facilitar a análise) à ilustração indicando a posição dalı́ngua durante a produção desses fonemas.

    Fonte: Adaptado de (RUSSO; BEHLAU, 1993)

    alterando a configuração das formantes.

    3.3.2 Semivogais ou Glides

    Também são fonemas vozeados similares às vogais, porém com menor

    intensidade e duração. No PB conectam-se a vogais para formar ditongos ou tritongos,

    podendo ser: /j/, como na palavra [paj] - “pai”; e /w/, como na palavra [maw] - “mau”.

    3.3.3 Consoantes

    Ao contrário das vogais, durante a produção de uma consoante o fluxo

    de ar egresso dos pulmões sofre obstrução total ou parcial. As consoantes são

    categorizadas em função do modo, bem como do ponto da obstrução ocorrida

    (RUSSO; BEHLAU, 1993; ENGELBERT, 2011).

    Durante a articulação de um fonema consonantal ocorre a movimentação de

  • 30

    um articulador ativo (AA) em direção ao outro passivo (AP) 1.

    Em decorrência do modo de articulação as consoantes são classificadas em:

    • Plosivas ou oclusivas: obstrução total à passagem de ar ( /p/, /b/, /t/, /d/, /k/, /g/).

    • Nasais: obstrução total à passagem de ar na cavidade oral, porém com

    acoplamento da cavidade nasal (/m/, /n/, /ñ/ em [soño] - “sonho”).

    • Fricativas: articuladores se aproximam produzindo fricção ( /f/, /v/, /s/, /z/, /Z/ em

    [Zato] - “jato”, /S/ em [Sato] - “chato”, róticos2 /x/, /G/, /h/ e /H/).

    • Laterais: articuladores se tocam e a corrente de ar é obstruı́da no eixo central

    (/l/, /L/ em [paLa] - “palha”).

    • Tepes: articuladores se tocam rapidamente uma única vez (/R/ em [caRo] - “caro”).

    No PB há ainda alguns modos de articulação presentes apenas em variedades

    regionais:

    • Africadas: alofones (variantes fonéticas) dos fonemas /Z/ e /S/. O segmento inicia-

    se com oclusão e termina com fricção (/Ã/ em [Ãia] - “dia”, /Ù/ em [Ùia] - “tia”).

    • Vibrantes: os articuladores se tocam várias vezes causando vibração. “R forte”

    de algumas variedades regionais, pronunciado de forma prolongada (/ř/).

    • Retroflexas: produzido com encurvamento da lı́ngua, variedade regional

    conhecida como “R caipira” (/ô/).

    Quanto à classificação em função do ponto da articulação, as consoantes

    podem ser:

    • Bilabiais: AA - lábio inferior, AP - lábio superior (/p/, /b/, /m/).

    • Labiodentais: AA - lábio inferior, AP - dentes incisivos superiores (/f/, /v/).

    • Alveolares: AA - ponta da lı́ngua, AP - alvéolos (/t/, /d/, /n/, /l/, /R/, /s/, /z/).

    1Articuladores são elementos presentes na cavidade bucal, que irão atuar obstruindo a passagemde ar durante a produção de fonemas. Neste processo estarão envolvidos dois articuladores, ativo epassivo, os quais definem o ponto de articulação.

    2Sons de “r”, que quanto ao modo de articulação podem ser fricativas, tepes, vibrantes ou retroflexas,e quanto ao ponto de articulação alveolares, velares ou glotais.

  • 31

    • Alveopalatares: AA - parte anterior da lı́ngua, AP - parte medial do palato duro (

    /Z/, /S/, /Ã/, /Ù/).

    • Palatais: AA - parte medial da lı́ngua, AP - parte final do palato duro (/L/, /ñ/).

    • Velares: AA - parte posterior da lı́ngua, AP - véu palatino (/k/, /g/, /x/, /G/).

    • Glotais: constrição na glote. “R forte” presente apenas em algumas variedades

    regionais, como o carioca (/h/ e /H/).

    As consoantes ainda podem ser vozeadas ou desvozeadas, sendo que na

    análise espectral de consoantes com mesmo ponto e modo de articulação (como por

    exemplo [f] e [v], de “faca” e “vaca”), a diferença pode ser observada através da barra

    de vozeamento (para o [v]).

    Durante a fala os segmentos vocálicos e consonantais são produzidos de

    forma encadeada, sendo que o ponto e o modo de articulação de um determinado

    fonema provocam efeitos de coarticulação nos fonemas vizinhos.

    3.4 MODELO DE AGRUPAMENTO K-MEANS

    O k-means é um método para agrupamento dos padrões de entrada em K

    grupos, sendo K um parâmetro definido a priori. Conforme descrito em (GOPI,

    2014), antes de dar inı́cio ao processo em si é necessário inicializar os centroides

    (µµµ111,µµµ222, · · · ,µµµKKK) dos K agrupamentos, o que normalmente é realizado com valoresaleatórios. Uma vez inicializado, o algoritmo apresenta duas etapas principais, as

    quais têm relação com o método de Maximização de Expectativa (BISHOP, 1995).

    A primeira etapa consiste na atribuição de cada padrão de entrada xxxnnn ao

    agrupamento mais próximo, sendo a medida de proximidade representada pela

    distância euclidiana d expressa na Equação 7, a qual corresponde à menor distância

    geométrica entre xxxnnn e o centro do agrupamento µµµkkk no espaço N-dimensional. A

    variável responsável pelo rótulo de cada padrão é definida como rnk∈ [0,1], ondek = 1, ...,K, como sendo rnk = 1 se xxxnnn pertence ao agrupamento k e rnk = 0 caso

    contrário.

    d =

    √N

    ∑i=1

    (xni−µki)2 (7)

  • 32

    Na segunda etapa, após a atribuição de todos os padrões de entrada a um

    dos K agrupamentos, é realizado o cálculo dos novos centros definidos pelo primeiro

    estágio do algoritmo, através da Equação 8.

    µµµkkk =

    N∑

    n=1rnkxxxnnn

    N∑

    n=1rnk

    . (8)

    O processo se repete até a convergência (ou seja, até que nenhuma nova

    alteração seja verificada nos agrupamentos), ou até que um determinado número de

    iterações tenha ocorrido. Ao final, cada padrão de entrada está associado a um dos

    agrupamentos definidos, aos quais estão atribuı́dos os novos valores de centros. Tal

    processo equivale ao pseudo-código apresentado a seguir.

    1 if Centroides nao Inicializados{

    2 Selecionar valores iniciais dos K centroides aleatoriamente;

    3 }

    4 while (i++ < Numero Maximo de Iteracoes){

    5 for (j++

  • 33

    4 MATERIAIS E MÉTODOS

    4.1 AMOSTRAS DE DADOS

    Para os experimentos foram utilizadas como amostras de dados arquivos de

    áudio produzidos em três corpora, descritos a seguir.

    4.1.1 Corpus UTFPR

    Apresenta arquivos de áudio produzidos em pesquisa realizada pelo Grupo

    de Estudos de Sons da Fala da UTFPR (GOMES, 2013). Trata-se de gravações

    realizadas durante a leitura de um texto pré-definido, com duração aproximada de

    60 segundos.

    Os fonemas alvo daquele estudo estavam presentes em sı́labas tônicas e

    em contexto interplosivo, de forma a minimizar os efeitos de coarticulação. O texto

    continha quatro repetições para cada uma das sete vogais orais tônicas do PB, as

    quais foram manualmente etiquetadas, servindo de referência. As gravações foram

    organizadas em cinco grupos.

    4.1.2 Corpus SPOLTECH

    Compilado através do projeto “CORPORA from CSLU: The Spoltech Brazilian

    Portuguese v1.0” (SCHRAMM et al., 2000), apresenta 8.080 trechos com falas de

    477 falantes, consistindo de leituras de sentenças foneticamente balanceadas e de

    respostas a perguntas.

    Apesar da duração de áudio total de cada falante ser relativamente pequena

    (aproximadamente 30 segundos), tem sido uma base bastante utilizada em pesquisas

    do PB, além de trazer um contexto com fluidez diferente daquela apresentada pelo

    corpus UTFPR, o que justifica sua utilização neste trabalho.

    Na preparação das amostras foram concatenados todos os trechos

    pertencentes aos 20 primeiros falantes, sendo gerados arquivos individuais

    distribuı́das em dois grupos.

  • 34

    4.1.3 Corpus C-ORAL

    Base compilada através do projeto “C-ORAL”, desenvolvido pelo Núcleo de

    Estudos em Linguagem, Cognição e Cultura da Universidade Federal de Minas Gerais

    (RASO; MELLO, 2012), que apresenta registros com fala espontânea, trazendo uma

    proximidade maior de situações reais.

    Foram selecionadas as amostras classificadas como monólogos, por

    apresentarem maior duração de fala exclusiva do falante alvo. Na preparação, excluiu-

    se qualquer trecho em que houvesse interferência do entrevistador ou de outro falante

    que não fosse o alvo. Os arquivos resultantes das amostras apresentaram em média

    oito minutos de duração, divididos em dois grupos.

    Com a utilização das amostras provenientes das bases UTFPR e SPOLTECH,

    obteve-se variedade de sujeitos para avaliações interfalantes, enquanto que a maior

    duração das amostras da base C-ORAL permitiu análises intrafalantes. Na Tabela 1

    são apresentados os grupos em que estavam organizadas as amostras utilizadas

    durante os experimentos.

    Tabela 1: Amostras de dados utilizadas nos experimentos.

    Corpus Caracterı́sticas das amostras Grupo Qtd. Falantes

    UTFPR Leitura (∼ 60 s)

    GC 10 pesquisadorasGM 10 sexo feminino (> 35 anos)GG 10 sexo feminino (< 25 anos)GH 10 sexo masculino (> 35 anos)GR 10 sexo masculino (< 25 anos)

    Total 50 (∼50 min)

    SPOLTECH Leitura/respostas (∼ 30 s) M 9 sexo femininoH 11 sexo masculino

    Total 20 (∼10 min)

    C-ORAL Monólogos (∼ 8 min) M 4 sexo femininoH 2 sexo masculino

    Total 6 (∼48 min)

  • 35

    4.2 FERRAMENTAL DE EDIÇÃO DE ÁUDIO

    A conversão dos arquivos originais em arquivos com compressão ou com

    adição de ruı́do foi realizada com o auxı́lio das ferramentas de edição de áudio e

    vı́deo SoX (SOX, 2015) e FFMPEG (FFMPEG, 2015).

    Para a implementação dos algoritmos indicados na Seção 4.3, utilizou-se o

    software de análise de áudio Praat, assim como o software de análise matemática

    Matlab, e sua toolbox de Processamento de Sinais.

    4.3 ALGORITMOS UTILIZADOS

    Após a seleção no Praat do arquivo ou trecho a ser submetido à análise, inicia-

    se o processamento, conforme ilustrado no fluxograma apresentado na Figura 7, nos

    qual os blocos principais estão enumerados de acordo com a subseção em que serão

    descritos na sequência.

    Inı́cioSeleção de trecho epré-processamento

    Cálculo de ZCR,F0, F1··4 e BW1··4

    Tabelasresultantes

    F0, ZCR, BW1,BW2 ok?

    Busca inicialde centroides

    Amostra ∈cluster válido?

    Continuidadeok?

    Busca decentroides

    Amostra ∈cluster válido?

    Descarte deamostras

    Nuvem de pontosresultantes Gráficos e relatórios Fim

    S

    SS

    S

    NN N

    Blocos implementados no software Praat conforme código apresentado no Apêndice A

    Blocos implementados no software Matlab conforme código apresentado no Apêndice B

    4.3.1 4.3.2 4.3.3 4.3.4

    4.3.5

    4.3.6 4.3.8 4.3.94.3.74.3.8 4.3.94.3.7

    Figura 7: Fluxograma dos algoritmos implementados. A numeração ao lado decada bloco refere-se a sua subseção correspondente da Seção 4.3. Também sãoindicados os blocos programados no software Praat (Apêndice A) e no softwareMatlab (Apêndice B).

  • 36

    4.3.1 Pré-processamento

    Nesta etapa o sinal é reamostrado a uma taxa de 8 kHz, e o nı́vel CC removido

    através da subtração do nı́vel médio do sinal de áudio. Um exemplo de gráfico gerado

    nesta etapa apresentado na Figura 8(a), sendo que a área de interesse do gráfico está

    delimitada pelo trapézio vermelho na Figura 8(b).

    Materiais e métodos: algoritmos

    � Gráfico da nuvem F1 × F2 com todos ospontos:

    500100015002000250030003500

    200

    600

    1000

    1400

    1800

    2200

    F2(Hz)

    F1(Hz)

    Pontos F1 × F

    2

    27 / 54(a)

    Materiais e métodos: algoritmos

    � Gráfico da nuvem F1 × F2 com todos ospontos:

    500100015002000250030003500

    200

    600

    1000

    1400

    1800

    2200

    F2(Hz)

    F1(Hz)

    Pontos F1 × F

    2

    27 / 54(b)

    Figura 8: Exemplo de gráfico com resultados de umadas amostras de áudio do grupo GC da UTFPR. (a)Gráfico da nuvem F1×F2 com os valores de formantesobtidos para todos os pontos. (b) Trapézio indicandoo formato desejado para conformação da nuvem.

  • 37

    4.3.2 Rotina para Cálculo da Taxa de Passagem por Zero

    O sinal é dividido em janelas com duração de 25 ms1, sendo efetuado o cálculo

    do número de vezes em que há alteração do sinal do valor da amostra (mudança de

    sinal de positivo para negativo e vice-versa). Após a finalização do processo descrito,

    os resultados de todas as janelas são normalizados (valores entre [0,1]).

    4.3.3 Detecção da Frequência Fundamental

    No Praat é utilizada a opção “To Pitch (ac)...”, por permitir a configuração

    dos parâmetros de inicialização, que incluem a definição das frequências mı́nima

    e máxima, além da escolha do tipo de janela (opção “Very accurate” para janela

    Gaussiana). O tamanho da janela não é definido, por ser uma função da frequência

    mı́nima.

    Neste primeiro momento mantiveram-se os valores de custo padrão. O

    objeto resultante é convertido para “PitchTier ” e em seguida para tabela, permitindo

    o armazenamento na forma de arquivo. Um exemplo de gráfico gerado após a

    detecção de frequência fundamental pode ser visto na Figura 9. É possı́vel observar

    que a simples remoção das amostras em que não houve detecção de frequência

    fundamental já resulta em um gráfico F1 × F2 mais próximo do trapézio vocálico,conforme pode ser visto na Figura 5 (p. 28).

    Materiais e métodos: algoritmos

    � Gráfico da nuvem F1 × F2 após análise deF0 e ZCR:

    500100015002000250030003500

    200

    600

    1000

    1400

    1800

    2200

    F2(Hz)

    F1(Hz)

    Pontos F1 × F

    2

    29 / 54Figura 9: Gráfico de nuvem de pontos F1×F2 com osvalores de formantes após análise de F0 e de ZCR.

    1Tal valor na prática é fixado entre 10 e 30 ms, sendo definido de forma que a janela tenha duraçãosuficiente para capturar as caracterı́sticas de um determinado fonema.

  • 38

    Contudo, o gráfico demonstrado na Figura 9 ainda apresenta pontos de

    frequências mais altas, possivelmente associado aos loci de fonemas consonantais

    devido a efeitos de coarticulação, o que exigiu a aplicação dos demais algoritmos

    apresentados para obtenção de um conjunto resultante mais consistente.

    Nas próximas etapas os pontos que persistirem serão submetidos a novas

    seleções, no intuito de se obter uma nuvem mais próxima possı́vel do trapézio vocálico,

    como a apresentada na Figura 10. Assim torna-se possı́vel proceder à análises do

    comportamento formântico do indivı́duo.

    Materiais e métodos: algoritmos

    � Gráfico da nuvem F1 × F2 resultante

    5001000150020002500

    200

    400

    600

    800

    1000

    1200

    F2(Hz)

    F1(Hz)

    Pontos F1 × F

    2

    34 / 54

    Figura 10: Gráfico de nuvem de pontos F1 × F2 com osvalores de formantes após análise inicial de agrupamento,aproximando-se do formato desejado do trapézio vocálico.

    4.3.4 Cálculo de Formantes

    No software Praat é utilizada a opção “To Formant (Burg)...” que possibilita

    a escolha do número máximo de formantes a ser buscado e do valor máximo da

    frequência. A largura da janela é configurada em 25 ms, por ser um valor considerado

    (empiricamente) razoável para este tipo de análise.

    Mantem-se em 50 Hz o valor do filtro de pré-ênfase, que corresponde ao

    valor inicial em que o filtro atuará para corrigir a combinação da atenuação de altas

    frequências provocada pelo trato vocal e a amplificação associada à radiação do som

    através da abertura dos lábios.

  • 39

    Em seguida a matriz obtida é submetida à função “Formant Track”, que

    considera os valores obtidos para cada frame como um candidato, ao qual é atribuı́do

    um custo referente ao valor da frequência, à banda e à transição entre oitavas. O

    número máximo de formantes será menor, porém com maior exatidão dos valores

    obtidos.

    Com relação às frequências definidas para cálculo do custo dos valores dos

    formantes, usualmente adota-se como referência os valores médios 550 Hz, 1650 Hz,

    2750 Hz, 3850, Hz 4950 Hz para F1 · ·F5. Contudo, devido a variação de F1 e F2,tal prática desfavorece o reconhecimento das vogais posteriores alta e média-alta

    (DRESCH et al., 2015). A alternativa encontrada, e aplicada no segundo método

    de inicialização de centroides tratado na Subseção 4.3.9, foi o cálculo simultâneo

    de “trilhas” de formantes, isto é, matrizes com diferentes valores de referência dos

    formantes F1 e F2. As trilhas são mescladas durante a etapa de avaliação da

    continuidade (Subseção 4.3.6).

    Após tal processo é realizada ainda uma limpeza de valores “undefined”, e em

    seguida os vetores são convertidos para tabela, de modo que o arquivo salvo possa

    ser corretamente carregado no Matlab.

    4.3.5 Seleção de Amostras

    No Matlab, as tabelas geradas pelas rotinas do software Praat são carregadas

    e salvas em matrizes. Realiza-se em seguida a etapa de seleção das amostras a

    terem os valores de formantes considerados. Inicialmente são eliminadas as que

    apresentem taxa de passagem por zero (ZCR) maior que 0,5 (50% do valor máximo),

    por apresentarem baixa probabilidade de serem voz.

    Conforme demonstrado nos gráficos alinhados temporalmente da Figura 11,

    nos pontos em que há detecção de F0, a energia do sinal é menor e há uma maior

    taxa de passagem por zero. Na Figura 11(a), em que é apresentado um oscilograma

    (forma de onda) para um trecho de sinal de fala com sobreposição dos traçados de

    STE (energia de curto termo) e de ZCR, pode-se visualizar que os trechos com maior

    STE também apresentam menor ZCR.

    Quando o oscilograma é comparado com o espectrograma (apresentado em

    banda estreita para melhor observação da curva de F0) da Figura 11(b), percebe-se

    que tais pontos correspondem àqueles em que houve a detecção de F0.

  • 40

    Assim, são mantidos para as próximas análises aqueles pontos que

    obedecerem a esse critério, conforme ilustrado na Figura 11(c) (neste caso,

    apresentado em banda larga, que destaca as curvas dos formantes). Ou seja, em

    regiões vozeadas: F0∃, ZCR ↓ e STE ↑, logo os pontos F1 · ·Fn são analisados.Enquanto que em regiões desvozeadas: F0@, ZCR ↑ e STE ↓, sendo F1 · ·Fndescartados.

    0.5 1 1.5 2 2.5 3

    -1

    -0.5

    0

    0.5

    1

    t(s)

    Oscilograma: Sinal de fala original - ZCR - STE

    Fala

    ZCR

    STE

    0.5 1 1.5 2 2.5 3

    1000

    2000

    3000

    4000

    F(H

    z)

    t(s)

    Espectrograma banda estreita com sobreposição da curva de de F0 nas áreas vozeadas

    0.5 1 1.5 2 2.5 3

    1000

    2000

    3000

    4000

    F(H

    z)

    t(s)

    Espectrograma banda larga com curvas dos formantes F1 a F

    4 sobrepostos nas áreas vozeadas

    V V V V V V V V V V V V V V V

    F1

    F2

    F3

    F4

    F0

    (a)

    0.5 1 1.5 2 2.5 3

    -1

    -0.5

    0

    0.5

    1

    t(s)

    Oscilograma: Sinal de fala original - ZCR - STE

    Fala

    ZCR

    STE

    0.5 1 1.5 2 2.5 3

    1000

    2000

    3000

    4000

    F(H

    z)

    t(s)

    Espectrograma banda estreita com sobreposição da curva de de F0 nas áreas vozeadas

    0.5 1 1.5 2 2.5 3

    1000

    2000

    3000

    4000

    F(H

    z)

    t(s)

    Espectrograma banda larga com curvas dos formantes F1 a F

    4 sobrepostos nas áreas vozeadas

    V V V V V V V V V V V V V V V

    F1

    F2

    F3

    F4

    F0

    (b)

    0.5 1 1.5 2 2.5 3

    -1

    -0.5

    0

    0.5

    1

    t(s)

    Oscilograma: Sinal de fala original - ZCR - STE

    Fala

    ZCR

    STE

    0.5 1 1.5 2 2.5 3

    1000

    2000

    3000

    4000

    F(H

    z)

    t(s)

    Espectrograma banda estreita com sobreposição da curva de de F0 nas áreas vozeadas

    0.5 1 1.5 2 2.5 3

    1000

    2000

    3000

    4000

    F(H

    z)

    t(s)

    Espectrograma banda larga com curvas dos formantes F1 a F

    4 sobrepostos nas áreas vozeadas

    V V V V V V V V V V V V V V V

    F1

    F2

    F3

    F4

    F0

    (c)

    Figura 11: Trecho de áudio com a repetição: “nove, um, zero, quatro, zero, três,dois, zero”. (a) Forma de onda em azul com sobreposição dos gráficos de STE emvermelho e de ZCR em preto; (b) Espectrograma de banda estreita com sobreposiçãodos pontos de frequência fundamental em pret