Discente: Vivian Borges Paixão

Título da tese: Tecnologia assistiva e fonologia do português do Brasil: aspectos prosódicos da fala sintetizada pelo software LianeTTS

Orientador(a): Carolina Ribeiro Serra

Ano da defesa: 2020

Páginas: 175

Resumo:

Nesta tese, investigam-se aspectos prosódicos da fala sintetizada produzida pelo software LianeTTS, desenvolvido no âmbito do Projeto Dosvox/UFRJ, com base em resultados de um teste de percepção com cinco indivíduos com deficiência visual usuários habituais de softwares assistivos, bem como em uma análise de enunciados sintetizados. São empregados métodos de análise acústica experimental e é adotado o aporte teórico da Fonologia Entoacional Autossegmental e Métrica, para a observação das pistas acústicas – de frequência fundamental (F0) e de duração – e entoacionais – de fraseamento prosódico e densidade tonal – de dois conjuntos de enunciados: uma amostra da versão default da fala sintetizada pelo LianeTTS e uma versão modificada dos mesmos enunciados, que simula a prosódia da fala natural. Nos dois casos, os enunciados se dividem em três padrões prosódicos – assertivo, interrogativo e continuativo – e em dois tamanhos – sete e treze sílabas (totalizando 156 enunciados). Tanto na versão default quanto na modificada, o mesmo material segmental foi utilizado para gerar os arquivos de áudio. Por meio das medidas acústicas e da notação fonológica, buscou-se identificar características melódicas dessas produções que possam justificar as avaliações dos participantes-juízes. Os resultados apontam para uma clara preferência dos participantes pela versão modificada dos dados, cujo padrão frasal foi corretamente identificado em 75,4% dos casos, contra 59% de acertos na versão default. A análise acústica e entoacional permite atribuir o melhor desempenho dos dados de prosódia alinhada à natural à maior incidência de eventos tonais e amplitude de movimentos melódicos: a versão default dos enunciados apresentou uma gama de variação de F0 de, em média, 1,44 semitons entre as sílabas pretônica e tônica, e 1,14 semitons entre a tônica e postônica finais; enquanto a versão modificada apresentou gama de variação média de 3,6 semitons nesses mesmos contextos. A densidade tonal verificada nas duas versões dos enunciados também é importante para explicar essa diferença na avaliação dos usuários, uma vez que, nos dados default, não se identificaram quaisquer eventos tonais no interior dos sintagmas entoacionais (IPs), enquanto, nos dados modificados, anotaram-se eventos tonais em 74,36% dos casos. Os dados também indicam maior facilidade na identificação dos padrões assertivo (91,5% de acertos) e interrogativo (72,7%), em comparação ao continuativo (37,3%). A análise estatística indicou o fator tipo de prosódia, bem como o padrão frasal, como tendo influência significativa no índice de acertos das classificações por parte dos ouvintes-juízes. O fator tamanho, quando observado isoladamente, não teve influência significativa, mas verificou-se comportamento diferenciado dos padrões assertivo e interrogativo – cuja identificação pelos juízes foi maior nos enunciados longos – e do continuativo – mais facilmente identificado nos enunciados curtos.

Palavras-chave: prosódia; entoação; síntese de fala; tecnologia assistiva

Abstract:

This dissertation investigates prosodic aspects of the synthesized speech produced by LianeTTS, which is a software developed under the Dosvox Project, at Federal University of Rio de Janeiro. The investigation was based on a perception test, performed with five visually impaired individuals who regularly use assistive softwares; and also on the acoustic and intonational alysis of synthesized utterances. Experimental acoustic analysis methods and the theoretical approach of Autosegmental-Metrical theory were adopted in order to observe the acoustic and intonational cues (fundamental frequency [F0] and duration; prosodic phrasing and tonal density) of two sets of statements: a sample of the default version of the speech synthesized by LianeTTS and a modified version of the same statements, which simulates the prosody of natural speech. In both cases, utterances are divided into three prosodic patterns (assertive, interrogative, and continuative) and in two sizes (seven and thirteen syllables), totaling 156 utterances. In both versions, the same segmental material was used to generate the audio files. Through acoustic measurements and phonological notation, we sought to identify melodic characteristics of these productions that might justify the participants’ evaluations. The results point to a clear preference of participants for the modified version of the data, which had their phrasal pattern correctly identified in 75.4% of cases, against 59% of correct answers for the default version. Based on the acoustic and intonation analysis, we attribute the best performance of modified prosody data to the highest incidence of tonal events and greater range of pitch movements: the default version of the utterances presented an average F0 variation range of 1.44 semitones between the last pre-stressed and stressed syllables of the utterances, and 1.14 semitones between the stressed and post-stressed syllables; while the modified version presented an average range of 3.6 semitones in these same contexts. The tonal density of the two versions of utterances is also important to explain the difference of evaluation: in the default data, no tonal events were identified within intonational phrases (IPs), whereas in the modified data, tonal events were observed in 74.36% of the cases. The data also indicate greater identification of assertive (91.5%) and interrogative (72.7%) patterns, compared to the continuative one (37.3%). Statistical analysis indicated the prosody type factor, as well as the phrasal pattern factor, as having a significant influence on the rating accuracy. The size factor, singly, had no significant influence, but there was different behavior from the assertive and interrogative patterns and the continuative ones: assertions and questions were more accurately identified by the participants when they were long utterances, and continuative pattern were more easily identified in the short utterances.

Keywords: prosody; intonation; speech synthesis; assistive technology

Coordenação

Coordenadora: Profa. Dra. Maria Eugenia Lammoglia

Vice-Coordenadora: Profa. Dra. Eliete Figueira Batista da Silveira 

Secretário: Renato Martins e Silva
posvernaculas@letras.ufrj.br

Atendimento

Além de atender por e-mail, a Secretaria do PPGLEV oferece atendimento telefônico e presencial de segunda a quinta-feira, das 13h às 17h, na sala F-319.

Endereço

Programa de Pós-Graduação em Letras  (Letras Vernáculas)
Faculdade de Letras da UFRJ
Av. Horácio de Macedo, 2151
Sala F-319
Cidade Universitária — CEP 21941-917
Rio de Janeiro — RJ