top of page

A expressão das emoções pode ser mediada pela qualidade da voz?

Mariana Lopez

17 de Setembro de 2019

Você já parou para pensar como as nossas emoções podem ser refletidas na qualidade da nossa voz? Assim como o quanto o corpo e a voz mostram sinais emocionais e como isso impacta nas relações sociais? Atualmente existem pesquisas que investigam os marcadores acústicos das emoções expressas na voz. Porém, uma limitação destas pesquisas ainda é o número pequeno de marcadores acústicos das emoções. Isso porque são necessários softwares específicos e análises que exigem um alto grau de correções manuais ou computação para um grande conjunto de amostras.

 

Os pesquisadores do Centro Suíço de Ciências Afetivas (CISA), do Departamento de Psicologia da Universidade de Genebra (Suíça) e do Departamento de Fala, Música e Audição, do Instituto Real de Tecnologia de Estocolmo (Suécia) publicaram um estudo na revista Biological Psychology em que investigaram até que ponto a expressão das emoções é mediada pela qualidade da voz. Os autores  se basearam no Modelo de Processo de Componente (Component Process Model - CPM) proposto por Scherer, que sugere previsões sobre os efeitos de diferentes componentes emocionais nas expressões vocais (principalmente tendências geradas pelas características de respostas fisiológicas). 

 

O Modelo CPM prevê que a fala é influenciada por normas determinadas socioculturalmente ou fatores de “atração”, além de fatores “instintivos” fisiologicamente instigados.  As manifestações emocionais na fala são moduladas por regras sociais, as quais podem influenciar  medidas de qualidade de voz resultantes da resposta fisiológica. Entretanto, quando se investiga os registros padronizados da voz de curta duração, tal como a pronúncia da vogal /a/, é possível diminuir a influência de fatores socioculturais para investigar as características emocionais na voz.

 

Neste estudo, para estudar a qualidade da voz na fala, os autores selecionaram amostras de voz que se assemelharam a impulsos de afeto orientados fisiologicamente – produções de curta duração sustentadas da vogal / a / produzidas por atores profissionais em cinco contextos emocionais, sendo alívio, tristeza, alegria, medo/pânico e raiva intensa. Estas emoções foram separadas em alta e baixa excitação e valência positiva e negativa. A alta excitação de valência positiva foi alegria, e de valência negativa foi raiva intensa e medo/pânico. A baixa excitação de valência positiva foi alívio e de valência negativa foi tristeza.  Todos os atores receberam a mesma instrução e realizaram a mesma tarefa, evitando o uso de expressões possivelmente estereotipadas, geralmente influenciadas por regras de exibição sociocultural. Cada ator expressou cada emoção duas vezes, resultando em 100 amostras.  O uso de uma vogal isolada sustentada evitou vieses contextuais, centrando a produção vocal na voz, especificamente na qualidade da voz. Nota-se que as medidas da voz permitem inferir aspectos fisiológicos da vibração das pregas vocais.

 

Foram analisados 12 parâmetros da voz:

1 - Jitter: variações ciclo-a-ciclo em frequência.

2 - Shimmer: variações ciclo-a-ciclo em amplitude.

 

3 - HNR: relação harmônico-ruído.

 

4 - f0 (“MF0”): frequência fundamental.

 

5 - Leq: nível de som equivalente.

 

6 - Amplitude do pulso.

 

7 - MFDR: A taxa máxima de declinação do fluxo (valor absoluto do ponto mais negativo da derivada do glotograma).

 

8 - NAQ: Quociente de amplitude normalizado (a amplitude do pulso dividida pelo produto do período fundamental).

 

9 - CQ: Quociente fechado (a proporção da fase fechada do ciclo glotal em relação ao tempo total).

 

10 - H1  -  H2: Diferença de nível entre o primeiro e o segundo harmônicos. 

11 - Alpha: relação entre a energia somada entre 50Hz – 1 kHz e 1–5 kHz calculada a partir do espectro médio de longo prazo (LTAS) entre 0 e 6700 Hz. 

 

12 - H1  -  H2LTAS: medido manualmente a partir das curvas LTAS médias como a diferença de nível entre a curva LTAS média perto da frequência da média f 0 e a média da curva LTAS uma oitava acima. Essa medida (H1  -  H2 LTAS ) foi considerada uma alternativa à medida H1  -  H2.

A análise acústica realizada foi de filtragem inversa. As ANOVAs mostraram efeitos significativos (p<0,05) da emoção em todos os parâmetros de voz, exceto NAQ ( F (3, 24)  =  3, 1,80). Foram investigados pares de emoções, como: alívio-tristeza; alívio-alegria; alívio-medo; alívio-raiva; tristeza-alegria; tristeza-medo; tristeza-raiva; alegria-medo; alegria-raiva; raiva-medo. Por exemplo, nove parâmetros foram significativos para distinguir o alívio do medo/pânico, sugerindo que essas emoções são acusticamente muito diferentes das outras emoções. Alguns parâmetros foram úteis na diferenciação entre a maioria das emoções, como o Leq (diferenciou alívio-alegria; alívio-medo; alívio-raiva; tristeza-alegria; tristeza-medo; tristeza-raiva), enquanto outros, como o H1  -  H2, foram úteis na separação de um par de emoções (alívio-medo).

Os resultados sugeriram que as emoções, de forma combinada, podem ser melhor descritas a partir de três componentes. O primeiro componente é marcado pelos parâmetros ​​CQ, H1  -  H2, MFDR e H1-H2 LTAS , relacionados ao esforço fonatório, produzidos por alta pressão subglótica e forte adução das pregas vocais.  O segundo componente tem alta carga de jitter, shimmer e HNR, refletindo a perturbação da fonação (que pode ser produzida tanto pela hiper ou hipotensão da adução das pregas vocais). O terceiro componente é exclusivamente marcado por MF0 e, portanto, corresponde à frequência de fonação ou taxa de vibração das pregas vocais.

 

O Componente 1(esforço fonatório) separa alívio da alegria; e raiva de medo/pânico. O Componente 2 (perturbação de fonação) separa a raiva quente do alívio. Já o Componente 3 separa o medo/pânico com MF0 muito alto e o alívio com MF0 baixo da raiva quente e da alegria (com valores MF0 médio-altos).

 

Os dados deste estudo confirmam que a qualidade da voz é de fato um aspecto central da vocalização emocional. Os 11 parâmetros vocais foram úteis para distinguir pelo menos um par de emoções. O parâmetro NAQ foi o único parâmetro no presente estudo que não teve efeitos significativos na diferenciação entre diferentes expressões emocionais da voz. Segundo discussão dos autores, e com base em estudos prévios do mesmo grupo de pesquisa, os três componentes dos mecanismos fisiológicos envolvidos na expressão vocal encontrados neste estudo (tensão, perturbação e vocalização) podem mapear as dimensões da emoção da seguinte forma: 

 

  •  Tensão ou esforço fonatório (uma dimensão afetada pela pressão subglótica e adução das pregas vocais) pode corresponder à excitação simpática, ou seja, maior atividade fisiológica, geralmente associada a maior ansiedade e estresse. 

 

  • Perturbação de fonação, produzida pela hipo ou hiper-função da adução glótica, pode mapear a dimensão do potencial de coping, isto é, a capacidade enfrentamento do estresse. 

  • A frequência fonatória pode representar a “capacidade de controlar” parte da dimensão o do potencial de enfrentamento.

 

Os componentes representam parâmetros que caracterizam diretamente a qualidade vocal (mecanismos exatos de produção de voz envolvidos na resposta da tensão muscular glótica e pressão subglótica). 

 

Quanto à valência emocional, nenhum parâmetro foi encontrado para diferenciar alegria de medo/pânico. Essas duas emoções são de excitação alta e diferem ligeiramente em termos de potência (média vs. baixa, respectivamente) e principalmente em termos de valência. É possível também, conforme os estudiosos, que a dimensão de valência não afete diretamente o mecanismo glótico, mas que outros parâmetros (isto é, parâmetros não estudados aqui) como a forma do trato vocal (medida por frequências formantes) possam contribuir para a diferenciação fisiológica da valência.

 

Os autores concluem que este estudo facilitou o desenvolvimento de diferentes análises da voz para caracterizar parâmetros vocais envolvidos na expressão emocional. Este tipo de pesquisa contribui para que outros métodos de avaliação e intervenção em saúde e segurança possam ser desenvolvidos com base no registro da voz relacionada às expressões emocionais.

Para refletir...

Implicações

  • Desenvolvimento de algoritmos por meio de parâmetros vocais que podem ser marcadores de emoções;

 

  • Explicar como as pessoas reconhecem as emoções expressas na voz e como isso influencia nas interações sociais.

Limitações da pesquisa

Algumas limitações devem ser consideradas:


1. O conjunto de dados foi limitado para os parâmetros que exigem filtragem inversa;

 

2. A baixa energia das amostras de tristeza (baixa excitação, valência negativa, baixa potência) não permitiu a extração de todos os parâmetros da voz e teve que ser removida de uma análise estatística (filtragem inversa);

3. Não foram investigadas diferenças de gênero devido ao baixo “n”.

Materiais Complementares

Para compreender mais sobre o Modelo de processo de componentes (Component Process Model- CPM) este é um artigo clássico do autor Klaus R. Scherer, publicado no ano de 1984. Para conferir esse material, clique aqui.

Para conhecer outros materiais complementares, clique aqui!

Como citar este texto:

 

Lopez, Mariana. (2019). A expressão das emoções pode ser mediada pela qualidade da voz? (website Alfabetização Científica em Psicologia). Recuperado de: https://alfabetizacaopsico.wixsite.com/home/materia-2-7

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Referência:

O artigo Mapping emotions into acoustic space: The role of voice production, de Patel, Scherer, Björkner e Sundberg (2011), pode ser lido na revista Biological Psychology clicando aqui. 

bottom of page