A tecnologia disponível já permite tornar indistinguível uma voz humana de uma gerada por inteligência artificial, comprovou um estudo da Universidade Queen Mary de Londres no qual os participantes por vezes avaliaram as vozes artificiais como sendo mais confiáveis.

Os participantes do estudo da universidade britânica não conseguiram distinguir entre vozes 'deepfake' (geradas artificialmente, por vezes com o objetivo de replicar alguém em concreto) e vozes reais de pessoas.

O estudo levou os participantes a avaliar que vozes lhes soavam mais realistas e quais as que soavam mais dominantes ou confiáveis.

Para isso foram expostos a vozes reais e a dois tipos de vozes artificiais, geradas com recurso a tecnologia de inteligência artificial (IA) de topo para síntese de voz.

Num caso, as vozes artificiais eram 'clones' de vozes humanas gravadas, com o objetivo de replicar as pessoas originais, e noutro caso as vozes foram geradas com recurso a um modelo de voz de largo espetro sem qualquer referencial humano específico.

Os investigadores também tentaram perceber se as vozes geradas por IA se tornaram hiper-realistas, dado alguns estudos terem demonstrado que imagens ou caras geradas por IA são agora consideradas mais humanas do que imagens de caras humanas reais.

Ainda que o estudo não tenha encontrado nenhum "efeito hiper-realista" nas vozes geradas por IA, demonstrou que as vozes sintetizadas podem soar tão reais como as humanas, tornando difícil aos ouvintes distingui-las.

Ambos os tipos de vozes geradas por IA para o estudo foram avaliadas pelos participantes como mais dominantes do que as vozes humanas e algumas foram por vezes percecionadas como mais confiáveis, refere o comunicado da universidade.

"As vozes geradas por IA estão por todo o lado. Todos já falámos com a Alexa ou a Siri ou tivemos chamadas telefónicas atendidas por sistemas automáticos de apoio ao cliente. Essas coisas não soavam realmente como vozes humanas, mas era apenas uma questão de tempo até a tecnologia de IA começar a produzir um discurso natural e de sonoridade humana. O nosso estudo mostra que esse tempo chegou e que precisamos urgentemente de compreender como as pessoas percecionam essas vozes realistas", disse Nadine Lavan, professora sénior de psicologia na Universidade Queen Mary de Londres e uma das coautoras do estudo.

Nadine Lavan destacou a facilidade com que a equipa conseguiu criar vozes clonadas ou 'deepfakes' de vozes reais (com o consentimento dos donos das vozes) usando 'software' disponível comercialmente.

"O processo precisou de conhecimentos mínimos, apenas alguns minutos de gravação de vozes e quase dinheiro nenhum", destacou a responsável pelo estudo, que acrescentou que isto apenas demonstra "quão acessível e sofisticada a tecnologia de voz de IA se tornou".

Segundo Nadine Lavan, o ritmo de progresso foi muito rápido e traz muitas implicações éticas, de direitos de autor e segurança, sobretudo em áreas como a desinformação, fraude e usurpação de identidade.

Pelo lado positivo, a responsável destacou as oportunidades que esta tecnologia abre em termos de educação e comunicação, com as vozes sintéticas a permitirem melhorar a experiência do utilizador.