Connect with us

Ciência e Saúde

Clonagem de Voz: Fui eu que disse isso?

Published

on

A popularização da Inteligência Artificial (IA) resultou no aprimoramento de ferramentas como a clonagem de voz, que tem vindo a ser utilizada cada vez mais nas últimas décadas. Este tipo de tecnologia influencia o nosso quotidiano em múltiplas áreas, nomeadamente a da saúde e do entretenimento.

 

O que é a clonagem de voz e como funciona?

A clonagem de voz é um processo que utiliza Inteligência Artificial (IA) para copiar sinteticamente a voz de um ser humano, sendo que, em certos casos, é quase impossível distingui-la da voz original.

No entanto, é importante salientar a diferença entre clonagem de voz e sistemas conversores de texto para voz, com o qual nos defrontamos no dia-a-dia quando, por exemplo, se pretende saber a pronúncia exata de uma palavra numa plataforma de tradução de idiomas. Ao contrário da clonagem de voz, sistemas conversores de texto para voz não mimetizam o timbre, a velocidade do discurso e as diferentes inflexões características de cada pessoa.

Segundo a ElevenLabs, um software considerado o líder na síntese de voz, apenas cinco passos são necessários para todo o processo de clonagem de voz.

  1. Recolha de dados: um vasto e diverso conjunto de amostras de áudio da voz original, permite uma clonagem mais eficiente.
  2. Processamento e organização dos dados: com a análise dos dados recolhidos é possível selecionar as características que mais distinguem a voz do indivíduo.
  3. Prática do discurso pelo modelo de IA: efetua-se através de um método chamado deep learning, que é o novo nome para as redes neurais. Segundo o MIT NEWS, as redes neurais são sistemas inspirados na complexidade das conexões do sistema nervoso humano, através dos quais as máquinas aprendem a realizar uma tarefa analisando exemplos, reconhecendo padrões consistentes de uma grande diversidade de amostras. A partir do treino, a máquina passa a conseguir receber informações não estruturadas e interpretar esses dados.
  4. Afinação do discurso: para soar o mais natural possível o discurso da máquina é ajustado com recurso não só a mais amostras de voz que cobrem todo o espetro vocal do indivíduo (tom baixo, médio e alto), mas também de frases que englobam fonéticas distintas (O parágrafo Rainbow Passage, em inglês, por exemplo). Alguns exercícios vocais executados por cantores são estratégias igualmente eficazes.
  5. Obtenção de resultados: a partir deste ponto, é possível gerar um discurso sintético, ou, por outras palavras, clonar com sucesso uma voz.

Flowchart criado por Diana Correia. Fonte: ElevenLabs.io (https://elevenlabs.io/blog/what-is-voice-cloning/)

Onde é que a clonagem de voz é utilizada?

Indústria do entretenimento: voice-acting em filmes, videojogos e animações sem a necessidade de recorrer a atores.

Um exemplo recente é a Respeecher, uma empresa de clonagem de voz que sintetizou a voz do jovem Luke Skywalker nas séries “The Mandalorian” e “The Book of Boba Fett” da produtora LucasFilm com base em análise de entrevistas antigas e outros recursos audiovisuais do ator Mark Hamill.

Uso pessoal: assistentes pessoais como a Siri ou Alexa, mas com uma voz personalizável, tornam a experiência mais personalizada para o utilizador.

Saúde: Pessoas que perderam a sua voz devido a doença ou acidente têm a oportunidade de comunicar mais facilmente.

Apoio ao cliente: No atendimento de chamadas, a clonagem de voz proporciona uma interação mais personalizada entre o utente e a ferramenta de IA utilizada por uma empresa

Audiolivros: Para diminuir a frequência de gravação, há quem já opte pela clonagem de voz para ouvir a narração de um livro pelo próprio autor. O mesmo já se sucede em podcasts.

Cultura e educação: Para tornar a experiência mais imersiva em museus, documentários ou conteúdo didático, esta ferramenta de inteligência artificial pode ser utilizada na recreação de vozes de personagens históricas.

 

Ética e desafios

Para além de todas as inovações que a clonagem de voz pode proporcionar, há um conjunto de consequências que têm vinco a ser cada vez mais elemento de discussão. Em primeiro lugar, o uso de uma voz para clonagem deve ser consentido pelo próprio indivíduo, o que envolve também leis relativamente aos direitos de autor e licenças. O uso indevido ou fraudulento desta tecnologia pode pôr em risco humanos, famílias ou até mesmo comunidades, podendo ser utilizado para manipular discursos de figuras públicas. Por esse motivo, o impacto social da desinformação poderá resultar num o processo de reversão lento, gradual, ou até impossível, uma vez que envolve a recuperação da confiança do público.

A clonagem de voz é uma tecnologia que implica aprendizagem por parte de redes neurais com o objetivo de replicar a voz de um indivíduo, conservando as particularidades que a distinguem. Esta ferramenta tem múltiplas vantagens a nível do entretenimento, saúde e até educação. No entanto, as desvantagens acarretadas poderão ter implicações em domínios legais, sociais e morais.

Artigo redigido por Diana Correia. Revisto por Joana Silva.