publicidade
Tecnologia

Voz clonada com inteligência artificial engana família e banco, relata jornalista

Colunista do WSJ conta como 'enganou' sua irmã, seu pai e o sistema de biometria do cartão

inteligência artificial voz clonada - eua - big techs
Colunista questiona segurança das ferramentas de inteligência artificial | Foto: Reprodução/Pixabay

Um artigo da colunista de tecnologia do The Wall Street Journal, Joanna Stern, publicado nesta sexta-feira, 28, mostra que a clonagem de voz, criada com inteligência artificial, conseguiu enganar não apenas o banco, mas também a família da jornalista.

No artigo, ela conta que testou duas ferramentas para criação de avatares em vídeo e voz, a Synthesia e ElevenLabs. E os resultados são surpreendentes, especialmente para a clonagem de voz.

Receba nossas atualizações

A Synthesia cria avatares com IA a partir de vídeo e áudio gravados (também conhecidos como deepfakes). Com o acervo gravado anteriormente, o programa faz o avatar repetir um texto digitado.

Joanna conta que gravou cerca de 30 minutos de vídeo e duas horas de áudio. “A Synthesia usaria esse material para treinar meu clone. Algumas semanas depois, a IA Joanna estava pronta”, escreveu.

O resultado não agradou à colunista, já que o “avatar de vídeo parece um avatar”. “Para frases rápidas, o avatar pode ser bastante convincente. Quanto mais longo o texto, mais sua natureza bot aparece”, avaliou.

A Synthesia cobra US$ 1 mil por ano para criar e manter um avatar personalizado, além de uma taxa de assinatura mensal adicional. Oferece avatares de ações por um custo mensal menor.

A colunista também informa que usou os avatares para videochamadas de trabalho, fazendo comentários comuns em reuniões, mas a IA não convenceu, porque a postura robótica se sobrepõe. “Tudo isso vai melhorar, no entanto. A Synthesia tem alguns avatares em beta que podem acenar para cima e para baixo, levantar as sobrancelhas e muito mais.”

Avatar da Synthesia explica como funciona a ferramenta | Foto: Reprodução

O teste com a voz clonada

Agora, porém, com a clonagem de voz, a experiência foi mais convincente, tanto com o Synthesia como com o ElevenLabs. Ela explica que com essa última ferramenta, depois de baixar 90 minutos de áudio anteriores com sua própria voz, a clonagem de voz foi feita em dois minutos.

Usando o ElevenLabs, ela ligou para a irmã e para o pai. “Minha irmã, para quem ligo várias vezes por semana, disse que o bot soava como eu, mas notou que a voz gravada não parava para respirar. Quando liguei para meu pai e pedi seu número do Seguro Social, ele só sabia que algo estava acontecendo porque parecia uma gravação minha”, contou.

Além da família, a voz do ElevenLabs era tão boa que enganou o sistema biométrico de reconhecimento de voz da operadora de cartão de Joanna. Abastecida com os dados que o banco costuma perguntar, a IA da colunista fez a ligação para o banco. “Ao ouvir a voz do meu bot, o sistema o reconheceu como sendo eu e imediatamente se conectou a um representante”.

Questionada, a operadora de cartão de crédito disse que o banco usa biometria de voz, junto com outras ferramentas, para verificar a identidade de quem faz a ligação, mas, para concluir transações e outras solicitações financeiras, os clientes devem fornecer informações adicionais.

Neste vídeo, a ElevenLabs faz uma demonstração da ferramenta automática de dublagem que preserva a voz e as emoções dos falantes em todos os idiomas.

https://www.youtube.com/watch?v=17_xLsqny9E

Os limites da inteligência artificial

A colunista também questiona os usos e eventuais danos que uma tecnologia como essa pode trazer. “Isso significa que qualquer pessoa na internet pode levar horas da minha voz — ou da sua, ou da de Joe Biden ou de Tom Brady — para salvar e usar.” A Federal Trade Commission, uma agência federal norte-americana de proteção ao consumidor, já está alertando sobre golpes relacionados à voz de IA.

Sobre isso, a Synthesia informou que exige consentimento verbal de quem contrata o serviço. O ElevenLabs permite apenas a clonagem em contas pagas, portanto, qualquer uso de uma voz clonada que viole as políticas da empresa pode ser rastreado até o titular da conta.

A colunista conta, ainda, que nos dois programas, conseguiu “gerar algumas coisas horríveis em minha voz, incluindo ameaças de morte”.

Questionada sobre isso, a Synthesia disse que Joanna obteve essa permissão porque sua conta foi registrada para uso de uma empresa de notícias e que nas contas-padrões, filtros não permitem dizer certas palavras ou frases. A ElevenLabs também disse que tem filtros sonoros e se as gravações violarem os termos de serviço da empresa a conta pode ser banida.

A colunista afirma, ainda, que entrevistou um especialista forense digital da Universidade da Califórnia, em Berkeley, sobre como identificar áudio e vídeo sintéticos. O entrevistado, Hany Farid, respondeu com duas palavras: boa sorte, contou Joanna.

A jornalista cita, com alguma esperança, a Iniciativa de Autenticidade de Conteúdo, liderada pela Adobe. Mais de mil empresas de mídia e tecnologia e estudiosos pretendem criar um rótulo incorporado em imagens e áudios. Fotos, vídeos e áudio na internet podem um dia vir com informações verificáveis anexadas.

Leia mais sobre:

2 comentários
  1. Agnelo A. Borghi
    Agnelo A. Borghi

    Extremamente interessante a matéria. Muitos protocolos de segurança precisam ser criados porque os riscos são claríssimos.

Canal Oeste
Nossos colunistas
J. R. Guzzo (diretor perpétuo)
Augusto Nunes
Ana Paula Henkel
Guilherme Fiuza
Rodrigo Constantino
Alexandre Garcia
Antonio Cabrera
Eugênio Esber
Eugênio Esber
Evaristo de Miranda
Flávio Gordon
Roberto Motta
Miriam Sanger
Adalberto Piotto
Frank Furedi, da Spiked
Jeffrey A. Tucker.
Theodore Dalrymple
Flavio Morgenstern
Ubiratan Jorge Iorio
publicidade
Background
NEWSLETTER
Cadastre-se e receba nossas newsletter com matérias exclusivas toda semana
Background
TELEGRAM
Cadastre-se e receba nossas newsletter com matérias exclusivas toda semana
publicidade
Background
Assine a Revista Oeste
Seja um dos brasileiros que acreditam que o bom jornalismo transforma um país.