Donald Trump, Elon Musk y Taylor Swift son las personalidades públicas que más ‘deepfakes’ han protagonizado en 2024, una práctica que manipula la imagen y la voz con herramientas de inteligencia artificial y que han proliferado en internet y redes sociales pese a los riesgos que conllevan para la democracia.
Los ‘deepfake’ son un tipo de contenido audiovisual manipulado que muestra imágenes falsas, habitualmente simulando la voz y la apariencia de otras personas. Sin embargo, tienen la peculiaridad de que dichas imágenes parecen ser reales, ya que se generan utilizando técnicas avanzadas de aprendizaje profundo e Inteligencia Artificial (IA).
Aunque inicialmente eran un formato solo apto para desarrolladores, ahora son un tipo de vídeo que está al alcance de cualquier persona gracias a los avances en tecnologías de clonación de voz y sincronización de labios de código abierto.
Según han explicado desde Kapwing, plataforma de creación de vídeos, la clonación de voz toma de ejemplo la voz de una persona a partir de una muestra de audio breve, de entre 10 y 15 segundos. Con ello, analiza y aplica las características vocales a un modelo subyacente capaz de generar voz a partir de texto.
Por su parte, la IA para la sincronización de datos hace coincidir los labios de las imágenes de la persona que se esté imitando con los sonidos que se producen en el archivo audio. En este sentido, según ha detallado la plataforma, con tecnologías como las mencionadas anteriormente, se puede crear un gemelo de IA solo con diez segundos de metraje inicial.
Estas tecnologías permiten manipular un vídeo de forma realista y en un periodo corto de tiempo. Según han detallado desde Kapwing, con tecnologías como las mencionadas, se puede crear un gemelo de IA solo con diez segundos de metraje inicial, como se desprende de una investigación que han realizado sobre las posibilidades que ofrece el ‘deepfake’ y los reisgos que supone esta tecnología para la suplantación de identidad o la difusión de noticias falsas.
LOS PERSONAJES FAMOSOS MÁS ‘DEEPFAKEADOS’
Debido a la proliferación de estas tecnologías, los vídeos ‘deepfake’ son actualmente un contenido que se encuentra de manera frecuente en Internet y en las redes sociales, llegando incluso a viralizarse.
Las personalidades públicas suelen protagonizar estos ‘deepfakes’ cuando el objetivo es «influir en la opinión pública, permitir la estafa o actividades fraudulentas, o para generar ganancias». Pero no vale cualquier pesona.
En este sentido, según los datos recabados desde Kapwing, tras analizar los mensajes de texto a vídeo en un popular canal de Discord para generar vídeos con IA, el expresidente de Estados Unidos Donald Trump, el propietario de X (antigua Twitter), Elon Musk, y la cantante y compositora Taylor Swift, son las figuras públicas estadounidenses más ‘deepfakeadas’ en lo que va de 2024.
Concretamente, la plataforma ha contabilizado 12.384 solicitudes de vídeos ‘deepfake’ relacionadas con Trump en 2024, otras 9.544 solicitudes estaban vinculadas con Musk y 8.202 con Taylor Swift. Como apuntan desde Kapwing, estas tres personalidades han sido suplantadas con más frecuencia que cualquier otro famoso, en relación al uso de ‘deepfake’.
De cerca les sigue el actual presidente de Estados Unidos, Joe Biden, quien también ha sido una de las personalidades más ‘deepfakeadas’, con 7.956 solicitudes. En esta lista también se encuentran actores, como Tom Cruise, Dwayne Johnson y Will Smith.
Igualmente, se han solicitado vídeos ‘deepfake’ relacionados con deportistas, como los futbolistas Cristiano Ronaldo y Leo Messi y el jugador de baloncesto Michael Jordan. Lo mismo ha ocurrido con cantantes de la talla de Beyoncé y personalidades del mundo de la tecnología como el CEO de Meta, Mark Zuckerberg.
PELIGROS DE LA SUPLANTACIÓN CON ‘DEEPFAKE’
Aunque gran parte de este contenido se crea y se publica en Internet para entretenimiento, como una forma de hacer comedia, por ejemplo, suplantando a personalidades famosas para hacer que cuenten un chiste, también puede suponer un riesgo o crear confusión entre los usuarios ante el realismo de algunos ‘deepfakes’.
Un ejemplo de ello es un vídeo falso de un discurso de Joe Biden tras cesar su candidatura a las próximas elecciones a la presidencia de Estados Unidos. En las redes sociales, algunos usuarios pueden creer que se trata de un vídeo real y confiar en que la información que han escuchado de la boca del presidente de Estados Unidos, aunque sea a través de un vídeo, es real.
Además de fomentar el consumo de ‘fake news’ o noticias falsas, estos ‘deepfakes’ también son una herramienta para los ciberdelincuentes, que pueden utilizarlos como método para estafar a los usuarios aprovechándose de la confianza que se deposita en las personalidades públicas.
DETECTAR LOS ‘DEEPFAKES’ MODERNOS
Con todo ello, desde Kapwing han señalado algunas pautas a tener en cuenta para detectar los vídeos ‘deepfake’ efectuados con tecnologías modernas. Para ello, ha señalado que la clave es prestar atención tanto al audio como al vídeo, poniendo énfasis en la voz y los labios.
Esto se debe a que una de las muestras de que se trata de un ‘deepfake’ es que el movimiento de los labios y dientes es «inconsistente». Aunque la tecnología de sincronización de labios evolucione constantemente, el proceso a menudo da fallos como que la boca esté más borrosa o los labios tengan un color rosa poco natural. De la misma forma, los dientes suelen aparecer con un tono muy blanco y registran movimientos poco reales cuando son visibles, ya que esta es una tarea compleja para la IA.
Siguiendo esta línea, los ‘deepfakes’ también suelen mostrar movimientos y gestos corporales antinaturales. Tal y como ha explicado la compañía tecnológica, esto se debe a que, aunque los movimientos de los labios y la boca se rectifican para parecer reales, los gestos corporales no se modifican.
Esto se traduce en síntomas como que el encogimiento de hombros, los movimientos de la cabeza o los gestos con las manos no coinciden con lo que se está narrando y se usan para enfatizar un punto determinado. Según ha ejemplificado, un movimiento erróneo podría ser que la persona mirase hacia otro lado mientras habla. Igualmente, la falta de parpadeo también es un indicio de contenido creado con IA.
En lo relacionado a la voz, dado que los ‘deepfakes’ utilizan voces generadas por IA, suelen ofrecer un sonido más monótono y menos expresivo que las de un humano real. Esto se nota en cuestiones como los patrones de respiración.
«Las conclusiones de nuestro estudio muestran claramente que los deepfakes de vídeo ya son algo habitual, al igual que las herramientas que pueden utilizarse para hacerlos. Es necesario que estas herramientas estén disponibles de forma segura», ha manifestado al respecto el cofundador de Kapwing, Eric Lu, al tiempo que ha señalado que esperan que otros proveedores «también dejen claro cuándo se altera el contenido y tomen medidas para garantizar la seguridad».