Escuchando a @dotcsv quise probar lo fácil o difícil que sería clonar voces de personas. Clonar voces puede tener muchas cosas buenas, grabar con una voz un documental, permitir grabar clases o conferencias cuidando mucho la dicción y el tono que deseamos y otras utilidades. El problema, como siempre, que hoy gobiernan los malvados y muchos pueden utilizar estas mismas herramientas para engañar, para difamar, para estafar. Por eso es necesario saber cómo funcionan.
No quería subir ni siquiera 15 segundos de voz, aunque fuese anónima a tantos servicios que existen para hacerlo. Si buscas clonación de voz o voice cloning verás que salen muchos servicios de inteligencia artificial (IA). Quería clonar la voz sin subir ningún clip de audio y quería hacerlo sin necesidad de estar conectado a Internet. Tirando del hilo encontré dos vídeos que me ayudaron mucho. Además de los de @dotcsv, también éste de AI Controversy, que me recordó como instalar pinokio y éste otro para poder instalar el modelo F5-TTS en español.
Y se aprenden cosas muy interesantes, algunas ideas sueltas:
- Debería aprender mucho más sobre https://pinokio.computer/ una aplicación instalable, que funciona muy bien tanto en Mac como en Linux o Windows, no hay diferencias, aunque luego hay scripts que pueden funcionar para solo una de las plataformas. Pinokio es un navegador opensource que te permite instalar muchas y variadas aplicaciones de inteligencia artificial que trabajan con modelos y puedes mantener todo 100% de forma privada. Para mí, impresionante.
- El modelo F5-TTS funciona relativamente bien, ojo, cada vez que lo ejecutas hace una representación ligeramente diferente.
- Ahora entiendo por qué hay estudios y programas capaces de detectar y extraer mucha información por la voz. Dependiendo de los audios de mis amigos/as los resultados eran muy diferentes y es que cada audio demostraba si esa persona estaba tranquila o nerviosa, excitada o alterada porque iba simplemente andando, si hablaba más alto o con más dudas (mucho eh, umm) de lo normal porque no sabía bien cómo decir lo que quería decir. El experimento fue muy muy interesante aunque si hablamos de coincidencia y «credibilidad» de la voz la media podría estar en un 6,5/10 con la mejor nota en 8 y la peor en 4. Las pruebas las hice fundamentalmente en español. En inglés apenas hice pruebas con 2 audios.