Clonar cualquier voz

En esta entrada te enseño a clonar cualquier voz, incluyendo la tuya misma o la de cualquier personaje que te guste! Aquí tienes un ejemplo!

Utilidades de los motores TTS

Ya hemos hablado largo y tendido de los motores TTS (‘Text-to-Speech’), que permiten transformar un texto escrito en un audio. Esto resulta muy útil en domótica, por ejemplo para emitir notificaciones por nuestros altavoces. Además ya sabemos cómo reemplazar estos motores para usar otros que tienen más variedad de voces o que suenan más naturales.

También hemos entrado en el terreno de los asistentes personalizados, convirtiéndolos en nuestros personajes favoritos. Algo muy divertido es utilizar las voces originales para que las diga nuestro asistente. Ya habíamos conseguido extraer y reproducir audios de películas, pero estaría genial poder utilizar su voz para que diga lo que queramos, ¿verdad?

Motor F5-TTS

Cada vez estamos más cerca de nuestro objetivo final! En este caso vengo a presentarte el motor F5-TTS, que te va a permitir clonar cualquier voz, gratis y de forma sencilla. Sólo tienes que seguir estos pasos:

Entra en la versión española de la página web de F5-TTS.
Nada más entrar, la página web te solicitará permisos para acceder a tu micrófono. Lógicamente esto se requiere siempre que quieras clonar tu propia voz, ya que necesita al menos una muestra de 15 segundos de audio en la que la voz se escuche con claridad. No obstante, si quieres clonar una voz diferente (o ya tienes audios con tu voz) no es necesario. Como puedes observar, tienes la opción de grabar la muestra con el micrófono o cargar directamente cualquier fichero de audio.

Personalmente me parece muy interesante generar audios personalizados para utilizarlos en nuestros asistentes locales. Para ello te recomiendo que utilices la técnica que te enseñe en esta entrada para extraer muestras de la voz de tu personaje favorito. Luego sólo tienes que cargarlas.
En pocos segundos habrá procesado tu fichero de audio, y yá solo tendrás que escribir el texto que quieres generar con la voz de tu personaje y pulsar en «Sintetizar». Algunos consejos a tener en cuenta:
- Para los mejores resultados, intenta convertir tu audio de referencia a WAV o MP3, asegurarte de que duren entre 11 y 14 segundos, que comiencen y acaben con entre medio segundo y un segundo de silencio, y a ser posible que acabe con el final de la frase.
- El motor lee en castellano, por lo que si quieres pronunciar algo en otro idioma escríbelo como suena fonéticamente (por ejemplo, «Jom Asistant» en lugar de «Home Assistant»).
- Respeta los signos de puntuación y utiliza puntos entre frases si quieres generar pausas.
- Si quieres mejorar la precisón en la voz del audio generado, transcribe el audio que has cargado en el campo «Texto de Referencia». Esto mejorará la calidad.
- Intenta que el audio de referencia esté limpio de ruido, y que tu personaje tenga la misma entonación que quieras generar (por ejemplo, enfadado).

En unos pocos segundos se habrá generado el audio, que puedes escuchar un poco más abajo. Para descargarlo haz clic en el icono de la esquina superior derecha.

Recuerda que es una herramienta gratuita, y puedes repetir el proceso tantas veces como quieras.

Clonar cualquier voz

Utilidades de los motores TTS

Motor F5-TTS

Buscador

Idioma