Revista Ecos de Asia

Information

This article was written on 07 May 2019, and is filled under Cultura Visual, Música y escenarios.

El nacimiento de VOCALOID, o cómo crear la voz del futuro

Uno de los estrenos más esperados de la temporada de anime de esta primavera es Carole and Tuesday, el retorno como director del afamado Watanabe Shinichirô (responsable de Cowboy Bebop), que cuenta la historia de dos chicas que aspiran a ser cantantes en un mundo que quiere sustituir a los artistas por inteligencias artificiales. Aunque ambientada en un futuro indeterminado, éste podría estar más cerca de lo que imaginamos debido, en gran medida, a VOCALOID, el nombre del sintetizador de voz humana más famoso y rentable del mundo. Sin ir más lejos, en marzo de 2018 llegó a España VOCALOID Opera “The End”, espectáculo musical sin orquesta y sin cantantes, donde la protagonista indiscutible era el personaje virtual Hatsune Miku, cara visible de este sintetizador, que obtuvo un gran éxito de crítica y de público.

En este artículo presentamos una panorámica sobre uno de los aspectos menos conocidos de VOCALOID, su historia, desde sus humildes orígenes a principios del presente siglo hasta que alcanzó la fama de la que sigue disfrutando en la actualidad.

¿Qué es VOCALOID?

El término VOCALOID designa un software desarrollado por la empresa nipona Yamaha que permite sintetizar la voz humana, aunque también alude a la infinidad de personajes que han servido como imagen promocional de los distintos bancos de voz que ha utilizado este motor a lo largo de los años. El usuario trabaja con el VOCALOID Editor, que le permite introducir en una interfaz la letra de la canción, así como asociar a cada sílaba una nota musical. A la hora de introducir la letra, se recomienda utilizar los sistemas fonéticos de transcripción correspondientes de cada idioma: en caso del japonés, el hiragana, el katakana o el romaji, en chino el pinyin, en coreano el hangul. También pueden editarse otros parámetros, como la longitud que se sostiene cada nota o el tono de voz. Posteriormente, es tarea del motor de síntesis, núcleo de esta tecnología, elegir los fragmentos de voz correspondientes de la biblioteca de voces, que reúne grabaciones cortas de voces reales cantando, para adaptarlos a la composición del usuario. Además, de comercializarse para ordenador, también está disponible en otras plataformas, como iVOCALOID, para iPad o iPhone, o NetVOCALOID, que permite acceder al motor de síntesis en la nube.

Pantalla de la cuarta versión del VOCALOID Editor (izquierda) y iVOCALOID (derecha).

Contexto histórico: cómo surgió el proyecto VOCALOID

Para comprender el interés que llevó al desarrollo de VOCALOID en el año 2000 hay que retrotaerse a los años ochenta, donde la norma en la escena de la creación musical era utilizar un secuenciador de música que permitía introducir notas y otros eventos para, posteriormente, enviarlos a una interfaz de control externo que combinaba distintos instrumentos, siendo la más extendida MIDI (Musical Instrument Digital Interface). Esta tecnología dio un salto cualitativo en 1999, con la generalización del nuevo CPU Pentium III que permitía que los ordenadores alcanzaran velocidades de 1 GHz, dando paso a que estos secuenciadores pudieran fabricarse en software sin necesidad de utilizar aparatos externos. Uno de los primeros ejemplos fue el Giga Sampler, lanzado ese mismo año por la compañía americana NemeSys Music Technology. Esto permitió que en los años 2000 tanto profesionales como aficionados pudieran crear música con sólo disponer de un ordenador. Sin embargo, el único “instrumento” que seguía sin poder reproducirse por medios informáticos era la voz, por lo que los vocalistas y los coros tenían que seguir grabándose en un estudio. Los aficionados, por su parte, se veían obligados a cantar ellos mismos o a pedirle a algún conocido que cantara por ellos para después grabar el resultado con un micrófono. Era cuestión de tiempo, por tanto, que alguien desarrollara un sintetizador de voz.

Fue en este momento cuando intervino Yamaha, una compañía japonesa fundada en 1877 especializada en la construcción de instrumentos musicales. Según palabras de Kenmochi Hideki, violinista profesional y empleado de la empresa en esos años, apodado el “padre de VOCALOID”, dado que Yamaha gozaba de gran experiencia en el trabajo con instrumentos musicales tradicionales, era lógico que también quisiera dominar la voz, el instrumento más utilizado del mundo. Por supuesto, ya se habían desarrollado sintetizadores de voz previos a VOCALOID: en 1961 los Laboratorios Bell (asociados a la compañía finlandesa Nokia) lanzaron un sintetizador de voz para el ordenador IBM 704, e hicieron una demostración haciéndole cantar la tonada popular Daisy Bell, convirtiéndose en la primera voz sintetizada por ordenador que cantaba del mundo. A partir de ese momento, gracias al rápido avance de la tecnología empezaron a surgir más iniciativas de este tipo. Por ejemplo, en 1997 la propia Yamaha lanzó al mercado la mesa de sonido PLG-100SG, que incluía entre sus funciones la síntesis de voz. Sin embargo, este tipo de tecnología se quedaba en el ámbito experimental, y nunca llegó a integrarse en el panorama musical.

Max Mathews, programador del acompañamiento de Daisy Bell, en los Laboratorios Bell con el IBM 704 (izquierda) y Kenmochi Hideki, “padre de VOCALOID” (derecha).

Los inicios de VOCALOID

VOCALOID, llamado inicialmente Proyecto Daisy en honor de los pioneros Laboratorios Bell, empezó a desarrollarse en el año 2000 con el objetivo de que fuera utilizado por músicos profesionales, para lo cual consideraron que tenía que cumplir tres condiciones: que la dicción fuese clara, que la voz sintetizada se acercara lo más posible a la humana y que contara con un entorno cómodo que permitiera combinar las letras con las notas musicales.

En sus comienzos Yamaha colaboró con el Grupo de Tecnología Musical de la Universidad Pompeu Fabra (Barcelona), cuyo director en esos momentos, Xavier Serra, había entrado en contacto con la compañía japonesa durante su estancia en Estados Unidos en los años noventa. No se trataba de una investigación por contrato, sino que dividieron las tareas y colaboraron para conseguir su objetivo. La mayor complicación estribaba en que la combinación de las sílabas de la letra de la canción con las notas musicales, unido a la posibilidad de controlar por cuánto tiempo se mantenían dichas notas y la modulación del tono de voz, daba lugar a infinitas combinaciones. La forma de superar este reto consistió en reunir una gran cantidad de sonidos sencillos que después pudieran combinarse, aunque dar con el método de acoplarlos de manera que produjeran una voz realista fue un complejo proceso de prueba y error. El resultado fue la primera versión del motor de síntesis de voz VOCALOID, llamado por los aficionados V1.

La evolución de VOCALOID

Tras cuatro años de desarrollo, Yamaha vendió la licencia de este motor a la promotora japonesa Crypton Future Media y a la compañía inglesa Zero-G, que fueron los responsables de lanzar al mercado los primeros productos comerciales que utilizaban el nuevo sintetizador de voz. Los primeros VOCALOID del mundo llegaron de la mano de Zero-G, LEON y LOLA, dos softwares estrenados en marzo de 2004 que permitían cantar en inglés con voz masculina o femenina, respectivamente, y que acabaron siendo un rotundo fracaso comercial. Ocho meses después Crypton Future Media lanzaría el primer VOCALOID japonés, la voz femenina MEIKO que, contrariamente a sus compañeros, disfrutaría de un moderado éxito. Su contrapartida masculina, KAITO, sin embargo, volvería a ser un desastre en el mercado.

Aunque ninguno de estos VOCALOID de primera generación logró la aceptación de los músicos profesionales, que consideraban sus voces extrañas y antinaturales, proporcionaron la clave para la correcta promoción del producto. La razón de las bajas ventas de LEON y LOLA se debían principalmente al paquete en el que se vendían, que remitía a cantantes reales. Por el contrario, MEIKO se comercializó con la apariencia de un personaje de anime, lo que la separaba claramente de las personas y aumentaba el público objetivo, llamando la atención de los aficionados además de los expertos. El fracaso de KAITO constituía un caso aparte, ya que sus pobres ventas se debieron al bajo reclamo de voces masculinas en el mercado.

Paquetes de LEON y LOLA (izquierda) y de MEIKO y KAITO (derecha).

A pesar del fracaso comercial, Yamaha se puso en marcha para mejorar el motor de síntesis de voz, dando lugar a VOCALOID2, con tecnología actualizada que permitía sintetizar voces más cercanas a la humana. Teniendo en cuenta el éxito de MEIKO y el fracaso de KAITO, a la hora de comercializarlo Crypton Future Media optó por crear una chica joven con apariencia de anime, la futura Hatsune Miku, cuyo diseño (a cargo del ilustrador KEI) está inspirado en el teclado Yamaha DX7. Sin embargo, durante el desarrollo del nuevo personaje diez de las cantantes que habían participado para crear su voz expresaron su descontento, quejándose de que no era más que un clon además de un atentado contra las versiones originales de las canciones. A raíz de este incidente se decidió reorientar el fin de VOCALOID: en vez de crear un software que cantara como un humano, ideal al que aspiraban MEIKO y KAITO, decidieron crear un personaje que interpretara un papel, alejándose de la idea de sustituir a las personas y dotándolo por el contrario de una voz deformada y algo robótica. Como base para este nuevo personaje, no sólo decidieron recurrir al mundo del anime que había sido parte de su éxito, sino que contactaron con empresas de seiyû (dobladores japoneses) para encontrar la que sería la nueva voz de Hatsune Miku, la dobladora Fujita Saki de Arts Vision. Otra novedad que introdujeron fue la de proporcionarle una personalidad, de tal manera que fuera posible empatizar con el personaje, inspirada en grupos de idols femeninos como Morning Musume o AKB48.

Diseño original de Hatsune Miku hecho por KEI con el teclado Yamaha DX7.

Hatsune Miku fue lanzada en agosto de 2007, y se convirtió en el punto de inflexión que dio comienzo al boom de los VOCALOID. Se pueden teorizar tres claves para su éxito: la primera de ellas fue la campaña promocional, que la presentaba como una voz que no era humana, pero tampoco del todo sintetizada, una voz que venía del futuro. La segunda clave la encontramos en la plataforma japonesa independiente de vídeos Nico Nico Dôga, cuya infraestructura fue completada hacia el año del estreno, que permitió a los aficionados subir vídeos con Hatsune Miku como protagonista, en un principio versionando otras canciones y posteriormente interpretando composiciones originales. Este grupo de compositores amateur llegaría a conocerse como VOCALOID-P (la “P” haciendo referencia a “producer”). La tercera clave la encontramos precisamente en el nuevo público que consumía el producto, que no eran músicos profesionales sino aficionados, quienes se habían animado a colaborar gracias a la interfaz simplificada del editor, así como atraídos por el carisma de Hatsune Miku. Esto permitió que el sintetizador no sólo triunfara en la red, sino que empezara a ser conocido entre los jóvenes a través de las salas de karaoke, donde VOCALOID sigue cosechando grandes éxitos, como el protagonizado en 2014 por la canción Senbonzakura.

A partir de ese momento, VOCALOID fue imparable. Como parte de VOCALOID2 también se estrenaron algunos de sus personajes más famosos, los gemelos Kagamine Rin y Len (ambos basados en la seiyû Shimoda Asami), así como Megurine Luka, cuya referencia es la cantante Asakawa Yû, y en la actualidad pueden contarse casi un centenar de estas celebridades. Desde 2007, además, VOCALOID dejó de ser sólo un motor de síntesis de voz para convertirse en un fenómeno transmedia, del que forman parte juegos para consolas, todo tipo de merchandising (ropa, peluches, figuras…) y, por supuesto, también discos, ya que las discográficas no han perdido la oportunidad de entrar a formar parte de un negocio tan lucrativo, si bien el peso principal de la industria sigue recayendo en el motor de síntesis, cuya quinta versión, VOCALOID5, fue lanzada en julio de 2018.

Versión de karaoke de la canción Senbonzakura (izquierda), figuras de Ren y Lin (centro) y pantallazo de Megurine Luka en el videojuego Project Diva X (derecha).

Por último, hay que resaltar que Kenmochi Hideki no ve los VOCALOID como sustitutos de los cantantes humanos, sino que cree que hay sentimientos que sólo ellos pueden expresar. Son la voz de la juventud, de los adolescentes que constituyen la mayor parte de sus compositores, quienes ven en el motor de síntesis y en sus personajes la oportunidad de exteriorizar unos sentimientos que los cantantes adultos considerarían difíciles de transmitir. Admite, sin embargo, que seguramente en un futuro los VOCALOID llegarán a ser indistinguibles de las personas, de manera similar a los gráficos de ordenador, pero considera que no es más que la evolución natural de la historia de la música.

En conclusión, VOCALOID es objeto de opiniones polarizadas, sometido al escrutinio de los profesionales que lo ven como una amenaza, pero a la vez adorado por los jóvenes, de los que se ha convertido en portavoz. Sin embargo, independientemente de los gustos de cada persona, es innegable que ha cambiado la forma de crear, consumir y compartir la música, y que ha venido para quedarse.

avatar Claudia Bonillo (32 Posts)

Nació en Zaragoza el 29 de diciembre de 1993. En su época de instituto vio sus primeros mangas y animes, lo que la llevó a interesarse por Japón. Acabó la carrera de Ingeniería Informática en 2016, tras lo que cursó el Diploma de Especialización en Estudios Japoneses y el Máster en Estudios Avanzados en Historia del Arte en la Universidad de Zaragoza, especializándose en historia japonesa. Actualmente es estudiante de doctorado en la misma universidad.


Share

Deja un comentario