Este dispositivo convierte la actividad cerebral en habla sintetizada
Algún día, esta investigación podría dar voz a personas que han perdido el habla debido a enfermedades neurológicas.
Algún día, las personas que han perdido el habla podrían recuperar su voz: un nuevo estudio demuestra que la actividad eléctrica del cerebro puede descodificarse y emplearse para sintetizar el habla.
El estudio, publicado el miércoles en Nature, documentó datos de cinco pacientes cuyos cerebros ya estaban siendo supervisados por ataques epilépticos con conjuntos de electrodos colocados directamente en las superficies de sus cerebros.
Mientras los participantes leían cientos de frases —algunas de cuentos infantiles clásicos como La Bella Durmiente y Alicia en el País de las Maravillas—, los electrodos supervisaban las ligeras fluctuaciones en el voltaje cerebral, que los modelos informáticos aprendieron a relacionar con el habla. Esta traducción se logró a través de un paso intermedio, que conectó la actividad cerebral con una simulación compleja de un tracto vocal, configuración basada en estudios recientes que determinaron que los centros del habla del cerebro codifican los movimientos de los labios, la lengua y la mandíbula.
«Es un enfoque muy elegante», afirma Christian Herff, investigador posdoctoral de la Universidad de Maastricht que estudia métodos similares para convertir la actividad cerebral en habla.
Este dispositivo es el más reciente de una iniciativa en rápida evolución que cartografía el cerebro y diseña métodos para descodificar su actividad. Hace semanas, un equipo independiente en el que participó Herff publicó un modelo en el Journal of Neural Engineering que también sintetizó el habla a partir de la actividad cerebral empleando un enfoque ligeramente diferente, sin la simulación del tracto vocal.
«La descodificación del habla es una frontera nueva y emocionante para interfaces cerebro-máquina», afirma Cynthia Chestek, de la Universidad de Míchigan, que no participó en ningún estudio. «Y existe un grupo de la población que podría aprovecharse de esto».
Ambos equipos, así como otros investigadores de todo el mundo, esperan ayudar a las personas que se han quedado privadas de su capacidad para hablar por enfermedades como la esclerosis lateral amiotrófica (ELA) —una enfermedad neurodegenerativa también conocida como enfermedad de Lou Gehrig— o los accidentes cerebrovasculares. Aunque los centros del habla del cerebro permanecen intactos, los pacientes son incapaces de comunicarse y están aislados del mundo que los rodea.
Existen iniciativas anteriores dedicadas a aprovechar la actividad cerebral para permitir a los pacientes deletrear palabras. Pero las velocidades de mecanografía de estos dispositivos son de un máximo de ocho palabras por minuto, muy lejos del habla natural, con una media de 150 palabras por minuto.
«El cerebro es la máquina más eficaz que ha evolucionado a lo largo de milenios y el habla es una de las señas de identidad de la conducta humana que nos diferencia de todos los primates no humanos», afirma Gopala Anumanchipalli, coautor del estudio de Nature de la Universidad de California, San Francisco. «Y lo damos por hecho, ni siquiera nos damos lo complejo que es este comportamiento motor».
Aunque los resultados de los estudios son prometedores, pasarán años hasta que la tecnología esté a disposición de los pacientes y se adapte a otros idiomas distintos al inglés. Además, es poco probable que estas iniciativas ayuden a personas que hayan sufrido daños en los centros del habla del cerebro, como traumatismos y lesiones cerebrales. Los investigadores también insisten en que estos sistemas no equivalen a leer la mente: los estudios solo monitorizaban las regiones cerebrales encargadas de los movimientos de los tractos vocales durante el habla consciente.
«Si solo pienso que ha sido un día duro, no controlo mis músculos faciales», afirma Herff. «Aquí no estamos descodificando el significado».
Espionaje cerebral
Para convertir los pensamientos en frases, Anumanchipalli y sus colegas emplearon electrodos colocados directamente en la superficie del cerebro. Aunque es un procedimiento invasivo, esta monitorización directa es fundamental para lograrlo. «Como el cráneo es muy duro y actúa como filtro, no permite salir toda la actividad que ocurre por debajo», afirma Anumanchipalli.
Una vez recopilaron datos en alta resolución, los investigadores pasaron las señales por dos redes neuronales artificiales, modelos por ordenador que pueden imitar los procesos cerebrales de manera aproximada para detectar patrones en datos complejos. La primera red dedujo las señales cerebrales del movimiento de los labios, la lengua y las mandíbulas. La segunda convirtió estos movimientos en habla sintética y entrenó al modelo para utilizar grabaciones del habla de los participantes.
A continuación llegó la verdadera prueba: ¿podrían otros humanos comprender el habla sintética? Para obtener respuestas, los investigadores reunieron un grupo de 1.755 hablantes de inglés empleando la plataforma Mechanical Turk de Amazon. Se asignaron 16 tareas diferentes a los subgrupos de oyentes para juzgar la inteligibilidad de las palabras y las frases.
“El cerebro es la máquina más eficaz que ha evolucionado a lo largo de milenios y el habla es una de las señas de identidad de la conducta humana que nos diferencia de todos los primates no humanos.”
Los participantes escucharon 101 frases de habla sintetizada y, a continuación, trataron de transcribir lo que habían oído eligiendo entre un grupo de 25 o 50 palabras. Acertaron del 43 y al 21 por ciento de las veces, respectivamente, según el número de palabras entre las que debían elegir.
No todas las grabaciones eran igualmente inteligibles. Algunas frases simples, como «Is the seesaw safe?» («¿Es seguro el balancín?») se transcribieron siempre a la perfección. Pero las más complejas, como «At twilight on the twelfth day we'll have Chablis» («Al crepúsculo del duodécimo día, tendremos Chablis»), se transcribieron a la perfección en menos del 30 por ciento de los casos.
Algunos sonidos también se descodifican con más facilidad que otros. Los sonidos sostenidos, como el sh en «ship» («barco»), salieron limpiamente del análisis, mientras que las ráfagas marcadas de sonido—como la b de «bat» («murciélago»)— eran más confusas.
Aunque los resultados no son perfectos, Chestek señala que los datos empleados para entrenar al sistema aún son relativamente escasos. «Es posible que aún sigan trabajando con una mano atada a la espalda porque se limitan a cirugías por epilepsia y a pacientes epilépticos», afirma, y añade que los posibles sistemas futuros implantados solamente para la traducción cerebro-habla podrían mejorarse ligeramente. «Siento una emoción prudente ante esto».
Un proceso eléctrico
Los autores del estudio de Nature emplearon un proceso de dos etapas para hacer que el habla sintética fuera más clara. Pero, en principio, es factible pasar directamente de la actividad cerebral al habla sin emplear un tracto vocal simulado como intermediario, como demuestra el estudio de Journal of Neural Engineering.
En ese trabajo, los investigadores registraron la actividad cerebral y el habla de seis personas sometidas a cirugía para la retirada de tumores cerebrales, empleando una red de electrodos en el cerebro similar a la del estudio de Nature. A continuación, el equipo entrenó una red neuronal para que descubriera los vínculos entre las palabras pronunciadas por cada participante y la actividad cerebral, diseñando el sistema de forma que pudiera trabajar con una aportación de audio de entre ocho y 13 minutos, todos los datos que pudieron recopilar en plena cirugía.
«Hay que imaginarse lo difícil que debe ser la situación: el cirujano abre el cráneo y coloca la red de electrodos directamente, y lo hacen para localizar dónde deja de haber cáncer y dónde comienza la importante [materia cerebral] de la corteza», afirma Herff. «Una vez acaban, deben calcular qué cortar y, durante ese intervalo, recopilamos nuestros datos».
A continuación, los investigadores introdujeron los resultados de la red neuronal en un programa que los convirtió en habla. A diferencia del estudio de Nature, que intentó sintetizar frases completas, Herff y sus colegas se centraron en la síntesis de palabras individuales.
Según Marc Slutzky, de la Universidad Northwestern y coautor del estudio del Journal of Neural Engineering, cuesta comparar directamente el desempeño de ambos métodos. Pero sí muestran similitudes. «A partir de los pocos parámetros que utilizamos en común, parece existir un rendimiento similar en cierto modo, al menos en algunos de los sujetos», afirma.
Problemas persistentes
Aún habrá que superar obstáculos considerables antes de que esta tecnología esté en manos —o cerebros— de los pacientes. Por ejemplo, los modelos de ambos estudios se basan en personas que aún pueden hablar y no se han probado en personas que antes podían hablar, aunque ya no.
«Es una cuestión fundamental, independientemente de si funcionan o no los mismos algoritmos», afirma Edward Chang, coautor del estudio de Nature y profesor de neurocirugía en la Universidad de California, San Francisco. «Pero estamos cada vez más cerca».
Anumanchipalli y su equipo intentaron abordarlo en algunos ensayos con participantes que no vocalizaban, sino que articulaban frases con la boca, en silencio. Aunque así lograron generar habla sintética, las grabaciones eran menos precisas que las basadas en aportaciones sonoras. Es más, la imitación exige que los pacientes sean capaces de mover la cara y la lengua, algo que no siempre pueden hacer las personas con trastornos neurológicos que limitan el habla.
«Esto no ayudará a los pacientes en los que más interesa utilizarlo», afirma Slutzky sobre los ensayos. Aunque cree que el estudio es una demostración sólida de las posibilidades actuales, el campo en su conjunto aún se esfuerza por aplicarse a personas que ya no pueden hablar.
Se espera que las interfaces cerebro-habla puedan adaptarse a sus usuarios, del mismo modo que los propios usuarios se adaptan al dispositivo mientras conservan el control de las interfaces, así como una privacidad de la que las personas sin discapacidades disfrutan a diario con su habla. Por ejemplo, ¿cómo pueden los usuarios controlar sus datos, como el vocabulario personalizado que acumulan sus sistemas con el tiempo?
«Puedes apagar esa opción [en un smartphone], pero ¿y si no tienes ese control físico?», pregunta Melanie Fried-Oken, patóloga del habla y el lenguaje en la Universidad de Salud y Ciencias de Oregón y experta en tecnologías de asistencia del habla. «¿Hasta qué nivel queremos que se vulnere la privacidad y la identidad para la función de la comunicación? No sabemos las respuestas».
En las próximas décadas, las personas con enfermedades como la parálisis cerebral, que muchas veces no pueden controlar sus músculos del habla desde una edad temprana, podrían crecer desde la infancia con los dispositivos, que les ayudarían a organizar sus cerebros para hablar desde el principio.
«¿No sería maravilloso poder darle esto a un niño de tres años que ahora puede interactuar con su entorno y que antes no había sido capaz de hacerlo?», afirma Fried-Oken. «Es como poner implantes cocleares a niños sordos, ¡lo mismo! Esto tiene mucho potencial, pero todavía hay muchos problemas neuroéticos».
Este artículo se publicó originalmente en inglés en nationalgeographic.com.