Revoice: Una 'garganta' artificial inteligente que devuelve el habla a pacientes que la perdieron tras un ictus

Un collar textil con sensores y algoritmos de inteligencia artificial permite a cinco afectados por disartria expresarse de forma natural y sin pausas por primera vez

Científicos argentinos descubren una nueva especie de dinosaurio gigante en la Patagonia

Revoice: Una 'garganta' artificial inteligente que devuelve el habla a pacientes que la perdieron tras un ictus
Revoice: Una 'garganta' artificial inteligente que devuelve el habla a pacientes que la perdieron tras un ictus / Universidad de Cambridge

La pérdida del habla tras un ictus no es solo una limitación física. Es una barrera invisible que aísla, frustra y dificulta incluso la rehabilitación de otras funciones motoras.

Ahora, un equipo internacional liderado por investigadores de la Universidad de Cambridge ha desarrollado un sistema portátil que promete cambiar radicalmente la vida de estos pacientes: un collar inteligente que traduce los intentos silenciosos de hablar en frases completas, emotivas y personalizadas.

El dispositivo, bautizado por sus creadores como Revoice (IT en su denominación técnica, del inglés Intelligent Throat, garganta inteligente), ha demostrado por primera vez que pacientes con disartria (un trastorno motor del habla provocado por daño neurológico) pueden comunicarse con la misma fluidez y naturalidad que una persona sana.

Los resultados de las pruebas clínicas con cinco afectados por ictus se han publicado en la revista científica Nature Communications.

Hablar sin voz, pensar sin pausas

El funcionamiento del sistema combina hardware textil ultrasensible con modelos de inteligencia artificial de última generación. El collar incorpora dos sensores de grafeno impresos sobre tejido elástico que detectan vibraciones mínimas (menores al 0,1% de deformación) producidas por los músculos laríngeos y la arteria carótida cuando el paciente articula palabras de forma silenciosa, sin emitir sonido.

A diferencia de tecnologías anteriores que obligaban a los usuarios a pausar después de cada palabra durante segundos completos, el sistema IT procesa el habla de manera continua.

"El usuario puede hablar con fluidez sin preocuparse por restricciones de tiempo, ya que el sistema clasifica y agrega constantemente los elementos en palabras y frases coherentes", explican los autores.

Esta continuidad se logra mediante una estrategia innovadora: el análisis del habla a nivel de tokens (fragmentos de señal de apenas 144 milisegundos) en lugar del reconocimiento de palabras completas. Cada token se procesa junto con los 14 anteriores para mantener el contexto, permitiendo que un modelo de red neuronal convolucional 1D identifique qué está intentando decir el paciente en tiempo real.

Inteligencia artificial que comprende y expande

El verdadero salto cualitativo llega con la integración de dos agentes basados en modelos de lenguaje de gran escala (LLM), similares a los que emplean ChatGPT o Claude.

El primero, denominado TSA (Token Synthesis Agent), fusiona los tokens reconocidos en palabras y frases, corrigiendo automáticamente errores mediante razonamiento contextual.

El segundo, SEA (Sentence Expansion Agent), enriquece esas frases básicas incorporando el estado emocional del paciente (detectado a través de las pulsaciones de la arteria carótida) e información contextual como la hora del día o las condiciones ambientales.

Este último aspecto resulta crucial. Durante las observaciones clínicas, los investigadores constataron que los pacientes con ictus experimentaban fatiga notable incluso al articular frases cortas de manera silenciosa.

"Para reducir el esfuerzo físico preservando el mensaje previsto, incorporamos una opción de expansión inteligente que permite a los pacientes expresar tokens concisos, que luego se enriquecen automáticamente en frases completas y contextualmente apropiadas", detallan en el estudio.

El resultado es un sistema que no solo transcribe, sino que comprende la intención comunicativa. Si un paciente articula simplemente "hospital" con señales de pulso que indican ansiedad, el sistema puede generar una frase completa como "Necesito ir al hospital".

La satisfacción de los usuarios se incrementó un 55% cuando se activó esta función de expansión inteligente frente al modo de transcripción directa.

Precisión excepcional con datos limitados

Los resultados técnicos superan ampliamente los umbrales de viabilidad clínica. Tras entrenar el modelo base con datos de 10 personas sanas y afinarlo con apenas 50 repeticiones por palabra de cada uno de los cinco pacientes, el sistema alcanzó una tasa de error en palabras del 4,2% y del 2,9% en frases completas. Estos valores son comparables a los de sistemas de reconocimiento de voz convencionales operando en condiciones ideales.

"Mientras la mayoría de enfoques anteriores han sido validados principalmente en participantes sanos, con exploración limitada de la accesibilidad y adaptabilidad específicas para pacientes, nosotros hemos demostrado eficacia clínica real", subrayan los autores.

De hecho, todas las tecnologías portátiles de habla silenciosa publicadas hasta la fecha se habían probado exclusivamente con voluntarios sin patologías del habla.

La arquitectura del modelo también destaca por su eficiencia computacional. Mediante una técnica llamada "destilación de conocimiento", los investigadores transfirieron el aprendizaje de un modelo grande (ResNet-101) a uno más pequeño (ResNet-18), reduciendo la carga computacional un 76% con apenas un 0,9% de pérdida de precisión. El sistema completo, alimentado por una batería de 1.800 mWh, puede operar durante un día completo sin recarga.

Más allá de la comunicación: salud integral

Los investigadores enfatizan que las implicaciones van más allá de la mera capacidad de transmitir información. "La fluidez recuperada en la comunicación permite a los pacientes volver a participar en interacciones sociales, reduciendo el aislamiento y el riesgo asociado de depresión", afirman en el artículo.

Además, una comunicación efectiva facilita que los terapeutas de rehabilitación realicen ajustes personalizados en tiempo real, apoyando la recuperación de otras limitaciones motoras como la hemiplejia.

El equipo ya trabaja en expandir los ensayos clínicos a cohortes más amplias y diversas que incluyan pacientes con diferentes grados de severidad de disartria y distintos orígenes lingüísticos. También planean incorporar decodificación emocional multimodal (añadiendo señales electromiográficas, respiratorias y de conductancia cutánea) y miniaturizar el sistema mediante computación en el borde para operación autónoma en entornos reales.

El collar actual pesa aproximadamente 50 gramos incluyendo electrónica y batería, con una placa de circuito impreso (PCB) rígida que los pacientes valoraron con una puntuación media de confort de 4,0 sobre 5. Las futuras iteraciones adoptarán diseños flexibles para mejorar aún más la adaptabilidad al cuello del usuario.

Contexto científico y perspectivas

Según datos citados en el estudio, enfermedades neurológicas como el ictus, la esclerosis lateral amiotrófica (ELA) o el párkinson provocan disartria frecuentemente, comprometiendo el control neuromuscular sobre el tracto vocal.

Este deterioro restringe drásticamente la comunicación efectiva, reduce la calidad de vida, obstaculiza sustancialmente el proceso de rehabilitación y puede derivar en problemas psicológicos graves.

Las tecnologías de comunicación aumentativa y alternativa (AAC) existentes incluyen sistemas de deletreo letra por letra mediante seguimiento ocular o cefálico (lentos pero accesibles) y neuroprótesis invasivas basadas en interfaces cerebro-ordenador que registran señales neuronales directamente. Estas últimas resultan transformadoras para casos de parálisis severa, pero implican procedimientos quirúrgicos complejos.

Para individuos que conservan control parcial sobre músculos laríngeos o faciales, existía una necesidad no cubierta de soluciones más intuitivas y portátiles.

El sistema IT se sitúa en este nicho mediante captura de señales no acústicas con tecnología no invasiva, cómoda y cotidiana.

"Establece un nuevo referente en sistemas portátiles de habla silenciosa, ofreciendo una ayuda comunicativa naturalista y centrada en el usuario", concluyen los autores.

  • El estudio ha sido liderado por Chenyu Tang, Shuo Gao y Cong Li como primeros autores, bajo la dirección de Luigi G. Occhipinti en la Universidad de Cambridge. Participan investigadores del Departamento de Ingeniería de Cambridge, la First Affiliated Hospital de la Universidad de Medicina Tradicional China de Henan, el University College London y otras instituciones británicas y chinas. El trabajo cuenta con la colaboración del especialista en cirugía laríngea Martin Birchall y el neurocientífico Peter Smielewski.
stats