Nosotros los seres humanos, podemos ver, oír y sentir, y podemos sacarle sentido y lógica a diferentes estímulos externos que rápidamente nos lleguen si ningún tipo de esfuerzo. Sin embargo, hacer lo que hacen nuestros cerebros con facilidad, suele ser algo imposible para los ordenadores. Investigadores del instituto de Leipzig para las ciencias del cerebro y las capacidades cognitivas humanas y el centro de neuroimagen en Londres, desarrollaron hace pocos años un modelo matemático que podría mejorar significativamente el reconocimiento automático y el proceso del lenguaje hablado.
En un futuro no muy lejano, esta clase de algoritmos que imitan los mecanismos cerebrales, podría ayudar a las máquinas a percibir de otra manera el mundo que nos rodea. Muchos de nosotros ya sabrán lo difícil que es para los ordenadores manejarse con los lenguajes hablados.
Uno de los ejemplos más claros del problema de lenguaje con más máquinas y ordenadores lo podemos encontrar en los sistemas de teléfono automatizados, los cuales utilizan muchas corporaciones y organizaciones y que necesitan mucha paciencia.
Si hablas demasiado rápido o lento, si tu pronunciación no es los suficientemente clara o si hay ruido de fondo, el sistema suele fallar a la hora de funcionar correctamente. La razón de esto es que hasta ahora los programas de ordenador que han sido usados, delegan en procesos que son muy sensitivos a las perturbaciones. Cuando los ordenadores procesan un lenguaje, principalmente intentan reconocer funciones características en las frecuencias de la voz para poder reconocer las palabras.
Uno de los encargados de este proyecto conjunto dice que “es probable que el cerebro use un proceso diferente”. Creen que el análisis de secuencias temporales juega un papel importante es esta apartado. Dicho de una manera sencilla, muchos estímulos que se pueden percibir externamente pueden ser descritos como secuencias temporales. Por ejemplo, el lenguaje hablado y la música están compuestos de secuencias de diferente longitud que están ordenadas en una forma jerárquica.
Según los científicos del proyecto, el cerebro clasifica las variadas señales, desde las más pequeñas o los elementos más grandes que van cambiando. El significado de esta información a varios niveles temporales, es probablemente mayor que en un principio se pensó. Según sus estudios “El cerebro está permanentemente buscando una estructura temporal en el entorno para poder deducir que es lo que pasará a continuación”.
De este modo, el cerebro puede por ejemplo predecir las siguientes unidades de sonido basándose en la información que va recibiendo. Para entenderlo mejor, si se está hablando de un verano caluroso, “so…” será más probable de ser el principio de la palabra “sol” que la palabra “sonda”.
Para probar esta teoría, los investigadores crearon un modelo matemático que estaba diseñado para imitar de una manera altamente simplificada, el proceso neuronal que ocurre durante la comprensión del habla. Los procesos neuronales fueron descritos por algoritmos que procesaban el habla a varios niveles temporales. El modelo tuvo un notorio éxito en el proceso del lenguaje; reconoció sonidos de habla individuales y sílabas.
Es contraste con otros dispositivos de reconocimiento de voz, era capaz de procesar recuentas de habla muy rápidos. Además de esto, tenía la habilidad de “predecir” el siguiente sonido hablado. Si la predicción resultaba ser errónea porque los investigadores habían configurado una sílaba poco familiar, el modelo era capaz de detectar la equivocación.
El “lenguaje” con el que el modelo fue probado finalmente fue simplificado – consistía en cuatro vocales que eran combinadas para crear sílabas consistentes en cuatro sonidos. Según los investigadores, en primer lugar querían probar que lo que habían asumido era correcto, antes de empezar a introducir consonantes. A día de hoy, se sigue trabajando en este modelo para que los ordenadores puedan reconocer perfectamente el habla y saltar las limitaciones que hay ahora mismo. Puede que en poco tiempo veamos definitivamente el sistema perfecto.