La inteligencia artificial aprende a leer labios con gran precisión

Investigadores de inteligencia artificial de la Universidad de Oxford crearon un programa de lectura de labios usando el Deep Learning (aprendizaje profundo). LipNet –así se llama el sistema– demostró que podía superar la performance de lectores de labios profesionales en un grado significativo, alcanzando un 93.4% de exactitud en ciertas pruebas, una cifra alta si se compara con el 52.3% logrado por los expertos humanos. Aun en su etapa temprana, el software fue rapidísimo para procesar videos silenciosos y convertirlos en transcripciones de texto casi en tiempo real.

La lectura de labios no es sencilla: en promedio, las personas pueden reconocer una en diez palabras al ver los labios de alguien, según un estudio. La precisión tiende a variar, por lo que no hay grandes eruditos en el campo. Para resolver este problema, los expertos se vuelcan a la técnica del Deep Learning —que se asemeja mucho a cómo trabajan las redes neurales humanas—. Antes, la inteligencia artificial basada en el procesamiento de vastas cantidades de información ya había mejorado el reconocimiento de voz en audio con niveles casi humanos de exactitud.

Pero el trabajo de Oxford aun no se asemeja al poderoso aparato lector de labios del clásico «2001: Una Odisea del Espacio». Entre sus limitaciones, significativas, está el hecho de que el sistema solamente fue entrenado y probado en una base de datos pequeña: una colección de decenas de miles de videos cortos de solo 34 voluntarios leyendo oraciones sin sentido, y con subtítulos. Cada clip es tres segundos largo, y cada oración sigue el patrón: orden, color, proposición, carta, dígito, adverbio. Las oraciones incluyen por ejemplo: “set blue by A four please” y “place red at C zero again”. Incluso, el universo de palabras dentro del patrón son limitadas —solo hay cuatro órdenes y colores usados.

Para algunos críticos del portal OpenReview.net, las conclusiones del trabajo son algo exageradas. En diálogo con The Verge, los investigadores Yannis Assael y Brendan Shillingford admitieron que estaban trabajando con vocabulario y gramática restringida por limitaciones de información disponible, pero su que su trabajo “se trata de un buen indicador de que el programa puede hacerlo tan bien con una base de datos más grande”.

Consultados por las implicancias de su trabajo en el campo del espionaje, subrayaron que el mismo no las tiene porque para interpretar lo que alguien dice el video debería estar hecho de frente al interlocutor y enfocando y alumbrando los movimientos de la lengua. “Es técnicamente imposible o al menos muy, muy difícil”. En cuanto a lo mismo, los autores del trabajo indicaron que si bien uno de sus supervisores trabaja con Deep Mind, la firma de IA de Google, el gigante de Internet no está involucrado con el desarrollo del sistema de LipNet.

La inteligencia artificial poco a poco está cumpliendo con tareas que hace poco se pensaban exclusivas para el hombre. Un bot, por ejemplo, logró algo tan impresionante como predecir fallos sobre derechos humanos. En el campo de los videojuegos, los bots pudieron pasar fácilmente juegos como Doom, venciendo incluso a jugadores humanos, y el siguiente paso es aprender a jugar el complejo juego de estrategia StarCraft II. Por otro lado, la inteligencia artificial fue también capaz de interpretar correctamente las rutas del Metro de Londres.

Daniel Meza