El poder científico de muchos

Por Luis Miguel Martínez
Correo: [email protected]
Twitter: @lmuia

Al surgir las primeras computadoras personales, rápidamente sus usuarios se dieron cuenta de los problemas económicos de la vida digital mediada a través de computadoras. Al ser equipos caros, su uso se encarecía pues sólo se utilizaba pocas horas al día por una sola persona. El diseño del hardware y software de las máquinas PC –compatibles con Apple o con IBM–,  impedía que fueran usadas por más de una persona, en una operación simultánea. Así la máquina, que funcionaba a imagen y semejanza de sus creadores, tenía desventajas respecto a las arquitecturas multiusuario y/o multitasking, tales como la PDP o la VAX.

Estos problemas se resolvieron con la popularización de redes de computadoras –más tarde incorporando la Web– y el avance en los sistemas operativos. Por otra parte, algunos científicos se dieron cuenta de que el procesador, uno de los elementos más caro de las computadoras, no era utilizado todo el tiempo. De esa forma, los científicos del proyecto SETI para la búsqueda de inteligencia extraterrestre, pensaron si ese tiempo ocioso podría ser usado en algo, propusieron usarlo para procesar los datos recibidos en el radiotelescopio de Arecibo –célebre por la película  Contacto – Zemeckis / 1997–, así nació el proyecto [email protected], que utiliza el “tiempo ocioso del procesador” para procesar datos recabados por los radiotelescopios. Una pantalla del screensaver se puede ver en la siguiente figura:

Tomada de: www.esacademic.com

Evidentemente, no tardó en mostrarse un interés comercial por estos nuevos espacios para la publicidad y así como se regalaban “mousepads” con marcas y anuncios, se comenzaron a producir “guardapantallas” con todo tipo de mensajes.  Ya en este siglo, IBM se lanzó a la conquista del “tiempo ocioso de procesadores” con la iniciativa del World Community Grid, cuya misión es crear la estructura de cómputo público más grande del mundo para ayudar a resolver problemas que beneficien a la humanidad.  Así se ha usado esta magnífica estructura para resolver los problemas de cómputo del proteoma humano, la comparación del genoma humano, la búsqueda de curas para la distrofia muscular y el proyecto de energías limpias.

Curiosamente, esta aplicación utiliza el mismo software para cómputo en grid que [email protected]. Holísticamente, el resultado de sumar pequeñas cantidades de poder cómputo puede lograr más que una gran computadora. Así, Google y Amazon, utilizan grandes granjas de servidores –PCs muy baratas con Linux– para resolver sus necesidades de cómputo. Como hormiguitas, estas computadoras de bajo costo resuelven de forma más eficiente problemas de “number crunching” que las grandes supercomputadoras.

Tal vez los problemas dejados a cargo de estas pequeñas-grandes computadoras suenan demasiado científicos o complejos, pero ¿qué tal ayudar a digitalizar libros antiguos? El proyecto de re-Captcha busca usar el poder de unos 200 millones de usuarios al día para completar la digitalización de libros antiguos. Uno de los problemas más antiguos en la web es la autentificación de usuarios y el cómo un servidor puede reconocer si el usuario es humano o un robot que buscar llenar miles de peticiones por minuto para cualquiera que sea su propósito. De esa forma, se utiliza CAPTCHA –Completely Automated Public Turing Test to Tell Computers and Humans Apart–, para distinguir entre entes al solicitar que el usuario copie un texto  que teóricamente, las computadoras no pueden “leer”.

Este texto son letras distorsionadas que son interpretadas por el humano y se comparan contra una base de datos en el servidor web. Cada día unos 200 millones de CAPTCHAS son resueltos para validar el acceso a un servicio en la web. Y si suponemos que resolver un CAPTCHA toma unos 10 segundos, entonces se invierten de forma global algo cercando a medio millón de horas sólo en eso. De la misma forma que [email protected], alguien pensó en que ese poder de muchos desperdiciado, podría usarse para corregir los errores del aún imperfecto OCR –Optical Character Recognition–, usado para convertir en “texto útil” las letras digitalizadas. Ya que en el caso de libros antiguos la digitalización automatizada resulta en muchos errores y es necesario corregir el texto manualmente. Así, con ReCaptcha, es factible corregirlo al proporcionar al usuario dos palabras, una que es usada como el CAPTCHA convencional –para validar el acceso- y otra tomada de estos problemas de digitalización para contribuir a corregir lo que el OCR no pudo hacer, ¿imaginas qué podrías hacer con 200 millones de operaciones al día? ¿qué harías con ese poder de cómputo en una auditoria o para verificar un diseño?

No te desconectes y si quieres ayudar al proyecto ReCaptcha, incluye una cajita de verificación en tu sitio web. Consulta las instrucciones en su sitio en www.google.com/recaptcha.