Ir al contenido principal

MapReduce


Sabemos que en la industria del cómputo existe una carrera por ver quién puede encontrar un mejor algoritmo, o “una mejor manera”, lo cual como ya hemos destacado anteriormente, no es una tarea nada sencilla, pues no solo implica imaginación, sino ingenio e inventiva, todo respondiendo a las necesidades que van surgiendo a lo largo del un exhaustivo ejercicio de prueba y error que ejercemos a lo largo de (probablemente) toda nuestra vida.

El caso de corporaciones gigantes que invierten grandes cantidades de presupuesto y recurso humano en la mejora sus servicios o productos, es prácticamente el ejemplo más contundente (y único) que hay. Google es una empresa que tuvo la necesidad de crecer a lo largo de décadas de inmenso trabajo e inventiva, buscando cumplir una cantidad tremenda de solicitudes a través de internet, todo haciendo el ejercicio que mencionamos anteriormente. Durante parte de este proceso desarrollaron el algoritmo de MapReduce, que permite dividir una iteración sobre una lista, lo cual no suena como mucho en este ejemplo aislado, así que me tomaré la libertad de brindar mayor contexto. Internet, la nube y muchos recursos en linea, se pueden definir de la manera más burda como “la computadora de alguien más pero interconectada” en este conjunto de computadoras interconectadas podemos encontrar información muy bien definida en texto. Sabemos que google es una compañía que ganó su reputación gracias a su motor de búsqueda, así que la aplicación en contexto de este algoritmo es prácticamente la optimización de las búsquedas en cantidades gigantescas de documentos a través de la red.

Evidentemente, dado el giro y enfoque de este blog, nos encontramos con algunas de las problemáticas que pueden haber surgido respecto a la paralelización de este algoritmo de manera que la comunicación entre cada hilo esté informada del proceso de búsqueda en otros threads de manera segura, una de las formas en las que se logró resolver este tipo de problemáticas fue que los “trabajadores” contengan una copia de los datos e iteren sobre su parte, así mismo un Máster que se encargue de dividir y asignar las tareas a los trabajadores.

Sin duda ingenio en su máximo esplendor.

Comentarios

Entradas más populares de este blog

The Free Lunch Is Over

En las últimas décadas, miles de desarrolladores e investigadores han dedicado sus vidas a mejorar la forma en la que vivimos, así como la manera en la que realizamos ; sin embargo, seguir el mismo camino hasta su última consecuencia implica un límite, pues normalmente los materiales que usamos, los teoremas que aplicamos, funcionan bajo un conjunto de circunstancias limitadas. No es una tarea sencilla buscar otra manera, en gran medida desarrollar algo "mejor", suele ir de la mano con un cambio de paradigma (nada sencillo). En la entrada pasada habábamos de FairChild, una compañía que encontró una mejor manera de desarrollar electrónica, y concluímos en cómo la hoy llamada Intel, ha encontrado algunos inconvenientes en reducir su proceso de fabricación pues a pesar de que durante las últimas décadas ha controlado el mercado del silicio, se han dado cuenta que éstamos llegando a los límites que habían previsto, aún cuando su competencia ha logrado llegar al proceso de...

Welcome to the Jungle

“Welcome to the jungle we've got fun and games ♪♫♬” El ser humano siempre ha buscado alternativas para todo lo que le aqueja, si lo que estaba usando antes ya no satisface sus necesidas. Puede que las condiciones cambien o que las necesidades lo hagan. Así como hablamos en “The Free Lunch is Over”, tenemos que la problemática del proceso de miniaturización de las computadoras, está alcanzando un límite, este límite en realidad tiene un nombre y es conocido como “La ley de Moore”, la única alternativa obvia a no poder miniaturizar más es hacer chips más grandes. Anteriormente los chips que encontrábamos en muchas computadoras era ya de por sí muy grande y con especificaciones de energía que llegaban a ser exorbitantes si el rendimiento que buscábamos también era considerable, esta opción no parece ser tan mala para los fabricantes que rápidamente se aproximan a escalas subatómicas de medición, donde todo se vuelve un misterio de acuerdo a la física. Sin embargo la le...

Parallel Computing on any Desktop

OpenCL, CUDA, Tensor, etcétera… Hace tiempo la arquitectura de prácticamente cualquier computadora corría en una suerte de una única frecuencia de reloj que funcionaba en un único paquete de silicio, incluso casi cualquier pieza de software estaba escrita de tal manera en la que se aprovechara ese único núcleo al máximo, incluso gran parte del software que utilizamos hasta nuestros días, está optimizado para un único tiempo de ejecución. De cierto modo Ami Marowka plantea que todo es acerca de qué tan accesible se puede volver la tecnología, tenemos la idea de que Microsoft se volvió el rey de la accesibilidad con su filosofía, y de cierto modo va de acuerdo a la primera ley del paralelismo masivo, el punto importante de Ami es que gracias a la revolución tecnológica en el cómputo de sobremesa, la tecnología es cada vez más accesible. Incluso para desarrollos tecnológicos importantes tenemos RISC5 por el lado del Open Source, que ya no solo se limita a software. Inc...