Ir al contenido principal

MapReduce


Sabemos que en la industria del cómputo existe una carrera por ver quién puede encontrar un mejor algoritmo, o “una mejor manera”, lo cual como ya hemos destacado anteriormente, no es una tarea nada sencilla, pues no solo implica imaginación, sino ingenio e inventiva, todo respondiendo a las necesidades que van surgiendo a lo largo del un exhaustivo ejercicio de prueba y error que ejercemos a lo largo de (probablemente) toda nuestra vida.

El caso de corporaciones gigantes que invierten grandes cantidades de presupuesto y recurso humano en la mejora sus servicios o productos, es prácticamente el ejemplo más contundente (y único) que hay. Google es una empresa que tuvo la necesidad de crecer a lo largo de décadas de inmenso trabajo e inventiva, buscando cumplir una cantidad tremenda de solicitudes a través de internet, todo haciendo el ejercicio que mencionamos anteriormente. Durante parte de este proceso desarrollaron el algoritmo de MapReduce, que permite dividir una iteración sobre una lista, lo cual no suena como mucho en este ejemplo aislado, así que me tomaré la libertad de brindar mayor contexto. Internet, la nube y muchos recursos en linea, se pueden definir de la manera más burda como “la computadora de alguien más pero interconectada” en este conjunto de computadoras interconectadas podemos encontrar información muy bien definida en texto. Sabemos que google es una compañía que ganó su reputación gracias a su motor de búsqueda, así que la aplicación en contexto de este algoritmo es prácticamente la optimización de las búsquedas en cantidades gigantescas de documentos a través de la red.

Evidentemente, dado el giro y enfoque de este blog, nos encontramos con algunas de las problemáticas que pueden haber surgido respecto a la paralelización de este algoritmo de manera que la comunicación entre cada hilo esté informada del proceso de búsqueda en otros threads de manera segura, una de las formas en las que se logró resolver este tipo de problemáticas fue que los “trabajadores” contengan una copia de los datos e iteren sobre su parte, así mismo un Máster que se encargue de dividir y asignar las tareas a los trabajadores.

Sin duda ingenio en su máximo esplendor.

Comentarios

Entradas más populares de este blog

Joe Armstrong on Erlang

Erlang es un lenguaje de programación semifuncional que posee una estructura dinámica, permite dar asignaciones únicas a variables, y de acuerdo a su definición, es tolerante a fallas, así como posee una característica que es de suma importancia para este blog, es que tiene incorporado el soporte para trabajos concurrentes. En entradas anteriores hablábamos del cambio de paradigma, que es algo que de hecho hemos insistido hasta el cansancio en casi todas las entradas, pues el reto ya no es conseguir el hardware capaz de trabajar con multiprocesamiento, o en el caso de Erlang, concurrencia, y este lenguaje de programación es un acercamiento bastante acertado al mundo del paralelismo; sin embargo, paralelismo y concurrencia no son inherentemente lo mismo. A pesar de que hablamos de conceptos algo distintos, el interés es muy similar pues la concurrencia nos ha ayudado a alcanzar algo así como “un paralelismo falso”. Podemos explicarlo de la manera más sencilla retomando un...

Teaching Concurrency with Erlang

Como presentamos anteriormente en la entrada correspondiente a Erlang, nos queda claro que el Paralelismo aunque es diferente a la concurrencia, ambos nos ayudan a alcanzar nuestro deseado objetivo de tener un paradigma de desarrollo de software más enfocado al aprovechamiento de recursos listos para multiproceso. A medida que la tecnología avanza, el interés por hacer programas Concurency-Oriented incrementa debido a que cada vez se integra tecnología más compleja y completa que satisface diversas necesidades que han surgido con el tiempo, así como la miniaturización, la eficiencia y por supuesto la potencia. Actualmente tenemos procesadores que tienen al menos dos núcleos, y gracias a un poco de astucia mercantil e ingenieril, podemos decir que ambos núcleos se pueden sentir como cuatro. Así mismo contamos con teléfonos móviles que cuentan con hasta 8 núcleos y tienen arquitecturas interesantes como BIGlittle; sin embargo esta necesidad por “tirar más núcleos al problema”...

¿Sueñan los androides con ovejas eléctricas?

Siempre he pensado que el concepto de humanidad, para los seres humanos puede llegar a ser un misterio de manera muy cotidiana. A lo largo de la historia, el protagonista Rick Deckard cuestiona, la caracterización del “humano”, pues aún cuando es un género que recurre en gran medida a la fantasía, el “Cyberpunk” nos ayuda a que estas cuestiones tengan un verdadero sentido, especialmente en el mundo actual, donde lo cibernético puede quedar más a la vista como algo cotidiano. En el mundo donde la novela toma lugar, los robots son parte de la vida cotidiana, androides y animales cibernéticos conviven y ayudan a los seres humanos a realizar sus labores diarias. Dichos robots son descritos con un aspecto muy apegado a la naturaleza de lo que pretenden ser, razón por la que muchas veces suelen ser confundidos con sus contrapartes naturales; sin embargo, a pesar de que los a los androides tienen un aspecto y comportamiento humano no logran desarrollar lo que se define c...