sábado, 12 de julio de 2014

¿Cómo funciona Google?

¿Por qué Google es lo que es? Larry Page y Sergei Brin escribieron en conjunto un artículo paradigmático “The PageRank Citation Ranking: Bringing Order to the Web” que explica gran parte del funcionamiento del buscador más famoso.
                              
En este trabajo se describe el método del PageRank para calcular la importancia de cada web a partir de los vínculos (links) que cada web recibe, y la importancia relativa de las páginas que emite cada vínculo. Básicamente se trata de asignar de forma numérica la relevancia de los documentos (o páginas web) indexados por un motor de búsqueda. Fue desarrollado por los fundadores de Google, Larry Page y Sergei Brin, en la Universidad de Stanford mientras estudiaban el posgrado en ciencias de la computación. En palabras de sus creadores: “La importancia de una página web es un problema inherentemente subjetivo que depende del interés de los lectores, de su conocimiento y de sus inclinaciones. Aun así, se puede decir objetivamente mucho sobre la importancia relativa de las páginas web. Este artículo describe PageRank, un método para valorar las páginas web de forma objetiva y mecánica, midiendo de forma efectiva la atención e interés humanos dirigidos hacia cada página. Comparamos PageRank con un ‘web surfer’ aleatorio idealizado. Mostramos como calcular de forma eficiente el PageRank para un número grande de páginas y mostramos cómo utilizar el PageRank para la búsqueda y navegación de los usuarios”.

El algoritmo inicial está en el documento original donde sus creadores presentaron el prototipo de Google: “The Anatomy of a Large-Scale Hypertextual Web Search Engine" (1998) que pronto escaló posiciones dentro de la comunidad científica. Los rumores indican que el nombre del que sería una de las páginas más consultadas de Internet proviene de la palabra googol o gúgol (denominación de un número extremadamente grande). En 1999 el PageRank fue patentado por la incipiente Google Inc, luego de haber lanzado su motor de búsqueda el 27 de septiembre de 1998. Al año siguiente la empresa presentó Adwords (su sistema de publicidad online) y la barra de Google. A estos productos le siguieron Google Groups, Labs, News, Blogger, Books, Maps, Earth y la lista sigue creciendo. En 2002, Yahoo ofreció 3.000 millones de dólares por el PageRank pero sus creadores rechazaron la propuesta, lo cual resulta curioso porque en 1997 Page y Brin intentaron, y fracasaron, venderlo a esa empresa por un millón de dólares.

El éxito del método radica por su fundamento en la estructura de enlaces como un indicador del valor de una página en concreto. Esto funciona como un sistema democrático de votos donde Google interpreta los vínculos de una web hacia a otra como un “voto” de la página de inicio hacia la de destino, pero también analiza a quien “emite el voto”. Por este motivo aquellas web con un PageRank más elevado (o más “importantes”) valen más y con su “voto” ayudan a otras páginas a tomar notoriedad. La escala es del 0 al 10 siendo 10 el máximo (número que muy pocos sitios pueden ostentar orgullosos), el 1 es lo mínimo para un sitio de importancia normal y 0 puede significar una página con algún tipo de penalización o que aún no ha sido calificada.

El PageRank creó su propio código para luchar contra el spam. Cuando se hizo evidente la importancia comercial de este método aparecieron formas artificiales de manipulación como enlaces a una página web en blogs, libros de visitas, foros de Internet, etc con la intención de incrementar el número de enlaces que apuntan a la página. Pero con el atributo para hiperenlaces creado en 2005 (rel="nofollow") lograron que cualquier página que posea ese código no sea tenida en cuenta para ser calificada.

Es necesario aclarar que el PageRank no es una invención original de Page y Brin, pero su implementación eficiente en una red de miles de millones de nodos lo convirtió en un éxito. El antecedente del algoritmo lo presentó el economista estadounidense de origen ruso Wassily Leontief cuando era profesor en Harvard.  Desarrolló su modelo Input-Output tratando la economía como una red. De esta forma podía identificar qué sectores económicos constituían un “cuello de botella” al requerir demasiados factores productivos cuando la demanda de su producto aumentaba, para lo cual recurrió a una versión primitiva del PageRank de Google. En 1973 Leontief recibió el Premio Nobel de Economía por esta teoría.

No es el único

Hoy en día Google ocupa 66.7% del mercado, seguido de Microsoft (18.1%), Yahoo (11.2%), Ask (2.6%) y AOL (1.4%). Por este motivo es el master indiscutido de la web. Y por esto es que su PageRank es el algoritmo más conocido en el universo cibernético, pero otras páginas tienen sus propios métodos de funcionamiento basados en conteo, ubicación, votos, intereses, etc. Antes de continuar es necesario considerar una definición genérica de la palabra algoritmo: un conjunto de instrucciones o reglas, ordenadas y finitas que permite definir una operación

Facebook cuenta con el News Feed, más conocido como las noticias del Inicio. Excepto que el usuario haya marcado la opción “Mostrar todo”, la red social creada por Mark Zuckerberg se basa en el número de comentarios, quién realizó el post (cuánto interactúan entre sí esas personas) y qué tipo de post es (video, contenido compartido, status) para decidir a quién mostrarlo.

Los sitios de citas, que día a día crecen, aseguran ser los causante de millones de parejas consolidadas. Para lograrlo tienen su propio algoritmo basado en intereses similares, edad, preferencias sexuales y ubicación geográfica, entre otras cosas, con el objetivo de unir a dos extraños.

La NSA (National Security Agency) ha estado espiando a millones de ciudadanos por nuestra propia seguridad por considerarlos sospechosos a través de la recolección de datos, interpretación y encriptación. Sin embargo desde la agencia desestiman que haya un verdadero espionaje porque no hay un ojo humano detrás de esto, sino algoritmos de vigilancia.

El famoso “También puede interesarte…” proviene de sitios como Netflix y Amazon que consideran las elecciones previas del usuario para recomendarle acciones futuras.

Adwords (el sistema de publicidad online de Google) utiliza las búsquedas de los usuarios para orientarlas hacia anuncios relacionados con el tema (pagados por una empresa desde su propia cuenta de Google Adwords y determinados por el uso de palabras clave).

El trading de alta frecuencia es capaz de tomar decisiones en milisegundos y es principalmente utilizado en el sector financiero para predecir fluctuaciones de mercado.

El MP3, inicialmente desarrollado por investigadores alemanes en 1987, revolucionó la industria de la música por su capacidad de comprensión: los usuarios lo quieren cuanto antes y mientras menos espacio ocupe, mejor.

Cada vez más departamentos de policía utilizan una tecnología llamada análisis predictivo que fue desarrollada por IBM y denominado CRUSH (Criminal Reduction Utilizing Statistical History). Este sistema funciona a través de una combinación de recopilación de datos, análisis estadístico y algoritmos de última generación evaluando patrones de incidentes en una ciudad y ubicando posibles focos rojos, para poder prevenir situaciones de riesgo, por ejemplo, apostando más personal en el lugar.


El Auto-Tune es mundialmente famoso por ser el principal responsable de los miles de discos vendidos por artistas como Cher, Britney Spears y Madonna. Estos dispositivos procesan una serie de reglas para cambiar el tono de un sonido, ya sea de una voz o de algún instrumento, y llevarlo hacia el semitono real más cercano.

Nota publicada en www.notas.org.ar

No hay comentarios:

Publicar un comentario