Google comienza a indexar la 'web invisible'

Google está comenzando a indexar la 'web invisible' detrás de formularios. Esto desde los últimos meses y pretende explorar algunos formularios HTML para tratar de descubrir nuevas páginas web y URL's que de otro modo no se podrían encontrar.

En concreto cuando se encuentra un elemento <FORM> en algún sitio de alta calidad, Google intenta llenar este formulario para así poder indexar el contenido, siempre y cuando este no se encuentre ya en el índice de Google. Por el momento solo un pequeño número de sitios web se verán afectados por este cambio.

Existen millones de páginas web, las cuales son difíciles de encontrar de la forma tradicional por los motores de búsqueda, ya que no están indexadas por ningún buscador y sólo están disponibles si se sabe donde buscar y que tipo de consulta hay que utilizar. Todas estas páginas web forman la llamada web invisibleweb profunda, la que ya en 2001 se calculaba eran más de 550 mil millones de documentos. Un tesoro de información aún no explotado, y que Google pretende sacarle provecho, a través de las estrategias ya presentadas en esta patente de Octubre del 2006 y la tecnología aportada por Transformic, una empresa adquirida por Google.


*
Google Starts to Index the Invisible Web | G.O.S.

*Crawling through HTML forms | O.G.W.C.B.