Google comienza a indexar la 'web invisible'
Google está comenzando a indexar la 'web invisible' detrás de formularios. Esto desde los últimos meses y pretende explorar algunos formularios HTML para tratar de descubrir nuevas páginas web y URL's que de otro modo no se podrían encontrar.
En concreto cuando se encuentra un elemento <FORM> en algún sitio de alta calidad, Google intenta llenar este formulario para así poder indexar el contenido, siempre y cuando este no se encuentre ya en el índice de Google. Por el momento solo un pequeño número de sitios web se verán afectados por este cambio.
Existen millones de páginas web, las cuales son difíciles de encontrar de la forma tradicional por los motores de búsqueda, ya que no están indexadas por ningún buscador y sólo están disponibles si se sabe donde buscar y que tipo de consulta hay que utilizar. Todas estas páginas web forman la llamada web invisible o web profunda, la que ya en 2001 se calculaba eran más de 550 mil millones de documentos. Un tesoro de información aún no explotado, y que Google pretende sacarle provecho, a través de las estrategias ya presentadas en esta patente de Octubre del 2006 y la tecnología aportada por Transformic, una empresa adquirida por Google.
*Google Starts to Index the Invisible Web | G.O.S.
*Crawling through HTML forms | O.G.W.C.B.

Comentarios recientes
hace 6 semanas 3 horas
hace 15 semanas 1 día
hace 23 semanas 16 horas
hace 33 semanas 13 horas
hace 38 semanas 4 días