jueves, 22 de octubre de 2015

La web superficial y la web profunda

Siguiendo con la alternancia de temas específicos de formación sanitaria especializada y temas de búsquedas en la red, voy a tratar ahora una cuestión del segundo aspecto: la web superficial y la web profunda.

Tenemos que ser conscientes de que los buscadores tradicionales, por muy buenos que sean, solo nos ofrecen acceso a una parte pequeña de los contenidos del mundo de la red. Esta parte a la que accedemos con facilidad se la denomina web superficial o visible. El resto de información de la red es la que forma la denominada web profunda. Vamos a ver un poco más de ambas.

Web superficial o visible
Comprende todos aquellos sitios cuya información puede ser indexada por los rotots de los buscadores (motores de búsqueda) convencionales. Gracias a esta indexación nuestras búsquedas nos permitirán recuperar casi su totalidad. 

Las características de los sitios de esta Web superficial son:
  • Su información no está contenida en bases de datos.
  • Son sitios de libre acceso. 
  • Esta libertad de acceso no solo implica que sean sitios gratuitos, sino que tampoco necesitamos registrarnos para acceder a ellos.
  • Normalmente son páginas Web estáticas, es cedier, con una URL fija.
Web profunda o invisible
Con esta expresión nos referimos a la información de la red que no recuperamos interrogando a los motores de búsqueda convencionales. La mayor parte de ella es información almacenada y accesible mediante bases de datos.

Sherman y Price dividieron esta web profunda o invisible en cuatro subtipos: web opaca, web privada, web propietaria y web realmente invisible.

Web opaca (the opaque Web): hay una serie de motivos por los que esta información no está incluida en los índices de los buscadores. Estos motivos son:
  • Extensión de la indización: no todas las páginas de un sitio son indizadas en los buscadores
  • Frecuencia de la indización: la gran actividad de internet impide que los buscadores indicen al mismo ritmo al que se crean las nuevas páginas.
  • Número máximo de resultados visibles: ante el gran número de resultados obtenidos los buscadores limitan los resultados mostrados.
  • URL desconectadas: de nuevo estamos ante el problema de la gran cantidad de documentos y la necesidad de seleccionar. Los buscadores aplican una serie de criterios para esta selección y uno es la relevancia, que la basan en las referencias que se hacen entre las páginas Web. Las URL que no tienen enlaces a ellas desde otro documento no se indizarán por falta de relevancia y pasarán a esta web opaca.
Web privada (the private Web): es el propietario de la Web el que la ha excluido de la indización de los buscadores. Al ser los dueños de la información los que limitan el acceso no tendremos forma legítima de acceder a ella, por tanto, no me ocuparé más de ella.

Web propietaria (the propietary Web): aquí incluimos las páginas que nos exigen un registro para acceder a ellas. Estas páginas pueden ser gratuitas o de pago.

Web realmente invisible (the truly invisible Web): formada por páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores.

Hay que tener en cuenta que cada vez contamos con más recursos para acceder a la web profunda.



Si queréis ampliar información lo podéis hacer en:

Sherman, C., & Price, G. (2001). The Invisible Web: Uncovering Information Sources Search Engines Can’t See. Information Today, Inc.
 
 Esta entrada ha sido elaborada con la información extraida del material de apoyo del curso "Encontrando tesoros en la Red" (2ª ed.) de la plataforma Miriada X.


 


No hay comentarios:

Publicar un comentario