Motivos
Motivos por los que los motores de búsqueda no pueden indexar algunas páginas:
- Documentos o información oculta: Pdfs que no se encuentran en las paginas indexadas, listas de datos no publicas (sobre todo los ciber-criminales)...
- Web contextual: páginas cuyo contenido varía dependiendo del contexto (por ejemplo, la dirección IP del cliente, de las visitas anteriores, etc.).
- Contenido dinámico: páginas dinámicas obtenidas como respuesta a parámetros, por ejemplo, datos enviados a través de un formulario.
- Contenido de acceso restringido: páginas protegidas con contraseña, contenido protegido por un Captcha, etc.
- Contenido No HTML: contenido textual en archivos multimedia, otras extensiones como exe, rar, zip, etc.
- Software: Contenido oculto intencionadamente, que requiere un programa o protocolo específico para poder acceder (ejemplos: Tor, I2P, Freenet)
- Páginas no enlazadas: páginas de cuya existencia no tienen referencia los buscadores; por ejemplo, páginas que no tienen enlaces desde otras páginas.
Recursos de la internet profunda
Los recursos de la internet profunda pueden estar clasificados en las siguientes categorías:
- Contenido de acceso limitado: los sitios que limitan el acceso a sus páginas de una manera técnica (Por ejemplo, utilizando el estándar de exclusión de robots o captcha, que prohíben los motores de búsqueda de la navegación por y la creación de copias en caché.24
- Contenido dinámico: las páginas dinámicas que devuelven respuesta a una pregunta presentada o acceder a través de un formulario, especialmente si se utilizan elementos de entrada en el dominio abierto como campos de texto.
- Contenido no enlazado: páginas que no están conectadas con otras páginas, que pueden impedir que los programas de rastreo web tengan acceso al contenido. Este material se conoce como páginas sin enlaces entrantes.
- Contenido programado: páginas que solo son accesibles a través de enlaces producidos por JavaScript, así como el contenido descargado de manera dinámica a partir de los servidores web a través de soluciones de Flash o Ajax.
- Sin contenido HTML: contenido textual codificado en multimedia (imagen o video) archivos o formatos de archivo específicos no tratados por los motores de búsqueda.
- Web privada: los sitios que requieren de registro y de una contraseña para iniciar sesión
- Web contextual: páginas con contenidos diferentes para diferentes contextos de acceso (por ejemplo, los rangos de direcciones IP de clientes o secuencia de navegación anterior).
No hay comentarios.:
Publicar un comentario