Internet profunda1​ (del inglésdeep web), internet invisible2​ o internet oculta3​ es el contenido de internet que no está indexado por los motores de búsqueda convencionales, debido a diversos factores.4​ El término se atribuye al informático 

Motivos

Motivos por los que los motores de búsqueda no pueden indexar algunas páginas:
  • Documentos o información oculta: Pdfs que no se encuentran en las paginas indexadas, listas de datos no publicas (sobre todo los ciber-criminales)...
  • Web contextual: páginas cuyo contenido varía dependiendo del contexto (por ejemplo, la dirección IP del cliente, de las visitas anteriores, etc.).
  • Contenido dinámico: páginas dinámicas obtenidas como respuesta a parámetros, por ejemplo, datos enviados a través de un formulario.
  • Contenido de acceso restringido: páginas protegidas con contraseña, contenido protegido por un Captcha, etc.
  • Contenido No HTML: contenido textual en archivos multimedia, otras extensiones como exe, rar, zip, etc.
  • Software: Contenido oculto intencionadamente, que requiere un programa o protocolo específico para poder acceder (ejemplos: TorI2PFreenet)
  • Páginas no enlazadas: páginas de cuya existencia no tienen referencia los buscadores; por ejemplo, páginas que no tienen enlaces desde otras páginas.
Mike Bergman.5​ Es el opuesto al Intern

Recursos de la internet profunda

Los recursos de la internet profunda pueden estar clasificados en las siguientes categorías:
  • Contenido de acceso limitado: los sitios que limitan el acceso a sus páginas de una manera técnica (Por ejemplo, utilizando el estándar de exclusión de robots o captcha, que prohíben los motores de búsqueda de la navegación por y la creación de copias en caché.24
  • Contenido dinámico: las páginas dinámicas que devuelven respuesta a una pregunta presentada o acceder a través de un formulario, especialmente si se utilizan elementos de entrada en el dominio abierto como campos de texto.
  • Contenido no enlazado: páginas que no están conectadas con otras páginas, que pueden impedir que los programas de rastreo web tengan acceso al contenido. Este material se conoce como páginas sin enlaces entrantes.
  • Contenido programado: páginas que solo son accesibles a través de enlaces producidos por JavaScript, así como el contenido descargado de manera dinámica a partir de los servidores web a través de soluciones de Flash o Ajax.
  • Sin contenido HTML: contenido textual codificado en multimedia (imagen o videoarchivos o formatos de archivo específicos no tratados por los motores de búsqueda.
  • Web privada: los sitios que requieren de registro y de una contraseña para iniciar sesión
  • Web contextual: páginas con contenidos diferentes para diferentes contextos de acceso (por ejemplo, los rangos de direcciones IP de clientes o secuencia de navegación anterior).
et superficial.

No hay comentarios.:

Publicar un comentario

Comenzamos hoy viendo resultados y estadistiscas del mundo deporte...