Web Superficial
Se conoce como Internet superficial a la porción de Internet que es indexada por las arañas de los motores de búsqueda. La parte que no es indexada se conoce como Internet profunda
Las arañas de los buscadores van recorriendo las páginas web,
almacenando información que contienen y buscando enlaces a otros sitios
web para seguir actualizando sus bases de datos. Con el tiempo acaban
recorriendo todas las páginas de Internet que tienen enlaces desde
otras. Pero por distintos motivos (enlaces generados por JavaScript y Flash,
páginas protegidas con contraseña, fichero de exclusión de robots,
etc.) algunas páginas no pueden ser alcanzadas por las arañas de los
buscadores. Estas páginas forman la Internet Profunda.
En enero de 2005, según un estudio reciente que investigó distintos motores de búsqueda (Google, MSN, Yahoo y Ask Jeeves) se determinó que había 11.500 millones de páginas web en los índices de los buscadores.
En junio de 2008 los índices contenían más de 63.000 millones de páginas Web.
Web Profunda
Se conoce informalmente como internet profunda o internet invisible a una porción presumiblemente muy grande de la internet que es difícil de rastrear o ha sido hecha casi imposible de rastrear y deliberadamente, como lo es el caso del Proyecto Tor, el cual fue creado de esta manera por medio de métodos poco convencionales, como con la proxyficación con muchos proxys, el no utilizar direcciones de internet, sino códigos, y el pseudodominio de nivel superior
.onion
, el cual fue creado por la Armada de los Estados Unidos como una prueba y ahora es aprovechada por delincuentes cibernéticos.
En idioma inglés recibe varios nombres:
- Deepweb (internet profunda).
- Invisible Web (internet invisible).
- Deep Web (internet profunda).
- Dark Web (internet oscura).
- Hidden Web (internet oculta).
Se conoce así a todo el contenido de internet que no forma parte de la internet superficial, es decir, de las páginas indexadas por las redes de los motores de búsqueda
de la red. Esto se debe a las limitaciones que tienen las redes para
acceder a todos los sitios web por distintos motivos. La mayor parte de
la información encontrada en la internet profunda está enterrada en
sitios generados dinámicamente y para los motores de búsqueda
tradicionales es difícil hallarla. Fiscales y agencias gubernamentales
han calificado a la internet profunda como un refugio para la
delincuencia debido al contenido ilícito que se encuentra en ella
La principal causa de la existencia de la internet profunda es la imposibilidad de los motores de búsqueda (Google, Yahoo, Bing,
etc.) de encontrar o indexar gran parte de la información existente en
internet. Si los buscadores tuvieran la capacidad para acceder a toda la
información entonces la magnitud de la «internet profunda» se reduciría
casi en su totalidad. No obstante, aunque los motores de búsqueda
pudieran indexar la información de la internet profunda esto no
significaría que esta dejará de existir, ya que siempre existirán las
páginas privadas. Los motores de búsqueda no pueden acceder a la
información de estas páginas y solo determinados usuarios, aquellos con
contraseña o códigos especiales, pueden hacerlo.
Los siguientes son algunos de los motivos por los que los buscadores son incapaces de indexar la internet profunda:
- Páginas y sitios web protegidos con contraseñas o códigos establecidos.
- Páginas que el buscador decidió no indexar: esto se da generalmente porque la demanda para el archivo que se decidió no indexar es poca en comparación con los archivos de texto HTML; estos archivos generalmente también son más «difíciles» de indexar y requieren más recursos.
- Sitios que, dentro de su código, tienen archivos que le impiden al buscador indexarlo.
- Documentos en formatos no indexables.
- Según la tecnología usada por el sitio: por ejemplo los sitios que usan bases de datos. Para estos casos los buscadores pueden llegar a la interfaz creada para acceder a dichas bases de datos, como por ejemplo, catálogos de librerías o agencias de gobierno.
- Enciclopedias, diccionarios, revistas en las que para acceder a la información hay que interrogar a la base de datos, como por ejemplo la base de datos de la RAE.
- Sitios que tienen una mezcla de medios o archivos que no son fáciles de clasificar como visible o invisible (Web opaca).
- La información es efímera o no suficientemente valiosa para indexar. Es posible indexar está información pero como cambia con mucha frecuencia y su valor es de tiempo limitado no hay motivo para indexarla.
- Páginas que contienen mayormente imágenes, audio o video con poco o nada de texto.
- Los archivos en formatos PostScript, Flash, Shockwave, ejecutables (.exe), archivos comprimidos (.zip,.rar, etc).
- Información creada en páginas dinámicas después de llenar un formulario, la información detrás de los formularios es invisible.
- Documentos dinámicos, son creados por un script que selecciona datos de diversas opciones para generar una página personalizada. Este tipo de documentos, aunque sí se pueden indexar, no están en los motores de búsqueda porque en ocasiones puede haber varias páginas iguales, pero con pequeños cambios, y las arañas web quedan atrapadas en ellos.
- Es un sitio aislado, es decir, no hay ligas que lo vinculen con otros sitios y viceversa.
- Son subdirectorios o bases de datos restringidas.
La internet profunda es un conjunto de sitios web y bases de datos
que buscadores comunes no pueden encontrar ya que no están indexadas. El
contenido que se puede hallar dentro de la internet profunda es muy
amplio.
Se estima que la internet profunda es 500 veces mayor que la internet superficial, siendo el 95 % de esta información públicamente accesible.
En 2010 se estimó que la información que se encuentra en la internet profunda es de 7500 terabytes,
lo que equivale a aproximadamente 550 billones de documentos
individuales. El contenido de la internet profunda es de 400 a 550 veces
mayor de lo que se puede encontrar en la internet superficial. En
comparación, se estima que la internet superficial contiene solo 19
terabytes de contenido y un billón de documentos individuales.
También en 2010 se estimó que existían más de 200 000 sitios en la internet profunda.
Estimaciones basadas en la extrapolación de un estudio de la
Universidad de California en Berkeley especula que actualmente la
internet profunda debe tener unos 91 000 Terabytes.
La Association for Computing Machinery (ACM) publicó en 2007 que Google y Yahoo
indexaban el 32 % de los objetos de la internet profunda, y MSN tenía
la cobertura más pequeña con el 11 %. Sin embargo, la cobertura de lo
tres motores era de 37 %, lo que indicaba que estaban indexando casi los
mismos objetos.
Se prevé que alrededor del 95 % del internet es internet profunda,
también le llaman invisible u oculta, la información que alberga no
siempre está disponible para su uso. Por ello se han desarrollado
herramientas como buscadores especializados para acceder a ella.
La Web profunda se refiere a la colección de sitios o bases de datos que un buscador común, como Google,
no puede o quiere indexar. Es un lugar específico del internet que se
distingue por el anonimato. Nada que se haga en esta zona puede ser
asociado con la identidad de uno, a menos que uno lo deseé.
Bergman, en un artículo semanal sobre la Web profunda publicado en el Journal of Electronic Publishing,
mencionó que Jill Ellsworth utilizó el término «Web invisible» en 1994
para referirse a los sitios web que no están registrados por algún motor
de búsqueda.
En su artículo, Bergman citó la entrevista que Frank García hizo a Ellsworth en 1996:
Sería un sitio que, posiblemente esté diseñado razonablemente, pero no se molestaron en registrarlo en alguno de los motores de búsqueda. ¡Por lo tanto, nadie puede encontrarlos! Estás oculto. Yo llamo a esto la Web invisible.
Otro uso temprano del término Web Invisible o web profunda fue
por Bruce Monte y Mateo B. Koll de Personal Library Software, en una
descripción de la herramienta @ 1 de web profunda, en un comunicado de
prensa de diciembre de 1996.
La importancia potencial de las bases de datos de búsqueda también se
reflejó en el primer sitio de búsqueda dedicado a ellos, el motor AT1
que se anunció con bombos y platillos a principios de 1997. Sin embargo,
PLS, propietario de AT1, fue adquirida por AOL en 1998, y poco después el servicio AT1 fue abandonado.
El primer uso del término específico de web profunda, ahora generalmente aceptada, ocurrió en el estudio de Bergman de 2001 mencionado anteriormente.
Por otra parte, el término web invisible se dice que es inexacto porque:
- Muchos usuarios asumen que la única forma de acceder a la web es consultando un buscador.
- Alguna información puede ser encontrada más fácilmente que otra, pero esto no quiere decir que esté invisible.
- La web contiene información de diversos tipos que es almacenada y recuperada en diferentes formas.
- El contenido indexado por los buscadores de la web es almacenado también en bases de datos y disponible solamente a través de las interrogaciones del usuario, por tanto no es correcto decir que la información almacenada en bases de datos es invisible.
RASTREANDO LA WEB PROFUNDA
Los motores de búsqueda comerciales han comenzado a explorar métodos
alternativos para rastrear la Web profunda. El Protocolo del sitio
(primero desarrollado e introducido por Google
en 2005) y OAI son mecanismos que permiten a los motores de búsqueda y
otras partes interesadas descubrir recursos de la internet profunda en
los servidores web en particular. Ambos mecanismos permiten que los
servidores web anuncien las direcciones URL
que se puede acceder a ellos, lo que permite la detección automática de
los recursos que no están directamente vinculados a la Web de la
superficie.El sistema de búsqueda de la Web profunda de Google
pre-calcula las entregas de cada formulario HTML
y agrega a las páginas HTML resultantes en el índice del motor de
búsqueda de Google. Los resultados surgidos arrojaron mil consultas por
segundo al contenido de la Web profunda.17 Este sistema se realiza utilizando tres algoritmos claves:
- La selección de valores de entrada, para que las entradas de búsqueda de texto acepten palabras clave.
- La identificación de los insumos que aceptan solo valores específicos (por ejemplo, fecha).
- La selección de un pequeño número de combinaciones de entrada que generan URLs adecuadas para su inclusión en el índice de búsqueda Web.
Métodos de profundización
Las arañas (Web crawler)
Cuando se ingresa a un buscador y se realiza una consulta, el
buscador no recorre la totalidad de internet en busca de las posibles
respuestas, sino que busca en su propia base de datos, que ha sido
generada e indizada previamente. Se utiliza el término «araña web» (en inglés web crawler)
o robots (por software, comúnmente llamados "bots") inteligentes que
van haciendo búsquedas por enlaces de hipertexto de página en página,
registrando la información ahí disponible.
El contenido que existe dentro de la internet profunda es en muy
raras ocasiones mostrado como resultado en los motores de búsqueda, ya
que las «arañas» no rastrean bases de datos ni los extraen. Las arañas
no pueden tener acceso a páginas protegidas con contraseñas, algunos
desarrolladores que no desean que sus páginas sean encontradas insertan
etiquetas especiales en el código para evitar que sea indexada. Las
«arañas» son incapaces de mostrar páginas que no estén creadas en
lenguaje HTML, ni tampoco puede leer enlaces que incluyen un signo de interrogación. Pero ahora sitios web no creados con HTML
o con signos de interrogación están siendo indexados por algunos
motores de búsqueda. Sin embargo, se calcula que incluso con estos
buscadores más avanzados solo se logra alcanzar el 16% de la información
disponible en la internet profunda. Existen diferente técnicas de
búsqueda para extraer contenido de la internet profunda como librerías
de bases de datos o simplemente conocer el URL al que quieres acceder y escribirlo manualmente.
Tor
The Onion Router (abreviado como TOR) es un proyecto diseñado e
implementado por la marina de los Estados Unidos lanzado el 20 de
septiembre de 2002. Posteriormente fue patrocinado por la EFF
(Electronic Frontier Foundation, una organización en defensa de los
derechos digitales). Actualmente subsiste como TOR Project, una
organización sin ánimo de lucro galardonada en 2011 por la Free Software
Foundation por permitir que millones de personas en el mundo tengan
libertad de acceso y expresión en internet manteniendo su privacidad y
anonimato
A diferencia de los navegadores de internet convencionales, Tor le
permite a los usuarios navegar por la Web de forma anónima. Tor es
descargado de 30 millones a 50 millones de veces al año, hay
0,8 millones de usuarios diarios de Tor y un incremento del 20 %
solamente en 2013. Tor puede acceder a unos 6500 sitios web ocultos.
Cuando se ejecuta el software de Tor, para acceder a la internet
profunda, los datos de la computadora se cifran en capas. El software
envía los datos a través de una red de enlaces a otros equipos ―llamados
en inglés «relays» (‘nodos’)― y lo va retransmitiendo quitando
una capa antes de retransmitirlo de nuevo, esta trayectoria cambia con
frecuencia. Tor cuenta con más de 4000 retransmisiones y todos los datos
cifrados pasan a través de ―por lo menos― tres de estos relays. Una vez
que la última capa de cifrado es retirado por un nodo de salida, se
conecta a la página web que desea visitar.
El contenido que puede ser encontrado dentro de la internet profunda
es muy vasto, se encuentran por ejemplo, datos que se generan en tiempo
real, como pueden ser valores de Bolsa, información del tiempo, horarios
de trenes; bases de datos sobre agencias de inteligencia, desidentes
políticos y contenidos criminales.
Bitcoin
Mercados ilegales están alojados en servidores que son exclusivos
para usuarios de Tor. En estos sitios, se pueden encontrar drogas,
armas, o incluso asesinos a sueldo. Se utiliza la moneda digital llamada
Bitcoin, que tiene sus orígenes en 2009, pero que se ha vuelto todo un fenómeno desde 2012,
que se intercambia a través de billeteras digitales entre el usuario y
el vendedor, lo que hace que sea prácticamente imposible de rastrear.
Existen muchos mitos acerca de la internet profunda. La internet
profunda no es una región prohibida o mística de internet, y la
tecnología relacionada con ella no es malévola. Ya que en ella también
se alberga lo que ahora se conoce como AIW (Academic Invisible Web:
‘internet académica invisible’ por sus siglas en inglés) y se refiere a
todas las bases de datos que contienen avances tecnológicos,
publicaciones científicas, y material académico en general
Los recursos de la internet profunda pueden estar clasificados en las siguientes categorías:
- contenido de acceso limitado: los sitios que limitan el acceso a sus páginas de una manera técnica (Por ejemplo, utilizando el estándar de exclusión de robots o captcha, que prohíben los motores de búsqueda de la navegación por y la creación de copias en caché.
- contenido dinámico: las páginas dinámicas que devuelven respuesta a una pregunta presentada o acceder a través de un formulario, especialmente si se utilizan elementos de entrada en el dominio abierto como campos de texto.
- contenido no enlazado: páginas que no están conectadas con otras páginas, que pueden impedir que los programas de rastreo web tengan acceso al contenido. Este material se conoce como páginas sin enlaces entrantes.
- contenido programado: páginas que solo son accesibles a través de enlaces producidos por JavaScript, así como el contenido descargado de manera dinámica a partir de los servidores web a través de soluciones de Flash o Ajax.
- sin contenido HTML: contenido textual codificado en multimedia (imagen o video) archivos o formatos de archivo específicos no tratados por los motores de búsqueda.
- web privada: los sitios que requieren de registro y de una contraseña para iniciar sesión
- web contextual: páginas con contenidos diferentes para diferentes contextos de acceso (por ejemplo, los rangos de direcciones IP de clientes o secuencia de navegación anterior).
Seudodominio de nivel superior
Un pseudodominio de nivel superior o Pseudo-TLD (del inglés Pseudo-Top Level Domain) son términos usados para identificar servicios en redes de computadores que no participan en el sistema oficial del sistema de nombres de dominio (DNS) pero que usan una jerarquía y una nomenclatura similar a como lo hacen los TLDs
verdaderos. Son usados sólo para propósitos especiales, típicamente
para direccionar máquinas que no son alcanzables directamente usando el protocolo IP.
Aunque no tienen un estatus oficial, son consideradas como una forma de identificación de este tipo de servicios.
Debido a su naturaleza la mayoría de los Pseudo-TLD tienen un periodo de vida corto aunque hay algunas excepciones y muchos sobreviven como reliquias.
Ejemplos: .bitnet para Bitnet, .onion para servicios de la red Tor, .garlic para servicios de la red i2p, .csnet para CSNET, .swift para el SWIFTNet Mail y .uucp para servicios de la red Usenet.
Aunque no tienen un estatus oficial, son consideradas como una forma de identificación de este tipo de servicios.
Debido a su naturaleza la mayoría de los Pseudo-TLD tienen un periodo de vida corto aunque hay algunas excepciones y muchos sobreviven como reliquias.
Ejemplos: .bitnet para Bitnet, .onion para servicios de la red Tor, .garlic para servicios de la red i2p, .csnet para CSNET, .swift para el SWIFTNet Mail y .uucp para servicios de la red Usenet.
LES DEJO OTRO VIDEO EXPLCATIVO
FUENTES: WIKIPEDIA.ORG
YOUTUBE.COM
Estupenda y completa síntesis de la Deep WEB. Gracias,
ResponderEliminarExcelente, y muy agradable de leer. Gracias por compartir tu trabajo.
ResponderEliminargracias a todos por sus buenos comentarios
ResponderEliminar