La web invisible

La web invisible Jatniel Martinez

2014-0397

Concepto• Se conoce informalmente como internet profunda o internet

invisible a una porción presumiblemente muy grande de la internet que es difícil de rastrear o ha sido hecha casi imposible de rastrear y deliberadamente, como lo es el caso del Proyecto Tor, el cual fue creado de esta manera por medio de métodos poco convencionales, como con la proxyficación con muchos proxys, el no utilizar direcciones de internet, sino códigos, y el pseudodominio de nivel superior .onion, el cual fue creado por la Armada de los Estados Unidos como una prueba y ahora es aprovechada por delincuentes cibernéticos.

Supuesta representación de la web profunda

Origen• La principal causa de la existencia de la internet profunda es la

imposibilidad de los motores de búsqueda (Google, Yahoo, Bing, etc.) de encontrar o indexar gran parte de la información existente en internet. Si los buscadores tuvieran la capacidad para acceder a toda la información entonces la magnitud de la «internet profunda» se reduciría casi en su totalidad. No obstante, aunque los motores de búsqueda pudieran indexar la información de la internet profunda esto no significaría que esta dejará de existir, ya que siempre existirán las páginas privadas. Los motores de búsqueda no pueden acceder a la información de estas páginas y solo determinados usuarios, aquellos con contraseña o códigos especiales, pueden hacerlo.

https://es.wikipedia.org/wiki/Google

https://es.wikipedia.org/wiki/Yahoo

https://es.wikipedia.org/wiki/Bing

Tamaño• Se estima que la internet profunda es 500 veces mayor7 que la

internet superficial, siendo el 95 % de esta información públicamente accesible.

• El internet se ve dividido en dos ramas, La internet profunda y la superficial. La internet superficial se compone de páginas estáticas o fijas, mientras que la web profunda está compuesta de páginas dinámicas.

• En 2010 se estimó que la información que se encuentra en la internet profunda es de 7500 terabytes, lo que equivale a aproximadamente 550 billones de documentos individuales.

https://es.wikipedia.org/wiki/Internet_profunda#cite_note-7

https://es.wikipedia.org/wiki/Internet_superficial

Métodos de profundización

• Las arañas (Web crawler)Cuando se ingresa a un buscador y se realiza una consulta, el buscador no recorre la totalidad de internet en busca de las posibles respuestas, sino que busca en su propia base de datos, que ha sido generada e indizada previamente. Se utiliza el término «araña web» (en inglés web crawler) o robots (por software, comúnmente llamados "bots") inteligentes que van haciendo búsquedas por enlaces de hipertexto de página en página, registrando la información ahí disponible

• TorThe Onion Router (abreviado como TOR) es un proyecto diseñado e implementado por la marina de los Estados Unidos lanzado el 20 de septiembre de 2002. Posteriormente fue patrocinado por la EFF (Electronic Frontier Foundation, una organización en defensa de los derechos digitales). Actualmente subsiste como TOR Project, una organización sin ánimo de lucro galardonada en 2011 por la Free Software Foundation por permitir que millones de personas en el mundo tengan libertad de acceso y expresión en internet manteniendo su privacidad y anonimato

• BitcoinMercados ilegales están alojados en servidores que son exclusivos para usuarios de Tor. En estos sitios, se pueden encontrar drogas, armas, o incluso asesinos a sueldo. Se utiliza la moneda digital llamada Bitcoin, que tiene sus orígenes en 2009, pero que se ha vuelto todo un fenómeno desde 2012,5 que se intercambia a través de billeteras digitales entre el usuario y el vendedor, lo que hace que sea prácticamente imposible de rastrear

Recursos de la internet profunda

• Los recursos de la internet profunda pueden estar clasificados en las siguientes categorías:

contenido de acceso limitado: los sitios que limitan el acceso a sus páginas de una manera técnica (Por ejemplo, utilizando el estándar de exclusión de robots o captcha, que prohíben los motores de búsqueda de la navegación por y la creación de copias en caché.

contenido dinámico: las páginas dinámicas que devuelven respuesta a una pregunta presentada o acceder a través de un formulario, especialmente si se utilizan elementos de entrada en el dominio abierto como campos de texto.

contenido no enlazado: páginas que no están conectadas con otras páginas, que pueden impedir que los programas de rastreo web tengan acceso al contenido. Este material se conoce como páginas sin enlaces entrantes.

web privada: los sitios que requieren de registro y de una contraseña para iniciar sesión.

web contextual: páginas con contenidos diferentes para diferentes contextos de acceso (por ejemplo, los rangos de direcciones IP de clientes o secuencia de navegación anterior).

La web invisible

Technology

Transcript of La web invisible