Quiero saber todo

Red profunda

Pin
Send
Share
Send


los red profunda (también llamado Deepnet, el Web invisible, o el Web oculta) se refiere al contenido de la World Wide Web que no forma parte de la superficie de la Web, que está indexado por los motores de búsqueda. Se estima que la Web profunda es varios órdenes de magnitud más grande que la Web superficial.1

Las bases de datos requeridas para iniciar sesión protegidas con contraseña son un tipo de web profunda, que incluye casi todas las bases de datos académicas basadas en suscripción. Las bibliotecas se suscriben a varias bases de datos y los usuarios tienen que visitar cada base de datos y usar su propio motor de búsqueda. Algunas bibliotecas se suscriben a más de cien bases de datos y es complicado para los usuarios visitar cada base de datos. Las comunidades de bibliotecas, junto con las comunidades de tecnología de la información, están tratando de desarrollar un motor de búsqueda federado que pueda indexar todas las bases de datos suscritas y recuperar información relevante con una sola consulta de búsqueda. Esperan tener un motor de búsqueda que pueda buscar y recuperar todas las fuentes de información disponibles para cada biblioteca, que incluye el catálogo en línea de la biblioteca, las bases de datos suscritas y las fuentes web gratuitas.

Nombrar

Michael Bergman mencionó que Jill Ellsworth usó el término "Web invisible" en 1994 para referirse a sitios web que no están registrados en ningún motor de búsqueda.1 Bergman citó un artículo de enero de 1996 de Frank García:2

"Sería un sitio posiblemente razonablemente diseñado, pero no se molestaron en registrarlo en ninguno de los motores de búsqueda. ¡Así que nadie puede encontrarlos! Estás oculto. Yo lo llamo la Web invisible".

Otro uso temprano del término Web invisible fue por Bruce Mount (Director de Desarrollo de Producto) y Matthew B. Koll (CEO / Fundador) de Personal Library Software, Inc. (PLS) al describir la herramienta web profunda @ 1.3 El término se utilizó en un comunicado de prensa de diciembre de 1996 de PLS.4 El primer uso del término específico. red profunda ocurrió en ese mismo estudio de Bergman de 2001.1

La primera herramienta comercial de Deep Web fue @ 1 de Personal Library Software (PLS), anunciada el 12 de diciembre de 1996 en asociación con grandes proveedores de contenido. Según un comunicado de prensa del 12 de diciembre de 1996, @ 1 comenzó con 5,7 terabytes de contenido que se estimaba en 30 veces el tamaño de la naciente World Wide Web.5 PLS fue adquirida por AOL en 1998 y @ 1 fue abandonada.

Tamaño

En 2000, se estimó que la Web profunda contenía aproximadamente 7,500 terabytes de datos y 550 mil millones de documentos individuales.1 Las estimaciones, basadas en extrapolaciones de un estudio realizado en la Universidad de California, Berkeley, muestran que la Web profunda consta de aproximadamente 91,000 terabytes. Por el contrario, la superficie de la web (que es fácilmente accesible por los motores de búsqueda) tiene solo 167 terabytes. La Biblioteca del Congreso contiene aproximadamente 11 terabytes en total, tanto web invisible como superficial combinados.6

Recursos profundos

Los recursos de Deep Web pueden clasificarse en una o más de las siguientes categorías:

  • Contenido dinámico: páginas dinámicas que se devuelven en respuesta a una consulta enviada o a las que solo se accede a través de un formulario, especialmente si se utilizan elementos de entrada de dominio abierto (como campos de texto); Dichos campos son difíciles de navegar sin conocimiento del dominio.
  • Web protegida por contraseña: sitios que requieren registro e inicio de sesión; incluye casi todas las bases de datos de suscripción pagas, como las bases de datos académicas (son básicamente web dinámicas).
  • Contenido no vinculado: páginas que no están vinculadas por otras páginas, lo que puede evitar que los programas de rastreo web accedan al contenido. Este contenido se conoce como páginas sin backlinks (o inlinks).
  • Web contextual: páginas con contenido que varía para diferentes contextos de acceso (por ejemplo, rangos de direcciones IP de clientes o
  • Contenido de acceso limitado: sitios que limitan el acceso a sus páginas de una manera técnica (por ejemplo, utilizando Robots Exclusion Standard, CAPTCHAs o pragma: no-cache / cache-control: no-cache encabezados HTTP, que prohíbe que los motores de búsqueda los naveguen y creen copias en caché
  • Contenido programado: páginas a las que solo se puede acceder a través de enlaces producidos por JavaScript, así como contenido descargado dinámicamente desde servidores web a través de soluciones Flash o AJAX.
  • Contenido no HTML / texto: contenido textual codificado en archivos multimedia (imagen o video) o formatos de archivo específicos que no son manejados por los motores de búsqueda.

Accediendo

Para descubrir contenido en la Web, los motores de búsqueda utilizan rastreadores web que siguen hipervínculos. Esta técnica es ideal para descubrir recursos en la superficie de la Web, pero a menudo es ineficaz para encontrar recursos web profundos. Por ejemplo, estos rastreadores no intentan encontrar páginas dinámicas que sean el resultado de consultas en la base de datos debido al número infinito de consultas posibles. Se ha observado que esto se puede superar (parcialmente) proporcionando enlaces a los resultados de la consulta, pero esto podría inflar involuntariamente la popularidad (por ejemplo, PageRank) para un miembro de la Web profunda.

Una forma de acceder a la Web profunda es a través de motores de búsqueda basados ​​en búsquedas federadas. Las herramientas de búsqueda como Science.gov están diseñadas para recuperar información de la Web profunda. Estas herramientas identifican e interactúan con bases de datos de búsqueda, con el objetivo de proporcionar acceso a contenido web profundo.

Otra forma de explorar la Web profunda es utilizando rastreadores humanos en lugar de rastreadores algorítmicos. En este paradigma denominado recolección web, los humanos encuentran enlaces interesantes dentro de la Web profunda que de lo contrario los rastreadores algorítmicos no encontrarían. Esta técnica de cálculo basada en humanos para descubrir la Web profunda ha sido utilizada por el servicio StumbleUpon desde febrero de 2002.

En 2005, Yahoo! hizo que una pequeña parte de la Web profunda se pueda buscar al lanzar Yahoo! Suscripciones Este motor de búsqueda busca en algunos sitios web solo por suscripción. Algunos sitios web de suscripción muestran su contenido completo a los robots de los motores de búsqueda para que aparezcan en las búsquedas de los usuarios, pero luego muestran a los usuarios una página de inicio de sesión o suscripción cuando hacen clic en un enlace de la página de resultados del motor de búsqueda.

Rastreando la web profunda

Los investigadores han estado explorando cómo se puede rastrear la Web profunda de manera automática. Raghavan y Garcia-Molina (2001) presentaron un modelo arquitectónico para un rastreador web oculto que utilizaba términos clave proporcionados por los usuarios o recopilados de las interfaces de consulta para consultar un formulario web y rastrear los recursos web profundos. Ntoulas y col. (2005) crearon un rastreador de Web oculto que generó automáticamente consultas significativas para emitir contra los formularios de búsqueda. Su rastreador generó resultados prometedores, pero el problema está lejos de resolverse.

Dado que una gran cantidad de datos e información útil reside en la Web profunda, los motores de búsqueda han comenzado a explorar métodos alternativos para rastrear la Web profunda. El protocolo de mapa del sitio de Google y el mod oai son mecanismos que permiten a los motores de búsqueda y otras partes interesadas descubrir recursos web profundos en servidores web particulares. Ambos mecanismos permiten que los servidores web anuncien las URL que están accesibles en ellos, lo que permite el descubrimiento automático de recursos que no están directamente vinculados a la superficie web.

La búsqueda federada por categoría de tema o vertical es un mecanismo alternativo para rastrear la Web profunda. Los motores tradicionales tienen dificultades para rastrear e indexar páginas web profundas y su contenido, pero los motores de búsqueda web profundos como CloserLookSearch, Science.gov y Northern Light crean motores especializados por tema para buscar en la web profunda. Debido a que estos motores son limitados en su enfoque de datos, están diseñados para acceder a contenido web profundo específico por tema. Estos motores pueden buscar bases de datos dinámicas o protegidas por contraseña que de otro modo estarían cerradas a los motores de búsqueda.

Clasificando recursos

Es difícil determinar automáticamente si un recurso web es miembro de la web de superficie o de la web profunda. Si un motor de búsqueda indexa un recurso, no es necesariamente un miembro de la superficie de la Web, porque el recurso podría haberse encontrado utilizando otro método (por ejemplo, el Sitemap Protocol, mod oai, OAIster) en lugar del rastreo tradicional. Si un motor de búsqueda proporciona un vínculo de retroceso para un recurso, se puede suponer que el recurso está en la superficie de la Web. Desafortunadamente, los motores de búsqueda no siempre proporcionan todos los vínculos de retroceso a los recursos. Incluso si existe un vínculo de retroceso, no hay forma de determinar si el recurso que proporciona el vínculo se encuentra en la superficie de la Web sin rastrear toda la Web. Además, un recurso puede residir en la superficie de la Web, pero aún no ha sido encontrado por un motor de búsqueda. Por lo tanto, si tenemos un recurso arbitrario, no podemos saber con certeza si el recurso reside en la Web superficial o en la Web profunda sin un rastreo completo de la Web.

El concepto de clasificar los resultados de búsqueda por tema fue promovido por Yahoo! La búsqueda en el directorio está ganando importancia a medida que la búsqueda se vuelve más relevante en las decisiones diarias. Sin embargo, la mayor parte del trabajo aquí ha sido categorizar la superficie web por tema. Esta clasificación plantea un desafío mientras busca en la Web profunda, por lo que se requieren dos niveles de categorización. El primer nivel consiste en clasificar los sitios en temas verticales (por ejemplo, salud, viajes, automóviles) y subtemas de acuerdo con la naturaleza del contenido subyacente en sus bases de datos. Se están desarrollando varios directorios web profundos, como OAIster de la Universidad de Michigan, INFOMINE de la Universidad de California en Riverside y DirectSearch de Gary Price, por nombrar algunos.

El desafío más difícil es clasificar y mapear la información extraída de múltiples fuentes web profundas de acuerdo con las necesidades del usuario final. Los informes de búsqueda en la Web profunda no pueden mostrar URL como los informes de búsqueda tradicionales. Los usuarios finales esperan que sus herramientas de búsqueda no solo encuentren lo que están buscando rápidamente, sino que sean intuitivas y fáciles de usar. Para que tengan sentido, los informes de búsqueda deben ofrecer cierta profundidad a la naturaleza del contenido que subyace a las fuentes o, de lo contrario, el usuario final se perderá en el mar de URL que no indican qué contenido se encuentra debajo de ellas. El formato en el que se deben presentar los resultados de búsqueda varía ampliamente según el tema particular de la búsqueda y el tipo de contenido expuesto. El desafío es encontrar y mapear elementos de datos similares de múltiples fuentes dispares para que los resultados de la búsqueda puedan exponerse en un formato unificado en el informe de búsqueda, independientemente de su fuente.

Deep web (base de datos) y bibliotecas

Las bibliotecas se suscriben a una serie de bases de datos separadas, que son técnicamente profundas. Cada base de datos contiene miles de títulos de revistas, materiales de referencia y otra información. Cada base de datos tiene su propio motor de búsqueda y se indexa por separado.

El mecanismo actual de recuperación de información en las bibliotecas no permite a los usuarios buscar en múltiples bases de datos con un solo motor de búsqueda. Los usuarios tienen que visitar cada base de datos, usar su propio motor de búsqueda y buscar material por separado. Algunas bibliotecas académicas están suscribiendo casi cien o más bases de datos separadas y los usuarios tienen que visitar cada base de datos por separado.

En las bibliotecas académicas, los estudiantes tienden a evitar un proceso de búsqueda tan engorroso y usan motores de búsqueda generales como Google. Sin embargo, los motores de búsqueda generales no recuperan páginas dentro de las bases de datos académicas que se espera que utilicen los estudiantes. Para evitar este problema, las bibliotecas están buscando un mejor mecanismo de recuperación de información que permita a los usuarios recuperar información relevante a través de bases de datos con un motor de búsqueda federado, o un motor de búsqueda similar, que también pueda indexar todas las bases de datos (web profunda) a las que se suscribe cada biblioteca. como catálogos en línea de la biblioteca. En otras palabras, están tratando de desarrollar un motor de búsqueda federado que pueda buscar todas las fuentes de información, incluidas las bases de datos basadas en suscripción, fuentes web gratuitas y catálogos de bibliotecas.

Google Scholar, el motor de búsqueda de Google para literatura académica, hace arreglos con los editores e indexa los artículos de las revistas en posesión de esos editores. Por lo tanto, los usuarios pueden encontrar artículos de revistas limitados en la web de Google Scholar.

Ver también

  • Base de datos
  • Índice (motor de búsqueda)
  • Buscador web

Notas

  1. 1.0 1.1 1.2 1.3 Michael K. Bergman, The Deep Web: Surfacing Hidden Value. El diario de publicación electrónica 7 (1) (agosto de 2001) 1. Según ese documento, el estudio se publicó originalmente el 26 de julio de 2000, y los datos se actualizaron hasta 2001. Consultado el 16 de noviembre de 2008.
  2. ^ Frank Garcia, (enero de 1996). "Negocios y marketing en Internet". Tope 9 (1). (Cita de Maureen Flynn-Burhoe, (19 de diciembre de 2006). "La guía definitiva de la web invisible". oceanflynn @ Digg.) (Copia electrónica archivada por Internet Archive.) Recuperado el 16 de noviembre de 2008.
  3. Software de biblioteca personal (Diciembre de 1996). "PLS presenta AT1, el primer servicio de búsqueda en Internet de 'segunda generación'". (Archivado por Internet Archive.) Consultado el 16 de noviembre de 2008.
  4. Software de biblioteca personal (Diciembre de 1996). "PLS presenta AT1, el primer servicio de búsqueda en Internet de 'segunda generación'". (Archivado por Internet Archive.) Consultado el 16 de noviembre de 2008.
  5. ↑ Comunicado de prensa de AOL (diciembre de 1996) anunciando la participación de AOL en @ 1 El nuevo servicio AT1 permite a los miembros de AOL buscar "The Invisible Web". Consultado el 16 de noviembre de 2008.
  6. ↑ El artículo inédito ¿Cuánta información hay en el mundo?, por Michael Lesk en 1997, estimó que en 1997, la Biblioteca del Congreso tenía entre 200 terabytes y 3 petabytes. Consultado el 16 de noviembre de 2008.

Referencias

  • Barker, Joe, (enero de 2004). Web invisible: qué es, por qué existe, cómo encontrarlo y su ambigüedad inherente. UC Berkeley - Talleres de Internet de la Biblioteca de enseñanza. Consultado el 16 de noviembre de 2008.
  • Bergman, Michael K., The Deep Web: Surfacing Hidden Value. El diario de publicación electrónica 7 (1) (agosto de 2001) 2. Consultado el 16 de noviembre de 2008.
  • Gruchawka, Steve (junio de 2006). Guía práctica de la Web profunda TechDeepWeb.com. Consultado el 16 de noviembre de 2008.
  • Hamilton, Nigel (2003). La mecánica de un motor de metabúsqueda de red profunda - Cartel de la 12a Conferencia Mundial. Consultado el 16 de noviembre de 2008.
  • Él, Bin y Kevin Chen-Chuan Chang, coincidencia de esquemas estadísticos de 2003 a través de interfaces de consulta web. Actas de la Conferencia Internacional ACM SIGMOD 2003 sobre Gestión de Datos. 3. Consultado el 16 de noviembre de 2008.
  • Ipeirotis, Panagiotis G., Luis Gravano, Mehran Sahami, (2001). "Sondear, contar y clasificar: categorizar bases de datos web ocultas". Actas de la Conferencia Internacional ACM SIGMOD de 2001 sobre Gestión de Datos, 67-78. Consultado el 16 de noviembre de 2008.
  • King, John D. y Yuefeng Li, Daniel Tao, Richi Nayak, (noviembre de 2007). Conocimiento mundial minero para el análisis del contenido de motores de búsqueda. Inteligencia web y sistemas de agentes: una revista internacional 5 (3): 233-253. Consultado el 16 de noviembre de 2008.
  • McCown, Frank y Xiaoming Liu, Michael L. Nelson, Mohammad Zubair, (marzo / abril de 2006). Cobertura en buscadores del Corpus OAI-PMH. IEEE Internet Computing 10 (2): 66-73. Consultado el 16 de noviembre de 2008.
  • Ntoulas, Alexandros; Petros Zerfos, Junghoo Cho, (2005). "Descargar contenido web oculto textual a través de consultas de palabras clave". Actas de la Conferencia Conjunta sobre Bibliotecas Digitales (JCDL), 100-109. Versión extendida Recuperado el 16 de noviembre de 2008.
  • Software de biblioteca personal (Dic. 1996) comunicado de prensa que anuncia @ 1 como un servicio de búsqueda de "Web invisible" (página archivada en archivos de Internet). Consultado el 16 de noviembre de 2008.
  • Price, Gary y Chris Sherman, (julio de 2001). La web invisible: descubriendo fuentes de información Los motores de búsqueda no pueden ver. CyberAge Books. ISBN 091096551X.
  • Raghavan, Sriram; Héctor García-Molina, (2001). "Rastreando la red oculta". Actas de la 27ª Conferencia Internacional sobre Bases de Datos Muy Grandes (VLDB), 129-138. Consultado el 16 de noviembre de 2008.
  • Shestakov, Denis. (Junio ​​de 2008). Interfaces de búsqueda en la web: consulta y caracterización. Tesis Doctorales TUCS 104, Universidad de Turku. Consultado el 16 de noviembre de 2008.
  • Wright, Alex (marzo de 2004). En busca de la web profunda, Salon.com. Consultado el 16 de noviembre de 2008.

Ver el vídeo: La Internet profunda o Darknet (Julio 2020).

Pin
Send
Share
Send