Quiero saber todo

Archivo web

Pin
Send
Share
Send


Archivo web es el proceso de recopilar partes de la World Wide Web y garantizar que la colección se conserve en un archivo, como un sitio de archivo, para futuros investigadores, historiadores y el público. Debido al tamaño masivo de la Web, los archiveros web suelen emplear rastreadores web para la recolección automatizada. La organización de archivo web más grande basada en un enfoque de rastreo es el Archivo de Internet que se esfuerza por mantener un archivo de toda la Web. Las bibliotecas nacionales, los archivos nacionales y varios consorcios de organizaciones también participan en el archivo de contenido web culturalmente importante. El software y los servicios comerciales de archivo web también están disponibles para las organizaciones que necesitan archivar su propio contenido web con fines legales o reglamentarios.

Dado que los sitios web a menudo tienen derechos de autor, el archivo web debe tener en cuenta las cuestiones legales y sociales. Debido a la naturaleza global de un entorno web, surgen problemas complejos.

Coleccionando la web

Los archiveros web generalmente archivan todo tipo de contenido web, incluidas páginas web HTML, hojas de estilo, JavaScript, imágenes y videos. También archivan metadatos sobre los recursos recopilados, como el tiempo de acceso, el tipo MIME y la longitud del contenido. Estos metadatos son útiles para establecer la autenticidad y procedencia de la colección archivada.

Métodos de cobranza

Cosecha remota

La técnica de archivo web más común utiliza rastreadores web para automatizar el proceso de recopilación de páginas web. Los rastreadores web suelen ver las páginas web de la misma manera que los usuarios con un navegador ven la Web y, por lo tanto, proporcionan un método comparativamente simple para recolectar contenido web de forma remota.

Rastreadores web

Los ejemplos de rastreadores web que se usan con frecuencia para el archivado web incluyen:

Heritrix

Heritrix es el rastreador web de Internet Archive que fue especialmente diseñado para el archivo web. Es de código abierto y está escrito en Java. Se puede acceder a la interfaz principal mediante un navegador web, que contiene una herramienta de línea de comandos que se puede usar opcionalmente para iniciar rastreos.

Heritrix fue desarrollado conjuntamente por Internet Archive y las bibliotecas nacionales nórdicas en especificaciones escritas a principios de 2003. El primer lanzamiento oficial fue en enero de 2004, y desde entonces, ha sido mejorado continuamente por miembros de Internet Archive y otros terceros interesados.

Varias organizaciones y bibliotecas nacionales están utilizando Heritrix, entre ellas:

  • Biblioteca y archivos de Canadá
  • Bibliothèque nationale de France
  • Biblioteca Nacional y Universitaria de Islandia
  • Biblioteca Nacional de Nueva Zelanda
  • Netarkivet.dk
  • Documentando Internet2

HTTrack

HTTrack es un rastreador web gratuito y de código abierto y un navegador fuera de línea, desarrollado por Xavier Roche y con licencia bajo la Licencia Pública General de GNU, que permite descargar sitios de la World Wide Web de Internet a una computadora local. Por defecto, HTTrack organiza el sitio descargado por la estructura de enlaces relativa del sitio original. El sitio web descargado (o "reflejado") se puede navegar abriendo una página del sitio en un navegador.

HTTrack también puede actualizar un sitio duplicado existente y reanudar descargas interrumpidas. HTTrack es totalmente configurable por opciones y por filtros (incluir / excluir), y tiene un sistema de ayuda integrado. Hay una versión básica de línea de comandos y dos versiones GUI (WinHTTrack y WebHTrack); el primero puede ser parte de scripts y trabajos cron.

HTTrack utiliza un rastreador web para descargar un sitio web. Es posible que algunas partes del sitio web no se descarguen de forma predeterminada debido al protocolo de exclusión de robots a menos que se desactive durante el programa. HTTrack puede seguir enlaces que se generan con JavaScript básico y dentro de Applets o Flash, pero no enlaces complejos (generados mediante funciones o expresiones) o mapas de imágenes del lado del servidor.

Otros

Bajo demanda

Existen numerosos servicios que pueden usarse para archivar recursos web "a pedido", utilizando técnicas de rastreo web:

  • WebCite, un servicio específicamente para autores académicos, editores de revistas y editores para archivar y recuperar permanentemente referencias de Internet citadas (Eysenbach y Trudel, 2005).
  • Archive-It, un servicio de suscripción, permite a las instituciones crear, administrar y buscar su propio archivo web.
  • Hanzo Archives ofrece herramientas y servicios comerciales de archivo web, implementando una política de archivo para contenido web y permitiendo descubrimiento electrónico, soporte de litigios o cumplimiento normativo.

Archivo de base de datos

El archivado de bases de datos se refiere a métodos para archivar el contenido subyacente de los sitios web basados ​​en bases de datos. Por lo general, requiere la extracción del contenido de la base de datos en un esquema estándar, a menudo utilizando XML. Una vez almacenado en ese formato estándar, el contenido archivado de múltiples bases de datos puede estar disponible utilizando un único sistema de acceso. Este enfoque se ejemplifica con las herramientas DeepArc y Xinq desarrolladas por la Bibliothèque nationale de France y la Biblioteca Nacional de Australia, respectivamente. DeepArc permite asignar la estructura de una base de datos relacional a un esquema XML y exportar el contenido a un documento XML. Xinq luego permite que ese contenido se entregue en línea. Aunque el diseño y el comportamiento originales del sitio web no se pueden preservar exactamente, Xinq permite que se repliquen las funciones básicas de consulta y recuperación.

Archivo transaccional

El archivado transaccional es un enfoque basado en eventos, que recopila las transacciones reales que tienen lugar entre un servidor web y un navegador web. Se utiliza principalmente como un medio para preservar la evidencia del contenido que realmente se vio en un sitio web en particular, en una fecha determinada. Esto puede ser particularmente importante para las organizaciones que necesitan cumplir con los requisitos legales o reglamentarios para divulgar y retener información.

Un sistema de archivo transaccional generalmente opera interceptando cada solicitud HTTP y una respuesta del servidor web, filtrando cada respuesta para eliminar contenido duplicado y almacenando permanentemente las respuestas como flujos de bits. Un sistema de archivo transaccional requiere la instalación de software en el servidor web y, por lo tanto, no se puede utilizar para recopilar contenido de un sitio web remoto.

Los ejemplos de software de archivo transaccional comercial incluyen:

Dificultades y limitaciones.

Rastreadores

Los archivos web que se basan en el rastreo web como su medio principal para recopilar la web están influenciados por las dificultades del rastreo web:

  • El protocolo de exclusión de robots puede solicitar partes de rastreadores de un sitio web inaccesibles. Algunos archiveros web pueden ignorar la solicitud y rastrear esas porciones de todos modos.
  • Grandes porciones de un sitio web pueden estar ocultas en la Web profunda. Por ejemplo, la página de resultados detrás de un formulario web se encuentra en la web profunda porque un rastreador no puede seguir un enlace a la página de resultados.
  • Algunos servidores web pueden devolver una página diferente para un rastreador web de lo que lo haría para una solicitud de navegador normal. Esto normalmente se hace para engañar a los motores de búsqueda para que envíen más tráfico a un sitio web.
  • Las trampas de rastreadores (p. Ej., Calendarios) pueden hacer que un rastreador descargue un número infinito de páginas, por lo que los rastreadores generalmente están configurados para limitar el número de páginas dinámicas que rastrean.

La Web es tan grande que rastrear una parte importante requiere una gran cantidad de recursos técnicos. La Web está cambiando tan rápido que partes de un sitio web pueden cambiar incluso antes de que un rastreador haya terminado de rastrearlo.

Limitaciones generales

Los archiveros web no solo deben lidiar con los desafíos técnicos del archivo web, sino que también deben lidiar con las leyes de propiedad intelectual. Peter Lyman (2002) afirma que "aunque la Web se considera popularmente como un recurso de dominio público, tiene derechos de autor; por lo tanto, los archiveros no tienen derecho legal a copiar la Web". Sin embargo, las bibliotecas nacionales en muchos países tienen el derecho legal de copiar partes de la web bajo una extensión de un depósito legal.

Algunos archivos web privados sin fines de lucro a los que se puede acceder públicamente, como WebCite o Internet Archive, permiten a los propietarios de contenido ocultar o eliminar contenido archivado al que no quieren que el público tenga acceso. Solo se puede acceder a otros archivos web desde ciertas ubicaciones o tienen un uso regulado. WebCite también cita en sus preguntas frecuentes una demanda reciente contra el mecanismo de almacenamiento en caché, que Google ganó.

Aspectos de la curación web

La curación web, como cualquier curación digital, implica:

  • Recopilar activos web verificables
  • Proporcionar búsqueda y recuperación de activos web
  • Certificación de la confiabilidad e integridad del contenido de la colección.
  • Continuidad semántica y ontológica y comparabilidad del contenido de la colección.

Por lo tanto, además de la discusión sobre los métodos de recopilación de la web, se deben incluir los de proporcionar acceso, certificación y organización. Hay un conjunto de herramientas populares que abordan estos pasos de curación:

Un conjunto de herramientas para la curación web por parte del Consorcio Internacional de Conservación de Internet:

  • Heritrix - sitio web oficial - recopilación de activos web
  • NutchWAX - buscar colecciones de archivos web
  • Wayback (Máquina de Wayback de código abierto): busque y navegue por colecciones de archivos web con NutchWax
  • Herramienta Web Curator - Selección y gestión de la colección web

Otras herramientas de código abierto para manipular archivos web:

  • Herramientas WARC: para crear, leer, analizar y manipular archivos web mediante programación
  • Herramientas de búsqueda: para indexar y buscar texto completo y metadatos en archivos web

Un ejemplo de archivos web.

El archivo de internet

los Archivo de internet (I A) es una organización sin fines de lucro dedicada a crear y mantener una biblioteca digital en línea gratuita y de libre acceso, que incluye un archivo de la World Wide Web. Con oficinas ubicadas en el Presidio en San Francisco, California, y centros de datos en San Francisco, Redwood City y Mountain View, CA, el archivo incluye "instantáneas de la World Wide Web" (copias archivadas de páginas, tomadas en varios puntos de tiempo), software, películas, libros y grabaciones de audio. Para garantizar la estabilidad y la resistencia de Internet Archive, su colección se refleja en la Bibliotheca Alexandrina en Egipto, hasta ahora la única biblioteca del mundo con espejo.1 La IA hace que sus colecciones estén disponibles sin costo para investigadores, historiadores y académicos. Es miembro de la American Library Association y está oficialmente reconocido por el Estado de California como una biblioteca.2

los Wayback Machine3 es una cápsula de tiempo digital creada por Internet Archive. Este servicio permite a los usuarios ver versiones archivadas de páginas web a través de períodos de tiempo.

Ver también

  • Archivo
  • Preservación digital
  • Archivo de internet
  • Proyecto Biblioteca Digital Biblioteca del Congreso
  • Programa Nacional de Infraestructura y Preservación de la Información Digital
  • Rastreo web

Notas

  1. ↑ The Internet Archive en la New Library of Alexandria, International School of Information Science (ISIS). Consultado el 22 de noviembre de 2008.
  2. ^ "Internet Archive oficialmente una biblioteca" Consultado el 22 de noviembre de 2008.
  3. ↑ web.archive.org Consultado el 22 de noviembre de 2008.

Referencias

  • Brown, A. 2006. Archivo de sitios web: una guía práctica para profesionales de la gestión de la información. Publicación de facetas. ISBN 1-85604-553-6
  • Brügger, N. 2005. Archivo de sitios web. Consideraciones generales y estrategias El Centro de Investigación en Internet. ISBN 87-990507-0-6. Consultado el 11 de noviembre de 2008.
  • Day, M. 2003. Preservar el tejido de nuestras vidas: una encuesta de iniciativas de preservación web Investigación y tecnología avanzada para bibliotecas digitales: Actas de la 7ª Conferencia Europea (ECDL)461-472. Consultado el 11 de noviembre de 2008.
  • Eysenbach, G. y M. Trudel. 2005. Ir, seguir, seguir ahí: usar el servicio WebCite para archivar permanentemente las páginas web citadas Revista de Investigación Médica de Internet 7 (5) Consultado el 11 de noviembre de 2008.
  • Fitch, Kent. 2003. "Archivo de sitios web: un enfoque para registrar cada respuesta materialmente diferente producida por un sitio web" Ausweb 03. Consultado el 11 de noviembre de 2008.
  • Lyman, P. 2002. Archivando la World Wide Web Construyendo una estrategia nacional para la preservación: problemas en el archivo de medios digitales. Consultado el 11 de noviembre de 2008.
  • Masanès, J. (ed.). 2006 Archivo web. Springer-Verlag. ISBN 3-540-23338-5

Enlaces externos

Todos los enlaces recuperados el 10 de agosto de 2013.

  • International Internet Preservation Consortium (IIPC): consorcio internacional cuya misión es adquirir, preservar y hacer accesible el conocimiento y la información de Internet para las generaciones futuras
  • Taller internacional de archivo web (IWAW): taller anual que se centra en el archivo web
  • La Biblioteca del Congreso, Colecciones Digitales y Programas
  • Biblioteca del Congreso, Captura web
  • Bibliografía de archivo web: larga lista de recursos de archivo web
  • Programas de archivo web:

Pin
Send
Share
Send