Web Archive Collection Zipped
Web Archive Collection Zipped (WACZ) ist ein Dateiformat, das Webarchivdaten und Metadaten als ZIP-Datei verpackt und verteilt. Eine WACZ-Datei enthält Website-Inhalte und Metadaten, die mit Crawling-Tools für Archivierungszwecke abgerufen wurden. Eine WACZ-Datei umfasst alle Daten, die für die Darstellung archivierter Inhalte sowie für die Kontextinformationen erforderlich sind, die den Benutzern helfen, diese zu verstehen und zu interpretieren. Darstellungssoftware kann diese Daten bei Bedarf mit HTTP-Range-Anfragen abrufen, ohne dass die gesamte Datei vollständig abgerufen werden muss oder dass sie anderweitig von spezieller serverseitiger Software vermittelt werden muss.
WACZ ist eine Erweiterung des WARC-Standards, der vom International Internet Preservation Consortium (IIPC) entwickelt wurde. WARC ist ein Dateiformat, das verkettete Darstellungen von Webressourcen enthält, die dem WARC-Standard entsprechen2. WACZ ermöglicht sowohl ZIP- als auch ZIP64-Kodierungen für größere Archive.
WACZ wurde von Webrecorder initiiert und wird von ReplayWeb.page unterstützt, einer webbasierten Anwendung zum Abspielen von Webarchiven. WACZ bietet eine vorhersagbare Art und Weise, Webarchivdaten und Metadaten als ZIP-Datei zu verpacken, die auf dem Web geteilt und verteilt werden kann.
Format[Bearbeiten]
Eine WACZ-Datei ist eine ZIP-Datei, die eine Reihe von Dateien enthält, die Webarchivdaten und Metadaten repräsentieren. Die Dateien sind in einem Verzeichnis namens archive organisiert.[1] Die wichtigsten Dateien sind:
- datapackage.json: Eine JSON-Datei, die Metadaten über das Webarchiv enthält, wie z.B. Titel, Beschreibung, Erstellungsdatum, URL usw. Diese Datei folgt dem Data Package Standard.
- archive.warc.gz: Eine komprimierte WARC-Datei, die die archivierten Webressourcen enthält. Diese Datei folgt dem WARC Standard.
- pages.jsonl: Eine JSONL-Datei, die eine Liste von Seiten im Webarchiv enthält. Jede Seite hat einen eindeutigen Namen, eine URL, einen Zeitstempel und optional einen Volltextindex.
- index.cdx.gz: Eine komprimierte CDX-Datei, die einen Index der WARC-Einträge enthält. Diese Datei folgt dem CDX Standard.
Eine WACZ-Datei kann auch andere optionale Dateien enthalten, wie z.B.:
- signatures.jsonl: Eine JSONL-Datei, die digitale Signaturen für das Webarchiv enthält. Diese Datei folgt dem AuthSign Standard.
- thumbnails/: Ein Verzeichnis, das Miniaturbilder der Seiten im Webarchiv enthält.
- media/: Ein Verzeichnis, das Mediendateien wie Bilder oder Videos enthält.
- Werkzeuge
Es gibt verschiedene Werkzeuge zum Erstellen und Validieren von WACZ-Dateien. Einige davon sind:
- wacz: Ein Python-Modul und ein Befehlszeilenprogramm zum Arbeiten mit Webarchivdaten mit der WACZ-Spezifikation. Es unterstützt das Konvertieren von beliebigen WARC-Dateien in WACZ-Dateien und optional das Erzeugen von Volltextsuchindizes für Seiten.[2]
- ReplayWeb.page: Eine webbasierte Anwendung zum Abspielen von Webarchiven aus verschiedenen Quellen, einschließlich WACZ-Dateien. Es ermöglicht es den Benutzern, durch das Webarchiv zu navigieren, Seiten zu suchen und zu filtern und Kontextinformationen anzuzeigen.[3]
- pywb: Ein Python-basiertes Framework zum Abspielen von Webarchiven aus verschiedenen Quellen, einschließlich WACZ-Dateien. Es bietet eine Reihe von Funktionen wie Indexierung, Caching, Umwandlung und API-Zugriff auf Webarchivdaten.[4]
Weblinks[Bearbeiten]
Einzelnachweise[Bearbeiten]
- ↑ Web Archive Collection Zipped (WACZ) auf webrecorder.net
- ↑ wacz · PyPI https://pypi.org/project/wacz/
- ↑ GitHub - webrecorder/py-wacz https://github.com/webrecorder/py-wacz
- ↑ GitHub - webrecorder/pywb https://github.com/webrecorder/pywb
Diese artikel "Web Archive Collection Zipped" ist von Wikipedia The list of its authors can be seen in its historical and/or the page Edithistory:Web Archive Collection Zipped.