Miesięcznik informatyków i menedżerów IT sektora publicznego

Rośnie czarna dziura cyfrowego dziedzictwa

Projekty archiwizacji Webu mają różne cele, a co za tym idzie, różną skalę i metody. Duża część z nich, może nawet dominująca, to archiwizacje naukowe – zazwyczaj na niewielką skalę, realizowane pod kątem wybranego tematu lub zakresu tematów i oczywiście nieudostępniane na zewnątrz. Rozmowa z Marcinem Wilkowskim, pracownikiem naukowym Centrum Kompetencji Cyfrowych na Uniwersytecie Warszawskim, ekspertem w zakresie archiwistyki Webu.

Czy da się oszacować liczbowo, ile mogą zajmować wszystkie zasoby Webu?

Jeśli chodzi o objętość dyskową, byłoby to bardzo trudne, a może nawet niemożliwe. Pojawiają się już jednak pewne szacunki odnośnie do liczby stron WWW. Problem w tym, że nie istnieje żaden centralny katalog Webu. Nawet indeks Google, do którego i tak nie mamy przecież bezpośredniego dostępu, nie zawiera informacji o wszystkich istniejących stronach, chociaż zawiera dane o setkach miliardów adresów URL. Istnieje wiele zasobów Webu dostępnych po zalogowaniu, w serwisach o ograniczonym dostępie czy nielinkowanych nigdzie z zewnątrz. Tę część WWW określa się czasem jako deep Web. Nawet jeśli spróbujemy oszacować objętość zasobów takich gigantów jak Google czy Facebook, to i tak uzyskamy zbyt słabą podstawę do stawiania jednoznacznych stwierdzeń na temat tego, jaki jest Web jako całość.

A czy potencjalnie archiwizacja wszystkich stron internetowych jest w ogóle możliwa?

Choćby ze wspomnianego wyżej braku centralnego, pełnego indeksu taka archiwizacja byłaby niemożliwa. Naturalnie też nikt jej nie proponuje. Fundacja Internet Archive, która od dwóch dekad archiwizuje WWW, ma bardzo otwarte archiwum, właściwie każdy może zgłosić do niego dowolną stronę i z roku na rok coraz więcej jego zasobów pochodzi od indywidualnych zgłoszeń użytkowników. W archiwum tym znajdują się witryny amatorskie i profesjonalne, strony rządowe i wpisy na forach, nawet jednak przy takim holistycznym modelu działania archiwum nie ma mowy o stworzeniu kopii Webu w skali 1:1. Przeczy temu nie tylko zdrowy rozsądek czy kalkulacja kosztów, ale też fakt, że kopia witryny w archiwum Webu nie jest właściwie jej kopią, a czymś w rodzaju jej technicznej interpretacji. Dużo się o tym ostatnio pisze na gruncie teorii archiwalnej, która dodatkowo odczarowuje tę ideę zgromadzenia i zarchiwizowania wszystkiego. Do tego dochodzą kłopoty techniczne z kopiowaniem i zabezpieczaniem stron renderowanych przez JavaScript czy problem z wielkim zasobem treści kontrolowanych przez właścicieli platform mediów społecznościowych, gdzie archiwiści mogą korzystać jedynie z ograniczonego API.

Wartość treści wypełniającej internet jest bardzo zróżnicowana. Czy kompleksowa archiwizacja ma zatem sens?

Myślę, że dałoby się zaakceptować pewne argumenty za stałą dostępnością wszystkich zasobów Webu. Myślę tu szczególnie o badaczach, w tym historykach czy socjologach, a także o dziennikarzach czy prawnikach, którzy już teraz mają problemy z dotarciem do określonych treści WWW, cyfrowych dokumentów czy dowodów sprzed miesięcy lub lat. Z drugiej strony taka totalna dostępność, połączona zapewne z dokładnym dokumentowaniem zmian, tak jak w systemach kontroli wersji czy na Wikipedii, byłaby dużym wyzwaniem dla prywatności użytkowników, nie mówiąc już o przygotowaniu dla takich działań koniecznej przestrzeni na serwerach. Dziś w archiwistyce Webu istnieje kierunek starający się wprowadzić do standardu protokołu HTTP dodatkowe rozwiązania zmierzające do nałożenia na Web jakiejś warstwy archiwalnej. Proponowane są m.in. nagłówki informujące o okresie dostępności danej strony czy jej potencjalnej archiwizacji – nadal jednak nie mają wsparcia w przeglądarkach i nadal nie są to działania zmierzające do uczynienia z Webu medium w pełni archiwizowanego. Tego chyba nikt by nie chciał, no, może oprócz NSA czy Google’a, którego apetyt na dane społeczne i kulturowe jest nienasycony. Mamy co prawda inicjatywy zmierzające do transformacji WWW w kierunku struktury peer-to-peer: to choćby rozwijany ze wsparciem Mozilli protokół DAT, który pozwala na autoarchiwizację dystrybuowanych online witryn na zasadzie podobnej do archiwizacji plików w sieciach torrentowych – swoje treści zabezpiecza nie tylko wydawca strony, ale także robią to dynamicznie jej użytkownicy. DAT obiecuje nawet zachowywanie informacji o zmianach treści poszczególnych plików witryny! W porównaniu z HTTP to prawdziwa archiwistyczna rewolucja, chociaż dość niszowa, bo wspomniany protokół obsługuje na razie tylko jedna eksperymentalna przeglądarka Beaker.

[...]

Marcin Wilkowski – programista w Centrum Kompetencji Cyfrowych Uniwersytetu Warszawskiego. Doktorant w Instytucie Badań Literackich PAN. Interesuje się historią cyfrową, archiwistyką Webu i innowacjami cyfrowymi w sektorze kultury i dziedzictwa. Inicjator powstania Pracowni Archiwizacji Webu (WebArch) w ramach CKC UW, która publikuje materiały edukacyjne i omówienia najciekawszych tekstów naukowych z tej dziedziny i gdzie prowadzone są szkolenia z podstaw zgodnego ze standardami archiwizowania stron WWW.

Rozmawiał Eryk Chilmon

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma. Zapraszamy do składania zamówień na prenumeratę i numery archiwalne.
 
 

Polecamy

Biblioteka Informacja Publiczna

Specjalistyczne publikacje książkowe dla pracowników administracji publicznej

więcej