Archiwum Internetowe – czy możliwa jest archiwizacja zasobów sieci?

W świecie nowych technologii i interaktywnych mediów mamy do czynienia z wieloma projektami, które dla bibliotek mogą stanowić źródło wiarygodnej, merytorycznej i aktualnej informacji. Ogrom zasobów i treści dostępnych za pośrednictwem standardowej wyszukiwarki (np. Google) to aspekt, bez którego dzisiaj trudno jest sobie wyobrazić nasze codzienne funkcjonowanie.

Wyszukujemy informacje na tematy powiązane z naszymi zainteresowaniami, wykonywaną pracą, zapoznajemy się z książkami i prasą udostępnionymi w tworzonych przez bibliotekarzy cyfrowych repozytoriach, oglądamy filmy, słuchamy muzyki i radia, czy komunikujemy się z innymi użytkownikami (za pomocą poczty elektronicznej, komunikatorów, serwisów społecznościowych) bez konieczności ponoszenia nadmiernych kosztów finansowych.

Jednocześnie zwracamy uwagę na zmiany w otaczającym nas świecie informacji. Często polegają one na znikaniu witryn WWW, z których jeszcze niedawno korzystaliśmy. W tym przypadku po wpisaniu dobrze nam znanego adresu pojawia się komunikat, że taka strona nie istnieje. Trzeba przy tym zaznaczyć, że charakterystycznymi cechami Internetu jest szybkość zachodzących w nim zmian oraz zjawisko nietrwałości w stosunku do prezentowanych treści. To z czym możemy się zapoznać dzisiaj, niekoniecznie będzie dostępne jutro. Wydaje się, że ten element na stałe wpisał się w funkcjonowanie tego multimedialnego środka przekazu informacji, z którym już od dłuższego czasu obcujemy. Z drugiej strony, jesteśmy świadkami codziennego powstawania nowych stron i projektów internetowych, które zastępują starsze przedsięwzięcia, tracące popularność i zainteresowanie internautów. Tak dzieje się między innymi z serwisami należącymi do szeroko rozumianego zjawiska Web 2.0, ale nie tylko.

Większość dostępnych dzisiaj dokumentów ma formę elektroniczną. Co więcej, duża ich część – wcześniej funkcjonująca w sieci – znika i nie jest już indeksowana przez narzędzia wyszukiwawcze. W wielu przypadkach dobrze nam znane internetowe strony ewoluują w kierunku coraz bardziej zaawansowanych technologicznie i treściowo przedsięwzięć, a ich dawniejsze wersje popadają w niebyt i zapomnienie. Tylko nieliczne funkcjonują przez dłuższy czas w swojej pierwotnej, niezmienionej wersji. Nie zmienia to jednak faktu, że dla badaczy światowej sieci znikanie elektronicznych treści wiąże się z dużymi problemami w odtworzeniu tego, jak by nie patrzeć – światowego dziedzictwa kultury. Czy tak musi być? Na szczęście tylko teoretycznie…

Problem archiwizacji zasobów internetowych od wielu lat porusza wyobraźnię informatyków i badaczy. Do sfery marzeń należy jeszcze stworzenie takiego projektu, który zabezpieczałby całość dostępnych w Internecie treści, jednocześnie przechowując je w niezmienionej postaci i udostępniając internautom na całym świecie. Wśród najbardziej znanych projektów, mających na celu archiwizację zasobów internetowych w jednym, ogólnodostępnym miejscu, znajduje się amerykańskie Archiwum Internetowe. Głównym celem tego projektu jest zabezpieczenie artefaktów stworzonych przez człowieka oraz utworzenie internetowej skarbnicy służącej w przyszłości nie tylko  badaczom, ale i zwykłym użytkownikom.

Przedsięwzięcie powstało w 1996 roku z inicjatywy amerykańskiego znawcy nowych technologii i cyfrowego bibliotekarza – Kahla Brewstera. W założeniu miało to być przede wszystkim unikalne repozytorium cyfrowe w rodzaju wirtualnej biblioteki, gdzie nowe technologie przenikałyby się ze starożytną praktyką dostarczania dokumentów jak największej liczbie użytkowników. Ten starożytny akcent nawiązuje do działalności Biblioteki Aleksandryjskiej, największej książnicy ówczesnego świata, gromadzącej większość tworzonych w tamtym czasie dzieł. Dlatego też hasłem przewodnim, wytłuszczonym w prawym górnym rogu strony głównej projektu, jest „uniwersalny dostęp do wiedzy”.

Pierwotną siedzibą archiwum było miasto Presidio w San Francisco w USA, gdzie przechowywano ogromną liczbę komputerów i serwerów należących do całego przedsięwzięcia. W listopadzie 2009 r. sprzęt został przeniesiony do budynku kościoła należącego do religijnej organizacji prowadzącej działalność oświatową i wydawniczą w Richmond. To tutaj prowadzi się archiwizację zasobów dostępnych on-line, ale także prace związane z digitalizacją książek, prasy i mikrofilmów, co stanowi jeden z głównych celów działalności tej instytucji (projekt „Otwarta Biblioteka”).

W ramach projektu udostępniono narzędzie wyszukiwawcze pod nazwą „Wayback Machine”. Jest to swoista maszyna czasu, przeszukująca ponad dziesięć miliardów stron dostępnych lub z różnych względów już niedostępnych w światowej sieci internetowej, codziennie odwiedzanej przez miliardy użytkowników. Nazwa tego narzędzia pochodzi od popularnej w latach sześćdziesiątych amerykańskiej kreskówki pt. The Rocky and Bullwinkle Show, w której główny bohater za pomocą specjalnego urządzenia („Wayback Machine”) podróżuje w czasie, by wziąć udział w ważnych historycznych wydarzeniach.

Narzędzie zaimplementowane w projekcie pozwala na łatwe i szybkie „cofnięcie” się do pewnego punktu w czasie i podejrzenie, jak w tym momencie rozwoju Internetu wyglądała dana witryna WWW. Elementem wzbudzającym największy podziw internautów jest możliwość obejrzenia stron internetowych, które z różnych przyczyn już nie istnieją bądź uległy przeobrażeniom, a dzisiaj w niczym nie przypominają swoich wcześniejszych wersji. Nie bez znaczenia jest także fakt, że uaktualnianie danych archiwum przeprowadzane jest na bieżąco, co w praktyce przekłada się na wielość kopii danego serwisu, wykonanych od momentu jego ukazania się w sieci. Bywa i tak, że archiwizacja w odniesieniu do konkretnego zasobu jest wykonywana nawet kilka lub kilkanaście razy w miesiącu. Całość zgromadzonych danych to zazwyczaj wierne odzwierciedlenie treści wraz z interaktywnymi elementami (linkami).

Wyszukiwanie treści w oparciu o „Wayback Machine” wygląda następująco:

Wchodzimy na stronę www.archive.org.

W centralnej części witryny znajduje się okno wyszukiwarki „Wayback Machine”. Wpisujemy w nim adres wybranej przez nas strony internetowej (np. www.onet.pl) i klikamy w przycisk „Take Me Back” (zabierz mnie w przeszłość). Po krótkiej chwili powinno się otworzyć okno z wynikami wyszukiwania momentów zarchiwizowania witryny. W przypadku www.onet.pl wygląda ono tak:

Archiwizacja tej witryny została przeprowadzona w okresie od 1 stycznia 1996 r. do 15 grudnia 2009. Każda z dat wymieniona w tabeli wyników to link odsyłający do danego momentu utworzenia kopii witryny. Za przykład posłuży nam link z datą 20 lutego 1997 r. Tego dnia serwis www.onet.pl wyglądał następująco:

Widać więc, że wyżej zaprezentowana kopia strony przetrwała próbę czasu i nie straciła nic ze swojej szaty graficznej i zawartości. Warto podkreślić, że archiwizacji nie podlega tylko i wyłącznie strona główna serwisu, ale także jego podstrony. Również linki będące ważną częścią zarchiwizowanej strony są aktywne, co bezpośrednio sprowadza się do tego, że użytkownik może zapoznawać się z treściami zamieszczonymi na różnych witrynach, które są powiązane odsyłaczami z serwisem www.onet.pl. Ciekawostkę stanowi fakt, że testując możliwości archive.org można skorzystać z zasobów stron będących nawet 7-8 w kolejności podstroną powiązaną z główną witryną.

Dodawanie stron do Archiwum odbywa się automatycznie, czyli niezależnie od użytkownika. Jednakże w chwili, kiedy zauważymy, że naszej witryny nie ma w zasobach projektu, możemy ją dodać sami, posługując się przy tym Projektem Otwartego Katalogu (Open Directory Project). W tym celu wchodzimy na stronę wyżej wymienionego katalogu i odszukujemy kategorię tematyczną naszej witryny. Na koniec klikamy w umieszczony w górnej części strony link „Suggest URL”, a po ukazaniu się podstrony „Submit a Site to the Open Directory” wpisujemy adres URL (np. naszej strony domowej), który mają być w przyszłości zabezpieczony przez Archiwum Internetowe.

Okno, gdzie wpisujemy adres strony, która ma być zarchiwizowana na stronie www.archive.org

Amerykańskie Archiwum to przedsięwzięcie mające także na celu współpracę z rozsianymi po całym świecie organizacjami i instytucjami, należącymi do szeroko rozumianej sfery edukacji, nauki i kultury (projekt Archive-It.org). Współpraca ta polega między innymi na zabezpieczaniu i chronieniu zasobów elektronicznych prezentowanych na łamach ich witryn bez konieczności posiadania przez pracowników tych placówek wiedzy oraz umiejętności archiwizowania elektronicznej dokumentacji czy technicznych możliwości (np. przeznaczenie do tego celu specjalnych serwerów). Subskrybenci Archiwum mogą gromadzić, katalogować i archiwizować dowolne treści, a później przeglądać je posługując się możliwością wyszukiwania pełnotekstowego. Obecnie w skład kooperantów wchodzi ponad 125 partnerów, wśród których są biblioteki, archiwa, muzea, szkoły wyższe, ale także historycy i niezależni badacze. W ramach współpracy powstała także dość duża kolekcja różnorodnych materiałów tematycznych, z którymi internauci z całego świata mogą się za darmo zapoznać (np. Olimpiada w Pekinie 2008, kolekcja irańskich blogów, zbiory dotyczące filmu, muzyki, czy książek).

W innym projekcie, nazwanym Programem Archiwizacji Sieci K-12, to studenci amerykańskich szkół wyższych decydują, które zasoby Internetu powinny być zarchiwizowane dla następnych pokoleń. Warto podkreślić, że współkoordynatorem tego programu jest Biblioteka Kongresu, a jego przewodnim hasłem pytanie: „Które strony chciałbyś zachować dla następnych generacji? Jak myślisz, co chcieliby zobaczyć ludzie, którzy będą żyli za 50, a może nawet za 500 lat?” Aktywność młodych użytkowników w odniesieniu do tego rodzaju przedsięwzięć to jeden z najważniejszych aspektów działalności projektów archiwizacyjnych.

Strona główna projektu Programem Archiwizacji Sieci K-12

Archiwum Internetowe to dzisiaj ogromna multimedialna biblioteka, która ma do zaoferowania mnóstwo ciekawych i przydatnych dokumentów. Obok możliwości zabezpieczenia i archiwizowania elektronicznych treści możemy korzystać z bogatych kolekcji dokumentów piśmienniczych, audialnych i audiowizualnych oraz pobierać udostępnione aplikacje komputerowe bez ponoszenia przy tym kosztów finansowych. Interaktywny charakter tego przedsięwzięcia polega na tym, że użytkownik może nie tylko zapoznawać się ze zgromadzonymi zasobami, ale również aktywnie je uzupełniać. Bez wątpienia twórcom projektu udało się wykreować internetową przestrzeń, którą śmiało możemy nazwać wirtualną skarbnicą wiedzy XXI wieku.

Autor artykułu: Grzegorz Gmiterek