|
Harava virtuaalilehdille ja muulle verkkoaineistolle
EU rahoitti vuosina 1997-2001 NEDLIB eli Networked Electronic Deposit Library -hanketta, jonka tavoitteena oli luoda periaatteita ja välineitä elektronisten vapaakappaleiden käsittelyyn. Yksi tämän projektin mielenkiinnon kohteista oli verkkojulkaisujen keruu ja arkistointi, josta vastasi HYK apunaan Tieteen tietotekniikan keskus, CSC. Alun perin HYKin tavoitteena oli Combine-haravointiohjelman edelleen kehittäminen, mutta CSC päätyi teknisessä analyysissään siihen, ettei Combinen toimintalogiikkaa voinut muuttaa sellaiseksi, että ohjelma olisi soveltunut verkon arkistointiin parhaalla mahdollisella tavalla. Niinpä päätimme kehittää kokonaan uuden haravaohjelmiston, joka olisi ensimmäinen yleisesti saatavilla oleva nimenomaan verkon arkistointiin tarkoitettu työkalu.
HYK ja CSC kehittivät yhteistyössä toiminnalliset periaatteet verkkojulkaisujen haravointi- ja arkistointiohjelmistolle. Ohjelmointi käynnistyi vuoden 1999 loppupuolella, ja testaus aloitettiin vuonna 2000. Tätä kirjoitettaessa sovelluksen viimeisin versio on 1.2.2, ja se valmistui syyskuussa 2002. Toisin sanoen CSC jatkoi ohjelman parantelua vielä kauan NEDLIB-projektin päättymisen jälkeenkin haravan käytöstä saatujen kokemusten nojalla.
NEDLIB-hanke sai aikaan runsaasti käyttökelpoista ohjeistusta, mutta vähän työkaluja ja välineitä. Mutta projektissa rakennettu haravaohjelmisto on ollut sitäkin suositumpi. Kansalliskirjastot ovat hyödyntäneet sitä oman maansa verkkoaineiston tallentamiseen joko osittain tai kokonaan esimerkiksi Sveitsissä, Norjassa, Tsekissä ja Virossa. Kokeilijoita on ollut ainakin kymmenessä maassa. Ohjelman avulla on saatu tulevia sukupolvia varten talteen kymmeniä miljoonia dokumentteja. Yhtä tärkeää on ollut se kokemus, jota ohjelman kehityksestä ja käytöstä on saatu myöhempiä hankkeita varten.
NEDLIB-harava koostuu useista toisiinsa liittyvistä moduleista. Haravaprosessit noutavat aineistoa verkosta. Toisen modulin tehtävänä on tutkia saapunut dokumentti ja etsiä siitä hyperlinkit. Kolmas osio tutkii ovatko nämä linkit keruurajausten mukaisia; esimerkiksi jos haravointi kohdistuu vain Helsingin yliopiston verkkoon (helsinki.fi), linkit jotka kohdistuvat muualle eivät kelpaa.
Yhden haravaohjelman modulin tehtävänä on haravoille syötettävien URL-osoitteiden priorisointi; huonosti käyttäytyvä harava voisi tukkia www-palvelimen lähettämällä sille samanaikaisesti hyvin suuren joukon tiedostopyyntöjä ja siksi pyyntöjen väliin on jätettävä sopiva, palvelimen koon mukaan joustava aikaväli.
Verkkoaineiston tallennukseen tarkoitetussa haravassa on tietenkin oltava myös arkistointimoduli. NEDLIB-haravassa tämä sovellus laskee aluksi jokaisen tiedoston MD5-tarkistussumman. MD5 on Internet-standardi (RFC1321), jonka ominaisuuksiin kuuluu se, että kaksi erilaista dokumenttia ei (periaatteessa) koskaan voi saada samaa MD5-tarkistussummaa. Tarkistussummalla on kaksi tärkeää tehtävää. Sitä käytetään tuplakontrolliin, jolle on totisesti tarvetta: Suomen verkkoavaruus koostui kesällä 2002 43 miljoonasta URL-osoitteesta, mutta niistä kertyi vain 11.7 miljoonaa dokumenttia. Jokainen tiedosto löytyi siis verkosta liki neljästä osoitteesta. MD5-tarkistussummasta voidaan myös tehdä resurssin uniikki tunniste, jonka avulla haluttu dokumentti voidaan löytää arkistosta.
NEDLIB-haravassa arkistointimoduli kasaa kootut tiedostot tar-pakettiin, joka kompressoidaan tallennusta varten. Tavoitteena on arkistoidun aineiston käsittelyn helpottaminen ja tarvittavan tallennuskapasiteetin vähentäminen. Tässä on onnistuttu vähintään kohtuullisesti; kesällä 2002 luotu Suomen verkkoarkisto oli kooltaan vaivaiset puoli teratavua. Vielä vuonna 1993 tämän datamäärän tallentaminen levylle olisi ollut kallista, mutta 2003 touhu on halpaa ja 2013 puolikkaan teratavun tallennus ei maksa mitään; levytilan hinta kun putoaa keskimäärin 30 % vuodessa.
URN:NBN:fi-fe20031623
|
|