Haravoinnin lyhyt historia
Ennen WWW-palvelujen suosion räjähdysmäistä kasvua 1993-1994 Internetissä ei juuri ollut hakupalveluita.
Tosin aineistomääräkin oli nykyiseen verrattuna huvittavan pieni. Mutta WWW:n ja Internetin vakiinnutettua asemansa syntyi nopeasti
hakupalveluita, joiden korskeasti luvattiin kattavan koko verkon. Tiedämme nyt miten kävi: parhaat globaalit hakupalvelut sisältävät
luotettavimpien arvioiden mukaan noin 15 % koko Internetistä, ja verkon kasvun myötä kate laskee jatkuvasti samalla kun palvelujen ajantasaisuus heikkenee.
Koska palvelua rakentava "haravointiohjelma" ei ehdi vierailla sivuilla kuin harvakseltaan, WWW-indeksien tarjoilemat URL-linkit ovat usein vanhentuneita.
Pohjoismaissa pidettiin jo 90-luvun puolivälissä tarpeellisena kehittää omia ohjelmia kansallisten WWW-hakupalvelujen rakentamiseen.
Lundin yliopiston kirjaston Netlab-yksikön johdolla ja Nordinfon tuella rakennettiin Nordic Web Index eli NWI-ilmaisohjelmistopaketti, joka sisältää
tätä nykyä Combine-nimisen haravointiohjelmiston sekä tanskalaisen Index Data -yrityksen rakentaman tietokantasovelluksen, johon sisältyy Z39.50-palvelin
sekä HTTP-Z39.50 -yhdyskäytävä.
NWI-sovelluksella rakennettiin kansalliset verkkoindeksit (katso esimerkiksi http://nwi.funet.fi), joista voitiin hakea tietoa
skandinaavisista verkkojulkaisuista WWW-selaimia käyttäen. Z39.50:n ansiosta tietokannat on voitu helposti linkata yhteisluetteloksi.
Kansalliset NWI-tietokannat ovat olleet verrattain suosittuja, sillä niiden kate on ollut parempi kuin kansainvälisten indeksien.
Toinen merkittävä tekijä on se, että NWI-järjestelmä on optimoitu käyttäjien, ei mainostajien tarpeisiin - Alta Vistan kaltaisille palveluillehan on
tärkeää että käyttäjä näkee mahdollisimman paljon mainoksia, joista järjestelmän rahoitus tulee. On tosin myönnettävä, että nykyisellään NWI ei
hakuominaisuuksiltaan kykene kilpailemaan esimerkiksi Alta Vistan kanssa, mutta tilanne voi muuttua: NWI:tä kehitetään tiedonhakijoita, ei mainostajia ajatellen.
Combinen kaltaiset haravointiohjelmistot toimivat siten, että niille annetaan joukko WWW-sivuja, joilta aloittaa aineiston keruu.
Ohjelma hakee alkusivut aloitussivuille määriteltyjen URL-tunnusten avulla ja tallentaa kaikki näistä WWW-sivuista löytämänsä URL-linkit. Kun kaikki
aloitussivut on tutkittu ja indeksoitu hakutietokantaan, alkuperäisdokumentit hävitetään, ja ohjelma hakee ne dokumentit, joihin edellisen
keräyskierroksen verkkosivuissa viitattiin. Tämä toistuu, kunnes uusia dokumentteja ei enää löydy.
Haravointi ja verkkoarkisto
Kansalliskirjaston kannalta hakupalvelun tarjoaminen kotimaisiin verkkojulkaisuihin on kansallisbibliografiatyön täydennystä.
Vielä oleellisempaa olisi kuitenkin verkkoaineiston tallentaminen, jotta tulevaisuudessa voitaisiin katsoa mitä tämän päivän verkko oikein sisälsi.
Koska haravointiohjelmisto noutaa verkosta kaiken, lienee helppoa muokata ohjelmaa niin, että se tallentaa dokumentit eikä
hävitä niitä? Tämän yksinkertaisen oivalluksen pohjalta Ruotsin kansalliskirjasto käynnisti muutamia vuosia sitten Kulturarw3-projektin, jossa
ruotsalainen verkkoaineisto on koottu jo kuuteen kertaan. Datan pysyväksi kodiksi on Wallenbergin säätiön miljoonalahjoituksen turvin hankittu tehokas
UNIX-palvelin, jossa on pari teratavua levytilaa. Asiakaskäyttöön järjestelmää ei ole vielä avattu, koska Ruotsin nykyinen vapaakappalelaki ei anna
tähän mahdollisuutta. Uudessa lakiehdotuksessa haravointi on otettu huomioon pitkälti samoin periaattein kuin Suomessa suunnitellaan tehtävän.
Koska World Wide Webissä kaikki dokumentit on periaatteessa linkattu toisiinsa, rajallisella aloitussivujen määrällä voidaan päästä
vaikuttaviin tuloksiin. Esimerkiksi Ruotsin kansalliskirjasto on kerännyt talteen aineiston 54.000 ruotsalaiselta WWW-palvelimelta.
Moni näistä aineistoista, saati sitten niiden sisältämistä dokumenteista, on jo ehtinyt kadota muualta kuin Kungliga Biblioteketin tietokoneelta.
Henkilötyötä verkkoaineiston keruuseen on Ruotsissa tarvittu kahden atk-suunnittelijan verran. He ovat lähinnä kehittäneet ohjelmistoa.
Toki keruukin vaatii työtä: käytäntö on osoittanut, että aloitussivuja pitää määritellä suhteellisen paljon, jotta keruutulos olisi kattava.
Pohjoismaiden kansallisissa
palveluissa voidaan päästä noin 70 % kattavuustasoon, mikä ylittää reilusti kansainvälisten indeksien arviolta 15 % katteen.
Kotimaisen palvelun katetta voi kokeilla käytännössä tekemällä hakuja Alta Vistan kansainvälisestä kannasta sekä
MTV:n ylläpitämästä kotimaisesta indeksistä (http://altavista.mtv3.fi/) ja vertailemalla lopputulosta.
Jos vertailussa soveltaa NWI:tä, kannattaa muistaa että se
indeksoi dokumentista pienemmän osan kuin Alta Vista, ja siksi tulosjoukot ovat pienempiä - mutta niiden tarkkuus on parempi.
Kulturarw3-projekti sovelsi NWI-hankkeessa kehitettyä haravointiohjelmistoa. Sen etu oli modulaarisuus - Combine-ohjelmistoon oli helppo
lisätä arkistointiosa. Käytännön toiminnassa havaittiin kuitenkin, että Combinea pitää muokata perusteellisesti, jotta se soveltuisi hyvin arkistointiin.
Tämän työn otti tehdäkseen EU:n NEDLIB-hanke. Linkki NEDLIBin ja NWI:n välillä on Helsingin yliopiston kirjasto, joka vastaa NEDLIBissä verkkojulkaisujen
keruuseen käytettävien ohjelmien kehittämisestä, ja koordinoi pohjoismaisten kansalliskirjastojen yhteistyötä verkkojulkaisujen haravoinnissa ja tallennuksessa.
NEDLIB-projektissa on kehitetty toiminnalliset määritykset verkkojulkaisujen haravointi- ja arkistointiohjelmistolle. Tämä työ tehtiin
CSC-Tieteellinen laskenta oy:n ja kansalliskirjaston yhteistyönä. Tätä kirjoitettaessa on käynnissä ohjelmointi, josta vastaa CSC; se valmistunee vuoden
2000 tammikuussa. Tämän jälkeen muut NEDLIB-partnerit sekä pohjoismaiset kansalliskirjastot evaluoivat ja testaavat sovelluksen.
Kuten Kulturarw3-sovellus, myös NEDLIB-harava perustuu Combine-ohjelmaan. Vanha Combine-parka on kuitenkin kirjoitettu varsin
perusteellisesti uusiksi. Uusi ohjelma on kirjoitettu C:llä, kun vanha ohjelma käytti Perliä. Lisäksi uusi ohjelmistoversio perustuu eri tietokantasovellukseen.
Muutosten edut näkyvät esimerkiksi siinä, että uusittu Combine on joidenkin toimintojen osalta 10 kertaa vanhaa nopeampi. Tämä merkitsee muun muassa säästöjä
laitteistohankinnoissa.
Keruun aakkoset
Kansalliskirjastokäytössä haravan annetaan koota mahdollisimman kattavasti jossakin maassa julkistettu verkkoaineisto.
Yksinkertaisimmillaan haravan annetaan koota kaikki aineisto omasta maa-domainista, esimerkiksi Suomessa *.*.fi:stä ja Ruotsissa *.*.se:stä.
Tästä voidaan varsin helposti jatkaa kokoamalla Internet-nimipalvelujen ylläpitäjiltä tiedot niistä *.*.com, *.*.org, *.*.net jne. palvelimista,
jotka sijaitsevat omassa maassa. Esimerkiksi Ruotsissa kootusta aineistosta vain noin 60 % on *.*.se-domainista.
Keruuohjelmistoa voidaan tietenkin soveltaa paljon rajatummin (miksei myös laajemmin) kuin kansallisella tasolla. Esimerkiksi
yliopisto voisi käyttää haravaa omilla WWW-palvelimillaan olevien dokumenttien keruuseen ja tallennukseen yhteiselle arkistopalvelimelle.
Dokumenttien keruuta voidaan haluttaessa tehostaa normaalikäytännöstä. Combine voidaan esimerkiksi opettaa
olemaan välittämättä robots.txt-tiedostossa olevasta kiellosta kerätä dokumentteja WWW-palvelimelta tai jostakin sen hakemistosta. Jos jokin palvelin/hakemisto
on suojattu käyttäjätunnuksella ja salasanalla, ne voidaan määritellä keruuohjelmaan. Tämä edellyttää sopimuksta
palvelimen ylläpitäjän kanssa.
Koska valtaosa Suomenkin Web-dokumenteista sijaitsee muutamilla todella suurilla palvelimilla - esimerkiksi
Teknillisen korkeakoulun
palvelimella oli jo vuoden 1998 lopulla yli 100.000 dokumenttia - Combine on rakennettu siten, että se ei aiheuta WWW-palvelimille kohtuutonta
kuormaa yrittämällä poimia yhdestä palvelimesta satoja dokumentteja kerralla. WWW-indeksien haravointiohjelmistot aiheuttavat merkittävän osan
jokaisen WWW-palvelimen kokonaiskuormasta, ja siksi kansalliskirjastojen käyttämä ohjelma on rakennettava hyväkäytöksiseksi. Muutama harava ei valitettavasti hallitse
käyttäytymissääntöjä, mikä aiheuttaa epäluuloja kaikkia haravaohjelmia kohtaan.
Lopputuloksen kannalta merkittävää on myös se, miten haravointi ajoitetaan. Ruotsissa on kerätty kaikki aineisto tietyin väliajoin;
näin saadaan "snapshot" verkon sisällöstä jonakin ajankohtana. Tämän menettelyn ongelma on se, että usein muuttuva aineisto, esimerkiksi verkkosanomalehdet,
ei tule mukaan. Lisäksi arkistoon tulee paljon dupletteja, koska kaikki aineisto kerätään joka kerta uudelleen.
Uutta Combinea käytettäessä poimintaa voidaan ohjata sen mukaan, miten usein sivustot muuttuvat. Koska haravointiohjelmisto muistaa milloin jo
haettu sivu on viimeksi muuttunut, sovellus oppii haluttaessa keräämään dynaamisemmat osoitteet usein, ja jättämään staattiset sivut rauhaan. Tämä optimointi
lisää ihmistyön tarvetta jonkin verran, mutta toisaalta lopputulos on oleellisesti kattavampi kuin mihin määräaikaispoiminnoin päästään.
Jatkuva haravointi on siinä mielessä houkutteleva vaihtoehto, että samalla keruuprosessilla voidaan rakentaa sekä päivittyvä verkkoindeksi, joka
sisältää vain verkossa haravointihetkellä olleen aineiston, että kumuloituva verkkoarkisto, johon sisältyy myös aineisto joka on kadonnut. Eroa voisi luonnehtia siten
että kun indeksi on ikään kuin kirjakaupan myyntiluettelo, arkisto vastaa kansalliskokoelmaa, johon pyritään kokoamaan periaatteessa kaikki julkaistu aineisto.
Haravoidun aineiston tallennus
Miten verkkoarkisto sitten käsittelee haravointiohjelmiston keräämät miljoonat, ellei kymmenet miljoonat dokumentit? Kuvaan seuraavaksi
joitakin yleisperiaatteita.
Tallennuksen yhteydessä tallennetaan aikaleima, jolla on kaksoisrooli. Tiedonhaun kannalta aikaleima mahdollistaa "vertikaalisen selauksen",
asiakas voit tutkia saman - tai samassa verkko-osoitteessa olleen - dokumentin eri aikoina voimassa olleita versioita. Keruun kannalta aikaleiman merkitys
on siinä,
että muuttumatonta dokumenttia ei tarvitse noutaa uudestaan. Haravointiohjelman tarvitsee vain selvittää HTTP-protokollan avulla milloin dokumenttia on viimeksi
muutettu, ja jos dokumentti on haravoitu tämän päivämäärän jälkeen, uusinta ei ole tarpeen.
Jokaiselle dokumentille lasketaan MD5-tarkistussumma. MD5 on Internet-standardi (RFC1321), jonka ominaisuuksiin kuuluu se että kaksi erilaista
dokumenttia ei (periaatteessa) koskaan voi saada samaa MD5-tarkistussummaa. Niinpä tarkistussumma voi toimia myös ID-tunnuksena tallennettaville dokumenteille,
ellei niissä jo ole muuta identifikaatiotunnusta.
Tarkistussummalla ja aikaleimalla voidaan hoitaa myös tallennetun aineiston autentisointi. Laskemalla tarkistussumma uudelleen voidaan osoittaa
ettei dokumenttia ole muokattu säilytyksen aikana. Tämä tosin pätee vain jos dokumenttia ei ole konvertoitu uuteen muotoon pitkäaikaissäilytyksen takaamiseksi.
Aikaleimat taas osoittavat sen periodin jolloin dokumentti on ollut käsillä olevassa muodossa.
Kun kasvava osa tieteellisestä dokumentaatiosta siirtyy verkkoon, on tärkeää että kansalliskirjaston verkkoarkistoa
voidaan käyttää referenssinä
silloin, kun halutaan esimerkiksi selvittää, koska jokin tietty tieteellinen löydös on esitetty verkossa, ja missä muodossa julkistus on tarkkaan ottaen
tehty.
Jos löydös on julkaistu vain elektronisesti, tämäntyyppinen referenssipalvelu on suorastaan välttämätön.
Toki esimerkiksi yliopistot voivat ylläpitää omia elektronisen
aineiston pitkäaikaissäilytysjärjestelmiä, mutta yhteistyöllä saavutettaneen parhaat tulokset.
Tavallisin verkkoaineiston arkistointia vastaan esitetty argumentti on se, että aineistoa on liian paljon jotta se
voitaisiin kerätä ja asettaa
haettavaksi. Ruotsin ja Suomen kokemukset osoittavat tämän käsityksen vääräksi.
Edellä on jo kerrottu, että Ruotsissa verkkojulkaisut on kerätty kuusi kertaa. Suomessa harava on heilunut vasta kerran: CSC keräsi ja tallensi
kaikki suomalaiset verkkojulkaisut syksyllä 1998. Datan kokonaismäärä oli yllättävästi vain 60 gigatavua, mikä on selvästi vähemmän kuin esimerkiksi Linnea-tietokannoissa
olevan bibliografisen datan määrä. Vertailun vuoksi, pelkästään sanomalehtiartikkeleiden tekstit vievät noin 250 gigatavua vuosittain.
CSC:n on tarkoitus tehdä uusi haravointikierros vielä vuoden 1999 aikana; on odotettavissa että nyt dataa kertyy jo yli 100 gigatavua.
Kaikeksi onneksi levytila halpenee jatkuvasti noin 40 % vuodessa. Tämä tarkoittaa sitä että vaikka verkko kasvaa nopeasti, tiedon tallentamisen kustannukset laskevat jatkuvasti.
Jotkut arvostelijat ovat sitä mieltä että verkkoaineiston pitkäaikaissäilytys on mahdotonta. Nämä kriitikot unohtavat sen, että WWW-aineisto on
säilytyksen kannalta yksinkertaista: CSC:n vuonna 1998 keräämästä Suomen aineistosta noin 97 % oli HTML-, JPEG- tai GIF-dokumentteja, joiden säilyvyys on hyvä.
Vain hieman kärjistäen voisi sanoa, että tuleville sukupolville on helpompi tallentaa miljoona Web-dokumenttia kuin 100 CD ROM -levyä. Jälkimmäisten arkistointi
kun on mahdollista vain jos pystymme jäljittelemään alkuperäistä käyttöympäristöä tulevaisuuden laitteilla ja käyttöjärjestelmissä.
Suomalaisen HTML-dokumentin keskimääräinen koko on noin 5 kilotavua, joten dokumentit ovat pieniä, mutta niitä on paljon. Jotta kaikki
materiaali voitaisiin tallentaa yhdelle palvelimelle, kootaan kaikki yhden päivän aikana haravoidut dokumentit paketiksi, joka ainakin toistaiseksi pakataan
tilan säästämiseksi ja tallennetaan CSC:n arkistorobotin avulla nauhalle.
Kun arkiston käyttäjä haluaa dokumentin arkistosta, hän tekee haun esimerkiksi URL-tunnuksella tai seuraa arkistosta
saadussa dokumentissa
olevaa linkkiä. Arkisto-ohjelmisto selvittää mistä päiväpaketeista dokumentin osat löytyvät, avaa tarvittavat pakkaukset ja toimittaa dokumentin HTTP-palvelimen
avulla asiakkaalle.
Järjestelmän vasteaikoja on testattu alustavasti; CSC:n nykyisellä arkistorobotilla yhden dokumentin hakuun meni keskimäärin noin 30 sekuntia.
Levytilan halventuessa aineisto voidaan siirtää nauhalta levylle Ruotsin tapaan; tällöin vasteaika paranee tietenkin oleellisesti.
Last resort -tyyppiselle palvelulle puoli minuuttia on siedettävä hakuaika. Arkistoa tarvitaan vain jos dokumenttia ei enää löydy verkosta,
ja jos vaihtoehtoina ovat se, että dokumentti löytyy puolessa minuutissa ja se, ettei dokumenttia löydy lainkaan, pieni viive palvelussa lienee helppo hyväksyä.
Ongelmallisempaa verkkoarkiston käyttäjille voi olla se, että vain aineiston viitetiedot ovat näillä näkymin vapaasti käytettävissä. Pääsy itse
dokumentteihin on toki maksutonta, mutta ilmeisesti sallittavissa vain vapaakappalekirjastoissa olevista, elektronisen vapaakappaleaineiston käyttämiseen varatuista
työasemakoneista. Se että verkkodokumentit ovat tämän artikkelin tapaan vapaasti käytettävissä, ei merkitse että ne eivät silti olisi tekijänoikeuksien suojaamia
esimerkiksi sanomalehtiartikkeleiden tapaan. Siksi kansalliskirjaston oikeudet tämän aineiston tarjoamiseen on määriteltävä uudessa vapaakappalelaissa erikseen.
Tavoitteena on edellä mainittu, tekijöiden ja käyttäjien oikeudet kohtuullisen hyvin turvaava ratkaisu.
Jos dokumentissa on niin sanottuja inline-kuvia, ne kerätään aina arkistoon ja tallennetaan samaan pakettiin alkuperäisen dokumentin kanssa.
Arkistoon voi siis päätyä myös ulkomaista materiaalia, jos suomalainen dokumentti ei ole ymmärrettävissä ilman sitä. Toisaalta osa kotimaisesta aineistosta
voi olla alun perin luvattomasti verkkoon siirrettyä. Jos ongelmia ilmenee, kansalliskirjastolla tulee olemaan mahdollisuus poistaa verkkoarkistosta sinne
tallentunut, pahennusta herättävä dokumentti.
Dokumenttien indeksointi
Arkistopalvelimelle tallennetuista verkkodokumenteista rakennetaan tietokanta, jonka kautta aineisto on kirjaston henkilökunnan ja asiakkaiden
haettavissa. Vähimmilläänkin - siis jos itse dokumenttia ei voida indeksoida - hakutermeinä voi käyttää URL-osoitetta, poiminnan aikaleimaa sekä dokumentista
laskettua tarkistussummaa. Indeksoinnin kannalta hankalia tapauksia ovat esimerkiksi ohjelmat sekä sellaiset kuvadokumentit, joiden nimiötä - eli siis siellä
olevaa tekstimuotoista kuvailutietoa - ei pystytä lukemaan.
Tekstidokumentit tarjoavat ainakin periaatteessa paljon enemmänkin hakumahdollisuuksia. Rakenteisista teksteistä kuten HTML- ja XML-dokumenteista
voidaan indeksoida erikseen määriteltävät osat, kuten otsikot ja vaikkapa lihavoidut sanat. Alkuvaiheessa verkkoarkiston tarjoamat hakupalvelut ovat kuitenkin varsin rajoitetut.
Tilanne voi kuitenkin parantua nopeastikin.
CSC kehittää FinELibin tuella verkkoaineiston indeksointiin ohjelmistopakettia, jossa sovelletaan muun muassa
Lingsoftin
kieliteknologiatuotteita. Nämä ohjelmat valmistunevat vuoden 2000 kesällä, ja niitä tullaan hyödyntämään ennen kaikkea NWI-palveluissa, mutta niitä voi soveltaa
myös verkkoarkistossa.
Dokumenttien sisältämästä Dublin Core - ja muusta metadatasta on suunnitteilla rakentaa erillinen metadatatietokanta. Tämä tietokanta sallii
tehokkaan haun siitä aineistosta, jonka tekijät, kustantajat tai välittäjät kuten kirjakaupat tai kirjastot ovat kuvailleet.
Tulevaisuus
Lähitulevaisuudessa on tärkeää organisoida suomalaisen verkkoindeksin ja -arkiston ylläpito pysyvälle pohjalle, ja käynnistää kansainvälinen
kansalliskirjastojen välinen yhteistyö ohjelmiston käyttäjien kesken.
CSC - Tieteellinen laskenta oy:n rooli on Suomessa ollut merkittävä sekä Suomen NWI-tietokannan ylläpitäjänä että NWI-sovelluksen ja
verkkoarkistoinnin kehittäjänä. Koska CSC on kehitysorganisaatio, ylläpitotehtävät sopivat sille kuitenkin huonosti. Siksi kansalliskirjasto pyrkii ottamaan
ylläpitovastuun suomalaisen NWI-verkkoindeksin sekä verkkoarkiston ylläpidosta jo vuoden 2000 aikana. Keskustelut CSC:n kanssa asian tiimoilta on jo käynnistetty.
Muodollinen vastuu verkkoaineiston tallentamisesta ja säilyttämisestä - ja mahdollisuus tarjota järjestelmä yleisökäyttöön - saadaan vasta
uuden vapaakappalelainsäädännön astuttua voimaan, mutta aineiston keruutyötä on tehtävä jo nyt, jotta verkossa nyt oleva aineisto ei tuhoutuisi. CSC:ssä jo
olevan aineiston säilyminen on myös turvattava. Työn hedelmät saadaan kansalaisten käyttöön toivottavasti vuonna 2001.
Verkkojulkaisujen arkistointi alkoi Ruotsin kansalliskirjaston hankkeena muutamia vuosia sitten. Helsingin yliopiston kirjastossa KB:n aloite
pantiin heti merkille ja totesimme että vastaava toiminta on käynnistettävä Suomessa, mikä CSC:n tuella onnistuikin osana EVA-projektia. Myöhemmin Helsingin
yliopiston kirjasto sai arkistoinnin mukaan EU:n NEDLIB-hankkeeseen, siitä huolimatta että muut NEDLIB-partnerit eivät olleet asiasta mitenkään erityisen
kiinnostuneita projektin suunnitteluvaiheessa vuonna 1997. Asiat ovat muuttuneet nopeasti: tätä kirjoitettaessa jokainen NEDLIBissä mukana oleva kansalliskirjasto
haluaa kokeilla arkistointisovellusta, ja Ranskan kansalliskirjastoon on jo palkattu arkistointia hoitava henkilö. Myös kaikilla pohjoismaisilla kansalliskirjastoilla
sekä esimerkiksi Virolla on aikomus ryhtyä verkkoaineiston arkistointiin. Tämä kertoo tietenkin ennen muuta siitä, miten nopeasti WWW:n merkitys julkaisukanavana on kasvanut.
Vaikuttaa vahvasti siltä, että kansalliskirjastot tulevat tekemään verkkojulkaisujen arkistoinnissa tiivistä yhteistyötä toistensa kanssa.
Tehtävään kehitetyt ohjelmat ovat osin uniikkeja; mitään vastaavaa ei voi ostaa. Yhdessä voimme huolehtia siitä, että sovelluksien tuki ja jatkokehitys on tehokasta.
Pohjoismaisten kansalliskirjastojen johtajat ovatkin jo päättäneet palkata yhteisen henkilön verkkoarkistosovelluksen ylläpitoon ja kehittämiseen.
Kansainvälisen yhteistyön ohella verkkoaineiston haravointi ja tallennus voi poikia myös hedelmällistä kansallista yhteistoimintaa.
Haravointisovellus kun kerää kaiken verkkoaineiston, siis asiakirjat siinä kuin julkaisutkin. Kansalliskirjasto on pitänyt kansallisarkistoa ajan tasalla
hankkeen edistymisestä.
Juha Hakala, kehittämisjohtaja
Helsingin yliopiston kirjasto
email: Juha.Hakala@helsinki.fi
Tietolinja 3/1999