Taustaa
Vuonna 1997,
kun NEDLIB-hanketta suunniteltiin, elektronisten julkaisujen pitkäaikaissäilytys
oli pitkälti teoriaa. Raporteissa valitettiin, että vaikka ongelman vakavuus
tiedostetaan, mitään ei käytännössä ole kuitenkaan tehty.
NEDLIB oli
omalla alallaan yksi ensimmäisistä käytännönläheisistä hankkeista. Edeltäjien
puutteen vuoksi varsin pienellä panostuksellakin saatiin näyttävää jälkeä
aikaan. Helmikuussa 2001 tiedetään oleellisesti enemmän kuin kolme vuotta
sitten esimerkiksi pitkäaikaissäilytyksen metadatasta ja elektronisen
aineiston pitkäaikaissäilytyksestä emuloinnin avulla., osin NEDLIBin
ansiosta.
Projekti tutki
seuraavia aihealueita:
- digitaalisen
arkiston toiminnalliset vaatimukset
- elektronisten
julkaisujen käsittelymenetelmien kehittäminen
- digitaalisen
arkiston rakenteelliset perusratkaisut sekä tekniset standardit joita
toiminta edellyttää
- elektronisten
julkaisujen pitkäaikaissäilytys
Tehtäväkenttä
oli siis hyvin laaja, eikä kaikkiin asioihin voitu paneutua kovin tarkasti.
Joistakin tavoitteista oli matkan varrella pakko luopua. Alun perin oli
tarkoitus selvittää myös arkistoidun aineiston käyttöä ja suojauksia,
mutta tällä alueella ei valitettavasti saatu kovin paljon aikaan.
NEDLIB tuotti
seuraavia tuloksia:
- digitaalisen
arkiston yleisen toimintamallin kehittäminen
- suositukset
digitaalisen aineiston arkistointiin soveltuvista menetelmistä ja
standardeista
- elektronisten
arkistojen tarvitsemien sovellusten kehittäminen, sekä
- demonstraatiojärjestelmä
jossa näitä sovelluksia kokeillaan käytännössä
Digitaalisen arkiston yleinen
toimintamalli
NEDLIB-hankkeen
käynnistyessä tiedossamme ei ollut yleistä mallia sille, mitä toimintoja
digitaalisessa arkistossa pitäisi olla, ja miten ne liittyvät toisiinsa.
Varsin pian totesimme, että ISO on kehittämässä arkistointistandardia. Sen
primääri sovellusalue (satelliittikuvien tallentaminen) ei liittynyt
elektroniseen julkaisemiseen kovin läheisesti, mutta
Consultative Committee for Space Data Systems’in kehittämä Reference
Model for Open Archival Information System (http://www.ccsds.org/documents/pdf/CCSDS-650.0-R-1.pdf)
osoittautui niin yleineksi, että NEDLIB saattoi soveltaa samoja periaatteita.
OAIS-mallista
on sen julkaisemisen jälkeen parissa vuodessa tullut perusta, jonka varaan muut
saman alan hankkeet rakentavat oman työnsä. Esimerkiksi pitkäaikaissäilytyksessä
tarvittavat kuvailutiedot sidotaan yleensä OAIS-mallissa määriteltyihin
toimintoihin.
OAIS-mallista
ja sen soveltamisesta NEDLIBissä kerrotaan enemmän Jani Stenvallin
artikkelissa tässä samassa lehdessä. Jani kuvaa myös NEDLIBin työtä pitkäaikaissäilytyksen
kuvailutietojen kehittämiseksi (asiaa koskeva NEDLIB-raportti on luettavissa
osoitteessa http://www.kb.nl/coop/nedlib/results/D4.2/D4.2.htm).
NEDLIBin
suunnitteluvaiheessa pitkäaikaissäilytyksen metadata oli vielä lapsenkengissä,
mutta nyt, vain neljä vuotta myöhemmin, säilytykseen tarvittavista
kuvailutiedoista on kohtuullinen yhteisymmärrys. Seuraavaksi on hoidettava pitkäaikaissäilytyksen
metadatan edellyttämien kenttien ja koodien määrittely MARC-formaattiin sekä
tarvittavien ominaisuuksien lisääminen kirjastojärjestelmiin. Lisäksi
luetteloijat on koulutettava niin, että he pystyvät keräämään tarvittavat
tiedot elektronisista aineistoista. Tämä työ on HYK:ssa aloitettu jo vuonna
2000.
Arkistointia koskevat
suositukset
NEDLIB-projekti
on julkaissut kaksi teknistä raporttia oman toimialansa standardeista.
Standards for Electronic Publishing: an overview (http://www.kb.nl/coop/nedlib/results/e-publishingstandards.pdf)
on hyvä johdatus kaupallisten kustantajien ratkaisuihin. Tekstin kirjoittaja,
tunnettu elektronisen julkaisemisen asiantuntija Mark Bide toteaa, että
kustantajat soveltavat standardeja vain kun se on kaupallisesti perusteltua.
Verkkokaupan realiteettien vuoksi (tuotetta ei voi myydä Internetissä ilman
riittäviä kuvailutietoja) metadatan merkitys on nopeasti kasvamassa.
Kustantajat
eivät perinteisesti olleet kiinnostuneita julkaisujen säilyttämisestä sen jälkeen
kun tuote ei enää myy. Siksi on luonnollista, että he ovat halunneet
liittoutua muun muassa kansalliskirjastojen kanssa aineiston säilytyksen
varmistamiseksi ja vähentääkseen tallennuksen kustannuksia. Mutta aineiston välitys
verkossa luo täysin uusia toimintamalleja, jotka pidentävät ainakin
artikkeliaineiston kaupallista käyttöikää.
Esimerkiksi
Elsevier aikoo digitoida kaiken vanhan artikkeliaineistonsa. Tätä materiaalia
ei enää myydä perinteiseen tapaan lehti ja vuosikerta kerrallaan, vain yhtenä
kokonaisuutena, jossa vanhin aineisto on myyjälle ja ostajalle ainakin
periaatteessa yhtä arvokasta kuin uusinkin. Ja jos kustantaja investoi paljon
rahaa siihen, että kaikki materiaali on digitaalisena käytettävissä, eikö
silloin myös digitoidun aineiston säilyttäminen ole oleellisen tärkeää?
Toki arkistointi voidaan edelleen ulkoistaa, mutta toiminnan strateginen
merkitys kasvaa oleellisesti.
Standards for the Implementation of a Deposit System for
Electronic Publications (DSEP) –raportti (http://www.kb.nl/coop/nedlib/results/dsepstandards.pdf)
teetettiin IBM:n asiantuntijavoimin, ja on varsin tekninen. Raportti
nojautuu kuten NEDLIB-projekti yleensäkin OAIS-malliin; se määrittelee
standardeja joita tulisi soveltaa OAIS-mallin mukaisissa päätoiminnoissa eli
aineiston siirrossa arkistoon (Ingest), varastoinnissa (Archival storage),
tietojen hallinnassa (Data management) sekä tiedonhaussa (Access). Esimerkiksi
aineiston siirtoon arkistoon voidaan raportin mukaan käyttää esimerkiksi
http-protokollaa, MIME-sähköpostistandardia sekä FTP- ja
TFTP-tiedostonsiirtoprotokollia. Raportti arvioi kunkin menetelmän vahvuuksia
ja heikkouksia yleisesti; raportissa on hyvin vähän sellaista aineistoa joka
on relevanttia vain kirjastoille.
Edellä
mainituista NEDLIB-raporteista on helppo nähdä, että julkaisutoiminta ja
julkaisujen välittäminen on tätä nykyä ja varmasti tulevaisuudessakin
heikosti koordinoitua toimintaa. Tekninen kehitys aiheuttaa jatkuvia muutoksia,
joihin on vain sopeuduttava. Vapaakappaletyön kannalta on merkittävä haaste,
että aineistoa joudutaan vastaanottamaan erilaisin menetelmin ja vaihtelevissa
formaateissa, jotka vielä muuttuvat ajan myötä.
Tekniikan
nopea muutos on haaste myös lainsäätäjälle; Suomen ehdotuksessa uudeksi
vapaakappalelaiksi on pyritty määrittelemään osin NEDLIB-kokemuksien
pohjalta toimintalinja, joka ohjaa vapaakappaleaineiston valintaa ja
luovutusmenettelyä ”sopivasti”. Liian väljä laki johtaisi helposti
siihen, että kirjasto saisi aineistoa jota se ei halua eikä kykene käsittelemään,
ja vastaavasti liian spesifi laki vanhentuisi nopeasti ja tuottaisi helposti
kohtuuttomia vaikeuksia luovuttajille.
Sovelluskehitys
NEDLIB,
huolimatta kolmen vuoden kestostaan, ei ollut taloudellisilta resursseiltaan
suuri hanke. Siksi ohjelmistojen kehittämiseen voitiin käyttää vain
rajallisesti resursseja. Lähtökohdaksi päätettiinkin ottaa olemassa olevien
sovellusten parantaminen.
-
MMB
Deutsche
Bibliothek rakennutti itselleen 90-luvun loppupuolella MMB Compact -nimisen
sovelluksen, jonka avulla CD ROM –tuotteet ja muut elektroniset vapaakappaleet
voidaan tarjota hallitusti yleisökäyttöön. Ohjelmiston kuvaus on luettavissa
osoitteesta http://www.kb.nl/coop/nedlib/tools/mmb_documentation.pdf.
Sovelluksen kehittäminen maksoi paljon sekä aikaa että rahaa. Tuloksena
saatiin järjestelmä, joka on ollut Deutsche Bibliothekissa tuotantokäytössä
jo muutamia vuosia.
MMB Compact
todettiin toimivaksi ratkaisuksi, ja se päätettiin ottaa NEDLIBin
ohjelmistovalikoimaan mukaan. NEDLIB-hankkeessa sovellusta muutettiin niin, että
sen käyttöliittymä voidaan kääntää eri kielille.
Helsingin
yliopiston kirjasto testaa tätä kirjoitettaessa MMB:tä, tarkoituksena selvittää
sen toimivuus ja soveltuvuus Suomen oloihin. Asiasta julkaistaan raportti
huhtikuussa 2001; alustavat tulokset ovat olleet positiivisia.
NEDLIBin
kannalta MMB:ssä on yksi oleellinen puute: se ei takaa aineiston säilyvyyttä.
Tätä varten tarvitaan lisämoduli, jonka avulla voidaan jäljitellä CD ROM
–levyjen ja muiden ohjelmistotuotteiden edellyttämiä käyttöympäristöjä
uudemmissa koneissa ja käyttöjärjestelmissä. Tällainen moduli voidaan
kehittää myöhemminkin; Deutsche Bibliothek on solminut tammikuussa 2001
sopimuksen MMB Compact –sovelluksen ylläpidosta ja kehityksestä saksalaisen
ProAsset-yrityksen kanssa.
-
NEDLIB-harava
Eräs NEDLIBin
tavoitteista oli sellaisen sovelluksen kehittäminen, jonka avulla
Internet-verkossa julkistettu aineisto voitaisiin kerätä talteen. Vuonna 1997
tämä ajatus oli varsin edistyksellinen, koska Web-julkaisemista pidettiin vähemmän
tärkeänä kuin kaupallista julkaisutoimintaa. Toisaalta monet asiantuntijatkin
olettivat virheellisesti että verkkojulkaisut pitäisi hoitaa perinteisellä
tyylillä, toisin sanoen hankkia kustantajalta ja luetteloida käsin.
NEDLIB-haravan
kehityksessä oli tavoitteena luoda tekniset edellytykset verkkoaineiston
automaattiselle keruulle ja arkistoinnille. Resurssien niukkuuden vuoksi
arkiston hakupalvelun rakentaminen rajautui pois; katsottiin että tämä
voidaan hoitaa myöhemmin. Tämä näkemys oli oikea, pohjoismaiden
kansalliskirjastojen Nordic Web Archive –projekti (http://nwa.nb.no)
rakentaa hakupalvelun NEDLIB-haravalle vuosina 2001-2002.
Koska omaa
ohjelmistokehitystä haluttiin välttää, CSC – Tieteellinen laskenta –
joka vastasi NEDLIB-haravan rakentamisesta – arvioi ensin Lundin yliopiston
kirjaston Netlab-yksikössä kehitetyn Combine-haravan.
Arveltiin että Combine sopisi NEDLIBin tarkoitusperiin hyvin, koska Ruotsin
kansalliskirjasto käytti sitä omassa Kulturarw3-hankkeessaan (http://kulturarw3.kb.se/).
Valitettavasti ohjelmistossa havaittiin vakavia puutteita, joiden vuoksi NEDLIB
päätti kehittää oman haravasovelluksen.
Combine tai
ylipäätään mikä tahansa harava joka on rakennettu indeksointia varten, ei
sovellu sellaisenaan arkistoharavaksi. Indeksointiharavassa ei ole
arkistointimodulia, eikä keruun logiikkaa ole sovitettu arkistointia varten. Tämä
tarkoittaa esimerkiksi sitä, että HTML-sivuihin upotettuja kuvia (in-line
images) ei noudeta heti sen jälkeen kun perusteksti on haravoitu, päinvastoin;
voi olla että kuvat jäävät hakematta kokonaan jos niitä ei pystytä
indeksoimaan. Arkistoharavan taas pitää varmistaa että in-line –materiaali
haetaan niin pian kuin mahdollista, jotta sivut saadaan talteen kokonaisina.
Olemassa olevan sovelluksen toimintalogiikan muuttaminen voi olla vaikeaa, ellei
lähdekoodia ole dokumentoitu poikkeuksellisen hyvin.
Haravasovellusten
tutkiminen paljasti yllättäviäkin puutteita. Esimerkiksi Combine varmisti
tietyissä ongelmatilanteissa virheettömän toimintansa heittämällä
haravointia odottavia URL-osoitteita bittisankoon. Toisaalta Perl-ohjelmointi
tekee mistä tahansa ohjelmasta CPU- ja muistisyöpön; taitavalla
C-koodauksella kapasiteettitarve voidaan vähentää murto-osaan.
NEDLIB-harava
on poimittavissa osoitteesta http://www.csc.fi/sovellus/nedlib/.
Ohjelmistoa kehitetään jatkuvasti käyttäjiltä saatujen kommenttien
perusteella. Toistaiseksi ylläpito on ollut informaalia, mutta CSC ja Helsingin
yliopiston kirjasto varmistavat toiminnan jatkumisen keskinäisellä
sopimuksella. Tavoitteena on, että harava on jatkossakin kaikille käyttäjille
maksuton, mutta tästä huolimatta jonkinlainen käyttäjätuki voidaan taata.
NEDLIB kehitti
välineitä vapaasti käytettävien verkkojulkaisujen ja teknisten tallenteiden
käsittelyyn. Saatuja kokemuksia sovellettiin myös uuden
vapaakappalelakiehdotuksen laadinnassa; NEDLIBin ansiosta tiedämme että
lakiehdotukseen kirjatut periaatteet ovat teknisesti toteutettavissa.
Esimerkiksi MMB:llä tai sen kaltaisella sovelluksella voidaan taata se, että
teknistä tallennetta voidaan luovuttaa vain yksi kappale, joka kuitenkin on käytettävissä
kaikista vapaakappalekirjastoista, kuten uusi laki edellyttää.
Demonstraatiojärjestelmä
NEDLIB-hankkeessa
haluttiin teoreettisen kehitystyön ohella myös kokeilla käytännössä pitkäaikaissäilytystä.
Kokeiltavaksi menetelmäksi valittiin emulointi, jota on valitettavasti testattu
varsin vähän.
Käyttäen
hovihankkijana emulointitekniikan alan parasta asiantuntijaa, Jeff Rothenbergiä,
NEDLIB toteutti yksinkertaisen testin, jossa kokeiltiin Windows-ympäristöön
rakennettujen tuotteiden käyttöä MAC-laitteen ja Windows-emulaattorin avulla.
Hollannin kansalliskirjasto huolehti testauksen käytännön järjestelyistä ja
testattujen tuotteiden valinnasta.
Testin
tulokset ja emulointi tallennustekniikkana on kuvattu Jeff Rothenbergin
kirjoittamassa NEDLIB-raportissa An Experiment in Using Emulation to preserve
Digital Publications (http://www.kb.nl/coop/nedlib/results/emulationpreservationreport.pdf).
Kokemukset olivat hyviä: CD ROM –tuotteet toimivat MAC-koneessa aivan samoin
kuin Windowsissa. Toki romput kaatuilivat silloin tällöin, mutta vain kun
ohjelma kaatui myös Windows-koneessa.
NEDLIBissä
toteutettu testi ei vielä todista emuloinnin käyttökelpoisuutta pitkäaikaissäilytyksen
menetelmänä, mutta tältä pohjalta on hyvä suunnitella uusia testejä,
joissa testattavien tuotteiden määrää lisätään, ja tutkitaan useiden
emulaattoreiden kasaamista päällekkäin. On varmaa, että emulointia tarvitaan
joidenkin tuotteiden säilyttämiseen; esimerkiksi CD ROM –levyjen sisältämiä
ohjelmia ei voida konvertoida uusiin laitteistoympäristöihin soveltuviksi.
Yksi
NEDLIB-hankkeen keskeisistä tuloksista on tietoisuus siitä, että kaikkia säilytysmenetelmiä
– kopiointia, konvertointia ja emulointia – on sovellettava rinnan. Kiistely
eri menetelmien keskinäisestä paremmuudesta on NEDLIBin kokemusten valossa
turhaa; joillekin aineistoille konvertointi on paras vaihtoehto,
mutta monissa tapauksissa emulointi on paras tai jopa ainoa sopiva
menetelmä.
Voimme siis päätellä,
että elektronisen vapaakappaleaineiston pitkäaikaissäilyttäminen edellyttää
ainakin sitä, että kansalliskirjastoilla on oikeus rajaton kopioida
elektronisia resursseja ja niiden käyttämiseen tarvittavia ohjelmistoja
uusille tallennusvälineille, sekä konvertoida aineistoa rajoituksetta uusiin
formaatteihin. EU-parlamentin hyväksymässä uudessa tekijänoikeusdirektiivissä
nämä tarpeet on otettu varsin hyvin huomioon, mikä ei ole sattuma.
Lopuksi
Käytettävissä
olevien resurssien määrään nähden NEDLIB oli erittäin menestyksekäs
hanke. Koska toiminta rakentui monissa kohdin aiemmin toteutettujen hankkeiden
varaan, NEDLIB sai lentävän lähdön. Koska kaikilla hankkeeseen
osallistuneilla kirjastoilla oli käytännön kokemusta, työskentely myös käynnistyi
vaivatta. Suomen kannalta hankkeen ajoitus oli loistava; saimme paljon käyttökelpoista
kokemusta, joka pystyttiin hyödyntämään uuden vapaakappalelain kehittämisessä.
Projektin jälkihoito
on sekin sujunut hyvin. Verkon arkistointiin liittyvää työtä jatketaan
pohjoismaisten kansalliskirjastojen NWA-hankkeessa ja kansallisissa hankkeissa
(Hollanti, Itävalta, Viro). Emuloinnin testausta jatketaan esimerkiksi
Hollannin kansalliskirjastossa. Myös pitkäaikaissäilytyksen metadatan kehittämisessä
NEDLIB-asiantuntijat ovat aktiivisesti mukana
Vaikka NEDLIB
ei saanutkaan seuraajakseen uutta EU-hanketta ainakaan heti, on ilmeistä että
kansalliskirjastojen yhteistyö tällä saralla jatkuu. NEDLIB osoitti monien
muiden asioiden ohella sen, että elektronisten julkaisujen arkistointiin
liittyvät ongelmat ovat kansainvälisiä, ja ratkaisutkin voivat olla pitkälti
samoja. Esimerkiksi NEDLIB-haravaa koskevia kyselyitä on tullut monista
Euroopan maista.
Hollannissa ja
Englannissa kansalliskirjastot ovat jo päättäneet hankkia digitaalisen
kirjastonsa perustaksi IBM:n toimittamat, OAIS-malliin perustuvat ohjelmistot ja
laitteet (British Libraryn hankkeesta lisätietoja osoitteesta http://www.bl.uk/diglib/dlp/dls.html).
Vastaavia hankintoja tehdään lähivuosina varmasti monissa muissakin
teollisuusmaissa.
HYK:n näkökulmasta
Endeavor Information Systems’in ENCompass-ohjelma (http://www.endinfosys.com/prods/encompass.htm)
ja IBM:n digitaalinen kirjasto -sovellus (http://www-4.ibm.com/software/is/dig-lib/)
ovat hyviä ehdokkaita tutkittavien digital library -ohjelmien listalle. Ennen tämäntyyppisen
sovelluksen käyttöönottoa HYK ottaa kuitenkin tuotantokäyttöön joukon
NEDLIB-haravan kaltaisia erikoisohjelmia, joita tarvitaan elektronisen
vapaakappaleaineiston ja muiden elektronisten julkaisujen käsittelyyn useita. Näiden
sovellusten ylläpito ja kehittäminen on mielenkiintoinen haaste, jossa
kirjastojen kansainvälinen yhteistyö toivon mukaan helpottaa yksittäisten
kirjastojen kuormaa.
Juha Hakala, kehittämisjohtaja
Helsingin yliopiston kirjasto
Email: juha.hakala@helsinki.fi
Tietolinja 1/2001