Elektronisten aineistojen säilytys
Elektroniset julkaisut, joita olemme luoneet, tuottaneet,
kopioineet, muokanneet, siirtäneet, myyneet ja jaelleet ovat osa tämän
päivän kulttuurista elämää, joka kuuluu myös jälkipolville
siirrettävään perintöön. Periaatteessa elektroninen aineisto säilyy
ikuisesti, koska se on helppo uusia - kopio on identtinen alkuperäisen kanssa.
Käytännössä tilanne on kuitenkin hankalampi, johtuen esimerkiksi
laitteistojen, ohjelmistojen ja tiedostoformaattien kehityksestä. Uudet
tietotekniset ympäristöt hautaavat alleen edellisen sukupolven ympäristöt ja
niistä riippuvaiset julkaisut. Bittimuodossa tallennetun aineiston
alkuperäinen käyttöympäristö katoaa ja samalla ehkä myös aineiston
käytön edellytykset.
Suurin ongelma on siis ennen kaikkea tietotekniikan alueella
tapahtuva jatkuva muutos ja kehittyminen. Kilpailu on kovaa ja uusia tuotteita
työnnetään jatkuvasti markkinoille. Käytössä olevat sovellusohjelmat ja
laitteistot voivat vanhentua nopeasti. Muutama vuosi sitten käytössä olleilla
laitteilla ja ohjelmistoilla tehdyt dokumentit eivät välttämättä ole enää
luettavissa tämän päivän laitteisto- ja ohjelmistoympäristöissä. Yleinen
sanonta onkin, että elektroninen informaatio säilyy ikuisesti - tai viisi
vuotta, riippuen siitä kumpi tulee ensimmäiseksi. Sen sijaan painettu kirja on
staattinen, selkeästi rajattu kohde ja sen käyttämisessä tarvittava
"laitteisto", ihmisnäköön pohjautuva lukeminen, tuskin vanhentuu
käyttökelvottomaksi.
Myös tietovälineisiin liittyvät ongelmat vaikeuttavat
säilytystä. Informaation tallennuksessa käytettävät tietovälineet eivät
ole fyysisesti riittävän kestäviä – levykkeen tiedot katoavat muutamassa
vuodessa, ja CD ROM –levykin kestää vain muutamia vuosikymmeniä. Toisaalta
ajan myötä kaikki tietovälineet vanhentuvat uusien välineiden vallatessa
markkinat. Vaikka uusi arkistointikelpoinen ja vuosisatoja kestävä
tietoväline kehitettäisiin, se todennäköisesti vanhentuisi sen vuoksi, että
uudemmat tietovälineet ovat tallennuskapasiteetiltaan ja nopeudeltaan parempia,
helppokäyttöisempiä ja halvempia. Esimerkiksi lerput (5,25" levyke) ovat
hävinneet lähes täysin käytöstä ja nykyiset korputkin (3,5") ovat
matalan tallennuskapasiteettinsa vuoksi katoamassa työpöydiltämme. Vaikka
lerppu sinänsä olisi edelleen lukukelpoinen, on vaikeaa löytää lerppuasemaa
jossa levykkeellä oleva data voitaisiin lukea.
Elektronisen julkaisemisen monimuotoisuudesta johtuva suuri
tiedostoformaattien määrä ei helpota säilytyksen toteuttamista. Jos
digitaalisessa arkistossa on kuva- ja tekstitiedostoja kymmenissä eri
formaateissa, kokoelman hallinta ja käyttö on vaikeaa.
Vaikka ongelmakenttä on laaja ja vaikea, ei elektronisten julkaisujen
pitkäaikaissäilytyksestä kannata maalata liian suurta pirua seinälle.
Kansainvälisesti tätä ongelmavyyhteä on lähestytty erilaisten projektien
kautta. Brittien Cedars, EU:n Nedlib ovat ehkä tunnetuimpia ja joiden pohjalta
on saatu ideoita laajempiin jatkotutkimuksiin. Cedars-projektiin voi tutustua
osoitteessa http://www.leeds.ac.uk/cedars/
ja Nedlibin tuloksista saa lisätietoa osoitteesta http://www.kb.nl/coop/nedlib/.
Elektronisten aineistojen säilytykseen on esitetty erilaisia menetelmiä,
mm. kopiointi, konversio ja emulointi. Kopioinnilla voidaan välttää
tietovälineen (esim. CD-ROM-levyn) rappeutumisen aiheuttama tiedon katoaminen.
Konvertoinnin avulla aineisto voidaan siirtää tai muuntaa sellaiseen muotoon,
että ohjelmistoympäristön vanhenemisesta huolimatta aineistoa voidaan
käyttää nykyisessä tietoteknisessä ympäristössä. Emuloinnin avulla
käytöstä poistunutta laitteistoa voidaan imitoida uudessa ympäristössä,
jolloin vanhalle laitteistolle tehdyt dokumentit ja julkaisut ovat myös
käytettävissä uudessa laitteisto- ja ohjelmistoympäristössä. Juha Hakalan
artikkeli tässä Tietolinjan numerossa esittelee tarkemmin näitä
elektronisten aineistojen säilytyksen jollain tavalla ratkaisevia menetelmiä.
Riippumatta siitä mitä menetelmää pitkäaikaissäilytyksessä
käytännössä toteutetaan ongelmaksi muodostuu julkaisujen ja toimintojen
hallitseminen. Tähän ongelmaan voidaan ratkaisua hakea metadatan puolelta.
Metadata osana ratkaisua?
Metadata-termistä on tullut tietyssä mielessä hyvinkin muodikas sana.
Sitä käytetään monissa eri yhteyksissä ja usein hieman
epämääräisestikin. Metadata on termi, jonka käyttö on liitetty vahvasti
tietoverkkoihin, elektronisiin julkaisuihin ja niiden kuvailutietoihin.
Yleisesti käytetty englanninkielinen määritelmä metadatalle on "data
about data". Suomenkieleen tämä tuottaa hieman ongelmia sillä
yksiselitteistä suomennosta sanalle "data" ei voida antaa. Voimme
kuitenkin määritellä metadatan tiettyä kohdetta (esim. verkkojulkaisua)
kuvailevien tietojen rakenteiseksi kokonaisuudeksi.
Perinteisen aineiston säilytyksessä metadata-tyyppisellä tiedolla on
lähinnä tiedonhakuun liittyviä toimintoja. Nykyisen käsityksen mukaan
metadatalla tulee todennäköisesti olemaan tärkeä rooli erilaisissa
elektronisten julkaisujen pitkäaikaissäilytykseen liittyvissä
toimintamalleissa tai strategioissa ja sitä kautta itse julkaisujen
käytössä. Elektronisista julkaisuilla on ominaisuuksia, joiden merkitys on
tärkeä ajatellen niiden käyttöä ja nämä ominaisuudet voidaan
todennäköisesti jollakin tasolla ilmaista metadatan avulla. Elektroniset
aineistot ovat monimuotoisia, mutta perusidea - elektronisuus (tai
digitaalisuus) - on kaikilla sama, jolloin metadatan rooli on pyrkiä
erottelemaan julkaisut toisistaan ja auttaa niiden tulkitsemisessa.
Intuitiivisesti ajatus dokumentoinnista tai metatiedoista on selvästi
välttämätön erilaisten julkaisujen käyttöä ja säilytystä silmällä
pitäen. Metadata ei kuitenkaan ole itsessään mikään ratkaisu. Se toimii
ainoastaan säilytyksen tukena.
Metadatan avulla voimme siis dokumentoida tietoja elektronisista
julkaisuista, mikä auttaa meitä säilyttämään näitä julkaisuja
tulevaisuuden lukijoille. Mitä tämä metadatan hyödyntäminen
säilytysprosessissa sitten merkitsee? Esimerkiksi jos ajatellaan
CD-ROM-arkiston pystyttämistä, niin pitäisi huolehtia siitä , että jokainen
CD-ROM on kuvailtu pitkäaikaissäilytyksen kannalta riittävästi. Tämä
tarkoittaa että rompun tekniset ominaisuudet ovat tiedossa: mihin
käyttöjärjestelmään se on suunniteltu, mitkä ovat sen
laitteistovaatimukset, tarvitaanko kenties äänikortti ja jos tarvitaan niin
millainen. Mitä menetelmää on säilytyksessä hyödynnetty, tarvitaanko jokin
emulaattori-ohjelma, pitääkö se asentaa koneelle, mistä asennustiedosto
löytyy, onko rompun sisällöstä saatu tehtyä kopio jollekin muulle
tietovälineelle esim. palvelimelle jne. Samoin arkiston hallinnan kannalta voi
olla tarpeen kertoa muitakin yksityiskohtia CD-ROM tuotteesta: mitä
säilytystoimenpiteitä on tehty, mistä voimme tietää että rompun sisältö
on säilynyt eheänä, toimivatko kaikki rompun alkuperäiset piirteet vielä
emulointiympäristössä jne. Näiden dokumentoitujen tietojen avulla
elektronisessa arkistossa olevaa aineistoa voidaan paremmin hallita ja niiden
käytön edellytyksiä voidaan pitää silmällä. Esimerkiksi jos tietyissä
julkaisuissa käytetty tiedostoformaatti (esim. MSWordin doc-muoto) on täysin
hävinnyt käytöstä, voimme metadatan avulla löytää kyseistä
tiedostomuotoa olevat julkaisut elektronisesta arkistosta ja pyrkiä muuntamaan
ne uudempaan, käytössä olevaan tiedostoformaattiin.
Kansainvälisesti metadatan käyttöä elektronisten aineistojen
säilytyksessä on jo tutkittu. Usealla eri taholla on pyritty
määrittelemään mitä tietoja elektronisten aineistojen
pitkäaikaissäilytyksessä tarvitaan. Jo mainitut projektit Cedars ja Nedlib
ovat kunnostautuneet myös tällä saralla. Molempien projektien näkökulma
metadataan lähtee erityisen arkistointimallin, OAISin (Open Archival
Information System) kautta. OAIS on yleinen elektronisen arkiston käsitemalli,
joka jakaa tiedon tai informaation erilaisiin rakenneryhmiin. Informaation
säilytyksen kannalta tarvitsee keskittyä mallissa oleviin kahteen
rakenneryhmään: esitysmuotoinformaatioon ja säilytysinformaatioon. Näiden
kahden ryhmän "sisälle" sekä Cedars että Nedlib ovat
määritelleen joukon metadataelementtejä tai kenttiä pitkäaikaissäilytyksen
tarpeisiin.
Esimerkiksi Nedlibin metadataelementit ovat karkealla tasolla seuraavia:
Esitysmuotoinformaatio
- laitteistovaatimukset
- käyttöjärjestelmä
- tulkki ja kääntäjä
- formaatti
- sovellus
Kuvausinformaatioon kuuluvat puolestaan:
- viittaustiedot (reference information, tietoja julkaisun tekijästä,
nimekkeestä, sijainnista tms.)
- muuttumattomuus
- muutoshistoria
Pitkäaikaissäilytyksen ongelmat ovat osin teknisiä ongelmia. Elektroniset
aineistot vaativat aina jonkinlaisen tietoteknisen ympäristön, jossa niitä
käytetään, ja koska ideana on varmistaa julkaisun käytettävyys ja
toiminnallisuus, vaaditaan metadatalta teknisiä tietoja. NEDLIBin
metadatamääritys keskittyykin erityisesti näihin teknisiin ongelmiin
(esitysmuotoinformaatio-osuus). Mukana on myös kuvausinformaation ryhmä, joka
ei ole teknistä metadataa, mutta myös muita piirteitä olisi ehkä syytä
ottaa mukaan pitkäaikaissäilytyksen metadataan. Näitä ovat mm. säilytyksen
toteuttamiseen ja hallinnoimiseen liittyvät tiedot: käyttö- ja
tekijänoikeudet, säilytysmenetelmien tarkempi dokumentointi sekä erilaista
kontekstitietoa. Cedars on omassa metadatamäärityksessään huomioinut myös
näitä piirteitä.
Myös Helsingin yliopiston kirjastossa on laadittu omaan toimintaan,
lähinnä uudistuvaan vapaakappalelakiin soveltuvaa metadataelementtien
ryhmää. Se ei varsinaisesti pohjaudu OAIS-malliin, mutta se on siihen
sovellettavissa. Määritystä voidaan hyvin soveltaa sekä verkkojulkaisujen
että teknisten tallenteiden kuvailussa. Metadatamäärityksen rakentamisessa on
myös otettu huomioon se, että sen on palveltava sekä käyttäjää että
elektronisia julkaisuja ylläpitävän arkiston toimintaa. HYKin
määrityksessä on eroteltu kaksi pääryhmää, jotka vastaavat OAIS-mallin
esitysmuoto- ja kuvausinformaatioryhmiä. Toinen ryhmä keskittyy
säilytettävän kohteen teknisiin tietoihin ja toinen kohteen säilytyksessä
vaadittaviin muihin tietoihin:
Tekninen metadata:
- Fyysinen tietoväline tai yhteyskäytäntö (protokolla)
- Tarvittava laitteisto
- Käyttöjärjestelmä
- Sovellusohjelmat ja lisätiedostot
- Kohteen kuvaus
Säilytyksen metadata:
- Tunnistus
- Alkuperä/autenttisuus
- Säilytysprosessi
- Oikeudet
- Suhteet (muihin julkaisuihin)
- Vastuulliset
- Huomautukset
Periaatteessa kaikki mahdollinen tieto, joka julkaisuun liittyy voi olla
pitkällä aikavälillä hyödyllistä. Käytännössä joudutaan tyytymään
kuitenkin vähäisempiin kuvailuihin, resurssien ja kannattavuuden kannalta
katsoen. Mitä enemmän metadata voidaan luoda automaattisesti, sitä parempi.
Esimerkiksi verkkojulkaisujen säilytyksessä pitäisi pyrkiä siihen että
mitään yksittäisten sivujen/julkaisujen metadataa ei luoda yksitellen
manuaalisesti. Tavoitteena on käsitellä dokumenttiryppäitä tai tyytyä
verkkosivuista automaattisesti saatavaan tietoon.
Määrityksen soveltuvuus vapaakappalelain uudistuksen mukaisiin
elektronisiin aineistoihin vaatii lisätestausta. Tarkemmin tämä
metadatamääritys on esitelty EVA-projektin raportissa: Metadata elektronisten
julkaisujen pitkäaikaissäilytyksessä, joka löytyy projektin verkkosivuilta http://www.lib.helsinki.fi/eva/raportit.html.
Yhteistyötä tarvitaan
Metadatamäärityksiä joissa elementtejä on pyritty listaamaan on monia ja
niistä löytyy paljon yhdenmukaisuuksia mutta myös eroja. Tästä syystä RLG
ja OCLC pyrkivät luomaan "yhteisen" kansainväliseen konsensukseen
perustuvan metadataesityksen pitkäaikaissäilytyksen tarpeisiin.
Ensimmäisessä vaiheessa on saatu aikaan selvitys keskeisistä
metadatamäärityksistä, jonka pohjalta työtä on tarkoitus jatkaa. Tämä
White Paper on luettavissa osoitteesta http://www.oclc.org/digitalpreservation/presmeta_wp.pdf.
Suomen vapaakappalelakia ollaan uudistamassa. Tarkoituksena on että laissa
huomioitaisiin myös erilaiset elektroniset aineistot. Näin Helsingin
yliopiston kirjastosta tulisi organisaatio, joka joutuu oikeasti tarttumaan
toimeen ja miettimään miten verkkojulkaisut, sähkökirjat, elektroniset
oppimateriaalit tai CD-ROMit säilytetään jälkipolville. Kirjastojen
perinteestä nousevaa julkaisujen dokumentointia voidaan metadatan muodossa
soveltaa tukemaan elektronisten julkaisujen säilyvyyttä, jossa erilaiset
toimintamallit tai strategiat ovat avainasemassa. Luonnollinen paikka
pitkäaikaissäilytykseen keskittyvälle metadatalle on kirjaston normaalit
MARC-muotoiset tietokannat.
Elektronisten aineistojen pitkäaikaissäilytyksen ongelmiin törmätään
varmasti monilla eri aloilla ei vain Helsingin yliopiston kirjastossa.
Itseasiassa näyttää siltä että organisaatiot kaikilla aloilla(?), joko
tuottavat tai tulevat pian tuottamaan informaatiota elektronisessa muodossa. Eri
alojen yrityksiltä ja organisaatioilta - mm. kustannusyhtiöt, mediayhtiöt,
musiikkiala, yritysten arkistot, kunnat ja valtionhallinto - löytyy aineistoa
elektronisessa muodossa, josta osa tulee säilyttää pitkiäkin aikoja.
Pitkäaikaissäilytyksen yhteistyöverkoston kehittäminen on tärkeää.
Elektronisten julkaisujen säilytykseen liittyvää tietämystä pitäisi
hankkia ja levittää myös muille tahoille. Yliopistoilla, kustantajilla,
muilla tiedontuottajilla ja ohjelmistoyrityksillä on kirjastojen ja arkistojen
lisäksi oma roolinsa kulttuuriperintömme säilyttämisessä. Aihe on vielä
uusi eikä sen yhteydessä ole vakiintunutta suomenkielistä terminologiaa.
Termien ja käsitteiden selventäminen olisi myös erityisen tärkeää, jotta
asioista puhuttaisiin yhtenevällä tavalla, mikä parantaisi yhteistyön
mahdollisuuksia.
Monissa lehdissä ja sanomalehdissä näkee historiallisia katsauksia lehtien
sisältöön vuosikymmenten takaa. Voimme lukea mitä lehdessä kirjoitettiin
(tai näin ainakin uskotellaan) päivälleen 50 vuotta sitten. Mielenkiintoisia
juttuja ovat Tietoviikko-lehden "15 vuotta sitten" -palstan tarinat,
jonka ansiosta todella näkee tietotekniikan kehityksen. Vuonna 1986 Asikaisten
kunnan tietokonestrategia oli melko vaatimaton. Kunnanjohtajan mukaan "jos
meille jotain tulee niin se on pelkkä pääte" (ks. Tietoviikko 25.1.2001
tai Tietoviikko 30.1.1986). Näiden katsausten perusteella lukija voi hyvin
muodostaa käsityksiään menneestä ajasta ja myös yhteiskunnan muutoksista ja
kehityksestä. Nämä palstat ovat mahdollisia siksi että kyseiset lehdet ovat
vielä hengissä, mutta myös siksi että nuo vanhojen lehtien tarinat ja
uutiset on onnistuttu jollain tavalla säilyttämään ja nyt
"uudelleenkäyttämään". Jälkipolville voidaan tarjota
mielenkiintoisia näkökulmia elektroniseen menneisyyteen jos ryhdymme
pitkäaikaissäilytyksen vaatimiin toimiin jo nyt. Kävisivätköhän
tulevaisuuden "lehdessä" otsikot "Internet 100 vuotta
sitten" tai "CD-ROM-julkaisut 200 vuotta sitten"?
Lisätietoa:
Stenvall, J. Metadata elektronisten julkaisujen pitkäaikaissäilytyksessä. http://www.lib.helsinki.fi/eva/sailmeta.pdf
PADI-Forum. Preserving access to Digital Information (Subject Gateway) http://www-prod.nla.gov.au/padi/
Preservation Metadata for Digital Objects: A Review of the State of the Art.
OCLC/RLG White Paper January 31, 2001. http://www.oclc.org/digitalpreservation/presmeta_wp.pdf
Jani Stenvall, projektisihteeri
Helsingin yliopiston kirjasto
Email:
jani.stenvall@helsinki.fi
Tietolinja 1/2001