Sähköisten asiointimahdollisuuksien kasvun myötä myös asiakirjan käsite on laajentunut
kattamaan elektroniset asiakirjat. Asiakirjojen tuotanto ja jakelu internetin välityksellä
alkoi Suomessa 90-luvun puolivälissä. Lähivuosina yhä suurempi osa asiakirjoista tuotetaan pelkästään elektronisessa muodossa.
Usein ne myös tarjotaan kansalaisille luettaviksi suoraan verkon kautta. Asiakirjojen internet-jakelu ei takaa sitä, että aineisto olisi helposti
kansalaisten löydettävissä. AltaVistan kaltaisissa kokoteksti-indekseissä elektroniset
asiakirjat katoavat helposti muun verkkoaineiston joukkoon.
Tehokkain keino parantaa tärkeän aineiston näkyvyyttä on kuvailutietojen eli metadatan lisääminen suoraan asiakirjoihin. Metadata helpottaa
aineiston hakua, paikallistamista, tunnistamista ja säilyttämistä sähköisessä ympäristössä. Kuvailutiedot voidaan tallentaa asiakirjaan jo dokumenttia kirjoitettaessa,
ja sopivilla apuvälineillä (tallennusalusta, metadataa tukeva asiakirjapohja) tallennuksen vaatima lisätyö on hyvin vähäinen etuihin verrattuna.
Julkisen hallinnon tietohallinnon neuvottelukunta JUHTA
perusti marraskuussa 1998 metadatatyöryhmän,
jonka tavoitteena oli määritellä suomalaisten julkishallinnon asiakirjojen kuvailuformaatti. Työryhmään kuuluivat:
puheenjohtajana Juha Hakala (Helsingin yliopiston kirjasto), Erkki Karimaa (Kuntaliitto), Mikael Kiviniemi (Valtiovarainministeriö), Markku Mäenpää
(Kansallisarkisto),
Hannu Pelkonen (Posti Oy)
Riitta Poukka (Tilastokeskus), Anja Stenius (Helsingin kaupungin sosiaalivirasto) ja Pentti Vesanen (Valtioneuvoston kanslia).
Sihteerinä toimi Marit Olander
Helsingin yliopiston kirjastosta.
Työryhmä kokoontui kuusi kertaa ja jätti JUHTAlle syyskuussa 1999 suositusehdotuksen
"Asiakirjojen kuvailuformaatti", joka hyväksyttiin JUHTAn kokouksessa.
Työryhmän kotisivulla oli jo työskentelyn aikana nähtävillä
formaattiluonnos, joten virallisten lausuntojen lisäksi saatiin
työskentelyprosessin kuluessa runsaasti palautetta, joka voitiin ottaa huomioon lopullisessa ehdotuksessa.
Formaatin työstämisen aikana oltiin yhteydessä mm. Tietoaineiston luokitustyöryhmään, jonka puheenjohtaja Kaarlo Korvola vieraili työryhmän kokouksessa.
Juha Hakala oli yhteydessä Dublin Coren kehittäjiin keskustellen formaatista mm. OCLC:n tutkijan Stuart Weibelin kanssa.
Formaatti määrittelee joukon asiakirjojen kuvailuelementtejä (kuten tekijä, nimeke ja aihe) sekä liitteenä syntaksit kuvailutietojen tallentamiseen
HTML- tai XML-dokumentteihin. Jos asiakirjan tiedostoformaatti ei ole HTML tai XML, metadata voidaan tallentaa erilliseen HTML- tai XML-tiedostoon, johon lisätään
URL-linkki kuvailtuun asiakirjaan.
Formaatti perustuu kansainvälisen
Dublin Core -standardin versioon 1.1.
Asiakirjoja koskevien kuvailujen ja muiden dokumenttien metadatan yhteismitallisuuden säilyttäömiseksi suuria muutoksia ei ole tehty. Asiakirjojen kuvailuformaatti on
terminologialtaan sovitettu asiakirja-aineistolle sopivaksi, ja mukana on myös muutamia erityisesti asiakirjojen kuvailussa tarvittavia ominaisuuksia. Työryhmä on
pyrkinyt kuitenkin ennakoimaan Dublin Core :n versiota 2.0 suosittamalla eräiden kenttien tyhjäksi jättämistä ja korvaamista toisilla kentillä tarkenteita käyttäen.
Dublin Coren joustavuus perustuu juuri tarkenteiden käyttöön, vaikka englanninkielinen Dublin Coren versio 1.1 ei sisällä määrittelyjä tarkenteille. Kolmen kentän
(päivämäärä, suhde ja kate) suomenkielisissä määrityksissä on hyödynnetty niille de facto sovittuja tarkenteita (subelement), koska ilman niitä näiden kenttien
käyttö on ongelmallista.
Suomalaisen Dublin Core -version vastuuorganisaationa Helsingin yliopiston kirjasto ylläpitää asiakirjojen kuvailuformaattia.
Formaatti on
saatavissa HTML-muodossa verkosta JUHTA:n sivuilta osoitteesta
http://www.intermin.fi/juhta/suositukset/jhs143.htm.
Formaatissa mahdollisimman vähän pakollisia kenttiä
Kuvailua voidaan tarvittaessa myös syventää käyttäen tarkenteita. Niiden avulla voidaan ilmaista mm. käytetty kontrolloitu sanasto tai päivämäärän tallennusstandardi.
Kaikkia tarkenteita ei ole vielä Dublin Core versiossa 1.1 standardoitu, käytännön projekteissa niiden käyttö on kuitenkin havaittu välttämättömäksi.
Niissä tapauksissa, joissa vallitsee suuri yksimielisyys Dublin Coren kehittäjien keskuudessa on tarkenteita asiakirjojen kuvailuformaatissa esitetty käytettäväksi.
Metadatan hakujärjestelmät on rakennettava niin, että ne hyödyntävät tarkenteita mahdollisimman laajasti.
Kuvailun yksinkertaisuuden vuoksi on Dublin Coren 15 kentästä pakollisiksi sovittu vain neljä:
nimeke, tekijä, aihe ja päivämäärä, sekä asiakirjakentistä yksi: asiakirjan laji.
Nimeke-kentän sisältönä on tekijän, laatijan tai julkaisijan antama asiakirjan nimi, otsikko tai asia.
Tekijä-kenttään tallennetaan asiakirjan laatijaa tai vastuutahoa koskevat tiedot.
Aihe-kenttään tulee asiakirjan aihealueen kuvaus luokitusjärjestelmää (diaari- tai arkistokaavaa tms.) käyttäen, asiasanoin tai vapaasti kuvaillen.
Päivämäärä-kentän oletusarvona on asiakirjan julkistamisaika, mutta tarkenteita käyttämällä voidaan kentässä ilmaista hyvin erilaisia asiakirjan
elinkaareen liittyviä ajankohtia: esimerkiksi sopimusasiakirjoissa sopimuksen hyväksymispäivä, asiakirjan voimassaoloaika tai säilytysaika.
Vaikka asiakirjan yksikäsitteisesti identifioiva tunniste-kenttä ei olekaan pakollinen, on se hyvin keskeinen suurimmalle
osalle asiakirjoja. Yksittäiselle asiakirjalle voidaan tallentaa tunniste lisäämällä diaari- tai rekisterinumeroon juokseva numero.
Kansallisella tasolla koodista saadaan uniikki käyttämällä esimerkiksi diaarikoodin edellä organisaation lyhennettä tai kunnan kohdalla kuntatunnusta.
Julkaisusta voidaan käyttää perinteisiä tunnuksia kuten ISBN:ää tai kansallisbibliografian ID-tunnuksia. Jos perinteiset tunnukset eivät sovi, voidaan
käyttää diaarinumeroa tai muuta rekisterinumeroa. Kaikki perinteiset tunnukset voidaan esittää URN-tunnuksina (Uniform Resource Name), jolloin aineisto
on tulevaisuudessa löydettävissä pysyvän tunnuksen avulla. Helsingin yliopiston kirjaston URN-jakeluohjelma on käytettävissä osoitteessa
http://www.lib.helsinki.fi/cgi-bin/urn.pl. Tämä ohjelma luo kansallisbibliografian
tunnusnumeron perusteella URN-tunnuksen.
Asian diaaritunnus tai muu tunnus voidaan tallentaa suhde-kenttään käyttäen tarkennetta IsPartOf, jotta samaan kokonaisuuteen
liittyvät asiakirjat olisivat helposti haettavissa. Suhde-kentässä voidaan kuvata eri tarkenteiden avulla asiakirjojen suhteita, esimerkiksi,
jos asiakirja perustuu aiempaan asiakirjaan, voidaan vanhaan dokumenttiin viitata käyttäen IsBasedOn-tarkennetta.
Dublin Core versiossa 1.1. oli sopivasti kuin asiakirjojen kuvailua varten kate-kenttää laajennettu ajan ja paikan katteen
lisäksi myös hallinnon alaa koskevaksi. Hallinnon ala ilmaistaan nimeämällä kyseessä oleva yksikkö, virasto tms. kate-kenttään voidaan esimerkiksi
diaarikaavaa käyttäen kirjata myös se tehtävä, jonka piiriin asiakirja kuuluu.
Dublin Coren laajentaminen asiakirjakentillä
Asiakirjan laji kuvaa sen käyttötarkoitusta ja on pakollinen (esimerkiksi aloite, esitys/ehdotus, kantelu, lausuntopyyntö, selvitys,
säädös, toimeksianto jne.). Yhteismitallisuuden varmistamiseksi laji tulee pyrkiä valitsemaan valmiista luettelosta, jota ylläpidetään keskitetysti
(http://www.lib.helsinki.fi/dublin_core/asiaklaji.html).
Koska eri virastoilla ja laitoksilla on paljon myös erityisiä lajeja, on keskitetty luettelo
pidettävä melko yleisellä tasolla. Tarvittaessa käytetään omia virastokohtaisia lajeja.
Asiakirjan laji on keskeinen haun kannalta asiakirjan kuvailussa. Sen sijaan muut asiakirjaformaatin omat kentät:, julkisuus, versio,
ympäristö, hinta ja vastaanottaja eivät ole pakollisia.
Julkisuus-kentässä voidaan ilmaista, että asiakirja sisältää salassa pidettävää tietoa. Mahdollista on myös tallentaa
tieto, että asiakirja tulee julkiseksi myöhemmin, jolloin päivämäärä-kenttään voidaan tallentaa julkiseksi muuttumisen ajankohta.
Tietoturvaluokka voidaan tarvittaessa tallentaa tähän kenttään käyttäen omaa tarkennetta.
Versio-kenttään tallennetaan asiakirjan versio esimerkiksi desimaalilukuna.
Ympäristö-kenttään tallennetaan erityisesti asiakirjan pitkäaikaissäilytyksessä tarvittavat erityiset laitteisto- ja ohjelmistovaatimukset.
Hinta-kentässä voidaan ilmoittaa kuvailtavan asiakirjan hinta. Vastaanottaja-kentässä voidaan ilmoittaa asiakirjan vastaanottaja (esim. virasto tai lautakunta).
Suosituksen toteuttaminen ja jatkotoimenpiteet
Asiakirjojen kuvailu on pyritty pitämään niin yksinkertaisena, ettei se vaadi mitään erikoistaitoja. Tavoitteena on, että asiakirjojen
laatijat voivat itse lisätä myös kuvailutiedot. Tallennuksen helpottamiseksi loppukäyttäjälle kehitetään formaatin käyttöopas ja muita apuvälineitä.
Yleisten ohjeiden lisäksi tarvitaan virastokohtaista ohjeistusta, esimerkiksi mitä diaarikaavaa käytetään tai mitä tietoja tallennetaan. Asiakirjojen
laatijoiden ja loppukäyttäjien ei ole välttämätöntä perehtyä formaattiin ja sen liitteenä oleviin syntaksimäärityksiin.
Helsingin yliopiston kirjasto ylläpitää suomalaista Dublin Corea tukevaa tallennusalustaa (http://www.lib.helsinki.fi/cgi-bin/dc.pl).
Se tuottaa Dublin Core -tietueita HTML 3.2 ja 4.0 -muodossa sekä XML-muodossa . Tallennusalustasta on rakennettu myös prototyyppi asiakirjojen kuvailua
varten (http://elektra.helsinki.fi/cgi-bin/juhta.pl).
Asiakirjojen löytymistä helpottaa lähitulevaisuudessa rakennettava kansallinen metadatatietokanta, jonka kautta asiakirjojen
ja muiden internet-dokumenttien sisältämät metatiedot ovat tehokkaasti haettavissa.
Asiakirjojen kuvailuformaatin valmistuminen ei riitä, vaan työryhmän on varmistettava myös jatkotoimenpiteet: Suosituksen
toteuttamiseksi tarvitaan apuvälineitä, joiden avulla suosituksen mukaista metadataa voidaan tallentaa, indeksoida ja konvertoida toiseen muotoon.
Metadatan tallennuksessa voidaan käyttää erillisvälineitä tai työntekijöiden normaaliin tekstinkäsittely-ympäristöön upotettuja työkaluja.
Suosituksen mukaisen kuvailun käyttöönotossa tarvitaan yhteistyötä asiakirjajärjestelmien kehittäjien kanssa. Näin varmistetaan,
että järjestelmät tukevat mahdollisimman hyvin kuvailun vaivatonta syntymistä osana asiakirjan laatimisprosessia.
Marit Olander, atk-erikoissuunnittelija
Helsingin yliopiston kirjasto
email: Marit.Olander@helsinki.fi
Lisätietoja:
Tietolinja 3/1999