Metadatasta yleensä
Metadata on tietoa tiedosta, eli esimerkiksi Internetistä löytyvien dokumenttien kuvailutietoja. Laadukkaat
kuvailut ovat rakenteisia: kuvailun pohjana on jokin formaatti, joka jaottelee kuvailun kenttiin.
Kirjastoalalla tunnetuin formaatti on MARC, mutta sen ohella käytetään suurta joukkoa eri aloille
kehitettyjä formaatteja. Lisätietoja haluaville erinomainen lähtökohta on IFLAn ylläpitämä bibliografia
formaatteja koskevista elektronisista tiedonlähteistä (
http://www.nlc-bnc.ca/ifla/II/metadata.htm).
Internet-tiedonhaun suurimpana ongelmana pidetään tätä kirjoitettaessa yleisesti verkosta löytyvän
metadatan heikkoa laatua ja vähäistä määrää. Hakua voidaan tietenkin tehostaa myös parantamalla
tekstihakujärjestelmiä nykyisestä, mutta on ilmeistä että todella tehokas tiedonhaku onnistuu vain
lisäämällä ja parantamalla elektronisten resurssien kuvailuja.
Kirjastojen näyttöluettelot ovat hyvä esimerkki korkealaatuisesta metatiedosta. MARC-luetteloinnin
ongelmana on kuitenkin sen vaatima korkea ammattitaito ja aika, jonka yhden tietueen tallentaminen
keskimäärin vie. On arvioitu, että kansallisbibliografiatasoinen tietue on kaikkine oheiskuluineen usein
kalliimpi kuin teos, jota se kuvaa.Kun käyttäjien ulottuvilla olevan relevantin aineiston määrä kasvaa
nopeasti Internetin laajentumisen myötä, ei kirjastolla juuri ole mahdollisuuksia luetteloida perinteisellä
tyylillä edes niitä verkon dokumentteja, jotka ovat omien asiakkaiden kannalta kaikkein relevanteimpia.
Koska vaatimukset verkkoaineiston kuvailemisesta voimistuvat jatkuvasti sitä mukaa kun Internet-käyttäjille
käy ilmeiseksi että verkosta on todella vaikeaa löytää tietoa nopeasti ja helposti, on kirjastojen
kannattavaa kehittää vaihtoehtoisia ratkaisuja verkon dokumenttien kuvailuun.
Verkon dokumenttien kuvailun edistämiseksi on viime vuosina tehty paljon työtä. Perusratkaisut ovat
hahmottumassa - kuvaan jatkossa Internet-dokumenttien kuvailuun kehitettyä Dublin Core -formaattia ja
sen varaan rakennettua Pohjoismaista Nordic metadata -kehityshanketta, joka oli käynnistyessään
sysksyllä 1997 yksi ensimmäisistä DC-sovellusprojekteista. Jo vuotta myöhemmin DC-hankkeita oli jo
runsaasti - Helsingissä pidettyä Dublin Core -kokousta varten laadittu projektiluettelo ei ole kattava,
mutta listaa silti jo yli 30 hanketta (
http://www.lib.helsinki.fi/meta/projects.html).
Koska kirjastot eivät voi oleellisesti lisätä luettelointiin käytettäviä resursseja, on verkkodokumenttien
kuvailijat rekrytoitava pääosin muualta. Käytännössä ainoa ratkaisu on tällöin se, että dokumenttien
tekijät tai kustantajat luovat myös niiden kuvailut. Tähän työhön tarvitaan helposti opittava ja
yksinkertainen formaatti, joka on kuitenkin joustava siten että sillä voi tehdä myös "kunnon jälkeä" ajan
ja ammattitaidon niin salliessa. Tämän formaatin käyttöä on tuettava mahdollisuuksien mukaan opastein
ja työkaluin.
Internetissä käytetään suurta joukkoa erilaisia kuvailuformaatteja. Ne on varsin tyhjentävästi arvioitu
EU:n DESIRE-projektissa laaditussa, maaliskuussa 1997 julkaistussa arviossa
(http://www.ukoln.ac.uk/metadata/DESIRE/overview). Sen mukaan useimmat formaatit on kehitetty
alunperin jonkin erikoisalan tarpeisiin, mutta tästä huolimatta niillä on yhteinen ydin: dokumenteilla kun
yleensä on esimerkiksi tekijä, nimeke ja aihe. Tämä ydin mahdollistaa kuvailujen konvertoinnin
formaatista toiseen. Mutta ytimen olemassaolo tekee mahdolliseksi myös sellaisen formaatin laatimisen,
joka määrittelee vain tämän ytimen eikä muuta. Varteenotettavin kandidaatti täksi formaatiksi on nimeään
myöten Dublin Core. Nimen "Dublin" muuten viittaa ensimmäisen Dublin Core workshopin
pitopaikkaan, joka oli Dublin, Ohio.
Dublin Core
Dublin Core Metadata Element Set (DC, http://www.purl.org/metadata/dublin_core/) on
ensimmäinen Internet-käyttöön kehitetty kuvailuformaatti, joka on alun perin rakennettu mahdollisimman
yleiseksi ja joustavaksi. Internetissä on DC-muotoista metadataa vielä verraten vähän, pääasiassa koska
DC:n ensimmäinen versio valmistui vasta joulukuussa 1996. Dublin Core -käyttäjät ovat tähän asti olleet
etupäässä vapaaehtoisia, koska DC:n hyödyntäminen ei ole vielä virkatyötä samalla tavalla kuin MARC-pohjainen luettelointi. Silti jo maaliskuussa 1998 Pohjoismaista löytyi yhteensä noin 3000 DC-tietuetta.
DC sisältää vain 15 kenttää. Niiden "kanoniset" määritykset on kirjattu OCLC:n ylläpitämään
dokumenttiin ( http://purl.org/metadata/dublin_core_elements). Oheisenä tekijäkenttää (Author or
Creator) täydentävän Other contributors -kentän määritelmä:
Other Contributors
Label: CONTRIBUTORS
Person(s) or organization(s) in addition to those specified in the CREATOR element who have made
significant intellectual contributions to the resource but whose contribution is secondary to the
individuals or entities specifed in the CREATOR element (for example, editors, transcribers, illustrators,
and convenors).
Dublin Coren sopeuttaminen jonkin maan oloihin edellyttää tietenkin formaatin kääntämistä.
Suomenkielinen Dublin Core löytyy osoitteesta http://www.lib.helsinki.fi/meta/dcref-fin.html. Sen käännös
edellä olevasta on seuraava:
Muu tekijä
Label: CONTRIBUTORS
Henkilö tai organisaatio joka Tekijä-kentässä mainittujen henkilöiden (organisaatioiden) lisäksi on
osallistunut merkittävästi tallenteen luomiseen, mutta jonka panos on ollut toissijainen verrattuna ns.
päävastuullisen tekijän osuuteen (esimerkiksi toimittaja, kuvittaja, kääntäjä).
Koska Dublin Coren teossa oli mukana myös kirjastoalan asiantuntijoita atk-spesialistien rinnalla, DC:n
kentät määrityksineen vaikuttavat MARC-formaatin tuntevalle tutuilta. Itse asiassa konversio Dublin
Core:sta MARC-formaattiin ei ole vain mahdollinen, vaan jopa suhteellisen helppo. Alunperin DC:n
vastaavuus MARCin kanssa oli hyvinkin läheinen, mutta kehitystyön edetessä Dublin Core on jossakin
määrin irtautunut MARC-sidonnaisuudesta. Hyvä esimerkki tästä on Date-kenttä: elektroniset dokumentit
tarvitsevat määrittelymahdollisuuksia joita MARC-formaatissa ei tällä hetkellä ole.
Dublin Coren joustavuus perustuu kenttien tarkenteiden käyttöön. Lähes jokaiselle kentälle voidaan
määritellä joukko tarkenteita, jotka antavat kentälle tarkemman semanttisen sisällön. Esimerkiksi
Identifier-kentässä voidaan tarkenteen avulla ilmaista, mistä koodijärjestelmästä (ISBN, ISSN, URN etc.)
dokumentin ID-tunnus on peräisin. Vastaavasti Subject-kentässä voidaan määritellä käytetyn termin
alkuperä (UDK-luokitus, Yleinen Suomalainen Asiasanasto, etc.). Date-kenttään tulee joukko tarkenteita
joiden avulla elektronisten julkaisujen tarpeet voidaan ottaa huomioon varsin tyhjentävästi. Date-tarkenteet ovat:
DC.Date.Created
DC.Date.Issued
DC.Date.Accepted
DC.Date.DataGathered
DC.Date.Available
DC.Date.Acquired
DC.Date.Valid
On mielenkiintoista nähdä siirtyvätkö nämä piirteet MARC-formaattiin. MARC-formaatin 60-lukulainen
rakenne asettaa tietenkin joitakin rajoja sille, miten paljon kenttiä siihen voidaan ylipäätään mahduttaa.
Hyväksyttyä tarkenneluetteloa ei toistaiseksi ole. Aluksi kilpailevia ehdotuksia oli kaksi, toinen
Englannista ja toinen Yhdysvalloista Kongressin kirjastosta (http://www.loc.gov/marc/dcqualif.html),
joka on osallistunut DC-kehitykseen varsin aktiivisesti. Lokakuussa 1997 Helsingissä pidetyssä
viidennessä Dublin Core metadata workshopissa ( http://www.lib.helsinki.fi/meta/DC5.html)
perustettiin työryhmä, joka pyrkii laatimaan tarkenteista ehdotuksen syksyllä 1998 pidettävään seuraavaan
metadata workshopiin. Suurin osa kentistä on tähän mennessä hoidettu pois päiväjärjestyksestä ja
lopullinen konsensus on kiinni siitä, että muutamasta ongelmallisesta kentästä (kuten Coverage ja
Relation) päästään yksimielisyyteen.
Yksimielisyys elementtien keskeisistä tarkenteista on oleellista, koska yhdessä 15 peruselementin kanssa
ne määrittelevät Dublin Coren ytimen, joka otetaan aina huomioon esimerkiksi formaattikonversioissa.
Koska peruselementeistä vallitsee täydellinen konsensus ja useimpien elementien tarkenteistakin ollaan jo
varsin yksimielisiä, voidaan sanoa että Dublin Coren ydin on valmis. Tätä "ydintä" voi huoletta käyttää
hyväksi jo nyt Dublin Core -pohjaisessa kuvailussa, ja se on rakennettu sisään esimerkiksi Nordic
Metadata -projektin Dublin Core -tallennusalustaan, josta lisää tuonnempana.
Jo neljännessä DC workshopissa Canberrassa maaliskuussa 1997 päätettiin siitä, miten DC:tä voidaan
tarpeen mukaan laajentaa. Menetelmä on sama kuin Internetissä laajemminkin, eli oman kentän nimi
alkaa merkeillä "X-". Vastaavalla tavalla voi kehittää olemassa oleville kentille omia tarkenteita. Jos siis
haluamme Suomessa tallentaa dokumentin hinnan Dublin Core -tietueeseen, voimme käyttää esimerkiksi
kenttää "X-Hinta". Tämä kenttä voidaan "opettaa" Suomessa käytettäville DC-indeksointiohjelmille ja
MARC-konverttereille, mutta ulkomaiset sovellukset osaavat ignoroida paikalliset tiedot X- -alukkeen
ansiosta.
Kirjastojen näkökulmasta Dublin Core -käyttöympäristöstä puuttuu vielä yksi oleellinen rakennusosa,
nimittäin luettelointisäännöt. Mikä tahansa formaatti on itse asiassa vain eräänlainen kuljetusalusta
luettelointisääntöjen määrittelemille tiedoille. Säännöt kertovat esimerkiksi sen, miten tekijä- ja
vastuullisuustiedot poimitaan dokumentista ja miten ne tallennetaan. Tässä tilanteessa lienee viisainta
luoda Dublin Corelle ohjeet, jotka perustuvat mahdollisimman pitkälle kirjastoissa käytetyille (atk-tallenteiden) luettelointisäännöille.
Toinen ohjenuora on se, että tallennetun tiedon pitäisi olla muodossa
joka sallii laadukkaan MARC-konversion. Niinpä on parempi tallentaa nimet normalisoidussa muodossa
(sukunimi, etunimi) kuin normalisoimattomana.
Dublin Core -kuvailutiedot tallennetaan yleensä kuvailtavan dokumentin sisään. Kullekin teksti-, kuva-,
ääni- yms. formaatille on siksi laadittava Dublin Core -syntaksi. Tätä kirjoitettaessa syntaksi on valmis
HTML-dokumenteille, ja seuraavaksi on tarkoitus määritellä DC-tietojen tallennustapa W3-organisaation
helmikuussa 1998 julkaisemalle XML-formaatille ( http://www.w3.org/XML/). Seuraavana on
työjärjestyksessä DC-syntaksin laatiminen jollekin yleisimmistä kuvaformaateista - todennäköisin
vaihtoehto on TIFF.
HTML-dokumentissa kuvailutiedot tallennetaan nimiöön, sen META- ja LINK-kenttiin. Esimerkkinä
päivämääräkenttä tallennettuna HTML 4.0 -muodossa:
<META NAME="DC.Date.Created" SCHEME="ISO8601" CONTENT=1998-03-24">
Tallennustapa vaikuttaa monimutkaiselta ja onkin sitä, koska tiedot on koodattava siten, että
indeksointiohjelmat pystyvät erottamaan eri formaatit ja niiden kentät toisistaan. Esimerkin META
NAME -tieto (DC.Date) kertoo, että formaatti on Dublin Core (DC.), kenttä Date (Päivämäärä) ja
tarkenne Created, eli tieto antaa dokumentin luontipäivämäärän. Lisäksi META-kentän Scheme-tarkenteella on kerrottu mitä standardia ajan merkitsemisessä on käytetty. Tämä tieto on pakollinen, koska
päivämäärän ilmaisemiseen voidaan käyttää useita eri tapoja, eikä indeksointia tekevä ohjelma voi arvata
mitä niistä on hyödynnetty.
WWW-selaimella ei suoraan näe sitä, onko dokumenttiin tallennettu Dublin Core -kuvailutiedot vai ei.
Asian voi kuitenkin tarkistaa malla dokumentin HTML-muodossa (Netscape 4.0:ssa komennolla
Ctrl-U tai valitsemalla View + Page Source). Esimerkki DC-kuvailusta löytyy vaikkapa Helsingin
yliopiston kirjaston kotisivulta (http://www.lib.helsinki.fi/hyk/).
Dublin Coren HTML-syntaksin monimutkaisuuden vuoksi kenenkään ei pitäisi syöttää DC-kuvailutietoja
käsin, vaan käyttäen tallennusalustaa joka generoi automaattisesti tarvittavat "kenttäkoodit". Näitä
tallennusalustoja on rakennettu eri hankkeissa. Yksi näistä välinekehitysprojekteista on pohjoismainen
Nordic Metadata.
Nordic Metadata
Nordic Metadata -projekti (http://www.lib.helsinki.fi/meta/) on NORDINFOn rahoittama projekti, joka
käynnistyi lokakuussa 1996 ja päättyy toukokuussa 1998. Hankkeen keskeisin tavoite on luoda välineet,
joiden avulla Dublin Core -kuvailujen tallennus, poiminta verkon dokumenteista sekä indeksointi ja
käyttö tiedonhaussa sujuvat juoheasti myös dokumenttien tekijöiltä ja kustantajilta. Kaikki hankkeessa
luotavat työkalut ovat maksutta kaikkien kiinnostuneiden käytettävissä.
Hankkeen vetäjä on allekirjoittanut. Helsingin yliopiston kirjaston ohella projektiin osallistuvat
varsinaisina jäseninä Lundin yliopiston kirjaston NetLab-yksikkö sekä SICS (Swedish Institute of
Computer Science) Ruotsista, norjalainen Bibsys, Dansk BiblioteksCenter ja Munksgaard (merkittävä
kustantaja) Tanskasta sekä Islannin kansalliskirjasto. Dansk BiblioteksCenter liittyi joukkoon
ulkojäsenenä aivan projektin alkuvaiheessa. Hanke on ollut menestys - olemme itse asiassa tehneet paljon
enemmän asioita kuin alunperin NORDINFO:lle lupasimme. Pääsyy tähän on se, että Nordic Metadataan
osallistuvat organisaatiot ovat mukana myös muissa metadatahankkeissa, joiden resursseja on käytetty
työkalujemme kehittämiseen.
Hankkeessa kehitetään seuraavia välineitä:
1. Dublin Core -tallennusalusta ja "luettelointisäännöt"
2. Dublin Core -tietojen keruu- ja indeksointiohjelma
3. Dublin Core ->MARC -konvertteri
4. URN-generointiohjelma
Olemme keränneet käyttäjiltä myös palautetta tallennusalustan käytöstä ja Dublin Coren hyödyntämisestä
yleensä. Saatujen tietojen pohjalta olemme parannelleet työkalujamme ja tehneet ehdotuksia Dublin
Coren jatkokehityksestä.
Tallennusalusta
Tallennusalustan avulla DC-tallennus pyritään saamaan mahdollisimman helpoksi. Projektissamme on
rakennettu kaksi alustaa: laaja, joka sisältää kaikki DC-kentät ja vakiintuneet kenttien tarkenteet
alasvetovalikoissa, sekä suppea, jolla voi tallentaa vain keskeisimmät tiedot. Alustan englanninkielinen
perusversio löytyy osoitteesta http://www.lub.lu.se/cgi-bin/nmdc.pl. Alustan EVA-projektissa tehdyn
suomennoksen, jota on myös muokattu muuten Suomen oloihin sopivaksi, osoite on
http://www.lib.helsinki.fi/cgi-bin/nmdc.pl. Muut Pohjoismaat Tanskaa lukuun ottamatta julkaissevat omat
kansalliset DC-tallennusalustaversionsa vuoden 1998 kuluessa. Tanska on poikkeus sikäli että heillä on jo
nyt kaksi alustaversiota, toinen DBC:n INDOREG-projektin ja toinen Kansalliskirjaston elektronisten
vapaakappaleiden luovutusta suunnittelevan ryhmän tekemä.
Teknisesti Nordic Metadatan DC-tallennusalusta on HTML-dokumentti, jossa on "ikkunat" eri DC-kentille. Alustan "takana" majailee Perl-skripti, joka paitsi luo alustan, rakentaa käyttäjän lähettämistä
tiedoista HTML 3.2 tai 4.0 -muodossa olevan DC-tietueen. Kun sovellus on palauttanut tietueen
käyttäjälle, hän voi leikata ja liimata tiedot HTML-dokumenttinsa nimiöön.
Alustaan on linkattu joukko opastetekstejä, joissa käyttäjille annetaan ohjeita siitä, millaista tietoa ja
missä muodossa pitäisi tallentaa - eräänlaiset luettelointisäännöt siis. Suomenkieliset opasteet laaditaan
kevään 1998 kuluessa.Tämän jälkeen käyttäjien tuki alkaa olla tyydyttävässä kunnossa. Nordic Metadatan
välineitä voidaan luonnollisesti helposti hyödyntää muissa hankkeissa, jotka tuottavat Dublin Core -muotoisia kuvailuja.
Sitä mukaa kun DC-syntaksi määritellään uusille dokumenttityypeille, näiden uudentyyppisten tietueiden
luontimahdollisuus lisätään tallennusalustaan.Ensimmäisenä vuorossa lienee XML. Projektiryhmässä on
myös sovittu alustan muokkaamisesta siten, että se tallentaa kuvailut HTML-dokumentin META-kenttään
siten, että Alta Vistan tätä kirjoitettaessa käytössä oleva versio indeksoi tiedot haettavaksi. Toistaiseksi
Alta Vista ja muutkaan globaalit WWW-indeksit eivät valitettavasti osaa hyödyntää Dublin Core -muotoisia kuvailuja.
Koska tallennuksen päätavoite on tehostaa Internet-tiedonhakua, pyrimme parhaamme mukaan
helpottamaan sisällönkuvaustyötä. Alustan Subject-kentän opasteeseen on linkattu kaikki tiedossamme
olevat, Internetistä löytyvät sisällönkuvailujärjestelmät.
DC-tietojen keruu- ja indeksointiohjelma
Metatiedon hyödyntämiseksi haussa Lundin yliopiston NetLab-yksikkö on rakentanut Nordic Web Index
-ohjelmaan lisäpiirteen, jonka avulla NWI voi koota HTML-dokumenteista paitsi Dublin Core -kuvailut,
myös muuta luettelointitietoa nimiön META-kentästä. Tätä kirjoitettaessa Ruotsin ja Tanskan kansalliset
metadatatietokannat on jo avattu ( http://nwi.ub2.lu.se/?lang=en). Kotimaisen metadatatietokannan
rakentaminen on ko aloitettu, ja toivomme että se voidaan avata tuotantokäyttöön jo kuluvan vuoden
syksyllä.
Metadatatietokannan luonnissa keskeinen ongelma ei ole niinkään kuvailutietojen keruu sinänsä, vaan
"haitallisen metadatan" siivoaminen pois. Esimerkkeinä tämäntyyppisistä kuvailuista mainittakoon
HTML-konverttereiden tuottamat tyhjänpäiväiset toteamukset sekä indeksointirobottien
huijaamistarkoituksessa syötetyt kuvailut, joilla ei yleensä ole mitään tekemistä itse dokumentin aiheen
kanssa.Hyödyllistäkin metadataa löytyy varsin paljon - NetLab on arvioinut että Ruotsissa käyttökelpoista
kuvailutietoa löytyy 8 % kaikista ruotsalaisista WWW-teksteistä, eli noin 150.000 dokumentista (
http://www.ub2.lu.se/metadata/Nordic-MDusage.html).
Dublin Core->MARC -konvertteri
DC-tiedon hyödyntämiseksi kirjastojen näyttöluetteloissa Nordic Metadata -projekti on rakentanut
DC->MARC -konvertterin, jonka betaversio on käytettävissä osoitteessa
http://www.bibsys.no/meta/d2m/. Ohjelma hallitsee konversiot Dublin Coresta kaikkiin pohjoismaisiin
MARC-formaatteihin sekä USMARCiin. Ohjelma edellyttää tietenkin toimiakseen muunnostaulukon.
Konversio Dublin Coresta FINMARCiin löytyy osoitteesta http://www.lib.helsinki.fi/meta/dcficross.html.
Nordic Metadata on testannut myös konversiota MARCista Dublin Coreen, ja todennut että se on
teknisesti hankalampi kuin päinvastainen muunnos.
URN-generointiohjelma
Yksi Dublin Coren 15 kentästä on identifikaatiotunnus. Tähän kenttään on usein tallennettu dokumentin
sijaintitieto, URL. Tätä ei voi suositella, kahdesta syystä. Ensiksi, julkaisun sijainti ei sovi sen
identifikaatiotunnukseksi, koska ID:n on oltava pysyvä, kun taas sijainti voi muuttua useita kertoja. Jos
dokumentti siirretään, metadatassa oleva URL on kaiken huipuksi virheellinen. Toisaalta URL-tunnuksen
tallentaminen metadataan ei ole välttämätöntä, koska dokumentteja verkosta haravoiva sovellus tietää
resurssin URL:n joka tapauksessa.
Miten kirjastot voivat helpottaa verkon dokumenttien identifiointia? Ensimmäinen haaste on sopivan
identifiointijärjestelmän valinta. ISSN ja siitä rakennettava, kausijulkaisujen numeroiden ja yksittäisten
artikkeleiden identifiointiin sopiva Serial Item and Contribution Identifier eli SICI (
http://sunsite.berkeley.edu/SICI/) kattavat tulevaisuudessa lehdet ja lehtiartikkelit.
ISBN ja kehitteillä
oleva Book Item and Contribution Identifier puolestaan mahdollistavat kirjojen ja niiden "osien" kuten
yksittäisten lukujen tai kuvien identifioinnin ja tehokkaan haun. Tosin ISBN:n kustantajille varatun tilan
pienuus aiheuttaa sen, että ISBN:ää voidaan soveltaa lähinnä vain "oikeiden" kustantajien aineistoon,
joilla jo on oma ISBN-tunnusalue kirjoja varten.
Ongelmaksi jää verkossa julkistettava runsaslukuinen harmaa kirjallisuus, eli juuri se materiaali jonka
toivomme päätyvän Dublin Core -kuvailun piiriin. Helsingin yliopiston kirjastossa on päätetty laajentaa
kansallisbibliografian ID-tunnuksen soveltamisaluetta siten, että näitä NBN-tunnuksia aletaan jakaa
ohjelmallisesti kaikille niille, jotka haluavat identifioida verkkodokumenttinsa.
Tavoitteenamme on, että NBN voidaan tallentaa dokumentteihin URN-tunnuksena. Tällöin tunnus
saadaan haettavaksi myös WWW-indekseihin. HYK on neuvotellut URN-tunnuksia kehittävän Internet
Engineering Task Forcen työryhmän (URN WG,
http://www.ietf.org/html.charters/urn-charter.html)
tavan jolla NBN-tunnukset voidaan koodata URN-tunnuksina. Syntaksi on muotoa
URN:NBN:<xx-yyy>
jossa "xx" on maakoodi ja "yyy" varsinainen NBN-tunnus. Maakoodin käytöllä varmistetaan se, etteivät
eri maiden antamat tunnukset mene päällekkäin. Esimerkki suomalaisesta URN-tunnuksesta:
URN:NBN:fi-fe976238
HYK on osana Nordic Metadata- ja EVA-projekteja laatinut määrityksen ohjelmalle, joka generoi
automaattisesti määrityksen mukaisia, NBN-tunnukseen perustuvia URN-tunnuksia. Lundin yliopiston
kirjaston NetLab-yksikkö on rakentanut tämän sovelluksen testiversion (
http://www.lub.lu.se/dc/urntest.pl). NetLab, HYK ja Kungliga biblioteket ovat laatineet myös
käyttöoppaan, joka määrittelee URN-tunnuksen käytön periaatteet ja kertoo miten tunnuksen voi hankkia
ja miten sen voi tallentaa dokumenttiin (
http://www.lib.helsinki.fi/meta/URN-help.html). Tarkoitus on
linkata Dublin Core -tallennusalusta ja URN-luontiohjelma toisiinsa siten, että URN-tunnuksen saa
vaivattomasti muun metadatan tallennuksen yhteydessä.
URN-jakelussa on tarkoitus siirtyä käytäntöön samanaikaisesti Suomessa ja Ruotsissa toukokuussa 1998.
Muut Pohjoismaat voivat seurata esimerkkiä hieman myöhemmin. Euroopan laajuisesti URN-jakelua on
tarkoitus "markkinoida" CENL:n kautta.
Lopuksi
Dublin Core yleensä ja Nordic Metadata -hanke erityisesti ovat herättäneet runsaasti mielenkiintoa
Pohjoismaissa ja laajemmaltikin. Varsin moni projekti harkitsee Dublin Core:n käyttöä dokumenttien
kuvailuun, ja muutamat ovat ehtineet tehdä asiassa jo päätöksiäkin. Kenties näyttävin yksittäinen hanke
on Tanskan tutkimusministeriön projekti, jossa kaikki valtionhallinnon virallisjulkaisut julkaistaan
verkossa elektronisessa muodossa DC-kuvailuilla piristettyinä. Suomessa on ilahduttavasti tekeillä
vastaava suositus, joka koskisi kaikkia julkishallinnon asiakirjoja. Myös muissa Pohjoismaissa on laajoja
DC-vetoisia hankkeita.
On siis varmaa, että Dublin Coren suosio varsinaisena tallennusformaattina on nopeasti kasvamassa. Kun
samaan aikaan perinteisistä järjestelmistä luodaan linkkejä Dublin Coren suuntaan -
esimerkiksi Z39.50-standardiin on tulossa hakuattribuutit Dublin Core -hakuun - vaikuttaa siltä, että Dublin Coresta voi tulla
se yhteinen nimittäjä, joka auttaa meitä kohtaamaan virtuaalisen kirjaston suurimman haasteen: tehokkaan
tiedonhaun samoilla hakutermeillä ja samalla käyttöliittymällä hyvin monien eri organisaatioiden
tietokannoista.
Dublin Coren vanavedessa myös Nordic Metadata on saanut nauttia kansainvälisestä mielenkiinnosta.
Pohjoismaat saivat maaliskuisessa Australiassa järjestetyssä Dublin Core Workshopissa etuoikeuden
järjestää seuraava Dublin Core -workshop. Tämä järjestyksessä viides DC workshop pidettiin lokakuussa
1997 Helsingissä. Aiempien DC-kokousten tavoin DC-5 oli aika ajoin hieman kaoottisen tuntuinen, mutta
kuitenkin tuloksekas tapaaminen. Virallinen kokousraportti on saatavilla osoitteessa
http://www.dlib.org/dlib/february98/02weibel.html.
Nordic Metadata on tätä kirjoitettaessa (24.3.1998) jo lähes päättynyt - loppuraportti ilmestyy vajaan
kahden kuukauden kuluttua. Tämä ei kuitenkaan merkitse hedelmälliseksi havaitun pohjoismaisen Dublin
Core -yhteistyön päättymistä. Epävirallisella tasolla yhteistyö jatkuu varmasti, ja jos NORDINFOn
hallitus suo, olemassa olevia DC-välineitä kehitetään seuraavan parin vuoden ajan Nordic Metadata 2 -projektissa,
jonka suunnittelu on jo aloitettu. Tämän hankkeen tavoitteista lisää lehtemme seuraavassa
numerossa.
Juha Hakala, atk-erikoissuunnittelija
Helsingin yliopiston kirjasto
email: Juha.Hakala@helsinki.fi
Tietolinja 1/1998
|