Tietolinja
1/1998

Internet-resurssien kuvailun ja haun uudet välineet

Juha Hakala

Nordic Metadata on NORDINFO:n kaksivuotinen projekti, jonka tavoitteena on luoda työkaluja, joiden avulla HTML-dokumentteihin voidaan tallentaa niiden omat kuvailut, poimia nämä tiedot verkosta sekä indeksoida ne haettaviksi. Kuvailuformaatiksi on valittu Dublin Core Metadata Element Set, ja kuvailutietojen keruu ja indeksointi tehdään pohjoismaisella Nordic Web Index -sovelluksella.

Metadatasta yleensä

Metadata on tietoa tiedosta, eli esimerkiksi Internetistä löytyvien dokumenttien kuvailutietoja. Laadukkaat kuvailut ovat rakenteisia: kuvailun pohjana on jokin formaatti, joka jaottelee kuvailun kenttiin. Kirjastoalalla tunnetuin formaatti on MARC, mutta sen ohella käytetään suurta joukkoa eri aloille kehitettyjä formaatteja. Lisätietoja haluaville erinomainen lähtökohta on IFLAn ylläpitämä bibliografia formaatteja koskevista elektronisista tiedonlähteistä ( http://www.nlc-bnc.ca/ifla/II/metadata.htm).

Internet-tiedonhaun suurimpana ongelmana pidetään tätä kirjoitettaessa yleisesti verkosta löytyvän metadatan heikkoa laatua ja vähäistä määrää. Hakua voidaan tietenkin tehostaa myös parantamalla tekstihakujärjestelmiä nykyisestä, mutta on ilmeistä että todella tehokas tiedonhaku onnistuu vain lisäämällä ja parantamalla elektronisten resurssien kuvailuja.

Kirjastojen näyttöluettelot ovat hyvä esimerkki korkealaatuisesta metatiedosta. MARC-luetteloinnin ongelmana on kuitenkin sen vaatima korkea ammattitaito ja aika, jonka yhden tietueen tallentaminen keskimäärin vie. On arvioitu, että kansallisbibliografiatasoinen tietue on kaikkine oheiskuluineen usein kalliimpi kuin teos, jota se kuvaa.Kun käyttäjien ulottuvilla olevan relevantin aineiston määrä kasvaa nopeasti Internetin laajentumisen myötä, ei kirjastolla juuri ole mahdollisuuksia luetteloida perinteisellä tyylillä edes niitä verkon dokumentteja, jotka ovat omien asiakkaiden kannalta kaikkein relevanteimpia. Koska vaatimukset verkkoaineiston kuvailemisesta voimistuvat jatkuvasti sitä mukaa kun Internet-käyttäjille käy ilmeiseksi että verkosta on todella vaikeaa löytää tietoa nopeasti ja helposti, on kirjastojen kannattavaa kehittää vaihtoehtoisia ratkaisuja verkon dokumenttien kuvailuun.

Verkon dokumenttien kuvailun edistämiseksi on viime vuosina tehty paljon työtä. Perusratkaisut ovat hahmottumassa - kuvaan jatkossa Internet-dokumenttien kuvailuun kehitettyä Dublin Core -formaattia ja sen varaan rakennettua Pohjoismaista Nordic metadata -kehityshanketta, joka oli käynnistyessään sysksyllä 1997 yksi ensimmäisistä DC-sovellusprojekteista. Jo vuotta myöhemmin DC-hankkeita oli jo runsaasti - Helsingissä pidettyä Dublin Core -kokousta varten laadittu projektiluettelo ei ole kattava, mutta listaa silti jo yli 30 hanketta ( http://www.lib.helsinki.fi/meta/projects.html).

Koska kirjastot eivät voi oleellisesti lisätä luettelointiin käytettäviä resursseja, on verkkodokumenttien kuvailijat rekrytoitava pääosin muualta. Käytännössä ainoa ratkaisu on tällöin se, että dokumenttien tekijät tai kustantajat luovat myös niiden kuvailut. Tähän työhön tarvitaan helposti opittava ja yksinkertainen formaatti, joka on kuitenkin joustava siten että sillä voi tehdä myös "kunnon jälkeä" ajan ja ammattitaidon niin salliessa. Tämän formaatin käyttöä on tuettava mahdollisuuksien mukaan opastein ja työkaluin.

Internetissä käytetään suurta joukkoa erilaisia kuvailuformaatteja. Ne on varsin tyhjentävästi arvioitu EU:n DESIRE-projektissa laaditussa, maaliskuussa 1997 julkaistussa arviossa (http://www.ukoln.ac.uk/metadata/DESIRE/overview). Sen mukaan useimmat formaatit on kehitetty alunperin jonkin erikoisalan tarpeisiin, mutta tästä huolimatta niillä on yhteinen ydin: dokumenteilla kun yleensä on esimerkiksi tekijä, nimeke ja aihe. Tämä ydin mahdollistaa kuvailujen konvertoinnin formaatista toiseen. Mutta ytimen olemassaolo tekee mahdolliseksi myös sellaisen formaatin laatimisen, joka määrittelee vain tämän ytimen eikä muuta. Varteenotettavin kandidaatti täksi formaatiksi on nimeään myöten Dublin Core. Nimen "Dublin" muuten viittaa ensimmäisen Dublin Core workshopin pitopaikkaan, joka oli Dublin, Ohio.

Dublin Core

Dublin Core Metadata Element Set (DC, http://www.purl.org/metadata/dublin_core/) on ensimmäinen Internet-käyttöön kehitetty kuvailuformaatti, joka on alun perin rakennettu mahdollisimman yleiseksi ja joustavaksi. Internetissä on DC-muotoista metadataa vielä verraten vähän, pääasiassa koska DC:n ensimmäinen versio valmistui vasta joulukuussa 1996. Dublin Core -käyttäjät ovat tähän asti olleet etupäässä vapaaehtoisia, koska DC:n hyödyntäminen ei ole vielä virkatyötä samalla tavalla kuin MARC-pohjainen luettelointi. Silti jo maaliskuussa 1998 Pohjoismaista löytyi yhteensä noin 3000 DC-tietuetta.

DC sisältää vain 15 kenttää. Niiden "kanoniset" määritykset on kirjattu OCLC:n ylläpitämään dokumenttiin ( http://purl.org/metadata/dublin_core_elements). Oheisenä tekijäkenttää (Author or Creator) täydentävän Other contributors -kentän määritelmä:

Other Contributors

Label: CONTRIBUTORS

Person(s) or organization(s) in addition to those specified in the CREATOR element who have made significant intellectual contributions to the resource but whose contribution is secondary to the individuals or entities specifed in the CREATOR element (for example, editors, transcribers, illustrators, and convenors).

Dublin Coren sopeuttaminen jonkin maan oloihin edellyttää tietenkin formaatin kääntämistä. Suomenkielinen Dublin Core löytyy osoitteesta http://www.lib.helsinki.fi/meta/dcref-fin.html. Sen käännös edellä olevasta on seuraava:

Muu tekijä

Label: CONTRIBUTORS

Henkilö tai organisaatio joka Tekijä-kentässä mainittujen henkilöiden (organisaatioiden) lisäksi on osallistunut merkittävästi tallenteen luomiseen, mutta jonka panos on ollut toissijainen verrattuna ns. päävastuullisen tekijän osuuteen (esimerkiksi toimittaja, kuvittaja, kääntäjä).

Koska Dublin Coren teossa oli mukana myös kirjastoalan asiantuntijoita atk-spesialistien rinnalla, DC:n kentät määrityksineen vaikuttavat MARC-formaatin tuntevalle tutuilta. Itse asiassa konversio Dublin Core:sta MARC-formaattiin ei ole vain mahdollinen, vaan jopa suhteellisen helppo. Alunperin DC:n vastaavuus MARCin kanssa oli hyvinkin läheinen, mutta kehitystyön edetessä Dublin Core on jossakin määrin irtautunut MARC-sidonnaisuudesta. Hyvä esimerkki tästä on Date-kenttä: elektroniset dokumentit tarvitsevat määrittelymahdollisuuksia joita MARC-formaatissa ei tällä hetkellä ole.

Dublin Coren joustavuus perustuu kenttien tarkenteiden käyttöön. Lähes jokaiselle kentälle voidaan määritellä joukko tarkenteita, jotka antavat kentälle tarkemman semanttisen sisällön. Esimerkiksi Identifier-kentässä voidaan tarkenteen avulla ilmaista, mistä koodijärjestelmästä (ISBN, ISSN, URN etc.) dokumentin ID-tunnus on peräisin. Vastaavasti Subject-kentässä voidaan määritellä käytetyn termin alkuperä (UDK-luokitus, Yleinen Suomalainen Asiasanasto, etc.). Date-kenttään tulee joukko tarkenteita joiden avulla elektronisten julkaisujen tarpeet voidaan ottaa huomioon varsin tyhjentävästi. Date-tarkenteet ovat:

DC.Date.Created

DC.Date.Issued

DC.Date.Accepted

DC.Date.DataGathered

DC.Date.Available

DC.Date.Acquired

DC.Date.Valid

On mielenkiintoista nähdä siirtyvätkö nämä piirteet MARC-formaattiin. MARC-formaatin 60-lukulainen rakenne asettaa tietenkin joitakin rajoja sille, miten paljon kenttiä siihen voidaan ylipäätään mahduttaa.

Hyväksyttyä tarkenneluetteloa ei toistaiseksi ole. Aluksi kilpailevia ehdotuksia oli kaksi, toinen Englannista ja toinen Yhdysvalloista Kongressin kirjastosta (http://www.loc.gov/marc/dcqualif.html), joka on osallistunut DC-kehitykseen varsin aktiivisesti. Lokakuussa 1997 Helsingissä pidetyssä viidennessä Dublin Core metadata workshopissa ( http://www.lib.helsinki.fi/meta/DC5.html) perustettiin työryhmä, joka pyrkii laatimaan tarkenteista ehdotuksen syksyllä 1998 pidettävään seuraavaan metadata workshopiin. Suurin osa kentistä on tähän mennessä hoidettu pois päiväjärjestyksestä ja lopullinen konsensus on kiinni siitä, että muutamasta ongelmallisesta kentästä (kuten Coverage ja Relation) päästään yksimielisyyteen.

Yksimielisyys elementtien keskeisistä tarkenteista on oleellista, koska yhdessä 15 peruselementin kanssa ne määrittelevät Dublin Coren ytimen, joka otetaan aina huomioon esimerkiksi formaattikonversioissa. Koska peruselementeistä vallitsee täydellinen konsensus ja useimpien elementien tarkenteistakin ollaan jo varsin yksimielisiä, voidaan sanoa että Dublin Coren ydin on valmis. Tätä "ydintä" voi huoletta käyttää hyväksi jo nyt Dublin Core -pohjaisessa kuvailussa, ja se on rakennettu sisään esimerkiksi Nordic Metadata -projektin Dublin Core -tallennusalustaan, josta lisää tuonnempana.

Jo neljännessä DC workshopissa Canberrassa maaliskuussa 1997 päätettiin siitä, miten DC:tä voidaan tarpeen mukaan laajentaa. Menetelmä on sama kuin Internetissä laajemminkin, eli oman kentän nimi alkaa merkeillä "X-". Vastaavalla tavalla voi kehittää olemassa oleville kentille omia tarkenteita. Jos siis haluamme Suomessa tallentaa dokumentin hinnan Dublin Core -tietueeseen, voimme käyttää esimerkiksi kenttää "X-Hinta". Tämä kenttä voidaan "opettaa" Suomessa käytettäville DC-indeksointiohjelmille ja MARC-konverttereille, mutta ulkomaiset sovellukset osaavat ignoroida paikalliset tiedot X- -alukkeen ansiosta.

Kirjastojen näkökulmasta Dublin Core -käyttöympäristöstä puuttuu vielä yksi oleellinen rakennusosa, nimittäin luettelointisäännöt. Mikä tahansa formaatti on itse asiassa vain eräänlainen kuljetusalusta luettelointisääntöjen määrittelemille tiedoille. Säännöt kertovat esimerkiksi sen, miten tekijä- ja vastuullisuustiedot poimitaan dokumentista ja miten ne tallennetaan. Tässä tilanteessa lienee viisainta luoda Dublin Corelle ohjeet, jotka perustuvat mahdollisimman pitkälle kirjastoissa käytetyille (atk-tallenteiden) luettelointisäännöille. Toinen ohjenuora on se, että tallennetun tiedon pitäisi olla muodossa joka sallii laadukkaan MARC-konversion. Niinpä on parempi tallentaa nimet normalisoidussa muodossa (sukunimi, etunimi) kuin normalisoimattomana.

Dublin Core -kuvailutiedot tallennetaan yleensä kuvailtavan dokumentin sisään. Kullekin teksti-, kuva-, ääni- yms. formaatille on siksi laadittava Dublin Core -syntaksi. Tätä kirjoitettaessa syntaksi on valmis HTML-dokumenteille, ja seuraavaksi on tarkoitus määritellä DC-tietojen tallennustapa W3-organisaation helmikuussa 1998 julkaisemalle XML-formaatille ( http://www.w3.org/XML/). Seuraavana on työjärjestyksessä DC-syntaksin laatiminen jollekin yleisimmistä kuvaformaateista - todennäköisin vaihtoehto on TIFF.

HTML-dokumentissa kuvailutiedot tallennetaan nimiöön, sen META- ja LINK-kenttiin. Esimerkkinä päivämääräkenttä tallennettuna HTML 4.0 -muodossa:

Tallennustapa vaikuttaa monimutkaiselta ja onkin sitä, koska tiedot on koodattava siten, että indeksointiohjelmat pystyvät erottamaan eri formaatit ja niiden kentät toisistaan. Esimerkin META NAME -tieto (DC.Date) kertoo, että formaatti on Dublin Core (DC.), kenttä Date (Päivämäärä) ja tarkenne Created, eli tieto antaa dokumentin luontipäivämäärän. Lisäksi META-kentän Scheme-tarkenteella on kerrottu mitä standardia ajan merkitsemisessä on käytetty. Tämä tieto on pakollinen, koska päivämäärän ilmaisemiseen voidaan käyttää useita eri tapoja, eikä indeksointia tekevä ohjelma voi arvata mitä niistä on hyödynnetty.

WWW-selaimella ei suoraan näe sitä, onko dokumenttiin tallennettu Dublin Core -kuvailutiedot vai ei. Asian voi kuitenkin tarkistaa malla dokumentin HTML-muodossa (Netscape 4.0:ssa komennolla Ctrl-U tai valitsemalla View + Page Source). Esimerkki DC-kuvailusta löytyy vaikkapa Helsingin yliopiston kirjaston kotisivulta (http://www.lib.helsinki.fi/hyk/).

Dublin Coren HTML-syntaksin monimutkaisuuden vuoksi kenenkään ei pitäisi syöttää DC-kuvailutietoja käsin, vaan käyttäen tallennusalustaa joka generoi automaattisesti tarvittavat "kenttäkoodit". Näitä tallennusalustoja on rakennettu eri hankkeissa. Yksi näistä välinekehitysprojekteista on pohjoismainen Nordic Metadata.

Nordic Metadata

Nordic Metadata -projekti (http://www.lib.helsinki.fi/meta/) on NORDINFOn rahoittama projekti, joka käynnistyi lokakuussa 1996 ja päättyy toukokuussa 1998. Hankkeen keskeisin tavoite on luoda välineet, joiden avulla Dublin Core -kuvailujen tallennus, poiminta verkon dokumenteista sekä indeksointi ja käyttö tiedonhaussa sujuvat juoheasti myös dokumenttien tekijöiltä ja kustantajilta. Kaikki hankkeessa luotavat työkalut ovat maksutta kaikkien kiinnostuneiden käytettävissä.

Hankkeen vetäjä on allekirjoittanut. Helsingin yliopiston kirjaston ohella projektiin osallistuvat varsinaisina jäseninä Lundin yliopiston kirjaston NetLab-yksikkö sekä SICS (Swedish Institute of Computer Science) Ruotsista, norjalainen Bibsys, Dansk BiblioteksCenter ja Munksgaard (merkittävä kustantaja) Tanskasta sekä Islannin kansalliskirjasto. Dansk BiblioteksCenter liittyi joukkoon ulkojäsenenä aivan projektin alkuvaiheessa. Hanke on ollut menestys - olemme itse asiassa tehneet paljon enemmän asioita kuin alunperin NORDINFO:lle lupasimme. Pääsyy tähän on se, että Nordic Metadataan osallistuvat organisaatiot ovat mukana myös muissa metadatahankkeissa, joiden resursseja on käytetty työkalujemme kehittämiseen.

Hankkeessa kehitetään seuraavia välineitä:

1. Dublin Core -tallennusalusta ja "luettelointisäännöt"

2. Dublin Core -tietojen keruu- ja indeksointiohjelma

3. Dublin Core ->MARC -konvertteri

4. URN-generointiohjelma

Olemme keränneet käyttäjiltä myös palautetta tallennusalustan käytöstä ja Dublin Coren hyödyntämisestä yleensä. Saatujen tietojen pohjalta olemme parannelleet työkalujamme ja tehneet ehdotuksia Dublin Coren jatkokehityksestä.

Tallennusalusta

Tallennusalustan avulla DC-tallennus pyritään saamaan mahdollisimman helpoksi. Projektissamme on rakennettu kaksi alustaa: laaja, joka sisältää kaikki DC-kentät ja vakiintuneet kenttien tarkenteet alasvetovalikoissa, sekä suppea, jolla voi tallentaa vain keskeisimmät tiedot. Alustan englanninkielinen perusversio löytyy osoitteesta http://www.lub.lu.se/cgi-bin/nmdc.pl. Alustan EVA-projektissa tehdyn suomennoksen, jota on myös muokattu muuten Suomen oloihin sopivaksi, osoite on http://www.lib.helsinki.fi/cgi-bin/nmdc.pl. Muut Pohjoismaat Tanskaa lukuun ottamatta julkaissevat omat kansalliset DC-tallennusalustaversionsa vuoden 1998 kuluessa. Tanska on poikkeus sikäli että heillä on jo nyt kaksi alustaversiota, toinen DBC:n INDOREG-projektin ja toinen Kansalliskirjaston elektronisten vapaakappaleiden luovutusta suunnittelevan ryhmän tekemä.

Teknisesti Nordic Metadatan DC-tallennusalusta on HTML-dokumentti, jossa on "ikkunat" eri DC-kentille. Alustan "takana" majailee Perl-skripti, joka paitsi luo alustan, rakentaa käyttäjän lähettämistä tiedoista HTML 3.2 tai 4.0 -muodossa olevan DC-tietueen. Kun sovellus on palauttanut tietueen käyttäjälle, hän voi leikata ja liimata tiedot HTML-dokumenttinsa nimiöön.

Alustaan on linkattu joukko opastetekstejä, joissa käyttäjille annetaan ohjeita siitä, millaista tietoa ja missä muodossa pitäisi tallentaa - eräänlaiset luettelointisäännöt siis. Suomenkieliset opasteet laaditaan kevään 1998 kuluessa.Tämän jälkeen käyttäjien tuki alkaa olla tyydyttävässä kunnossa. Nordic Metadatan välineitä voidaan luonnollisesti helposti hyödyntää muissa hankkeissa, jotka tuottavat Dublin Core -muotoisia kuvailuja.

Sitä mukaa kun DC-syntaksi määritellään uusille dokumenttityypeille, näiden uudentyyppisten tietueiden luontimahdollisuus lisätään tallennusalustaan.Ensimmäisenä vuorossa lienee XML. Projektiryhmässä on myös sovittu alustan muokkaamisesta siten, että se tallentaa kuvailut HTML-dokumentin META-kenttään siten, että Alta Vistan tätä kirjoitettaessa käytössä oleva versio indeksoi tiedot haettavaksi. Toistaiseksi Alta Vista ja muutkaan globaalit WWW-indeksit eivät valitettavasti osaa hyödyntää Dublin Core -muotoisia kuvailuja.

Koska tallennuksen päätavoite on tehostaa Internet-tiedonhakua, pyrimme parhaamme mukaan helpottamaan sisällönkuvaustyötä. Alustan Subject-kentän opasteeseen on linkattu kaikki tiedossamme olevat, Internetistä löytyvät sisällönkuvailujärjestelmät.

DC-tietojen keruu- ja indeksointiohjelma

Metatiedon hyödyntämiseksi haussa Lundin yliopiston NetLab-yksikkö on rakentanut Nordic Web Index -ohjelmaan lisäpiirteen, jonka avulla NWI voi koota HTML-dokumenteista paitsi Dublin Core -kuvailut, myös muuta luettelointitietoa nimiön META-kentästä. Tätä kirjoitettaessa Ruotsin ja Tanskan kansalliset metadatatietokannat on jo avattu ( http://nwi.ub2.lu.se/?lang=en). Kotimaisen metadatatietokannan rakentaminen on ko aloitettu, ja toivomme että se voidaan avata tuotantokäyttöön jo kuluvan vuoden syksyllä.

Metadatatietokannan luonnissa keskeinen ongelma ei ole niinkään kuvailutietojen keruu sinänsä, vaan "haitallisen metadatan" siivoaminen pois. Esimerkkeinä tämäntyyppisistä kuvailuista mainittakoon HTML-konverttereiden tuottamat tyhjänpäiväiset toteamukset sekä indeksointirobottien huijaamistarkoituksessa syötetyt kuvailut, joilla ei yleensä ole mitään tekemistä itse dokumentin aiheen kanssa.Hyödyllistäkin metadataa löytyy varsin paljon - NetLab on arvioinut että Ruotsissa käyttökelpoista kuvailutietoa löytyy 8 % kaikista ruotsalaisista WWW-teksteistä, eli noin 150.000 dokumentista ( http://www.ub2.lu.se/metadata/Nordic-MDusage.html).

Dublin Core->MARC -konvertteri

DC-tiedon hyödyntämiseksi kirjastojen näyttöluetteloissa Nordic Metadata -projekti on rakentanut DC->MARC -konvertterin, jonka betaversio on käytettävissä osoitteessa http://www.bibsys.no/meta/d2m/. Ohjelma hallitsee konversiot Dublin Coresta kaikkiin pohjoismaisiin MARC-formaatteihin sekä USMARCiin. Ohjelma edellyttää tietenkin toimiakseen muunnostaulukon. Konversio Dublin Coresta FINMARCiin löytyy osoitteesta http://www.lib.helsinki.fi/meta/dcficross.html. Nordic Metadata on testannut myös konversiota MARCista Dublin Coreen, ja todennut että se on teknisesti hankalampi kuin päinvastainen muunnos.

URN-generointiohjelma

Yksi Dublin Coren 15 kentästä on identifikaatiotunnus. Tähän kenttään on usein tallennettu dokumentin sijaintitieto, URL. Tätä ei voi suositella, kahdesta syystä. Ensiksi, julkaisun sijainti ei sovi sen identifikaatiotunnukseksi, koska ID:n on oltava pysyvä, kun taas sijainti voi muuttua useita kertoja. Jos dokumentti siirretään, metadatassa oleva URL on kaiken huipuksi virheellinen. Toisaalta URL-tunnuksen tallentaminen metadataan ei ole välttämätöntä, koska dokumentteja verkosta haravoiva sovellus tietää resurssin URL:n joka tapauksessa.

Miten kirjastot voivat helpottaa verkon dokumenttien identifiointia? Ensimmäinen haaste on sopivan identifiointijärjestelmän valinta. ISSN ja siitä rakennettava, kausijulkaisujen numeroiden ja yksittäisten artikkeleiden identifiointiin sopiva Serial Item and Contribution Identifier eli SICI ( http://sunsite.berkeley.edu/SICI/) kattavat tulevaisuudessa lehdet ja lehtiartikkelit. ISBN ja kehitteillä oleva Book Item and Contribution Identifier puolestaan mahdollistavat kirjojen ja niiden "osien" kuten yksittäisten lukujen tai kuvien identifioinnin ja tehokkaan haun. Tosin ISBN:n kustantajille varatun tilan pienuus aiheuttaa sen, että ISBN:ää voidaan soveltaa lähinnä vain "oikeiden" kustantajien aineistoon, joilla jo on oma ISBN-tunnusalue kirjoja varten.

Ongelmaksi jää verkossa julkistettava runsaslukuinen harmaa kirjallisuus, eli juuri se materiaali jonka toivomme päätyvän Dublin Core -kuvailun piiriin. Helsingin yliopiston kirjastossa on päätetty laajentaa kansallisbibliografian ID-tunnuksen soveltamisaluetta siten, että näitä NBN-tunnuksia aletaan jakaa ohjelmallisesti kaikille niille, jotka haluavat identifioida verkkodokumenttinsa.

Tavoitteenamme on, että NBN voidaan tallentaa dokumentteihin URN-tunnuksena. Tällöin tunnus saadaan haettavaksi myös WWW-indekseihin. HYK on neuvotellut URN-tunnuksia kehittävän Internet Engineering Task Forcen työryhmän (URN WG, http://www.ietf.org/html.charters/urn-charter.html) tavan jolla NBN-tunnukset voidaan koodata URN-tunnuksina. Syntaksi on muotoa

URN:NBN:<xx-yyy>

jossa "xx" on maakoodi ja "yyy" varsinainen NBN-tunnus. Maakoodin käytöllä varmistetaan se, etteivät eri maiden antamat tunnukset mene päällekkäin. Esimerkki suomalaisesta URN-tunnuksesta:

URN:NBN:fi-fe976238

HYK on osana Nordic Metadata- ja EVA-projekteja laatinut määrityksen ohjelmalle, joka generoi automaattisesti määrityksen mukaisia, NBN-tunnukseen perustuvia URN-tunnuksia. Lundin yliopiston kirjaston NetLab-yksikkö on rakentanut tämän sovelluksen testiversion ( http://www.lub.lu.se/dc/urntest.pl). NetLab, HYK ja Kungliga biblioteket ovat laatineet myös käyttöoppaan, joka määrittelee URN-tunnuksen käytön periaatteet ja kertoo miten tunnuksen voi hankkia ja miten sen voi tallentaa dokumenttiin ( http://www.lib.helsinki.fi/meta/URN-help.html). Tarkoitus on linkata Dublin Core -tallennusalusta ja URN-luontiohjelma toisiinsa siten, että URN-tunnuksen saa vaivattomasti muun metadatan tallennuksen yhteydessä.

URN-jakelussa on tarkoitus siirtyä käytäntöön samanaikaisesti Suomessa ja Ruotsissa toukokuussa 1998. Muut Pohjoismaat voivat seurata esimerkkiä hieman myöhemmin. Euroopan laajuisesti URN-jakelua on tarkoitus "markkinoida" CENL:n kautta.

Lopuksi

Dublin Core yleensä ja Nordic Metadata -hanke erityisesti ovat herättäneet runsaasti mielenkiintoa Pohjoismaissa ja laajemmaltikin. Varsin moni projekti harkitsee Dublin Core:n käyttöä dokumenttien kuvailuun, ja muutamat ovat ehtineet tehdä asiassa jo päätöksiäkin. Kenties näyttävin yksittäinen hanke on Tanskan tutkimusministeriön projekti, jossa kaikki valtionhallinnon virallisjulkaisut julkaistaan verkossa elektronisessa muodossa DC-kuvailuilla piristettyinä. Suomessa on ilahduttavasti tekeillä vastaava suositus, joka koskisi kaikkia julkishallinnon asiakirjoja. Myös muissa Pohjoismaissa on laajoja DC-vetoisia hankkeita.

On siis varmaa, että Dublin Coren suosio varsinaisena tallennusformaattina on nopeasti kasvamassa. Kun samaan aikaan perinteisistä järjestelmistä luodaan linkkejä Dublin Coren suuntaan - esimerkiksi Z39.50-standardiin on tulossa hakuattribuutit Dublin Core -hakuun - vaikuttaa siltä, että Dublin Coresta voi tulla se yhteinen nimittäjä, joka auttaa meitä kohtaamaan virtuaalisen kirjaston suurimman haasteen: tehokkaan tiedonhaun samoilla hakutermeillä ja samalla käyttöliittymällä hyvin monien eri organisaatioiden tietokannoista.

Dublin Coren vanavedessa myös Nordic Metadata on saanut nauttia kansainvälisestä mielenkiinnosta. Pohjoismaat saivat maaliskuisessa Australiassa järjestetyssä Dublin Core Workshopissa etuoikeuden järjestää seuraava Dublin Core -workshop. Tämä järjestyksessä viides DC workshop pidettiin lokakuussa 1997 Helsingissä. Aiempien DC-kokousten tavoin DC-5 oli aika ajoin hieman kaoottisen tuntuinen, mutta kuitenkin tuloksekas tapaaminen. Virallinen kokousraportti on saatavilla osoitteessa http://www.dlib.org/dlib/february98/02weibel.html.

Nordic Metadata on tätä kirjoitettaessa (24.3.1998) jo lähes päättynyt - loppuraportti ilmestyy vajaan kahden kuukauden kuluttua. Tämä ei kuitenkaan merkitse hedelmälliseksi havaitun pohjoismaisen Dublin Core -yhteistyön päättymistä. Epävirallisella tasolla yhteistyö jatkuu varmasti, ja jos NORDINFOn hallitus suo, olemassa olevia DC-välineitä kehitetään seuraavan parin vuoden ajan Nordic Metadata 2 -projektissa, jonka suunnittelu on jo aloitettu. Tämän hankkeen tavoitteista lisää lehtemme seuraavassa numerossa.

Juha Hakala, atk-erikoissuunnittelija
Helsingin yliopiston kirjasto
email: Juha.Hakala@helsinki.fi

Tietolinja 1/1998