Tietolinja

Tietolinja
4/1999


PÄÄKIRJOITUS

ARTIKKELIT


Invitational Meeting on Common Issues for Information Item Identifiers, Pariisi 2.2.2000

Matkakertomus

Juha Hakala


Useimmat nykyisin käytössä olevista julkaisujen tunnisteista kehitettiin aikana jolloin elektronisia julkaisuja ja varsinkaan Internetin kaltaista jakelutietä ei ollut olemassa. World Wide Web -järjestelmän laukaisema nopea muutos on paitsi helpottanut tiedonvälitystä, myös luonut ongelmia joita ei vielä muutama vuosi sitten olisi osattu kuvitella. Kukapa olisi arvannut että ISBN-numerot voivat loppua jo vuoteen 2010 mennessä?

Helmikuussa 2000 järjestettiin kutsukokous, jossa 18 eri ID-tunnusjärjestelmän edustajat pohtivat yhdessä elektronisiin dokumentteihin liittyviä kysymyksiä. Yhtenä tavoitteena oli käynnistää pysyvä yhteistyö eri ID-tunnusjärjestelmien edustajien välillä, missä onnistuttiinkin. ISO TC46 organisoi seuraavan tapaamisen huhtikuussa 2000; siihen pyritään saamaan paikalle vielä suurempi joukko eri identifikaatiotunnusjärjestelmien edustajia.

Pariisin kokouksen kaltaista yhteistapaamista ei tietääkseni ollut aiemmin järjestetty, lukuun ottamatta Helsingin yliopiston kirjaston organisoimaa kokousta Helsingissä tammikuussa 1999. Siihen osallistuivat muun muassa ISBN-, ISSN-, URN- ja DOI-järjestelmien edustajat. Helsingin tapaaminen oli tuloksekas, ja voi olla että ilman sitä ei Pariisin kokoustakaan olisi järjestetty.

Kokouksen osanottajat edustivat kirjastoja, ID-tunnusten kehittäjiä ja sisällöntuottajia. Minusta ryhmä oli hyvin edustava, vaikka eräs kokouksen osanottaja väitti että todellinen vaikuttaja ei nykyään ole mikään näistä, vaan elektroninen kauppa. En itse usko että Amazon ja muut verkkokauppaa harjoittavat yritykset sanelevat jatkossa tahdin, vaikka ne pystyvätkin vaikuttamaan sellaisten hankkeiden prioriteetteihin, jotka keskittyvät aineiston kaupalliseen jakeluun verkossa.

Muutamat kaupallista sektoria edustavat kokousedustajat puolustivat voimakkaasti näkemystä, että ID-tunnuksista ei voi puhua erillään metadatasta. Minusta tämä on asioiden yksinkertaistamista ja sotkemista. Koska eri organisaatioilla - esimerkiksi kirjastoilla, arkistoilla ja museoilla - on erilaiset kokoelmat ja tapa organisoida niitä, myös niiden käyttämä metadata vaihtelee. Ei ole mahdollista tarjota yhtä julkaisujen kuvailun mallia - meidän termeillämme luettelointisääntöjä -, joka soveltuisi kaikille. ID-tunnusjärjestelmien kannalta tämä ei ole edes tarpeellista; riittää että metadataformaatissa on kenttä johon ID-tunnus voidaan tallentaa.

Internet-verkossa metadatalla on monia tärkeitä tehtäviä. Perinteisen haettavuuden ja paikallistamisen ohella kansallisbibliografia todistaa, että "Matti Meikäläinen" on elektronisen resurssin "X" tekijä. Tällä on suuri merkitys elektroniselle kaupankäynnille. Tätä taustaa vasten ei olisi yllättävää, jos kustantajat tulevaisuudessa puhuisivat sen puolesta, että kansallisbibliografiaa on laajennettava nopeasti elektronisiin julkaisuihin ja viime kädessä niiden osiin. Tällöin kansalliskirjasto takaisi sen että mahdolliset korvaukset käytöstä menevät oikeille henkilöille.

Perinteisesti välittäjät kuten kirjastot ovat hoitaneet luetteloinnin, ja painettujen julkaisujen maailmassa taso on ollut enemmän tai vähemmän selvä - painettua kirjaa ei myydä sivu kerrallaan. Elektronisten julkaisujen osalta kuvailu tai ainakin identifiointi on vietävä myytävissä olevan kokonaisuuden tasolle, mistä syystä välittäjiä tarvitaan enemmän kuin koskaan kuvailemaan kuvailuja tekemään. Väitettiin että jo nyt periaatteessa jokaisesta tuotteesta voidaan luoda uusia versioita, jotka on identifioitava ja kuvailtava erikseen. Tämä pitänee valitettavasti paikkansa. Kevyen musiikin harrastajat lienevät surukseen huomanneet, että yhdestä musiikkikappaleesta voidaan miksata erilaisia variantteja. DVD-levyille, ja tulevaisuudessa verkkoon, voidaan tallentaa luvuton määrä versioita samasta elokuvasta. Käsite "Director's cut" täytyy ilmeisesti korvata monikolla...

Jos joku kuvitteli että tämä ongelma ei kosketa vaikkapa elektronista kirjaa, on väärässä. Ainakin kustantajat varautuvat tulevaisuuteen jo nyt; amerikkalaiset kustantamot ovat tiettävästi halunneet varata miljoona ISBN-tunnusta saadakseen teosten eri variantit nimettyä järjestelmissään sitten kun elektronisten kirjojen myynti verkossa toden teolla alkaa.

Kuvaan jatkossa muutamien kokouksessa esiteltyjen tunnusjärjestelmien tilannetta omin kommentein höystettynä. ISBN:n ja ISSN:n osalta kuvausta on täydennetty järjestelmien edustajien kanssa käytyjen keskustelujen pohjalta.

ISRN

International Standard Report Number -tunnusta sovelletaan ilmeisesti varsin vähän. ISRN-edustaja Ulrike Keil selitti tätä harmaiden julkaisujen epäkaupallisuudella. Tämä osoittaa ainakin sen että kaupallisen aineiston identifiointi on monien vaikutusvaltaisten tahojen mielestä tärkeämpää kuin muun aineiston tunnistaminen. Tässä rintamassa kansalliskirjastot ovat poikkeus; meille on tärkeää identifioida kaikki tallentamamme dokumentit.

NBN

Kansallisbibliografian ID-numerojärjestelmän edustajana kuvasin tapaa jolla NBN-numeroa sovelletaan Euroopan kansalliskirjastojen NEDLIB-projektissa verkosta haravoitujen dokumenttien tunnistamiseen. Hankkeen kehittämä haravointiohjelmisto laskee jokaiselle dokumentille MD5-tarkistussumman, ja laajentaa sen NBN-tunnukseen perustuvaksi URN:ksi. Esimerkiksi suomalaisen verkkojulkaisun arkistokappaleen ID-tunnus on muotoa urn:nbn:fi-fea, jossa fi on Suomen maakoodi ja fea on NBN-etuliite.

Verkkojulkaisujen arkistossa on käytettävä sisäisiä ID-tunnuksia, koska esimerkiksi elektronisesta kirjasta voi olla useita variantteja joilla on "legaalisti" sama ISBN. Julkaisuihin viitattaessa on kuitenkin tärkeää, että viittaus ohjaa täsmälleen oikeaan versioon. Arkiston sisäinen ID-tunnus takaa tämän.

ISBN

Kuten jo edellä mainitsin, ISBN-järjestelmään kohdistuu hyvin kovat muutospaineet. Järjestelmän laajentaminen elektronisiin kirjoihin onkin valmisteltavana; ehdotus uudeksi ISBN-tunnukseksi on tarkoitus julkaista maaliskuussa 2000. Tunnukseen tulee 13 numeroa koska yhteismitallisuuus EAN-koodin kanssa halutaan säilyttää. Uuden version käyttöönotto on alustavasti ajateltu toteutettavaksi yhtaikaa laajennetun EAN-tunnuksen käyttöönoton kanssa vuonna 2006.

Uuden ISBN:n sovittaminen vanhoihin järjestelmiin ei tule olemaan helppoa eikä halpaa. Tunnuksen piteneminen aiheuttaa teknisiä ongelmia, mutta vaikeinta hyväksyä voi olla se että uudessa ISBN:ssä ei ole maa- tai kustantajatunnusta, se on vain "dumb code". Syy tähän on että kustantajat ja maatkin katoavat, ja "älykäs" tunnus antaa pian väärää tietoa tai tietoa joka ei ole enää hyödynnettävissä.

ID-tunnusten vähittäinen muuttuminen "tyhmiksi" numerosarjoiksi a'la ISSN aiheuttaa ongelmia URN-järjestelmän käyttöönotolle. URN-resoluutiopalvelun on vaikea löytää Internetistä tietokantaa joka pystyisi "avaamaan" URN-tunnuksen, jos sen ID-numero-osa ei anna mitään viitettä siitä, mistä resoluutiopalvelu löytyy. ISSN-tunnuksen osalta ongelmaa ei ole, koska on olemassa globaali ISSN-tietokanta. ISBN:n osalta kattavaa palvelua ei ole. Jos siis haluamme käyttää ISBN:ää URN-tunnuksena, tunnukseen on lisättävä maakoodi tai muu tunnus, joka ohjaa käyttäjän oikeaan kansallisbibliografiatietokantaan.

NISO kehittää BICI-standardia (Book Item and Component Identifier, http://www.niso.org/bicidrft.html) ISBN:n laajennukseksi. Jos kustantajat voivat vaihtoehtoisesti "rohmuta" lisää ISBN-tunnuksia, se ei muodostune kovin suosituksi. Artikkeleille ja lehtien numeroille kehitetty SICI-tunnus on huono esimerkki; sen käyttö kun on jäänyt varsin vähäiseksi. Pariisin kokoukseen osallistuneen ISBN-asiantuntijan mukaan nykyisen ISBN-tunnuksen numerot loppuvat kesken vuonna 2010 etupäässä elektronisen julkaisemisen vuoksi. Simmonds totesi myös että kustantajien järjestelmät ovat hyvin vanhoja; tästä syystä esimerkiksi BICI:n käyttöönottoon on korkea kynnys.

ISSN-tunnuksella pyyhkii sikäli hyvin, että käyttämättömiä tunnuksia on lähes 9 miljoonaa. Suurin ongelma on, mitä ISSN-tunnuksella voidaan elektronisessa maailmassa identifioida, koska lehden ero muihin julkaisuihin hämärtyy. Hyvä uutinen oli se, että lehden määritelmästä ja siis myös ISSN:n sovellusalasta on alustavasti sovittu. Uusi määritelmä antaa aiempaa laajemmat valtuudet ISSN:n soveltamiseen verkossa, joten kansalliset ISSN-keskukset voivat varautua töiden lisääntymiseen.

ISAN & ISWC

International Standard Audiovisual Number ja International Standard Musical Work Code ovat molemmat ISO-standardoinnin loppusuoralla; kumpikin on saavuttanut Draft International Standard -statuksen, ja draft-tekstit on lähetetty lausuntokierrokselle.

ISAN on ISSN:n kaltainen, 16 merkin mittainen koodi. Tunnuksessa on kaksi osaa, ID-tunnus (15 numeroa) ja tarkistusmerkki. Standardissa annetaan seuraava esimerkki: ISAN 01863549200298-6. Tunnusten jakelukäytäntö vastaa esimerkiksi ISSN:n mallia: on tarkoitus perustaa kansainvälinen ISAN-keskus sekä joukko kansallisia tai alueellisia keskuksia. Yhtäläisyydet eivät lopu tähän; kansainvälisen keskuksen tehtäviin kuuluu globaalin ISAN-tietokannan ylläpito ja kansalliset ISAN-keskukset ovat vastuussa kuvailutietojen toimittamisesta kansainväliselle keskukselle. ISAN-jakelun volyymia on vaikea arvioida, mutta tunnuksia ja luettelointityötä tarvitaan varmasti enemmän kuin ISSN-tunnuksia ja kausijulkaisutietueita.

ISWC-tunnus koostuu etuliitteestä, 9 numeron mittaisesta teoksen tunnisteesta sekä tarkistusnumerosta, esimerkiksi seuraavasti: T-034524680-1. Toisin kuin ISAN-tunnuksen tapauksessa, kattavan kansainvälisen ISWC-tietokannan rakentamista ei suunnitella. Standardiluonnoksessa on kuitenkin seuraava mielenkiintoinen lausuma:

Musical works which are used internationally or which potentially could be registered by two or more ISWC agencies shall also have their ISWC information entered into the database of the International ISWC Agency. >/i>

Tämä merkitsee käytännössä sitä että helpointa on lähettää kuvailutiedot kaikista ISWC:llä identifioiduista teoksista kansainväliseen keskukseen, varmuuden vuoksi. Verkossahan ei voida tietää etukäteen mitä aineistoa välitetään kansainvälisesti.

Kansainväliselle ISWC-toimistolle on määritelty varsin paljon oikeuksia sen varmistamiseksi, että yhteistyö toimii:

The International ISWC Agency will specify the type and format of metadata associated with ISWC registrations and the policies and mechanisms by which that data may be accessed.

Jos ISWC-rekisteröinnit tallennettaisiin esimerkiksi Viola-tietokantaan, standardiluonnosta voi tulkita siten, että kansainvälinen ISWC-toimisto saisi valtuudet määrätä tietokannan käytöstä, tai ainakin niiden tietueiden käytöstä jotka sisältävät ISWC-tunnuksen. Allekirjoittaneen mielestä kevyempikin menettely voisi riittää: kansainvälisellä keskuksella pitää olla oikeus määritellä missä muodossa tietueet lähetetään heille ja miten heidän ylläpitämänsä kansainvälisen keskuksen tietokantaa voidaan käyttää, mutta puuttuminen kansallisen tason asioihin ei tunnu tarpeelliselta.

Lopuksi

Kokous sopi siitä, että ISO TC46:tta pyydetään arvioimaan meneillään olevat hankkeet ja keskittymään siihen, mikä on todella tärkeää. Erityisesti alakomitea 9 (Presentation, identification and description of documents) tarvitsee tietoa käynnissä olevista hankkeista, jotka voitaisiin ottaa ISO-käsittelyyn. Minulle ehdotettiin että Helsingin yliopiston kirjaston tulisi standardoida tapa jolla olemme määritelleet kansallisbibliografian ID-numeroista globaalisti uniikkeja NBN-tunnuksia; harkitsemme asiaa. Sinänsä tämä ISO-standardi olisi analoginen kirjastotunnusten ISO-standardille - siinäkin kansallisten tunnusten eteen lisättiin etuliite uniikkiuden varmistamiseksi.

ID-tunnusjärjestelmien kehittyminen Internetin tarpeita vastaavaksi aiheuttaa mielenkiintoisia haasteita. Ilmeistä on, että tarve kuvailla aineistoja ja hyödyntää näitä kuvailuja elektronisessa kaupankäynnissä kasvaa nopeasti. Kansallisbibliografialla on ollut kulttuurisen merkityksen ohella jonkin verran myös kaupallista arvoa, mutta lähitulevaisuudessa pörssi voi hyvinkin haluta kiilata katedraalin rinnalle, toivottavasti ei kuitenkaan ohi. Toisaalta tarve kuvailla aineistoa ei vielä takaa sitä että lueeteloijat todella saadaan.

Nykyisen ISBN:n kaltaiset "älykkäät" identifikaatiotunnukset ovat pian historiaa. Tunnukset ovat muuttumassa "tyhmiksi" numeroiksi. Tämä pakottaa luomaan suuria keskitettyjä tietojärjestelmiä. ISSN:n tapauksessa toiminta on sujunut hyvin, mutta käsiteltävät tietuemäärät ja tietokannan käyttö ovat olleet kohtuullisen pieniä. Miten toimii tietokanta, johon on kuvailtu maailman kaikki kaupallinen AV-aineisto?

Verkon vaikutus näkyy siinä, että tunnusten kapasiteetti kasvaa. Lienee todennäköistä että esimerkiksi ISAN-numeroa ei tarvitse koskaan laajentaa: 15 numeroa riittää todella pitkään, vaikka AV-aineistoa tuotettaisiin verkkoon satoja miljoonia dokumentteja vuodessa.

Juha Hakala
Kehittämisjohtaja
Helsinign yliopiston kirjasto
email: Juha.Hakala@helsinki.fi

Paluu uutissivulle

Tietolinja 4/1999