Hakala: Standardit - Tietolinja 01/2004

Tietolinja
01/2004

Standardit - välttämätön hyvä

Juha Hakala
Helsingin yliopiston kirjasto

URN:NBN:fi-fe20041344

Artikkelit

Tärkein suomalainen standardointiorganisaatio on SFS, missä informaatiopalvelualan standardoinnista vastaa Tietohuoltokomitea. Tiedonhakuportaalin ja digitaalisen aineiston käyttöönotto ja sen myötä syntyvä kirjastojen atk-järjestelmien "triangeli" luo uusia paineita alamme standardoinnin kehittämiseen. Esimerkiksi tiedonhakuportaalit edellyttävät melkoista joukkoa protokolla- ja formaattimäärityksiä, joita ollaan rakentamassa NISO (National Information Standard Organization) Metasearch Initiative –hankkeessa. Tietohuoltokomitea tulee vastaamaan näiden ja muiden triangelistandardien suomalaisten versioiden valmistelusta. Tässä työssä tarvitaan kirjastojen asiantuntijoita, ja komitean puheenjohtajan ominaisuudessa toivon, että kirjastot voivat osallistua komitean työhön aktiivisesti.

Perinteisesti Tietohuoltokomitea on valmistellut SFS-standardeja ainoastaan ISO-standardeista. Tästä linjasta poikettiin jo joitakin vuosia sitten, kun SFS standardoi Dublin Coren sen ollessa "vasta" NISO-standardi. Toukokuussa 2004 pidetyssä kokouksessa komitea päätti laajentaa toimialaansa edelleen siten, että se voi ottaa käsittelyyn myös Internet-standardeja silloin kun standardin sisältö on alamme kannalta poikkeuksellisen merkittävä. Käytännössä ensimmäinen SFS-standardoinnin kohde voisi olla URN-tunnuksen (Uniform Resource Name) rakenteen määrittelevä Internet-standardi RFC 2141. Julkistamalla sen SFS-standardina voimme lisätä URN-tunnusten painoarvoa ja tunnettuutta Suomessa. Kansainvälisesti tähän tarvitaan ISO-standardointi; Suomen ja Ruotsin kansalliskirjastot ovat alustavasti keskustelleet siitä, että tätä ehdotettaisiin ISO TC46:lle (ISO:n tekninen komitea) uutena työkohteena.

Tulevaisuuden kirjastoverkko tarjoaa asiakkailleen perinteisten palvelujen rinnalla uusia toimintoja, joista osaa emme pysty edes ennakoimaan. Esimerkiksi OpenURL-pohjainen dynaaminen linkitys oli täysin tuntematon tekniikka aina 90-luvun loppuun asti, kunnes tarvittavat periaatteet ja sovellukset rakennettiin Gentin yliopiston kirjastossa Belgiassa (mikä osaltaan kertoo alamme kansainvälistymisestä). Ilman standardikehityksen aktiivista seurantaa ja uusien standardien nopeaa soveltamista kirjastoverkkomme kehitys on hidasta, eikä uusimpia innovaatioita oteta riittävän nopeasti ja oikealla tavalla käyttöön.

Standardeja koskevan tiedottamisen tehokas kansallinen organisointi sekä osallistuminen standardien kansainväliseen kehittämiseen ovat mahdollisia vain, jos Suomessa on riittävän vahva informaatiopalvelualan standardien osaamiskeskus. Sellainen on rakentumassa Helsingin yliopiston kirjastoon, joka puolestaan kouluttaa muita kirjastoja ja tarvittaessa muitakin organisaatioita; esimerkiksi Dublin Core –koulutusta ja konsultointia on annettu muun muassa ministeriöille. Kansalliskirjaston panos ei kuitenkaan vielä yksinään riitä, vaan vahva kirjastoverkko edellyttää myös laajalle levinnyttä kirjastoverkon perustekniikoiden ja niiden taustalla olevien standardien tuntemusta. Hyvä tapa hankkia tätä tietämystä on osallistuminen standardointityöhön, joko suoraan Tietohuoltokomitean jäsenenä tai antamalla lausuntoja niistä standardeista joita komitea valmistelee.

Informaatiopalvelualan standardoinnista

Informaatiopalvelualan standardointi käynnistyi varhain, sillä esimerkiksi yhteisistä kuvailusäännöistä sovittiin (kansallisella tasolla) jo vuosikymmeniä sitten. Atk:n näkökulmasta ensimmäinen merkittävä standardi oli bibliografisten tietojen vaihtomuoto MARC (Machine Readable Cataloguing), joka kehitettiin Kongressin kirjastossa 1967-1968. Siitä tuli sekä kansallinen (Z39.2) että ISO-standardi jo 70-luvun alkupuolella. Tätä nykyä jokainen laajalti käytössä oleva kirjastojärjestelmä tukee MARC-formaattia, josta on 70-80 -luvuilla kehitetty useita kansallisia variantteja. Viime vuosina trendi on vaihtunut: useat maat (Australia, Kanada, Iso-Britannia, Saksa) ovat päättäneet korvata kansallisen formaatin kansainvälisellä MARC21-formaatilla, mikä tulee helpottamaan bibliografisten tietojen kopiointia maasta toiseen.

MARC-standardista alkanut kehitys on vuosien mittaan kiihtynyt Internetin ja kirjastojen verkottumisen myötä. Siinä missä kirjastot ennen vaihtoivat MARC-muotoisia tiedostoja magneettinauhoilla postin välityksellä, sovelluksemme pystyvät nykyään kommunikoimaan verkon välityksellä suoraan keskenään sekä muiden organisaatioiden atk-järjestelmien kanssa. Tämä ei olisi mahdollista ilman suurta joukkoa tietoliikenne- ja muita standardeja.

Jo pidemmän aikaa on ollut tavallista, että tärkeitä alamme standardeja kehitetään NISO:ssa, ja myöhemmin standardi hyväksytään muutoksitta ISO-standardiksi ns. Fast track –menettelyn avulla. Toisin sanoen, jos haluaa vaikuttaa informaatiopalvelualan standardien sisältöön, on oltava mukana NISO:ssa. HYK:sta tuli vuonna 2003 kutsusta NISO:n ensimmäinen äänivaltainen jäsen eli voting member Euroopassa.

NISO käynnisti vuonna 2003 Metasearch initiative’ –hankkeen (http://www.niso.org/committees/MS_initiative.html), jossa kehitetään kirjastojärjestelmien "triangeliin" kuuluvan tiedonhakuportaalin edellyttämiä standardeja. Tämä projekti on – ISO:n vastuulla olevan teosten ID-tunnusten rakentamisen ohella – merkittävin alamme käynnissä olevista standardointialoitteista. Hanke on jaettu kolmeen osaan (Access management, Collection description ja Search/Retrieve).

NISO:n ja ISO:n ohella kirjastojenkin kannalta merkittävää standardointia tehdään Internet-yhteisössä. Internet Engineering Task Force (IETF) on kehittänyt monia verkon peruspilareita, kuten TCP- ja IP-standardit. Meidän alallemme ovat tärkeitä muun muassa Uniform Resource Name (URN) –identifikaatiotunnisteeseen liittyvät standardit. IETF:n rinnalla toinen tärkeä Internet-standardeja luova taho on W3C (World Wide Web Consortium), joka vastaa esimerkiksi HTML:n ja XML:n kehittämisestä.

Metadataformaatit

Metadataformaatit ovat kirjastojen kannalta keskeisiä, koska ne määrittelevät – kuvailusääntöjen ohella – järjestelmiemme sisältämien tietojen sisällön ja rakenteen.

Hyvän formaattianalyysin pitäisi sisältää ainakin seuraavat kolme näkökulmaa, ja erottaa niiden tarkastelu toisistaan:

pragmatiikka: mitä formaatilla on tarkoitus kuvailla, eli mihin sitä käytetään
semantiikka: millaisia metadataelementtejä formaatti sisältää, ja onko olemassa joitakin kuvailun sääntöjä, joihin ne perustuvat
syntaksi: onko määritelty jokin eksakti (koneluettava) muoto tai muotoja joissa dataa voidaan vaihtaa sovellusten välillä (sovellusten sisällä tieto tallennetaan miten milloinkin, esimerkiksi VTLS:n Virtua-ohjelmistossa datan sisäinen esitysmuoto on XML)

Yleensä formaatteja koskevissa teksteissä nämä näkökulmat nivoutuvat toisiinsa eivätkä kaikki tarkastelukulmat ole aina mukana. Esimerkiksi pragmatiikka otetaan usein annettuna, mikä on merkki siitä että kirjastojärjestelmät ovat jo jonkin aikaa olleet niin sanotusti valmiita tuotteita: tiedämme hyvin tarkoin mitä näiden sovellusten tulisi tehdä.

MARC

MARC-formaatti on sekä de jure että de facto –standardi kirjastojärjestelmien väliseen bibliografisen tiedon vaihtoon. Sen ansiosta esimerkiksi tanskalaista kirjaa ei tarvitse luetteloida Suomessa, vaan kuvailu voidaan kopioida Dansk BiblioteksCenterin DanBib-tietokannasta.

MARC on alun perin kehitetty bibliografiseen kuvailuun, ja se on edelleen formaatin keskeisin soveltamiskohde (termi bibliografinen on kuitenkin ymmärrettävä hyvin laajasti). Lisäksi MARCia voidaan soveltaa muun muassa auktoriteetti- ja varastotietojen tallennukseen ja vaihtoon. Tätä kirjoitettaessa on auki, tullaanko MARCia käyttämään myös portaalien metadatan tallentamiseen.

MARC-formaatin elementit (kentät) määrittyvät pitkälti luettelointisääntöjen mukaan lukuun ottamatta varastotietoja, niille ei sääntöjä ole. Aina tätä suhdetta ei ole ollut: kun MARCin ensimmäistä versiota rakennettiin, projektin vastuuhenkilölle ei näytetty anglo-amerikkalaisten luettelointisääntöjen tuolloin valmisteilla ollutta ensimmäistä versiota, vaikka niidenkin laatija oli Kongressin kirjastosta. Luettelointisääntöjen ja MARCin suhde on siis pitkälti käytännön sanelema asia: voimme kehittää uusia MARC-formaatteja aloille joille ei ole luettelointisääntöjä, ja luettelointisääntöjen perusteella laadittava data voidaan esittää monissa erilaisissa koneluettavissa muodoissa.

MARC-tietueen rakenne on määritelty standardissa ISO2709, josta on myös SFS-versio. Teknisesti tämä määritys on säilynyt lähes muuttumattomana vuodesta 1968, mikä on yllättävää sen vuoksi että 36 vuodessa tietotekniikka on huikeasti muuttunut. Syntaksin määrittelytyö onnistui siis loistavasti, joskin nyt käytössä oleva muoto ei ole ensimmäinen, vaan vasta kolmas versio. MARC I:n syntaksi olisi ollut sanalla sanoen katastrofi, ja MARC II:ssakin oli alun perin pahoja puutteita. Englannista saadun palautteen perusteella se onneksi korjattiin nykyiseen muotoonsa; esimerkiksi tietueen nimiön pituus kaksinkertaistettiin. MARCin toimivuutta kuvaa hyvin se, että vasta vuonna 2003 ISO TC 46 käynnisti ISO2709:n XML-pohjaisen seuraajan kehitystyön. Sen avulla kirjastot voivat tulevaisuudessa nykyistä helpommin vaihtaa kuvailuja muiden muistiorganisaatioiden sekä esimerkiksi kustantajien kanssa.

Dublin Core

Siinä missä MARC on monimutkainen ja kirjastoille räätälöity työkalu, Dublin Core on yksinkertainen, helppo oppia ja soveltuu kaikentyyppiselle aineistolle. Suomessa sitä sovelletaan laajalti esimerkiksi asiakirjojen kuvailussa. 15 kenttää sisältävästä perus-DC:stä on laadittu useita erikoistarkoituksiin tarkoitettuja laajennuksia, joista erityisen merkittäväksi on nousemassa kokoelmien kuvailuun tarkoitettu DC-versio, jonka helmikuussa 2004 julkistetussa versiossa on 27 kenttää.

Perus-DC:n semantiikan perustana on vain ja ainoastaan Dublin Core –yhteisön konsensus. Mitään luettelointisääntöjen kaltaista ulkoista vahvistusta DC-semantiikalle ei ole, vaan sen 15 kenttää ovat aksiomaattinen järjestelmä, jota ei voida todistaa oikeaksi. Koska kenttien perusta on DC-kehittäjäyhteisön konsensus, kritiikki niitä kohtaan on samalla kritiikkiä koko yhteisöä kohtaan. Sen vuoksi arvostelijat voidaan tulkita kerettiläisiksi, jotka on suljettava yhteisön ulkopuolelle. Näin kävi viimeksi kustantajien edustajille, jotka yrittivät vuonna 1998 yhdistää tekijyyteen liittyvät kolme kenttää Agent (Toimija) –kentäksi. Kun tämä ei onnistunut, he kehittivät oman ONIX-formaattinsa DC:n soveltamisen asemesta.

Suomalaisesta Dublin Core –formaatista vastaa Helsingin yliopiston kirjasto, joka on ollut mukana formaatin kehittämisessä lähes alusta asti. Kansainvälisesti tämä työ on noteerattu siten, että kirjastolla on edustaja DCMI:n (Dublin Core Metadata Initiative) johtokunnassa (Board of Trustees) sekä DCMI Advisory Board’ssa.

Toukokuussa 2003 HYK valittiin Dublin Core Metadata Initiative’n ensimmäiseksi kansalliseksi tukikeskukseksi (national affiliate). Tukikeskuksen tehtäväluettelo perustuu pitkälle siihen työhön, jota HYK on jo tehnyt Dublin Coren tunnettuuden lisäämiseksi Suomessa. DC-formaattia käytetään Suomessa laajalti ministeriöistä Nokiaan, jonka dokumenttien hallintajärjestelmä on Dublin Core -pohjainen.

Kirjastoverkon kannalta mielenkiintoista on, että Dublin Core –formaatista rakennetaan KAMUT 2 –hankkeessa välinettä kirjastojen, arkistojen ja museoiden väliseen tiedonsiirtoon. Koska Internet on hävittänyt rajat organisaatioiden väliltä, on tärkeää että tiedonhakujakin voidaan tehdä erilaisista rekistereistä samanaikaisesti. Hankkeessa pyritään toteuttamaan semanttista webiä, jossa WWW:n sisällön merkitykset saadaan tietokoneen ymmärtämään muotoon. Tämä edellyttää Dublin Coren kaltaisia neutraaleja spesifikaatioita, jotka erilaiset organisaatiot voivat omaksua.

MARCin ja Dublin Coren ohella käytössä on muitakin merkittäviä bibliografisen datan formaatteja, kuten edellä mainittu kustantajien ONIX. Eri formaatteihin perustuvan kuvailutiedon yhteiskäyttö luo haasteita esimerkiksi tiedonhakuportaaleille ja perinteisille kirjastojärjestelmille, jos pyrimme hyödyntämään muissa organisaatioissa tehtyjä kuvailuja omassa luetteloinnissamme. Kansalliskirjasto tulee olemaan Suomessa se taho, johon kootaan eri formaatteihin liittyvää osaamista sekä rakennetaan välineitä tiedon vaihtamisen edellyttämiä välineitä.

Sitä mukaa kun perinteisten integroitujen kirjastojärjestelmien rinnalle tulee uusia järjestelmiä, kasvaa tarve myös uusien formaattien ja niiden vaihtoformaattien kehittämiseen. NISO Metasearch Initiativen Collection Description Task Force (NISO MI TG2), jonka puheenjohtajana allekirjoittaneella on ilo ja etuoikeus toimia, on käynnistänyt alkuvuodesta 2004 kahden uuden metadataformaatin kehittämisen. Ne ovat

Collection description metadata element set (kokoelmien kuvailun formaatti)
Service access description metadata element set (palvelujen kuvailun formaatti)

Kokoelmien kuvailun formaattia voidaan käyttää esimerkiksi HYK:n Fennican tai Slavican kaltaisten kansallisesti ja kenties kansainvälisestikin merkittävien kokoelmien kuvailuun. Tietokartta-hanke on kehittämässä yleisiä pelisääntöjä suomalaisten kokoelmien kuvailulle; formaatiksi se on valinnut Dublin Coren kokoelmien kuvailuun kehitetyn laajennuksen (http://www.dublincore.org/groups/collections/).

Palvelujen kuvailulla tarkoitetaan tässä tiedonhakuportaalien avulla tavoitettavissa olevien resurssien kuten tietokantojen teknisen käyttötavan kuvailua. Palvelukuvailu voidaan siis rakentaa esimerkiksi Helkan Z39.50-palvelimesta tai tietokannan WebVoyage-käyttöliittymästä. Erotuksena kokoelmien kuvailusta palvelujen kuvailut voidaan rakentaa ohjelmallisesti ainakin silloin kun käytetään Z39.50:ttä tai muuta tiedonhakustandardia. Samoin palvelukuvausten hyödyntäminen muuttuu ennen pitkää automaattiseksi; portaalit keräävät palvelujen kuvailuja verkosta ja muokkaavat ao. tietokannan käyttöliittymän kuvauksen mukaiseksi. Esimerkiksi jos Helkan Z39.50-palvelimen kuvaus sisältää – niin kuin sen pitäisi – tiedon siitä, mitä hakutermejä ja hakutermien kombinaatioita on luvallista käyttää, niin portaali sallii vain näiden termien soveltamisen ao. tietokannassa.

Huhtikuussa 2004 pidetyssä kokouksessaan TG2-ryhmä valitsi kokoelmien kuvailun formaatin perustaksi Dublin Coren kokoelmien kuvailuun tarkoitetun version. Mutta DC-formaatista ei tehty Prokrusteen vuodetta: ryhmä pidätti itselleen oikeuden ehdottaa uusia metadataelementtejä. Tätä kirjoitettaessa näyttää hyvin todennäköiseltä, että tulemme esittämään muun muassa kokoelman vahvuus –elementtiä, johon voitaisiin tallentaa ao. kokoelmien kehittämisessä käytetyn Conspectus-järjestelmän koodi. Lisäksi tuemme DC-kehittäjäryhmän jo aiemmin tekemää esitystä IsAvailableAt -kentän lisäämisestä; siihen tallennettaisiin linkki palveluun, jonka kautta kokoelma on käytettävissä.

Palvelukuvauksessa, jonka pohjaksi valittiin Z39.50 International Next Generation –kehittämishankkeessa rakennettu ZeeRex-määritys (http://explain.z3950.org/), tulee vastaavasti olla kenttä MakesAvailable. Se sisältää linkin niiden kokoelmien ja kokoelmien osien kuvauksiin, jotka ovat käytettävissä kuvatun palvelun kautta. Teknisesti palvelujen ja kokoelmien kuvailu vastaa emojen ja osakohteiden kuvailua; kunkin palvelun takaa löytyy yksi tai useampia kokoelmia, ja sama kokoelma voi olla käytettävissä yhden tai useamman palvelun kautta.

Kun semantiikasta eli formaattien metadataelementeistä on päästy sopuun, ryhmä rakentaa ainakin yhden vaihtoformaatin kummallekin formaatille. Avoinna on vielä toistaiseksi se, määritelläänkö vastaavat kentät myös muihin formaatteihin kuten MARCiin, ja jos niin tehdään, laajennetaanko MARC Bibliographic –määritystä vai rakennetaanko yksi tai kaksi uutta MARC-formaattia. Todennäköisin vaihtoehto on MARC Bibliographic –laajennus.

Tiedonhakustandardit

Hakujen siirtäminen järjestelmästä toiseen (esimerkiksi MetaLib-portaalista Oulun yliopiston kirjaston Voyager-vetoiseen Z39.50-palvelimeen) edellyttää, että hakulogiikka ja –termit voidaan esittää laitteisto- ja ohjelmistoriippumattomassa muodossa. Integroiduissa kirjastojärjestelmissä sovelletaan tähän tarkoitukseen Z39.50-tiedonhakustandardia. Tällä standardilla on keskeinen rooli esimerkiksi tiedonhakuportaalissa; jos jokainen kohdejärjestelmä soveltaisi ikiomaa hakumenetelmää, portaalin kehittäminen ja ylläpito olisi hyvin vaivalloista. Pienikin muutos kohdejärjestelmässä voisi estää sen käytön portaalin kautta kokonaan.

Z39.50-standardia ylläpitää Kongressin kirjasto, ja se on paitsi amerikkalainen kansallinen standardi – ylläpitäjänään NISO -, myös ISO-standardi (ISO 23950). Z39.50-tuki on rakennettu lähes kaikkiin kirjastojärjestelmiin, ja esimerkiksi keskeiset kotimaiset järjestelmätoimittajat TietoEnator ja ATP tukevat sitä. Sen vuoksi kirjastot voivat tehdä yhteistyötä organisaatiorajojen yli; saman alueen kirjastojen järjestelmistä voidaan tehdä yhteishaku. Käytännössä yhteishaun tehoa syövät sekä Z39.50-toteutusten puutteet ja eroavuudet että monet muut eroavuudet kirjastojen järjestelmien välillä esimerkiksi siinä, miten MARC-data on indeksoitu.

Z39.50-standardin rinnalle ollaan Metasearch Initiativessa kehittämässä uutta Web-pohjaista standardia, jonka pohjaksi on valittu ZING-kehittämishankkeessa (Z39.50 International Next Generation; http://www.loc.gov/z3950/agency/zing/zing-home.html) luotu SRW/SRU, Search/Retrieve for the Web. Sen sovelluskohteita ovat mm. tiedonhakuportaalit ja digitaalisten objektien hallintajärjestelmät, joihin SRW/SRU sopii teknisesti edeltäjäänsä oleellisesti helpommin Web-pohjaisuutensa ansiosta. Käyttäjä ei tiedä eikä voisi vähempää välittää siitä, soveltaako standardi XML:ää vai ASN.1/BER-koodausta datan siirrossa; ohjelmistotoimittajalle Z39.50:n vaatimus jälkimmäisen datan koodaustavan käytöstä on melkoinen haaste.

Internetin vaikutuksesta on muutaman viime vuoden aikana kehitetty ja otettu käyttöön standardeja, joiden varaan on voitu rakentaa uudentyyppisiä palveluita. OAI-PMH (Open Archives Initiative – Protocol for Metadata Harvesting) mahdollistaa sen, että bibliografisista tietokannoista – esimerkiksi yliopistojen julkaisurekistereistä – voidaan poimia kuvailutiedot yhteisluetteloihin. Tämä tulee parantamaan suomalaisten yliopistojen julkaisujen tunnettuutta maailmalla sitten, kun OAI-PMH:n varaan rakennetut kansainväliset verkostot ovat tuotantokäytössä. OAI-PMH:ta voidaan soveltaa myös palvelujen ja kokoelmien kuvailujen vaihtoon; sen sijaan että ylläpidettäisiin massiivista kokoelmien kuvausten keskusrekisteriä, portaaleja ylläpitävät organisaatiot voivat luoda tietojen vaihtoon perustuvan verkoston. Edellytyksenä tälle on kuvailujen laadinta sillä tavoin, että ne hyödyttävät paitsi kotimaisia, myös kansainvälisiä käyttäjiä.

OpenURL on kehitteillä oleva NISO-standardi, joka mahdollistaa viitteen ja verkossa olevan julkaisun dynaamisen linkittämisen. Toisin sanoen julkaisun useista verkossa olevista kopioista kirjaston asiakas näkee vain sen/ne, johon hänellä on käyttöoikeus.

Triangelisovellukset (kirjastojärjestelmä Voyager, tiedonhakuportaali MetaLib sekä digitaalisten objektien hallintajärjestelmä DOMS) tukevat tai tulevat lähitulevaisuudessa tukemaan OAI-PMH:ta, OpenURL:ää sekä Z39.50/ZINGiä. Näiden ja muiden standardien avulla nämä kolme sovellusta muodostavat asiakkaan näkökulmasta enemmän tai vähemmän yhtenäisen kokonaisuuden. Standardirajapintojen avulla kirjastosovellukset voidaan liittää myös muihin yliopistojen ja ammattikorkeakoulujen järjestelmiin, kuten oppimateriaalin hallintasovelluksiin tai HST-YA:han. Jotta triangeli saataisiin toimimaan hyvin, on "rajapintaohjelmistojen" laatu saatava riittävän hyväksi, ja toisaalta kirjastojen on pystyttävä hyödyntämään uusien sovellusten kaikkia verkon toiminnan kannalta tärkeitä ominaisuuksia.

Käytännön esimerkki huonosti toimivasta "rajapintasovelluksesta" on Voyagerin Z39.50-palvelin. Kongressin kirjastossa on kantapään kautta havaittu, että sovelluksessa on runsaasti teknisiä ongelmia, joiden korjaaminen on osoittautunut hankalaksi, ja jotka tuottavat tuskaa silloin jos käyttöä tai käyttäjiä on paljon. Palvelin ei esimerkiksi kyennyt hoitamaan enempää kuin 255 samanaikaista käyttäjää. Yhteistyössä tanskalaisen Index Data –yrityksen kanssa Kongressin kirjasto kehitti ohjelman, joka "neutraloi" Voyagerin ongelmat. Ohjelmisto on ollut jo jonkin aikaa tuotantokäytössä Kongressin kirjaston Z39.50-palvelimen "päällystakkina", erinomaisin tuloksin.

HYK on neuvotellut kevään 2004 mittaan käytännössä valmiiksi sopimuksen, jonka nojalla Index Datan ohjelmisto otetaan käyttöön Lindassa siten muutettuna, että erityisesti Linnea-verkkoa vaivannut formaattiongelma (palvelin lähettää MARC21-Fin –tietueita MARC21:n asemesta) korjataan. Muutkin Voyager-kirjastot voivat ottaa tämän ohjelman käyttöön, ja maksaa tarvitsee vain niiden jotka haluavat ohjelmistoon tuen. Index Datan yleisen toimintaperiaatteen mukaan kaikki heidän ohjelmistonsa, siis myös Kongressin kirjastolle rakennettu Voyager-erikoisviritys, ovat maksutta kaikkien käytettävissä.

Muutamia vuosia jatkuneen hiljaiselon jälkeen tiedonhakustandardien kehittäminen on siis portaalien ansiosta käynnistynyt uudelleen, samalla kun tarve parantaa kirjastojärjestelmien Z39.50-toteutuksia on nopeasti voimistunut. Kirjastojen on tarpeen seurata aktiivisesti tätä kehitystä, ja huolehtia siitä että talossa on ainakin yksi ja mieluimmin useita henkilöitä jotka osaavat konfiguroida portaaliin Z39.50-tietokannan. Spesifikaation tekeminen oikein onnistuu vain jos tietää tarkasti mitä on tekemässä.

Tunnisteet

International Standard Book Number (ISBN) ja International Standard Serial Number (ISSN) ovat tuttuja monille maallikoillekin. Vähemmän tuttua on se, että elektronisen julkaisemisen myötä nämä kaksi järjestelmää eivät enää riitä, vaan niiden rinnalle on rakennettu joukko uusia standardeja. Lisäksi sekä ISSN- että ISBN-järjestelmään kohdistuu suuria muutospaineita; molempien tunnusten rakennetta ja käyttötapaa voidaan joutua muuttamaan.

Verkossa ei enää tarvitse noutaa koko lehteä, vaan asiakas pääsee käsiksi suoraan artikkeleihin. Kirjatkin voidaan pilkkoa luvuiksi. Niinpä ISSN:n rinnalle on luotu artikkeleiden ID-tunniste SICI (Serial Item and Contribution Identifier) ja ISBN:n täydennykseksi ollaan rakentamassa BICI-järjestelmää.

Sama teos voi Internetissä (ja painettunakin) olla käytettävissä monissa eri muodoissa ja painoksina. Suomessa voisimme kutsua tätä probleemaa Väinö Linna –ongelmaksi; esimerkiksi haku Fennicasta nimekkeellä Täällä pohjantähden alla tuottaa 76 ilmiasutason viitettä, jotka pohjimmiltaan ovat yksi ja sama teos. Ratkaisu tähän ongelmaan on teostason kuvailun erottaminen ilmiasuista. Kaksitasoiseksi muutettu kansallisbibliografia toimisi niin, että teostasolla Väinö Linnan tuotannosta näkyisivät vain hänen teostensa nimet (suomeksi ja käännöksinä) ja vasta kun asiakas valitsisi haluamansa teoksen, hän saisi näytölle sen eri ilmiasut.

Teosten ja niiden ilmiasujen tietojen erottaminen toisistaan tulee olemaan yksi lähivuosien merkittävimmistä haasteista kirjastoatk:ssa. Tälle operaatiolle on tarvetta: sen lisäksi että asiakaspalvelu paranee, kirjaketju ja tekijänoikeusjärjestöt voivat hallita tehokkaammin elektronisten aineistojen käyttöä. FRBR-mallia (Functional Requirement for Bibliographic Records) tukevia kirjastojärjestelmiä on toistaiseksi vasta yksi (VTLS:n Virtua), minkä lisäksi OCLC:n WorldCat-yhteisluetteloon saadaan FRBR-tuki näillä näkymin vuonna 2005. HYK on neuvotellut OCLC:n kanssa Fennica-tietueiden siirtämisestä WorldCat-kantaan sekä teostason tietojen luonnista; päätös yhteistyöhankkeen aloittamisesta tehtiin kirjaston johtoryhmässä toukokuussa 2004.

Teostason tiedot on pakko identifioida, jotta ne olisivat tehokkaasti haettavissa. ISO TC 46 rakentaa teoksille kansainväliset identifikaatiotunnusjärjestelmät, joita voi merkitykseltään verrata ISBN:ään ja ISSN:ään. Näitä uusia järjestelmiä ovat muun muassa ISAN (International Standard Audiovisual Number) sekä ISTC (International Standard Text Code), jonka kehitystyöhön HYK on osallistunut aktiivisesti. Muutamat näistä tunnusjärjestelmistä ovat jo valmiita - esimerkiksi ISAN-tunnus - toisten ollessa vasta rakenteilla. ISTC oli toukokuussa 2004 vasta ISO:n Committee Draft; sen siirtyminen Draft International Standard –tasolle oli kiinni vain kansainvälisen ISTC-keskuksen valinnasta, joka tehdään kesällä 2004. Tarjokkaita on kaksi, OCLC ja kahden kustantajan ja tekijänoikeusjärjestön muodostama konsortio. OCLC:n tarjous on tietokantapalveluissa tehdyn analyysin mukaan selvästi kilpailevaa tarjousta parempi.

Muutaman vuoden sisällä kaikki teosten identifikaatiotunnisteet ovat valmiita ISO-standardeja, ja ISO:n jäsenmaiden odotetaan luovan tarvittavat kansalliset tunnuskeskukset. Koska esimerkiksi ISTC-järjestelmä voi paisua hyvin laajaksi – periaatteessa tunnuksen voi antaa mille tahansa tekstimuotoiselle teokselle, mukaan lukien vaikkapa artikkelit – sen jakelu ja ISTC-rekisterin ylläpito voi Suomenkin kokoisessa maassa vaatia paljon henkilö- ja muita resursseja. Rahoitetaanko ne budjettivaroin vai maksullistamalla ISTC-jakelu on vielä auki, mutta koska jo jokaisesta annetusta ISTC-tunnuksesta on maksettava korvaus kansainväliselle ISTC-keskukselle (molemmissa tarjouksissa tunnusjakelu on maksullista) ISTC-tunnuksesta tuskin saadaan kokonaan maksutonta.

Suomessa tarvitaan päätöksiä uusien standarditunnusjärjestelmien kansallisten keskusten perustamisesta, sijoituspaikasta sekä periaatelinjaus toiminnan maksullisuudesta / maksuttomuudesta. ISTC kuuluu selkeästi kansalliskirjaston vastuulle, koska kansallisbibliografia ja Arto-tietokanta sekä kirjaston muutamat muut järjestelmät sisältävät kattavasti tietoa tekstimuotoisten teosten ilmiasuista. Muiden järjestelmien osalta on syytä selvittää tarjolla olevat ylläpitäjävaihtoehdot tarkoin.

Lisätietoja termeistä ja yhteisöistä »

Tietolinja 01/2004

Juha Hakala, Kehittämisjohtaja
Helsingin yliopiston kirjasto
PL 26, 00014 HELSINGIN YLIOPISTO
Email: juha.hakala osoitteessa @helsinki.fi