Tietolinja

Tietolinja
2/1998


PÄÄKIRJOITUS

ARTIKKELIT


UUTISIA,
AJANKOHTAISTA

FINMARC ja USMARC : kehitysnäkymiä

Arne Hedman ja Liisa Sten


Keskustelu formaateista on noussut viime aikoina pinnalle. Paitsi kysymystä siitä tarvitaanko tulevaisuudessa "perinteisiä" MARC-formaatteja lainkaan vai korvataanko ne jollain muulla (metadata) formaatilla, on Suomessa odotettu tuloksia USMARCin, UKMARCin ja CANMARCin yhdistymispyrkimyksistä. Yliopistojen uuden kirjasto- järjestelmän valinnan yhteydessä joudumme myös ottamaan kantaa siihen, millainen MARC on sopivin Suomen kansallisena formaattina.

1. USMARC ja FINMARC

1960-luvun lopulla syntyneet MARC-luettelointiformaatit pohjautuvat kansainvälisiin kuvailustandardeihin (ISBD) ja angloamerikkalaisiin luettelointisääntöihin. Koska britit ja amerikkalaiset loivat säännöistä omat tulkintansa ja formaatti USA:ssa oli ensisijassa luettelokorttien ja Englannissa painettujen bibliografioiden tuottamiseen tarkoitettu, syntyi kaksi formaattia USMARC ja UKMARC ja niihin pohjautuvia versioita eri maissa.

FINMARCin ensimmäinen vuosikymmen seitsemänkymmenluvun puolivälistä eteenpäin oli korkeakoulukirjastojen käyttämän brittiläisen luettelointijärjestelmän (LSP) myötä hyvin UKMARC-sidonnainen. FINMARC(M):n aineistovalikoima rajoittui kirjoihin ja karttoihin. Muita tarpeita ( artikkelit, kausijulkaisut ja äänitteet) varten luotiin erillisiä räätälöityjä FINMARC-formaatteja.

Kongressin kirjaston luoma USMARC kehittyi 1980-luvun jälkipuoliskolta alkaen kohti yhtenäisformaattia (integrated format), jonka keskeinen periaate on, että kaikki bibliografiset aineistot ovat samoissa kansissa ja samaa tietoelementtiä eri aineistoissa vastaa yksi yhteinen kenttä. Tämä kehitystyö sattui samaan aikaan kun meillä yliopistokirjastoille valittiin uutta integroitua kirjastojärjestelmää. Valituksi tullut VTLS-järjestelmä hyödyntää laajasti USMARC-formaattiperhettä. Bibliografisen formaatin lisäksi siinä on käytössä auktoriteettiformaatti (Authority Format) ja varastotietojen formaatti (Holdings Format). VTLS oli ensimmäisiä kirjastojärjestelmiä niiden joukossa, jotka ottivat aikanaan käyttöön USMARC Holdings formaatin.

USMARCin voimakas vaikutus FINMARCiin alkoi 1980-luvun loppupuolella. Sekä järjestelmävalinta että yhtenäisformaattiajattelu sysäsivät liikkeelle FINMARCin kehityksen, joka vuosina 1989-1996 tuotti sekä FINMARC-yhtenäisformaatin kaikille aineistoille arkistoista atk-tallenteisiin että auktoriteettiformaatin (1991, 1995). Viimeksimainittu on USMARCin mukaeltu lyhennelmä, jossa kenttien sisäinen rakenne on FINMARC-bibliografiaformaatin mukainen. FINMARC-varastotietojen formaatti (1991) on hyvin uskollinen lyhennelmä USMARCista.

FINMARCin, jota on myös UKMARC/USMARC-hybridiksi nimitelty, on pyritty nappaamaan parhaat puolet kummastakin formaatista ja lisätty jonkin verran kansallisia piirteitä. Tärkein filosofinen rakenne-ero FINMARCin (UKMARCin) ja USMARCin välillä on kenttien sisäinen rakenne. FINMARCissa osakenttäjako noudattaa kansainvälisen kuvailustandardin ja Suomalaisten luettellointisääntöjen mukaista jakautumista tietoelementtehin, jolloin tietoementtien väliset standardinmukaiset välimerkit voidaan tuottaa lähes kokonaan ohjelmallisesti. USMARCissa sensijaan osakentät on määritelty ensi sijassa hakuelementtien mukaisiksi kokonaisuuksiksi. Osakenttien sisäiset ja väliset välimerkit tallennetaan luetteloitaessa manuaalisti itse. Kiinteämittaisten kenttien erilainen käyttö on johtanut mm. siihen, että ohjeet meillä ja USAssa verkkolehtien ja verkkokirjojen tallennuksesta poikkeavat toisistaan eli aineiston sisältöä ja muotoa painotetaan eri lailla.

Suomessa on otettu käyttöön yksi kansallinen formaatti koko kirjastokentässä sekä tieteellisissä, yleisissä että erikoiskirjastoissa. Tietueiden vaihtomuotostandardin (ISO 2709) sekä yhteisen formaatin avulla on kansallisten yhteisluetteloiden rakentaminen ollut mahdollista kohtuullisin ponnisteluin jo ennen tiedonsiirtoon tarkoitettujen asiakas-palvelin sovellusten ( Z39.50) yleistymistä.

1.1 Tulevaisuuden kansallinen formaatti

Mikä on FINMARCin asema tulevaisuudessa? Asia on selvitettävä ja päätettävä lähiaikoina. Vaihtoehtoja on kaksi: jatketaan FINMARCin kehittämistä tai siirrytään USMARCin kansalliseen versioon. Lähtökohtana on tietenkin se, että teknisesti on voitava turvata valmiiden tietueiden kopiointi niin ulkomaisista kuin kotimaistenkin kirjastojärjestelmien tietokannoista asiakas-palvelin ja Z39.50 -tiedonsiirtostandardin avulla formaatista riippumatta eli ns. konversio-ohjelmista FINMARCin, USMARCin ja UNIMARCin välillä on joka tapauksessa pidettävä huolta.

Tulevassa keskustelussa mahdollisesta formaatinvaihdosta ovat taloudelliset tekijät tietenkin hyvin keskeisiä. Formaatinvaihdon antama mahdollinen hyöty siirryttäessä uuteen kirjastojärjestelmään yliopistokirjastoissa on punnittava vasten kaikkia niitä kustannuksia, joita syntyy formaatinvaihdosta koko kirjastoyhteisössä. Teknisten ja taloudellisten kysymysten lisäksi on huomioitava laatukysymykset, mm. välimerkityksen painoarvo ja kansallisten tietoelementtien (esim. alkuteoksen nimeke, elokuvien tarkastus, opinnäytteet, laulujen alkusanat, arvostelut jne) merkitys. On myös mietittävä, minkälaista kansallista kirjastopolitiikkaa halutaan eli miten tärkeänä pidetään sitä, että maassa käytetään yhtä yhteistä formaattia kaikissa kirjastoissa.

2. Kansainväliset trendit

MARC-formaattien mukaisia tietueita on luotu tuhansissa kirjastoissa satoja miljoonia kolmessakymmenessä vuodessa. Sinä aikana on tekninen ympäristö kirjastoissa suuresti muuttunut. Näyttöluettelot, tietuepoiminnat ja web-käyttöliittymät ja ydintietue (Functional requirements, core record) tuovat paineita pyrkiä yksinkertaisuuteen, yhdenmukaisuuteen ja hintatietoisuuteen.

MARC-rakenne sinänsä on joustava eikä ole este luetteloinnin yksinkertaistamiselle ja sitä kautta säästöihin. Palaaminen alkupisteeseen eli yhteen yhteiseen kansainväliseen formaattiin on ollut 90-luvun suuri haave, jolla oli jo nimikin iMARC (International MARC). Tavoitteena oli USMARCin, CANMARCin ja UKMARCin yhdistäminen, mutta yritys kaatui - ainakin toistaiseksi - lähinnä englantilaisten esittämiin välimerkitystä ja osien luettelointia koskeviin periaatteellisiin varauksiin. USMARCin, CANMARCin ja UKMARCin yhdenmukaistaminen on edennyt loppusuoralle USMARCin ja CANMARCin osalta. UKMARCin ja USMARCin peruserot: moniosaisten teosten käsittely ja välimerkkien tuottaminen tietueisiin ovat edelleen olemassa, joten täydellinen harmonisointi niiden kesken ei tällä hetkellä ole mahdollinen (Sally McCallum). Tällä hetkellä työskentelee helmikuussa 1997 aloittanut työryhmä 'pienten askelten politiikan' mukaisesti tavoitteenaan 'Harmonized MARC'. Tämän vuoden helmikuussa lausunnolle lähetetty lista UKMARCin ehdotetuista muutoksista kertoo sen, että muutosehdotukset koskevat hyvin pieniä yksityiskohtia yhtä lukuunottamatta. Tämä elektronisen julkaisun tunnusta (URN) koskeva muutos on jo toteutettu FINMARCin uusimmassa päivityksessä.

Valtaosa FINMARC-yhtenäisformaattiin 90-luvulla otetuista tietoelementeistä on saatu kokonaan tai lähes kokonaan USMARCista, jonka suosio kansallisena formaattina maailmalla on lisääntynyt viime aikoina. Etelä-Afrikka on siirtynyt USMARCiin UNIMARCista eli kansainvälisestä vaihtoformaatista, jota voi kutsua USMARCin riisutuksi versioksi, Ruotsi muokkaa LIBRISMARCia lähemmäksi USMARCia (uuden formaatin työnimenä on LIBMARC), Viron kansalliskirjasto on ottanut sen käyttöönsä ja Tanska aikoo ottaa seuraavassa uudistusvaiheessa.

USMARCin kasvavan suosion salaisuus johtuu todennäköisesti neljästä seikasta: suuri määrä valmiita tietueita saatavissa (ainakin pian), amerikkalaisten kirjastojärjestelmien hallitseva asema markkinoilla, laaja formaattivalikoima ja USMARCin kehittäjien muita suuremmat resurssit. Mikään USMARCin käyttöön siirtyvä maa tulee tuskin toimeen pelkän alkuperäisen USMARCin kanssa. Tarvitaan todennäköisesti ns. kansallinen sovellus formaatista ja /tai sovellusoppaita.

Suurimmat haasteet MARCien kehittämiselle asettaa elektronisten julkaisujen luettelointi. Ns. metadataformaatit (SGML, Dublin Core), joiden avulla verkkojulkaisujen luettelointitaakkaa toivotaan siirrettävän julkaisun sisällön alkuperäisille tekijöille, ovat MARCin kilpailijoita, joita MARC-maailman on opittava hyödyntämään. Metadatan ja MARCin välisiä konversio-ohjelmia testataan jo käytännössä. Uusi teospohjainen luettelointifilosofia on tulossa todennäköisesti vallitsevaksi lähivuosina (vuosikymmeninä). Silloin tarvitsemme nykyistä parempia linkkausmahdollisuuksia teoksen eri ilmiasujen välille.

MARCin käyttö voi laajeta, jos MARC löytää uusia käyttäjiä kirjastomaailman ulkopuolelta. Yhteistä kieltä kirjastojen, arkistojen ja museoiden välillä on Suomessakin opeteltu. Ns. KAMUT-projektissa löydettiin n. 20 tietoelementtiä, joiden avulla kaikkien kulttuurilaitosten luetteloitava aineisto voitaisiin kuvailla siten, että taso riittäisi yhteisluetteloissa tiedonhakuun ja identifiointiin. MUISTI-projektissa, jossa tavoitteena on kotimaisen kulttuuriperinnön käyttöön saattaminen uuden tekniikan avulla, käytettiin hyväksi 'kamut-tietoelementtejä' kaikille yhteisen FINMARC-formaattipohjan luomisessa.

3. USMARC tänään ja huomenna

Tässä luvussa esitetyt USMARCia koskevat tiedot perustuvat Sally McCallumin (johtaja, Network Development and MARC standards Office, Library of Congress) esityksiin USMARC Seminaarissa Helsingissä 18.-20.5.1998.

3.1 USMARC-perheen uudet formaatit

USMARC Bibliographic, Holdings ja Authority formaattien lisäksi USMARC tarjoaa käytettäväksi uudet Classification ja Community Information formaatit. Luokitusten auktoriteettivalvonta on tähän mennessä sisällytetty meillä Suomessa auktoriteettiformaattiin ja tuntuisi luontevalta, jos myös amerikkalaiset olisivat sisällyttäneet luokitukset jo olevaan USMARC Authority Format'iin. Sen sijaan asiakastietojen formaattitilanne (Patron Format) on edelleen avoin. Siitä ei ole tulossa USMARC-formaattia, mutta NISO standardi (amerikkalainen kansallinen standardi) sen tietoelementeistä on ilmeisesti tekeillä. Ongelmana formaatin suunnittelussa ja käyttöönotossa ovat intimiteettisuojaan liittyvät asiat.

3.2 Luetteloinnin taloudellisuus ja tietueiden oleelliset tiedot

Luettelointityön taloudellisuus on keskeistä myös Kongressin kirjastossa. Toisaalta, vaikka LC:n luetteloinnissa ollaan siirtymässä ns. "full record"ista suppeampaan "core record"iin, kiinteämitaisten kenttien tallennus koetaan tärkeäksi.

Tietueiden identifiointiin käytetään USMARCissa useita eri kontrollinumeroita. Kansainvälisessä tietueiden vaihdossa on välttämätöntä ymmärtää eri kontrollinumeroiden funktiot:

  • 001 on oman kirjastojärjestelmän käyttämä kontrollinumero
  • 003 on järjestelmän automaattisesti antama kontrollinumero
  • 035 on toisesta tietokannasta kopioidun tietueen alkuperäinen (järjestelmän antama) kontrollinumero
  • 010 on kansallisbibliografian käyttämä numero (NBN)
  • 016 on toisen kansallisbibliografian käyttämä kansallinen numero (esim. kopioidussa tietueessa)

Kaikki kiinteämittaisen 008-kentän koodit tallennetaan Kongressin kirjaston tietokantaan haun ja haun rajauksen helpottamiseksi. Sally McCallum korosti, että haun luotettavuuden kannalta on tärkeää, että 008-kentän koodit tallennetaan aina eikä vain satunnaisesti. Sen sijaan 006- ja 007-kenttien koodien käyttö on Kongressin kirjastossa vähäisempää. Indikaattoreita ei myöskään käytetä ellei niistä ole selvää hyötyä. Myös meillä ARTO-tietokannan tallennuksessa on "turhista" indikaattoreista luovuttu jo artikkelitallennuksen alusta asti.

3.3 Välimerkitys ja moniosaisten teosten käsittely

Kuten aiemmin on jo mainittu, keskeisiä eroja USMARCin ja esim. FINMARCin välillä ovat välimerkitys ja moniosaisten teosten käsittely. Välimerkitystä koskevat eroavuudet on jo käsitelty luvussa 1. USMARC ja FINMARC. Ajatus välimerkkien tallentamisesta ei ihastuta esim. Linnea-kirjastojen luetteloijia, jotka ovat tottuneet saamaan välimerkit automaattisesti (kirjastojärjestelmän parametreissa määriteltyinä) esim. korttinäyttöihin. Toisena huolen aiheena tuntuu olevan se, että kotimaisten tietokantojen nykyiseen "puhtaaseen" kuvailutietoon tulisivat välimerkit osana dataa.

USMARC formaatin rakenteen mukaisesti esim. moniosaisen teoksen kytkentä teoskokonaisuuden yhteiseen nimeen, monografiasarjan osien kytkentä sarjan nimeen sekä osakohteiden kytkentä emojulkaisuun tapahtuu ns. linkkikenttien avulla. Meille on jo FINMARCista tuttu osakohteiden kenttä 773, jonka avulla osakohteet ja emojulkaisut linkittyvät keskenään. USMARC tarjoaa lisäksi moniosaisille teoksille oman linkkikentän 774 ja kausijulkaisujen supplementeille linkkikentän 772, mutta Sally McCallumin mukaan 773 -kenttää voi käyttää minkä tahansa emojulkaisun (any host) ja siihen liittyvän osan linkittämiseen. Moniosaisen teoksen käsittely olisi siis USMARCin mukaan tallennettaessa ja haettaessa saman tapaista kuin nyt osakohteiden tallennus ja haku ARTOssa ja VIOLAssa..

3.4 Auktoriteettiformaatti

USMARC Authority Format on ulkonaisesti vaikuttavan näköinen julkaisu verrattuna suomalaiseen sovellutukseen. Tosiasiallisesti ei edes Kongressin kirjasto käytä kattavasti sen paremmin kiinteän kuin vaihtuvamittaisten kenttienkään koko kirjoa. On mahdollista tulla toimeen suppeammalla kenttävalikoimalla suomalaisen sovellutuksen tapaan. Mm. "complex cross references", jotka nimensä mukaisesti näyttävät monimutkaisilta, ovat Kongressin kirjastossa hyvin vähän käytössä ja ne voi korvata tavallisilla "katso" ja "katso myös" -tyyppisillä viittauksilla. Nykyisen suomalaisen auktoriteettiformaatti -sovelluksen hengen mukaisesti ei ole tähänkään mennessä ollut kiellettyä käyttää muita USMARC Authority Format'in mukaisia koodeja ja kenttiä kuin suomalaiseen lyhennelmään listattuja. Lisäpiirteitä kannattaa edelleen harkitusti ottaa käyttöön, mikäli niistä on hyötyä auktoriteettivalvonnassa tai käytössä olevan järjestelmän toimivuudelle. Mm. linkkikentät tuntuvat antavan mielenkiintoisia uusia mahdollisuuksia. Uusittu "suomalainen" auktoriteettiformaatti lienee myös jatkossa tarpeen.

USMARC Authority formaatin kiinteämittaisten kenttien "kansalliskirjasto" -koodia voi käyttää myös suomalaista kansalliskirjastoa tarkoittamaan, vaikka formaatin alkuperäisellä koodilla tarkoitetaan Kongressin kirjastoa. Eri kansalliskirjastoista peräisin olevat auktoriteettitietueet voidaan erottaa em. "toisen kansalliskirjaston" identifikaationumerolla kentässä 016. Auktoriteettitietueiden identifikaationumeroiden käyttötapa vastaa muutoinkin bibliografisten tietueiden kenttärakennetta.

Auktoriteettitietueesta vastaavan organisaation identifiointi tehdään kentässä 040. Siinä on mahdollista ilmoittaa useampia kuin yksi vastuuorganisaatio toisin kuin kiinteämittaisen kentän tiedoissa. Kongressin kirjasto koodaa hyvin tarkasti paitsi auktoriteettitietueen alkuperäisen antajan myös jokaisen organisaation, joka tekee muutoksia a.o. termiin.

3.5 Monikielisyys

Vaikka USA on monikielinen maa, ei Kongressin kirjasto ole ollut kovin kiinnostunut monikielisten termien hallinnasta auktoriteettivalvonnan avulla. Harmonisointi CANMARCin kanssa on tehnyt monikielisyyden kuitenkin ajankohtaiseksi. Erikielisten auktoriteettitermien käsittelystä on ohessa kolme vaihtoehtoista esimerkkiä.

1. Yksi ohjeellinen termi auktoriteettitietueessa. Muunkieliset termit viittauksina muiden viittausten joukossa (LC:n malli). Sally McCallum ei pitänyt merkityksellisenä ilmaista, mistä kielestä on kulloinkin kysymys. Kieli sinänsä on mahdollista ilmaista osakentässä $9 standardin mukaisen kielikoodin avulla.

1XX sana
4XX/5XX ord
4XX/5XX word
4XX katso-viittaus
4XX se hänvisning
4XX see reference
5XX ks. myös -viittaus
jne.

2. Erikieliset termit ohjeellisina ja niihin liittyvät muut kuin kielelliset muodot viittauksina (Kanadan malli). Tässä mallissa on mahdollista määritellä "ensisijainen" termi toistuvien 1XX-kenttien termien joukosta.

1XX sana
1XX ord
1XX word
4XX katso-viittaus
4XX se hänvisning
4XX see reference
5XX ks. myös -viittaus
jne.

3. Erikieliset termit omina tietueinaan (ei kieleen perustuvine) viittauksineen. Linkkikenttä yhdistää erikieliset termit toisiinsa.

1XX sana1XX or 1XX word
4XX katso-viittaus 4XX se hänvisning4XX see reference
5XX ks. myös -viittaus 5XX se också 5XX see also
7XX ord 7XX sana7XX sana
7XX word7XX word7XX ord

Tämä kolmas malli muistuttaa sitä rakennetta, jota olemme alustavasti kaavailleet tulevaisuuden YSA/Allärs -tietokantaan.

4. Lopuksi

Suuruudestaan ja laajasta käyttäjäpiiristään huolimatta on USMARCin käyttäjillä selvästi vaikutusmahdollisuuksia formaatin kehittämiseen. Luonnollisesti USMARC näyttää meidän silmissämme amerikkalaiselta, se näkyy mm. koodeissa, tavassa käsitellä maantieteellisiä nimiä ym. Sikäli UKMARC-pohjaiset pohjoismaiset MARCit tuntuvat "kansainvälisemmiltä". USMARCia kehitetään kuitenkin aktiivisesti ja kehityksen myötä se todennäköisesti yhä kansainvälistyy. Kansallisten MARCien elämä erillisinä saarekkeina on joka tapauksessa ohi. Jos formaatit eivät voi suoranaisesti yhdistyä, niiden on kuitenkin tehtävä yhteistyötä, yhdenmukaistuttava mahdollisuuksien mukaan ja annettava välineet tiedonsaantiin ja tietueiden vaihtoon koko maailman laajuisesti.

Arne Hedman, pääsuunnittelija
Helsingin yliopiston kirjasto
Email: Arne.Hedman@helsinki.fi

Liisa Sten, sovellussuunnittelija
Helsingin yliopiston kirjasto
Email: Liisa.Sten@helsinki.fi

Tietolinja /1998