Tietolinja

Tietolinja
02/2004

Urkki tapaa Dorian

ENCompass-ohjelmiston käyttöönotto etenee hyvää vauhtia

Esa-Pekka Keskitalo ja Pasi Kurvinen
Helsingin yliopiston kirjasto

URN:NBN:fi-fe20042323


Pääkirjoitus
Artikkelit
Uutisia,
ajankohtaista


Digitaalisen aineiston hallintajärjestelmän rakentamisessa on päästy tuumasta toimeen. ENCompass for Digital Collections -ohjelmisto asennettiin syyskuun alussa, ja työt sen kanssa alkoivat välittömästi.

Parhaiden perinteiden mukaisesti palvelulle on haluttu antaa myös nimi. DOMS on oikeastaan yleisnimi ja vaikutti orvolta Artojen, Lindojen ja Helkojen keskellä. Jonkin aikaa ehdittiin käyttää nimeä Doris, mutta se osoittautui huonoksi päällekkäisyyksien takia.

Tästä lähtien nimi onkin siksi DORIA.

Aivan ensimmäiseksi käyttäjäksi ehti Helsingin yliopiston kulttuurien tutkimuksen laitos, joka digitoi sekä kuvailee ja tallentaa ENCompassiin tutkimusarkistoaan Suomen Akatemian tukemassa projektissa. Varsin mittava työ on aloitettu valokuvamateriaaleista, jotka ovat varsin keskeisiä esim. arkeologiassa ja kansatieteessä. Hankkeen tiukan aikataulun takia laitoksen henkilökunnalle annettiin tallennuksen pikakoulutus heti, kun ENCompass oli saatu pystyyn. Alku on sujunut varsin hyvin, vaikka pioneerin osana tietenkin on ensimmäisenä törmätä monenlaisiin ongelmiinkin.

Arkistojen kuvailussa käytetään Dublin Core -formaattia. Digitoidun aineiston kyseessä ollessa myös formaatin soveltamisessa tulee esiin uudenlaisia tapauksia. Esimerkiksi kopion ja originaalin kuvailun erottaminen ei olekaan aivan yksioikoista. On ilmeistä, että Dublin Corelle tulee kehittää yhtenäisiä sovellusohjeita erilaisia tilanteita varten. Digitaalinen aineisto on monimuotoista, eikä sen kuvailu voi aina tukeutua olemassa oleviin käytäntöihin.

 

UKK:n julkaistu kirjallinen tuotanto verkkoon

Urho Kekkosen koko julkaistu tuotanto on siirretty ENCompassiin. Kuten tunnettua, Kekkonen kirjoitti ahkerasti, ja tuotannon kaari ulottuu 1910-luvulta 1980-luvulle: tietueita kertyy noin 4 500. Tietokannan julkistaminen tapahtuu ensi vuoden puolella.

Aineisto juontaa juurensa UKK:n kuoleman jälkeen alkaneeseen hankkeeseen, jonka tarkoituksena oli hänen koko kirjallisen tuotantonsa julkisaattaminen. Aineiston saamisesta myös elektroniseen muotoon tehtiin periaatepäätös jo niinkin aikaisin kuin 1992. Toimitustyön tulosta ovat useat viimeisen 10 vuoden aikana Otavan kustantamina ilmestyneet Kekkosen tuotantoa popularisoineet kirjat, esim. Rakas Häiskä (1997), Rillit pois ja riman yli (1999) ja Viidesti pääministeri (2000) .

Vastuu elektronisesta aineistosta ja sen julkaisemisesta siirtyi Kansalliskirjastolle syksyllä 2003. Taittoteknisessä ympäristössä tuotetun aineiston kanssa riitti kohtuullisesti puuhaa. Koska prosessi on hyvä esimerkki aineistojen käsittelystä, kuvaamme sen tässä.

Aluksi aineistoon kuuluvat julkaisut luetteloitiin kotimaisten artikkelien viitetietokantaan, Artoon; samalla täydennettiin asiasanoitusta ja tarkistettiin tietoja. Artoon tehdyn tietueen saamasta juoksevasta numerosta (bib-id) johdettiin nk. UKK-numero, joka lisättiin kuvailuun (kenttään 036) ja jota käytettiin prosessissa tunnisteena.

Artosta voitiin sitten poimia aineistoa koskevat kuvailutiedot MARCina. Se muunnettiin edelleen MARC XML:ksi Kongressin Kirjaston MARCXML Toolkitillä (http://www.loc.gov/standards/marcxml/). Kun metadata oli näin saatu XML-muotoiseksi, saatoimme vielä muokata kuvailutietoja XSL-muunnosten avulla.

Aineisto saatiin Otavalta tekstitiedostona, jossa olivat sekä kuvailutiedot että kokoteksti. Kokotekstiosuudet eroteltiin tiedostosta erillisiksi tiedostoiksi. Sitä ennen niihin oli lisätty Artoon luetteloinnin yhteydessä annettu UKK-numero. Kerätyt tekstitiedostot nimettiin UKK-numeron mukaan, jolloin saatiin aikaan vastaavuus XML-muotoisen metadatan ja kokotekstitiedostojen välille.

Tekstiaineisto sisälsi myös muotoilutietoa Otavan omilla merkintätavoilla ilmaistuna. Päädyimme siihen, että kokotekstitiedostot muutettiin HTML:ksi ja muotoilumerkinnät muutettiin niitä lähinnä vastaaviksi HTML-merkkauksiksi.

Kokotekstiaineistosta haluttiin lisäksi poimia teknistä metadataa säilytystä ja tulevaisuuden tarpeita silmällä pitäen. Tietojen kerääminen tehtiin Jhove-ohjelmalla (JSTOR / Harvard Object Validation Environment, http://hul.harvard.edu/jhove/), joka tallensi tiedot XML-muodossa. Jhoven luomat tiedostot nimettiin UKK-numeron mukaan. Nyt UKK-aineisto koostui kolmikoista Artosta saatu metadata – tekstitiedosto – tekstitiedostoon liittyvä tekninen metadata; kolmikoita yhdisti toisiinsa sama UKK-numero. Jhoven tuottama XML muokattiin jonkin verran tarkoitukseen sopivammaksi ja liitettiin kuvailevaan metadataan upottamalla se tiedostotiedoille varattuun elementtiin.

Ennen aineiston viemistä ENCompassiin piti vielä luoda metadatalle dokumenttityyppikuvaus (DTD), sillä ENCompass tarvitsee DTD-muotoisen määrittelyn kaikille järjestelmässä käytetyille metadataformaateille. Perustimme järjestelmään uuden digitaalisten objektien varaston ("repository") ja annoimme sille formaatin määrittelyksi UKK-aineiston pohjalta tehdyn DTD-tiedoston.

Aineisto ladattiin ENCompassiin siirtämällä metadata ja itse tiedostot ennalta määrättyihin kansioihin. Tämän jälkeen palvelimella ajettiin skripti, joka siirsi tiedot XML-tiedostoista tietokantaan ja varastoi tiedosto-objektit järjestelmään. Kaikkiaan aineistosta syntyi noin 4 500 tietuetta ja vastaavaa HTML-sivua.

Jatkossa luodaan vielä OpenURL-linkki Arton tietueista Dorian kokoteksteihin. Myös aineiston täydentämistä yhteistyössä UKK-arkiston kanssa on suunniteltu.

 

Dorialle on tilausta

Dorialle on riittänyt kysyntää niin, ettei palvelun kahdella työntekijällä ole ollut tekemisen puutetta. Elektran siirtoa Doriaan on jo valmisteltu, ja rinnalla tutkitaan mm. aineiston siirtämistä TRIP-tietokannoista uuteen ympäristöön - monia muita vuoroaan odottavia aineistoja luettelematta. Jyväskylän yliopisto, Lappeenrannan teknillinen yliopisto ja Taideteollinen korkeakoulu etenevät omien aineistojensa kanssa. Ensi vuonna ENCompass alkaa palvella myös yliopistokirjastojen kokoelmienkuvailuhanketta.

WWW-käyttöliittymä avataan yleisölle myöhemmin tämän talven aikana.

ENCompass on vielä selkeästi nuori järjestelmä, ja uusien ominaisuuksien toivomuslista on pitkä. Kokoteksti-indeksoinnin käyttöön saaminen, SRW/SRU-hakuprotokollien toteuttaminen ja käyttäjätunnistuksen soveltaminen konsortioympäristöön ovat vain eräitä ensi vuoden työlistan kohtia.

 


Tietolinja 02/2004

Esa-Pekka Keskitalo, sovellussuunnittelija
Pasi Kurvinen, atk-suunnittelija

Helsingin yliopiston kirjasto / Tietokantapalvelut
PL 26, 00014 HELSINGIN YLIOPISTO
Sähköposti: esa-pekka.keskitalo(at)helsinki.fi, pasi.kurvinen(at)helsinki.fi