Keskitalo, Kurvinen: EDCL2005 - Tietolinja 01/2006

Tietolinja
01/2006

ECDL 2005 –
digitaalisen kirjaston uusia tuulia

Esa-Pekka Keskitalo & Pasi Kurvinen
Helsingin yliopiston kirjasto

URN:NBN:fi-fe20061266

Artikkelit

European Conference for Digital Libraries pyrkii edistämään tieteiden- ja sektorienvälistä viestintää. Sen ohjelmassa yhdistyvät teoreettinen tutkimus ja käytännön sovelluksien esittely. ECDL onnistuukin houkuttelemaan osallistujia, joiden taustat vaihtelevat arkeologian laitoksista uusmediafirmoihin.

Niinpä ECDL:ssä digitaalisen kirjastokaan ei aina ole sitä, mitä me lähinnä sillä ymmärrämme. Monien esitelmöitsijöiden aiheet liittyvät pikemminkin suurten datamäärien kuin julkaisujen ja muiden dokumenttien hallintaan. Monet esitellyt digitaaliset kirjastot ovat suhteellisen kapea-alaisia ja niiden käyttöliittymät äärimmilleen informaation luonteen mukaan viritettyjä. Tällainen digitaalinen kirjasto syntyy kiinteässä yhteydessä tiedon tuottajiin ja tuotantoprosessiin. Tuottaminen on julkaisemista.

Yksi usein esiin nousseita teemoja konferenssissa olikin kaiken tiedon käsillä oleminen – sekä mahdollisuutena että ongelmana. Alustajat käsittelivät mm. Microsoftin, Nokian ja muita "koko elämän dokumentointia" koskevia tutkimushankkeita. Koska levytila ja tietoliikenneyhteydet halpenevat, mitään ei enää tarvitse heittää pois. Halutessaan elämänsä voi dokumentoida äärimmäisen yksityiskohtaisesti. Tällaisella dokumentoinnilla on myös tieteellinen ulottuvuus: kaikki tieteellisen työn eri vaiheissa syntyvä dokumentaatio voidaan periaatteessa pitää kaikkien saatavilla. Esimerkiksi tilastollisesta datasta tehty julkaisu linkittyy itse dataan. Mikäli datasta korjataan virhe, myös julkaisu päivittyy. Näin myös esim. tutkimuksessa tehtyjen virheiden vaikutuksen jäljittäminen helpottuu.

Vastuu tiedon suodattamisesta tai jalostamisesta siirtyy yhä lähemmäksi tiedon käyttäjää – hänelle itselleen, hänen itsensä hallinnoimille automaattisille suodattimille, tai hänen organisaatiolleen, jossa esim. kirjasto tarjoaa suodatuspalveluita. Tiedon jalostus liiketoimintana lisääntyy. Erilaisten vertaisverkostojen merkitys tiedon suosittelijoina kasvaa, samoin henkilön tai organisaation painoarvon merkitys tuotetun tiedon painoarvon osoittimena.

Hajautetun julkistamisen lisäksi esille nousi hajautettu tietojenkäsittely (GRID) ja hajautettu tutkimus (eScience). Näitä pidettiin toisaalta toimintamalleina, joista kannattaa ottaa oppia, toisaalta uusina ympäristöinä, joihin kirjastojenkin tulee sopeutua. Täytyy kuitenkin todeta, että näitä kohtaan tunnettu innostus ei ollut jakamatonta. Itse ideoita ei niinkään arvosteltu, mutta katsottiin, että käytännössä ne eivät ainakaan vielä ole lunastaneet niihin asetettuja odotuksia. GRID-pohjaisista digitaalisen kirjaston hankkeista alustuksessa esiteltiin mm. BRICKSiä (www.brickscommunity.org) ja DILIGENTiä (www.diligentproject.org). Tiedonlähteiden hajautumisen lisääntyessä kirjastojen täytyy ennen kaikkea pystyä hallinnoimaan "digitaalisia kirjastoja koskevaa metadataa"; palvelu- ja kokoelmakuvaukset ovatkin jo askel tähän suuntaan. (Konferenssissa esiteltiin myös Z39.50:n yhteensopivuusongelmien ratkaisumalli [17]).

Näyttää myös siltä, että tutkijoiden hyvin käytännöllisistä ja tapauskohtaisista tarpeista lähtevien kirjastopalvelujen toteuttamista pidetään kannattavana panostuksena. Kansalliskirjaston suuren mittakaavan kehittämisen tulisi siis mahdollistaa datan ja järjestelmien käyttö myös pienen mittakaavan täsmäsovelluksissa.

Kun kaikkea ei ehdi luetteloimaan

Moni esitys liittyi projekteihin, joissa pyritään automatisoimaan digitaalisten kirjastojen perustamista ja organisointia. Itse digitaalisen kirjaston käsitettä voi lähestyä monestakin suunnasta. Loppukäyttäjän näkökulmasta oleellisinta kuitenkin on se, millaista aineistoa digitaalinen kirjasto sisältää, miten kokoelma on järjestetty, mikä on sen pääasiallinen kohdeyleisö ja millaisia palveluita se tarjoaa. Erilaisten käyttäjien tarpeiden formaali esittäminen on välttämätöntä kun halutaan automatisoida digitaalisen materiaalin hallintaa ja esille asettamista [18].

Verkosta löytyy nykyään useita laajoja kokoelmia, jotka ovat avoimia ja vapaasti kerättävissä. Tämä mahdollistaa suurten metadatamäärien nopean kartuttamisen yhden superkokoelman alle. Ongelmallista on, että eri lähdekokoelmissa käytännöt metadatan tallentamisessa saattavat poiketa toisistaan hyvinkin paljon. Silloinkin, kun metadataformaatti on sama, saattaa kenttien käyttö vaihdella. Automatisointia varten kenttien merkitykset ja mahdolliset sisällöt tulisi pystyä määrittelemään tarkoin. Mikäli halutaan päästä hyvään lopputulokseen, vaatii metadatan yhdistäminen useasta eri kokoelmasta kenttien sisältöjen yhdenmukaistamista. Kun viitteitä on suuria määriä, kannattaa mahdollisimman suuri osa metadatan suodattamisesta, analysoinnista ja standardoinnista tehdä koneellisesti.

Eräs tämänkaltainen projekti on Yhdysvaltalainen CIC-Portaali (http://cicharvest.grainger.uiuc.edu/), johon on koottu puolisen miljoonaa viitettä ympäri maata olevista yliopistoista [3]. Viitteiden kerääminen tehtiin OAI-harvestoimalla kokoelmia. Yksittäisestä kokoelmasta kerätystä metadatasta laadittiin tilastoanalyysi, jonka perusteella saatiin karkea yleiskuva kuvailukenttien käyttötavasta. Tämän perusteella päätettiin metadatalle tehtävistä toimenpiteistä. Osa valinnoista oli selkeitä, automatisoitavissa olevia (päivämäärien esityksen standardointi jne.), mutta osa vaati ihmistyötä ja harkintaa. Erityisen hankalaksi koettiin metadatakenttien käyttö toisinaan yleisluontoisina kuvauskenttinä, toisinaan taas kenttinä jotka sisältävät formaalia erityistietoa. Siirryttäessä yleisempään kenttämääritykseen menetetään eksaktius, jolla saattaa olla keskeinen merkitys kyseiselle kokoelmalle. Yleisesti ottaen lopputulos oli sitä tyydyttävämpi, mitä enemmän ihmistyötä kokoelman työstämiseen käytettiin.

Metadatan muunnoksissa on siten kyse muustakin kuin yksinkertaisesta muunnoksesta kahden formaatin välillä. Kenttien välisissä kuvauksissa tarvitaan usein myös logiikkaa. Käytännössä siirtyminen formaatista toiseen tehdään XSL-muunnoksilla. Toisinaan XSL ei sen rajoituksista johtuen ole riittävä työkalu. Monipuolisempia työkaluja metadatan validointiin ja muunnoksiin on jo tekeillä, esim. erityisesti tehtävään suunniteltu kieli [5].

Aineiston automaattisesta lajittelusta esiteltiin tapaus, jossa musiikkia lajiteltiin genreihin WWW-hakujen avulla. Hauilla tyyppiä "yhtye +music +review" haettiin yhtyettä käsitteleviä sivuja, joiden sisältö indeksoitiin. Sivujen samankaltaisuuden avulla yhtyeet ja artistit voitiin luotettavasti luokitella genreihin [10].

Tiedonkulkua tutkijoiden välille

Monista ongelmistaan huolimatta hajautetut järjestelmät herättävät kiinnostusta. P2P-sovellusten hyväksikäyttöä kirjastomaailmassa pohdittiin useassa esityksessä. Tämä toistaiseksi hieman arveluttavassa maineessa oleva teknologia on tehokas kanava sisällön levittämiseen. P2P-sovellukset tarjoavat helpon tavan jakaa materiaalia ja liittää aineistoa yhteiseen verkkoon. Lisäetuina mainittakoon sovellusten hyvä skaalautuvuus, luotettavuus ja redundanssi. Käyttöönottoa jarruttaa oikeuksien hallinnan puuttuminen, sekä P2P-verkkojen mahdollinen väärinkäyttö.

Eräs P2P-sovellusten perusajatuksista on, että kuka tahansa voi asettaa paikallisia dokumentteja verkkoon toisten ladattaviksi. Myös muut itsejulkaisemisen muodot (blogit, wikit) ovat tulleet normaaliksi kommunikaatiomuodoksi monenlaisissa piireissä. Osa näin julkaistusta materiaalista, esimerkiksi tutkijoiden kirjoitukset, on digitaalisten kirjastojenkin näkökulmasta kiinnostavaa. Kiinnostavan materiaalin löytäminen tarjonnan seasta on kuitenkin suuri haaste. Tekstimateriaalin automaattinen analysointi ja luokittelu ovat tietojenkäsittelytieteen pitkäaikaisia tutkimuskohteita, jotka luonnollisestikin kiinnostavat myös digitaalisten kirjastojen suunnittelijoita. Aineiston seulomiseen liittyen seminaarissa puhuttiin mm. koneoppimisesta ja datan louhinnasta [2, 4], sekä automaattisesta yhteenvetojen laadinnasta [10].

Levykapasiteetin kasvettua normaaleissa pöytätietokoneissa käyttäjät ovat joutuneet kiinnittämään aiempaa enemmän huomiota henkilökohtaisten dokumenttien hallintaan. Toisinaan paikallinen aineisto on niin laajaa ja erikoistunutta, että on aiheellista puhua henkilökohtaisesta digitaalisesta kirjastosta. Tällaisen aineiston hallinta saattaa olla hankalaa pelkillä käyttöjärjestelmän työkaluilla. Vaikka käyttöjärjestelmiin on viime aikoina pyritty lisäämään dokumenttien löytämistä ja hallintaa helpottavia ominaisuuksia, niin yleinen mielipide oli, että riittäviä ja tarpeeksi joustavia työkaluja ei tällä hetkellä ole.

Käyttöliittymät: yksinkertaistaminen kannattaa

Verkossa toimivien hakukoneiden (Google, Yahoo) suosio on viime aikoina kasvanut tutkijoiden keskuudessa. Syyt tähän ovat samoja kuin muidenkin käyttäjien kohdalla; hakukoneet ovat helppoja käyttää ja ne tarjoavat suuren määrän hakutuloksia nopeasti. Toki myös erityisesti tukijoille suunnattuja tietokantoja arvostetaan. Hyvin palvelevan tietokannan katsotaan auttavan julkaisujen löytämisessä, auttavan tunnistamaan tärkeät julkaisut, sekä pystyvän listaamaan julkaisut joissa viitataan käsillä olevaan aineistoon. Tärkeimpänä yksittäisenä ominaisuutena pidetään kokotekstihakua.

Sähköisten palveluiden käyttö vaihtelee tieteenaloittain, mikä johtuu osaksi palvelujen tarjonnan vaihtelusta. Tapa käyttää lähdeaineistoa vaihtelee tieteenalasta toiseen, eikä sähköinen materiaali palvele kaikkien tutkijoiden tarpeita. Joissakin tapauksissa aktiivinen akateeminen sosiaalisuus vähentää muiden tiedonhakukanavien tarvetta. Eniten julkaisutietokantoja käyttävät luonnontieteilijät.

Pertti Vakkari Tampereen yliopistosta kertoi esityksessään FinELib-käyttäjille tehdystä kyselystä [20]. Tutkimuksessa pyrittiin selvittämään, mitä tiedonhaun menetelmiä tutkijat arvostavat eniten. Tieteenalat oli jaoteltu kuuteen pääryhmään, ja tulokset olivat suurin piirtein samoja ryhmästä riippumatta. Parhaana tietolähteenä pidettiin verkossa olevia tietokantoja. Toiseksi eniten arvostettiin kollegoilta saatuja suosituksia ja tämän jälkeen tulivat mahdollisuus selailla julkaisukokoelmia sekä linkitysten seuraaminen julkaisujen välillä.

Seminaarissa esiteltiin myös CASE-haastattelutukimuksen tuloksia [1]. Hankkeessa oli selvitetty ei-teknisillä aloilla toimivien tutkijoiden suhtautumista verkosta löytyviin tietokantapalveluihin. Tälle ryhmälle on tarjolla laajalti sähköisiä palveluita, mutta tekniikan käyttö hallitaan huonommin kuin esimerkiksi luonnontieteellisillä aloilla. Erityisen vaikeaksi havaittiin hakumäärittelyn ja hakutulosten välisen suhteen täsmällinen hahmottaminen silloin, kun käyttöliittymä on monimutkainen. Oppimisvaiheen alussa on selkeä kynnys. Kun järjestelmän toiminnasta on saavuttu alustava ymmärrys, karttuvat taidot siitä eteenpäin huomattavasti nopeammin. Tietokantojen käytöstä tulee tutkijalle palkitsevampaa, kun hän osaa hyödyntää niitä paremmin. Kyky käyttää sähköisiä palveluja korreloikin käyttäjätyytyväisyyden kanssa.

Eräässä toisessa tutkimuksessa havaittiin, että yläaseteikäisten koululaisten luonnontieteiden opettajat löysivät opetuksen oheismateriaalia Googlen avulla helpommin kuin tarkoitukseen erityisesti suunnittelun kansallisen yhdysvaltalaisportaalin kautta [8]. Googlen vahvuus oli sen tulosten rankkaussysteemi.

Käyttöliittymään liittyvät asiakasta avustavat toiminnot olivat myös esillä. Tällaiset toiminnot voivat mm. havaita kirjoitus- ja muita teknisiä virheitä, tehdä haun suunnittelun kognitiivisesti kevyeksi ja lisätä käyttäjän luottamusta siihen, että tehty haku on oikein suunniteltu. Asiakkaalle voidaan esim. tarjota mahdollisuus täydentää kirjoittamaansa hakua siinä käytettyjen termeihin yleensä liittyvillä muilla termeillä. Hakujen osuvuutta näillä keinoin ei voitu lisätä, mutta asiakastyytyväisyyttä ne paransivat selvästi [16].

Teknisesti voitiin esittää seuraavia yleistyksiä [9]:

Tulosten relevanssin mukainen järjestäminen on asiakastyytyväisyyden kannalta ratkaisevan tärkeää; samoin refine-toiminto.
Yksinkertainen, mahdollisimman laajasti kohdistuva perushaku lisää asiakkaiden luottamusta järjestelmään ja itseensä. Morfologista vaihtelua ymmärtävä haku parantaa performanssia. Tarkennetun haun lomakkeet koettiin usein masentavan monimutkaisiksi.
Asiakkaan ei saa olla tarpeellista ymmärtää kuvailuformaattia; käyttöliittymän pitää lähteä asiakkaan tarpeista, ei formaatin rakenteesta, joka voidaan varsin hyvin piilottaa asiakkaalta. Erityisesti erikoisterminologiaa on vältettävä.
Ohjeistus on monien käyttöliittymien heikko kohta. Kuitenkin hyvät ohjeet lisäävät merkittävästi asiakastyytyväisyyttä.
Dokumenttien välisten linkkien analysointi on tehokas relevanssin mittari [14]. Mitä läheisemmin dokumentit on linkitetty, sitä todennäköisemmin ne ovat relevantteja saman tiedontarpeen täyttämisessä (klusterihypoteesi).

Digitoidaanko vain kauniita kuvia?

Digitointiprosessi sinänsä ei kuulu ECDL:n piiriin, mutta parissa tutkimuksessa oli selvitetty siihen liittyviä poliittisia ja toiminnallisia ongelmia. Lyhyesti voi mainita sen huolestuttavan havainnon, että digitointitoiminta on ylipäätään lyhytjänteistä, ja digitointipäätökset satunnaisia. Esim. valokuvien digitointiprojektit keskittyvät suhteettoman paljon 1800-luvun lopun aineistoon, ja siinäkin korostuu dekoratiivisen ja nostalgisen materiaalin digitointi. [12] Valintaa ohjaavat mm. tekijänoikeuksien aiheuttaman lisätyön välttely sekä huonosti perustellut uskomukset asiakkaiden tarpeista [6].

Viitteet:

Kaikki viitteet kohdistuvat konferenssijulkaisuun:

Research and Advanced Technology for Digital Libraries : 9th European Conference, ECDL 2005, Vienna, Austria, September 18-23, 2005 : Proceedings / Andreas Rauber, Stavros Christodoulakis, A Min Tjoa [Eds.]. -(Lecture Notes in Computer Science, ISSN 0302-9743 ; 3652.) - 545 s. - ISBN 3-540-28767-1

[1] G. Buchanan, S. J. Cunningham, A. Blandford, J. Rimmer, C. Warwick: Information Seeking by Humanities Scholars

[2] J.-P. Chanod, B. Chidlovskii, H. Dejean, O. Fambon, J. Fuselier, T. Jacquin, J.-L. Meunier: From Legacy Documents to XML: A Conversion Framework

[3] M. Foulonneau, T. W. Cole: Strategies for reprocessing aggregated metadata

[4] K. Golub, A. Ardö: Importance of HTML Structural Elements in Automated Subject Classification

[5] G. Janée, J. Frew: A Hybrid Declarative/Procedural Metadata Mapping Language Based on Python

[6] A. Koulouris, S. Kapidakis: Policy Model for University Digital Collections

[7] F. McCown, J. Bollen, M. L. Nelson: Evaluation of the NSDL and Google for Obtaining Pedagogical Resources

[8] J. Najjar, J. Klerkx, R. Vuorikari, E. Duval: Finding Appropriate Learning Objects: An Empirical Evaluation

[9] S. Ou, C. S. G. Khoo, D. H.-L. Goh: A Multi-document Summarization System for Sociology Dissertation Abstracts: Design, Implementation and Evaluation

[10] V. D. Perkins, R. Butterworth, P. Curzon, B. Fields: A study into the effect of digitisation projects on the management and stability of historic photograph collections

[11] M. Salampasis, J. Tait: The Effect of Collection Fusion Strategies on Information Seeking Performance in Distributed Hypermedia Digital Libraries

[12] A. Schaefer, M. Jordan, C.-P. Klas, N.t Fuhr: Active Support For Query Formulation in Virtual Digital Libraries: A case study with DAFFODIL

[13] M. Sfakakis, S. Kapidakis: Expression of Z39.50 Supported Search Capabilities by Applying Formal Descriptions

[14] R. Shen, M. A. Gonçalves, W. Fan, E. A. Fox: Requirements Gathering and Modeling of Domain-Specific Digital Libraries with the 5S Framework: An Archaeological Case Study with ETANA

[15] P. Vakkari, S. Talja: The influence of the scatter of literature on the use of electronic resources across disciplines: a case study of FinELib

Tietolinja 01/2006

Esa-Pekka Keskitalo, sovellussuunnittelija
Helsingin yliopiston kirjasto / Tietokantapalvelut
PL 26, 00014 HELSINGIN YLIOPISTO
Email: esa-pekka.keskitalo(at)helsinki.fi

Pasi Kurvinen, atk-suunnittelija
Helsingin yliopiston kirjasto / Tietokantapalvelut
PL 26, 00014 HELSINGIN YLIOPISTO
Email: pasi.kurvinen(at)helsinki.fi

ECDL 2005 – digitaalisen kirjaston uusia tuulia