NORDUNET '95

Juha Hakala

Osallistuin marraskuussa 1995 pidettyyn NORDUnet '95 -konferenssiin Kööpenhaminassa, ja kävin samalla matkalla tutustumassa myös Lundin yliopiston kirjaston Electronic library -hankkeeseen. Oheisena matkavaikutelmia molemmista vierailukohteista.

Pohjoismaisten tutkimusverkkojen käyttäjät ja ylläpitäjät saapuivat sankoin joukoin 14.-16.11.1995 Kööpenhaminassa pidettyyn NORDUnet '95 -kokoukseen. Paikalla oli lähes 400 henkeä, joista vajaa sata oli kirjastoalan ammattilaisia. Kirjastojen kannalta relevanttia tietoa olikin tarjolla runsain mitoin, joskin vain yksi kaikkiaan kymmenestä sessiosta käsitteli suoranaisesti kirjastoja. Konferenssin ohjelma ja osa esitelmistä löytyy osoitteesta http:// info.denet.dk/nordunet/ndn95.html. NORDUnet-organisaation WWW- palvelimen osoite on muuten http:// www.nordu.net/. Ennen NORDUnet-kokouksen alkua oli mahdollista tutustua Nordic Net Centerin toimintaan. NNC jakautuu kolmeen osaan, jotka ovat: NNC Pohjoismainen tietoverkkopalvelujen osaamiskeskus (http://www.nnc.dk/nnc/). NDLC Pohjoismainen kansalliskirjastoaineiston digitoinnin osaamiskeskus (http://www.nbr.no/ndlc) NORDEP Pohjoismainen elektronisen julkaisemisen osaamiskeskus (http://www.vtt.fi/nordep/)
Keskusten isäntäorganisaatiot ovat Tanskan teknillisen korkeakoulun kirjasto, Norjan kansalliskirjasto ja Valtion teknillinen tutkimuskeskus. Kaikissa keskuksissa työ on alkanut vuoden 1995 alussa ja liikkeellelähtö on sujunut ripeästi. Erityisesti NDLC:n digitointityö on ollut varsin vakuuttavaa.

NORDUnet ja muut tietoverkot

Muiden Internet-verkkojen tapaan NORDUnet kasvaa melkoista vauhtia. Verkkoon kuului maaliskuussa 1994 noin 140.000 konetta, joista Ruotsissa 50.000 ja Suomessa 40.000. Syyskuussa 1995 NORDUnetissa oli jo 380.000 laitetta, joista Suomessa 133.000 ja Ruotsissa 124.000. Kaikista Euroopassa Internetiin kytketyistä laitteista Pohjoismaissa on lähes 21 % ja Suomessa 7 %. FUNETiin (so. NORDUnetiin) liitetään Suomessa tätä nykyä jo yli 10.000 tietokonetta kuukaudessa, joten asemamme verkottuneimpana Euroopan maana (Islannin jälkeen) vahvistuu jatkuvasti.
Jokaisessa pohjoismaassa julkishallinto on vasta liittymässä verkkoon, mutta muutos on todella nopeaa. Kun esim. Tanskassa vuonna 1994 vain yksi prosentti yleisistä kirjastoista oli liittynyt Internetiin, tämän vuoden lopussa mukana on 10 % ja ensi vuoden lopulla arviolta 50 % kirjastoista. Myös koulut saavat Internet-yhteyksiä - Islannissa jo lähes jokainen koulu pienintä ala-astetta myöten pääsee Internetiin. Islanti onkin maailman verkottunein maa: jo joka kuudennella kotitaloudella on Internet-yhteys!
Verkkoon liitettyjen laitteiden määrän nopea kasvu edellyttää tietysti myös linjayhteyksien nopeuttamista. Linjanopeudet ovatkin kasvaneet nopeasti: maiden sisäiset tutkimusverkot käyttävät kaikki 34 Mbps yhteyksiä, kun viime vuonna monilla oli vasta 2 Mbps linjat käytössään. Vastaavasti NORDUnet-verkon hallinnoimat pohjoismaiden väliset yhteydet on nopeutettu vastaavana aikana 2 Mbps:sta nelinkertaiseksi 8 Mbps:aan. Ruotsin ja Suomen välinen yhteys päivitetään jo ensi vuoden alussa 34 Mbps:ään.Suomihan on datan nettoviejä FUNETin maailmankuulun tiedostopalvelimen (ftp.funet.fi) ansiosta.
NORDUnet on nopeuttanut myös yhteyksiä muualle Eurooppaan ja Yhdysvaltoihin. Pullonkaulaksi muodostunut Yhdysvaltojen yhteys on kasvanut vuoden aikana kaksitoistakertaiseksi eli 24 Mbps:aan. Euroopassa oleellisia parannuksia saadaan aikaan vasta sitten kun kansainvälisten yhteyksien hinnat saadaan merkittävästi laskemaan; tämä edellyttänee kansallisten telemonopolien purkamista, jonka EU.n kaavailujen mukaan pitäisi tapahtua 1998. FUNET-verkon kehitys oli vielä keväällä 1994 epävarma. Onneksemme FUNET on kyennyt kuluvan vuoden mittaan muiden Norjan ja Ruotsin kastiin 34 Mbps yhteyksien käyttäjiksi. FUNETin soveltama ATM-tekniikka sallii tiedonsiirron nopeuttamisen edelleen ainakin 155 Mbps:aan, joten huolimatta käyttäjämäärien kasvusta sekä kuvan ja äänen siirron (johon ATM myös soveltuu hyvin) alkamisesta verkko tuskin jatkossa ruuhkautuu.

Internetin informaatiopalvelujen tulevaisuudennäkymät

NORDUnet '94 -kokouksessa esiintynyt Gopher-palvelun kehittäjä Mark McCahill otaksui että verkossa on tilaa rinnakkaisille informaatiopalveluille. Toisin on käymässä: siinä missä Gopher-palvelun käyttö on hiipumassa, WWW:n käyttö lisääntyy eksponentiaalisesti. Lisäksi perinteisistä palveluista kuten esimerkiksi kirjastojen näyttöluetteloista rakennetaan yhdyskäytäviä WWW:hen. Internet-käyttäjän kannalta lopputulos on se, että hän voi käyttää miltei mitä tahansa verkosta löytyvää resurssia WWW-selaimellaan.

1. WWW, VRML ja Java

Aina WWWhen saakka Internetin rakentajien käyttäjien uskollisuus on ollut Don Juanin luokkaa. Juuri kun edelliseen palveluun on totuttu, tilalle on tullut aiempaa parempi järjestelmä. Atk-nikkarille tämmöinen tilanne on tietysti paratiisi, mutta sellaiset organisaatiot, joiden tehtävänä on huolehtia itse substanssista eli verkon tietosisällöistä, ovat pulassa. Mikä takaa, että tietyn protokollan varaan rakennettu palvelu on käyttökelpoinen enää viiden vuoden kuluttua? Kun palvelun tekninen perusta muuttuu, miten hankalia ovat vaadittavat konversiot? Miten paljon henkilökuntaa pitää uudelleenkouluttaa?
Mitään varmoja takeita siitä, että WWW:tä käytetään vielä 10 vuoden kuluttuakin, ei voida antaa. WWW:llä on kuitenkin muutamia oleellisia etuja edellisiin palveluihin verrattuna. Ensinnäkin, WWW on äärimmäisen joustava palvelu: periaatteessa mikä tahansa muu Internet-palvelu (kuten esim. Telnet, ftp, Gopher, news) on ja tulee olemaan käytettävissä WWW:n kautta. Jos siis ensi vuosikymmenellä keksitään jotakin aivan vallankumouksellista, WWW pystynee sulattamaan tämänkin palvelun itseensä.
Toiseksi, WWW:n joustavuuden ja suosion vuoksi siihen rakennetaan eri tahoilla parannuksia. Tärkeimpiä näistä ovat elektronisen julkaisemisen kannalta VRML, ohjelmointikieli Java sekä HTML-kielen versio 3.0.
VRML (Virtual Reality Modeling Language) on HTML-kielen laajennus, joka sallii kolmiuloitteisien "dokumenttien" laatimisen. Lisätietoa kielestä saa esimerkiksi osoitteesta http://www.w3.org/pub/WWW/MarkUp/VRML/. VRML-versio 1.0:n URL on http://www.virtpark.com/theme/vrml/.
VRML perustuu Silicon Graphicsin Open Inventoriin, joka on em. firman kehittämä tiedostoformaatti kolmiulotteisen grafiikan esittämiseen. VRML-kieltä "ymmärtäviä" WWW-selaimia on jo useita (ks. http://www.netppl.fi/consummate/vrml.html), ja VRML-tuki on tulossa myös perinteisiin Netscapeen ja Mosaiciin.
Nykyisten 2-ulotteisten HTML-dokumenttien sijasta tai rinnalla voidaan tulevaisuudessa käyttää kolmiulotteisia VRML-dokumentteja. Esimerkiksi kirjaston esittely voidaan rakentaa kirjaston päärakennuksen mukaan siten että käyttäjä voi "ajaa" huoneesta toiseen, ja halutessaan "klikata" huoneen "seinällä" olevaa hypertekstilinkkiä katsoakseen perinteisen WWW-resurssin (kuvan, tekstin, jne) tai siirtyäkseen toiseen kolmiulotteiseen "maailmaan". VRML-dokumentin laatiminen vaatii tietysti CAD/CAM-työkalun, jolla esim. kirjaston 3-ulotteinen malli voidaan rakentaa.
Toinen, VRML:n tapaan jossakin määrin futuristiselta kuullostava WWW- laajennus on Sun Microsystemsin kehittämä Java-ohjelmointikieli, jolla voidaan rakentaa HTML-sivujen sisään interaktiivisia sovelluksia. Tarvittava sovellus kutsutaan "töihin" käyttäen HTML:n Applet-linkkiä. Applet on Javalla kirjoitettu ohjelma, joka voidaan linkata HTML-sivuun samalla tapaa kuin esimerkiksi kuvat.
Siinä missä nykyinen HTML-sivu katsottuna esim. Netscapen versiolla 1.2 näyttää staattiselta, voidaan Javan avulla rakentaa vaikkapa HTML- kieleen perustuva fysiikan oppikirja, jossa tekstiä tukevat käsiteltävää aihetta kuvaavat interaktiiviset simulaatiot, tai esimerkiksi kirjaston näyttöluettelon opas, jossa näytetään "lennosta" miten esiteltävä asia tehdään. Lista tarjolla olevista Java-sovelluksista löytyy osoitteesta http://www.gamelan.com/.
Netscape-ohjelman vuodenvaihteessa käyttöön tuleva versio 2.0 pystyy hyödyntämään Javalla tehtyjä sovelluksia. Lisäksi Sun on tehnyt oman, HotJava-nimisen WWW-selaimen. Lisätietoa Javasta ja Java-selaimista löytyy osoitteesta http://java.sun.com/.
HTML-kieltä on lähes vakavissaan kuvattu "WWW:n DOS:iksi"; toisin sanoen HTML:n kehnoutta on pidetty suurimpana jarruna WWW:n kehitykselle. Kieltämättä HTML:n versiot 1.0 ja 2.0 olivat selkeästi puutteellisia ajatellen tieteellisen julkaisemisen tarpeita. Mutta piakkoin ilmestyvä HTML-versio 3.0 on jo niin monipuolinen, että se tarjoaa varteenotettavan vaihtoehdon vakiintuneemmille elektronisten dokumenttien merkkauskielille kuten Postscriptille tai PDF:lle.
HTML 3.0 sallii ainakin periaatteessa digitaalisen dokumentin koodauksen siten, että se vastaa ulkoasultaan täsmälleen tekstin painettua versiota (jos sellaista on ylipäätään tehty). Tämän mahdollistavat matemaattisten yms. erikoismerkkien koodausmahdollisuus, sekä ns. style sheets -piirre, jonka avulla on mahdollista määritellä esimerkiksi tekstin fontit, väri, palstat yms. dokumentin ilmiasuun vaikuttavia asioita.
HTML 3.0 löytyy osoitteesta http://www.w3.org/hypertext/WWW/MarkUp/html3/CoverPage.html.
Kokonaiskuvaksi jäi, että elektronisen julkaisemisen tekniset perusedellytykset kehittyvät lähitulevaisuudessa nopeasti. Elektroniset dokumentit itsessään muuntuvat - uusilla työkaluilla voidaan luoda kolmiulotteisuuden tai interaktiivisuuden kaltaisia asioita, joita on paperilla mahdoton ilmaista. Toisaalta näiden dokumenttien täysimittainen hyödyntäminen edellyttää tarkoitukseen rakennetun ohjelman, joten pelkkä dokumentin säilyttäminen ei enää riitä.

2. Internet-resurssien identifiointi

Internetin Uniform Resource Identifiers -koodeista puhuttiin paljon jo NORDUnet '94:ssä, ja keskustelun sävy oli hyvin optimistinen. URI-koodien myöhempi historia on kuitenkin ollut vaihteleva.
WWW-palvelun käyttämä elektronisten resurssien "signum", URL (Uniform Resource Locator) on vakiintunut Internet-standardiksi varsin tuskattomasti. URL:ään kehitetään kaiken aikaa laajennuksia uusia Internet-standardeja varten. Kirjastojen kannalta mielenkiintoisin ovat Z39.50-palvelun URL:t, koska ne sallivat Z39.50-asiakasohjelman rakentamisen WWW-selaimen sisään. Selaimien kehittäjistä ainakin NCSA (Mosaicin tekijä) on osoittanut kiinnostusta tämäntyyppiseen kehitystyöhön.
Z39.50:n URL-koodeja on kaksi. Z39.50s (session URL) avaa uuden ikkunan Z39.50-asiakasohjelmalle samaan tapaan kuin esimerkiksi Telnet-yhteydet toimivat. Z39.50r (retrieval URL) toimii "kulissien takana" siten että URL-tunnuksessa määritelty haku tehdään etätietokannasta käyttäjältä näkymättömissä, ja vasta haun tulokset tuodaan WWW-selaimessa käyttäjän nähtäväksi.
Digitaalisten dokumenttien "ISBN", URN (Uniform Resource Name) on edelleen keskeneräinen. Tiettävästi tunnusta laativa ryhmä ei ole päässyt yksimielisyyteen tunnuksen rakenteesta ja sen jakeluun liittyvistä seikoista, vaikka URN:n rooli on selvä. Ei ole vielä varmaa, saadaanko URN laadituksi, mutta asianosaiset ovat "varovaisen toiveikkaita". URN-koodi tarvitaan kipeästi, koska ilman sitä verkosta löytyvien resurssien identifiointi on vaikeaa.
URN:lle ei ole olemassa kilpailevia vaihtoehtoja. Sen sijaan kolmas URI-koodi, bibliografisia viitetietoja vastaava URC (Uniform Resource Characteristics) kalastaa jo lähes tyhjiin ammennetuilla vesillä. Kilpailevia esityksiä siitä, miten dokumenttien viitetiedot pitäisi esittää, on monia (esim. IAFA Templates ja TEI headers). Lisäksi näin kirjastonhoitajan näkökulmasta URC on huono ehdotus - sen tekijöillä ei näyttäisi olleen kovin vankkaa tietoa bibliografisen tiedon esittämisestä ja hakemisesta.

Digitaalisten dokumenttien kuvailu

URC:n jääminen toteutumattomien toiveiden joukkoon ei mielestäni olisi kovin harmillista. Mutta kirjastojen on toki itse tykönään ratkaistava se, miten digitaaliset dokumentin kuvaillaan. Kun kasvava määrä käyttäjiä kiinnostavasta tiedosta löytyy myös tai ainoastaan tietoverkoista, on kirjastojen ryhdyttävä systemaattisesti tarjoamaan tietoa myös näistä tiedonlähteistä.
Perinteinen vaihtoehto on MARC-formaattiin perustuva luettelointi. Esimerkiksi Suomessa perusedellytykset tähän täyttyvät ensi vuonna, kun elektronisten talllenteiden FINMARC-formaatti valmistuu, ja sen edellyttämät lisäpiirteet toivon mukaan nopeasti lisätään mahdollisimman moniin Suomessa käytettäviin kirjastojärjestelmiin.
Puuttumatta sen kummemmin atk-tallenteiden luetteloinnin ongelmiin yleensä voidaan sanoa, että suurin osa tästä materiaalista - kuten myös painetusta aineistosta - jää ainiaaksi luetteloimatta. Mutta digitaalisten dokumenttien löytyvyyttä voidaan parantaa myös ohjelmallisesti rakentamalla ohjelmia, jotka paikallistavat dokumentteja verkosta. "WWW-avaruudessa" on olemassa jo monia "robotteja, jotka hakevat Internet-verkosta sinne tallennettuja HTML- dokumentteja jo löydetyissä dokumenteissa olevien, uusiin teksteihin viittaavien hypertekstilinkkien avulla. Esimerkiksi Lycos-palveluun on tätä yksinkertaiselta kuullostavaa metodia käyttäen koottu marraskuuhun 1995 mennessä jo yli 11 miljoonan dokumentin tiedot. Vastaavasti Lundin yliopiston elektronisen kirjaston Pohjoismaat kattavaan tietokantaan on paikallistettu jo yli 600.000 dokumenttia (joista lähes puolet löytyi Suomesta).
Kun paikallistamisohjelmat ovat löytäneet ja kopioineet dokumentit, ne indeksoidaan hakupalvelun omaan tietokantaan. Valitettavasti HTML- dokumenttien koko tekstin indeksoiminen tuottaa ylisummaan kehnoja tuloksia. Hakujen saanti esimerkiksi Telen Suomen kattavasta Trampoliini-tietokannasta on kiitettävän hyvä, mutta tarkkuudesta ei juuri voi puhua. Parempia tuloksia saadaan indeksoimalla vain osia dokumenteista, kuten esimerkiksi nimeke (Title), otsikot (Headings) sekä linkit ja erikoistermit (lihavoidut, kursivoidut tai alleviivatut sanat). Tälläkään tavalla ei kuitenkaan saavuteta mitenkään erinomaisia tuloksia.
Lundin yliopiston elektroninen kirjasto -hankkeessa on jo muutaman vuoden ajan tutkittu mahdollisuuksia Internet-resurssien löytyvyyden parantamiseksi. Vuosina 1993-1994 toteutettiin Nordic WAIS/WWW - projektin (ks. http://www.ub2.lu.se/W4.html) osana pohjoismaisten WWW-sivujen indeksi. Se on tarkoitus NORDINFOn hankkeena päivittää ajan tasalle vuoden 1996 alussa. Indeksin nykyinen versio on käytettävissä osoitteessa http://www.ub2.lu.se/wwwindex.html.
Jatkossa tietokantaa ylläpidetään säännöllisesti. Indeksoinnin helpottamiseksi työ hajautetaan niin että kukin maa indeksoi omat WWW-sivunsa. Suomesta hankkeeseen osallistuu FUNET. Toinen hajautuksen etu on tietysti se, että järjestelmän kapasiteetti kasvaa, koska tietokanta on yhden laitteen sijasta useassa koneessa.
Lundin elektroninen kirjasto on myös yksi EU:n Desire-projektin (Development of a European Service for Information on Research and Education) partnereista. Lundin vastuulla on erityisesti indeksointityökalujen kehittäminen toisaalta parantamalla Nordic WAIS/WWW-hankkeessa kehitettyjä työkaluja, toisaata luomalla aiheenmukaisia yhdyskäytäviä (Subject-Based Information Gateways). Esimerkkejä näistä ovat englantilainen SOSIG (Social Sciences Infomation Gateway) ja Lundissa ylläpidetty EELS (Engineering Electronic Library, http://www.ub2.lu.se/eel/eelhome.html).

"Älykkäät" dokumentit

Yksi mahdollisuus parantaa tiedonhaun tarkkuutta olisi se, että dokumenttien tekijät tallentaisivat niiden kuvailun osaksi itse dokumenttia. Käytännössä tämä sujuisi siten, että kirjastot yhteistyössä esimerkiksi tutkimusverkkojen ylläpitäjien kanssa määrittelevät joukon HTML/SGML-dokumentin header-osaan tulevia kenttiä (tageja), joihin tekijä voisi viedä dokumenttia koskevat perustiedot kuten tekijä, nimeke, aihe ja niin edelleen.
Kun WWW-dokumentteja indeksoiva robotti löytäisi tällaisen dokumentin, se voisi indeksoida vain headeriin tallennetut bibliografiset tiedot sekä sisällönkuvailun, ja luoda näin kohtuulliset hakutiedot. Lisäksi voitaisiin haluttaessa indeksoida dokumentin koko teksti tai sen osia samaan tai erilliseen tietokantaan.
Muun muassa Yhdysvalloissa on jo luotu esimerkkejä sille, millainen rakenne "älykkään" dokumentin headerille pitää luoda. Kenties merkittävin määritys on OCLC:n ja NCSA:n yhteistyössä laatima Dublin core, joka sisältää 13 kenttää ilman mitään osakenttäjakoa (ks. http://www.oclc.org:5047/oclc/research/conferences/metadata/ dublin_core_report.html). MARCiin verrattuna Dublin core on siis erittäin yksinkertainen, mutta niin ovat tietojen tallentajatkin, luettelointitaidoiltaan.

Lopuksi

Vanha klisee "tulevaisuus ei ole enää sellainen kuin sen oli tapana olla" pitää paikkansa myös kirjastotyön osalta. Internet-verkon synty on monien mielestä paras asia mitä kirjastoille on sattunut sitten kirjapainotaidon keksimisen, mutta on myös ihmisiä - niin kirjastoissa kuin niiden ulkopuolella - joiden mielestä Internet uhkaa kirjastoja.
Kenties molemmat katsantokannat ovat oikeita: Internet tarjoaa kirjastoille suuria mahdollisuuksia, mutta niiden hyväksikäyttö ei onnistu elleivät kirjastot itse tartu tilaisuuteen ja muokkaa toimintojaan ja palveluitaan.
Hankalaksi tilanteen tekee se, että vanhat tehtävät eivät poistu uusien tieltä. Työt on priorisoitava, ja tämä edellyttää tarkkaa suunnittelua ja näkemystä siitä, mikä on todella tärkeää.

17

tietolinja 4/95     8.12.1995