Osallistuin marraskuussa 1995 pidettyyn NORDUnet '95 -konferenssiin Kööpenhaminassa, ja kävin samalla matkalla tutustumassa myös Lundin yliopiston kirjaston Electronic library -hankkeeseen. Oheisena matkavaikutelmia molemmista vierailukohteista.
Pohjoismaisten tutkimusverkkojen käyttäjät ja ylläpitäjät saapuivat
sankoin joukoin 14.-16.11.1995 Kööpenhaminassa pidettyyn NORDUnet '95
-kokoukseen. Paikalla oli lähes 400 henkeä, joista vajaa sata oli
kirjastoalan ammattilaisia. Kirjastojen kannalta relevanttia tietoa
olikin tarjolla runsain mitoin, joskin vain yksi kaikkiaan kymmenestä
sessiosta käsitteli suoranaisesti kirjastoja. Konferenssin ohjelma ja
osa esitelmistä löytyy osoitteesta http:// info.denet.dk/nordunet/ndn95.html.
NORDUnet-organisaation WWW- palvelimen osoite on muuten http:// www.nordu.net/.
Ennen NORDUnet-kokouksen alkua oli mahdollista tutustua Nordic Net
Centerin toimintaan. NNC jakautuu kolmeen osaan, jotka ovat:
NNC Pohjoismainen tietoverkkopalvelujen osaamiskeskus (http://www.nnc.dk/nnc/).
NDLC Pohjoismainen kansalliskirjastoaineiston digitoinnin
osaamiskeskus (http://www.nbr.no/ndlc) NORDEP Pohjoismainen
elektronisen julkaisemisen osaamiskeskus (http://www.vtt.fi/nordep/)
Keskusten isäntäorganisaatiot ovat Tanskan teknillisen korkeakoulun
kirjasto, Norjan kansalliskirjasto ja Valtion teknillinen
tutkimuskeskus. Kaikissa keskuksissa työ on alkanut vuoden 1995 alussa
ja liikkeellelähtö on sujunut ripeästi. Erityisesti NDLC:n
digitointityö on ollut varsin vakuuttavaa.
NORDUnet ja muut tietoverkot
Muiden Internet-verkkojen tapaan NORDUnet kasvaa melkoista vauhtia.
Verkkoon kuului maaliskuussa 1994 noin 140.000 konetta, joista
Ruotsissa 50.000 ja Suomessa 40.000. Syyskuussa 1995 NORDUnetissa oli
jo 380.000 laitetta, joista Suomessa 133.000 ja Ruotsissa 124.000.
Kaikista Euroopassa Internetiin kytketyistä laitteista Pohjoismaissa
on lähes 21 % ja Suomessa 7 %. FUNETiin (so. NORDUnetiin) liitetään
Suomessa tätä nykyä jo yli 10.000 tietokonetta kuukaudessa, joten
asemamme verkottuneimpana Euroopan maana (Islannin jälkeen) vahvistuu
jatkuvasti.
Jokaisessa pohjoismaassa julkishallinto on vasta liittymässä verkkoon,
mutta muutos on todella nopeaa. Kun esim. Tanskassa vuonna 1994 vain
yksi prosentti yleisistä kirjastoista oli liittynyt Internetiin, tämän
vuoden lopussa mukana on 10 % ja ensi vuoden lopulla arviolta 50 %
kirjastoista. Myös koulut saavat Internet-yhteyksiä - Islannissa jo
lähes jokainen koulu pienintä ala-astetta myöten pääsee Internetiin.
Islanti onkin maailman verkottunein maa: jo joka kuudennella
kotitaloudella on Internet-yhteys!
Verkkoon liitettyjen laitteiden määrän nopea kasvu edellyttää tietysti
myös linjayhteyksien nopeuttamista. Linjanopeudet ovatkin kasvaneet
nopeasti: maiden sisäiset tutkimusverkot käyttävät kaikki 34 Mbps
yhteyksiä, kun viime vuonna monilla oli vasta 2 Mbps linjat
käytössään. Vastaavasti NORDUnet-verkon hallinnoimat pohjoismaiden
väliset yhteydet on nopeutettu vastaavana aikana 2 Mbps:sta
nelinkertaiseksi 8 Mbps:aan. Ruotsin ja Suomen välinen yhteys
päivitetään jo ensi vuoden alussa 34 Mbps:ään.Suomihan on datan
nettoviejä FUNETin maailmankuulun tiedostopalvelimen (ftp.funet.fi)
ansiosta.
NORDUnet on nopeuttanut myös yhteyksiä muualle Eurooppaan ja
Yhdysvaltoihin. Pullonkaulaksi muodostunut Yhdysvaltojen yhteys on
kasvanut vuoden aikana kaksitoistakertaiseksi eli 24 Mbps:aan.
Euroopassa oleellisia parannuksia saadaan aikaan vasta sitten kun
kansainvälisten yhteyksien hinnat saadaan merkittävästi laskemaan;
tämä edellyttänee kansallisten telemonopolien purkamista, jonka EU.n
kaavailujen mukaan pitäisi tapahtua 1998.
FUNET-verkon kehitys oli vielä keväällä 1994 epävarma. Onneksemme
FUNET on kyennyt kuluvan vuoden mittaan muiden Norjan ja Ruotsin
kastiin 34 Mbps yhteyksien käyttäjiksi. FUNETin soveltama ATM-tekniikka sallii
tiedonsiirron nopeuttamisen edelleen ainakin 155
Mbps:aan, joten huolimatta käyttäjämäärien kasvusta sekä kuvan ja
äänen siirron (johon ATM myös soveltuu hyvin) alkamisesta verkko
tuskin jatkossa ruuhkautuu.
Internetin informaatiopalvelujen tulevaisuudennäkymät
NORDUnet '94 -kokouksessa esiintynyt Gopher-palvelun kehittäjä Mark
McCahill otaksui että verkossa on tilaa rinnakkaisille
informaatiopalveluille. Toisin on käymässä: siinä missä Gopher-palvelun
käyttö on hiipumassa, WWW:n käyttö lisääntyy
eksponentiaalisesti. Lisäksi perinteisistä palveluista kuten
esimerkiksi kirjastojen näyttöluetteloista rakennetaan yhdyskäytäviä
WWW:hen. Internet-käyttäjän kannalta lopputulos on se, että hän voi
käyttää miltei mitä tahansa verkosta löytyvää resurssia WWW-selaimellaan.
1. WWW, VRML ja Java
Aina WWWhen saakka Internetin rakentajien käyttäjien uskollisuus on
ollut Don Juanin luokkaa. Juuri kun edelliseen palveluun on totuttu,
tilalle on tullut aiempaa parempi järjestelmä. Atk-nikkarille
tämmöinen tilanne on tietysti paratiisi, mutta sellaiset
organisaatiot, joiden tehtävänä on huolehtia itse substanssista eli
verkon tietosisällöistä, ovat pulassa. Mikä takaa, että tietyn
protokollan varaan rakennettu palvelu on käyttökelpoinen enää viiden
vuoden kuluttua? Kun palvelun tekninen perusta muuttuu, miten hankalia
ovat vaadittavat konversiot? Miten paljon henkilökuntaa pitää
uudelleenkouluttaa?
Mitään varmoja takeita siitä, että WWW:tä käytetään vielä 10 vuoden
kuluttuakin, ei voida antaa. WWW:llä on kuitenkin muutamia oleellisia
etuja edellisiin palveluihin verrattuna. Ensinnäkin, WWW on
äärimmäisen joustava palvelu: periaatteessa mikä tahansa muu Internet-palvelu
(kuten esim. Telnet, ftp, Gopher, news) on ja tulee olemaan
käytettävissä WWW:n kautta. Jos siis ensi vuosikymmenellä keksitään
jotakin aivan vallankumouksellista, WWW pystynee sulattamaan tämänkin
palvelun itseensä.
Toiseksi, WWW:n joustavuuden ja suosion vuoksi siihen rakennetaan eri
tahoilla parannuksia. Tärkeimpiä näistä ovat elektronisen
julkaisemisen kannalta VRML, ohjelmointikieli Java sekä HTML-kielen
versio 3.0.
VRML (Virtual Reality Modeling Language) on HTML-kielen laajennus,
joka sallii kolmiuloitteisien "dokumenttien" laatimisen. Lisätietoa
kielestä saa esimerkiksi osoitteesta http://www.w3.org/pub/WWW/MarkUp/VRML/.
VRML-versio 1.0:n URL on http://www.virtpark.com/theme/vrml/.
VRML perustuu Silicon Graphicsin Open Inventoriin, joka on em. firman
kehittämä tiedostoformaatti kolmiulotteisen grafiikan esittämiseen.
VRML-kieltä "ymmärtäviä" WWW-selaimia on jo useita (ks.
http://www.netppl.fi/consummate/vrml.html), ja VRML-tuki on tulossa myös
perinteisiin Netscapeen ja Mosaiciin.
Nykyisten 2-ulotteisten HTML-dokumenttien sijasta tai rinnalla voidaan
tulevaisuudessa käyttää kolmiulotteisia VRML-dokumentteja. Esimerkiksi
kirjaston esittely voidaan rakentaa kirjaston päärakennuksen mukaan
siten että käyttäjä voi "ajaa" huoneesta toiseen, ja halutessaan
"klikata" huoneen "seinällä" olevaa hypertekstilinkkiä katsoakseen
perinteisen WWW-resurssin (kuvan, tekstin, jne) tai siirtyäkseen
toiseen kolmiulotteiseen "maailmaan". VRML-dokumentin laatiminen
vaatii tietysti CAD/CAM-työkalun, jolla esim. kirjaston 3-ulotteinen
malli voidaan rakentaa.
Toinen, VRML:n tapaan jossakin määrin futuristiselta kuullostava WWW-
laajennus on Sun Microsystemsin kehittämä Java-ohjelmointikieli, jolla
voidaan rakentaa HTML-sivujen sisään interaktiivisia sovelluksia.
Tarvittava sovellus kutsutaan "töihin" käyttäen HTML:n Applet-linkkiä.
Applet on Javalla kirjoitettu ohjelma, joka voidaan linkata HTML-sivuun
samalla tapaa kuin esimerkiksi kuvat.
Siinä missä nykyinen HTML-sivu katsottuna esim. Netscapen versiolla
1.2 näyttää staattiselta, voidaan Javan avulla rakentaa vaikkapa HTML-
kieleen perustuva fysiikan oppikirja, jossa tekstiä tukevat
käsiteltävää aihetta kuvaavat interaktiiviset simulaatiot, tai
esimerkiksi kirjaston näyttöluettelon opas, jossa näytetään "lennosta"
miten esiteltävä asia tehdään. Lista tarjolla olevista Java-sovelluksista
löytyy osoitteesta http://www.gamelan.com/.
Netscape-ohjelman vuodenvaihteessa käyttöön tuleva versio 2.0 pystyy
hyödyntämään Javalla tehtyjä sovelluksia. Lisäksi Sun on tehnyt oman,
HotJava-nimisen WWW-selaimen. Lisätietoa Javasta ja Java-selaimista
löytyy osoitteesta http://java.sun.com/.
HTML-kieltä on lähes vakavissaan kuvattu "WWW:n DOS:iksi"; toisin
sanoen HTML:n kehnoutta on pidetty suurimpana jarruna WWW:n
kehitykselle. Kieltämättä HTML:n versiot 1.0 ja 2.0 olivat selkeästi
puutteellisia ajatellen tieteellisen julkaisemisen tarpeita. Mutta
piakkoin ilmestyvä HTML-versio 3.0 on jo niin monipuolinen, että se
tarjoaa varteenotettavan vaihtoehdon vakiintuneemmille elektronisten
dokumenttien merkkauskielille kuten Postscriptille tai PDF:lle.
HTML 3.0 sallii ainakin periaatteessa digitaalisen dokumentin
koodauksen siten, että se vastaa ulkoasultaan täsmälleen tekstin
painettua versiota (jos sellaista on ylipäätään tehty). Tämän
mahdollistavat matemaattisten yms. erikoismerkkien
koodausmahdollisuus, sekä ns. style sheets -piirre, jonka avulla on
mahdollista määritellä esimerkiksi tekstin fontit, väri, palstat yms.
dokumentin ilmiasuun vaikuttavia asioita.
HTML 3.0 löytyy osoitteesta
http://www.w3.org/hypertext/WWW/MarkUp/html3/CoverPage.html.
Kokonaiskuvaksi jäi, että elektronisen julkaisemisen tekniset
perusedellytykset kehittyvät lähitulevaisuudessa nopeasti.
Elektroniset dokumentit itsessään muuntuvat - uusilla työkaluilla
voidaan luoda kolmiulotteisuuden tai interaktiivisuuden kaltaisia
asioita, joita on paperilla mahdoton ilmaista. Toisaalta näiden
dokumenttien täysimittainen hyödyntäminen edellyttää tarkoitukseen
rakennetun ohjelman, joten pelkkä dokumentin säilyttäminen ei enää
riitä.
2. Internet-resurssien identifiointi
Internetin Uniform Resource Identifiers -koodeista puhuttiin paljon jo
NORDUnet '94:ssä, ja keskustelun sävy oli hyvin optimistinen. URI-koodien
myöhempi historia on kuitenkin ollut vaihteleva.
WWW-palvelun käyttämä elektronisten resurssien "signum", URL (Uniform
Resource Locator) on vakiintunut Internet-standardiksi varsin
tuskattomasti. URL:ään kehitetään kaiken aikaa laajennuksia uusia
Internet-standardeja varten. Kirjastojen kannalta mielenkiintoisin
ovat Z39.50-palvelun URL:t, koska ne sallivat Z39.50-asiakasohjelman
rakentamisen WWW-selaimen sisään. Selaimien kehittäjistä ainakin NCSA
(Mosaicin tekijä) on osoittanut kiinnostusta tämäntyyppiseen
kehitystyöhön.
Z39.50:n URL-koodeja on kaksi. Z39.50s (session URL) avaa uuden
ikkunan Z39.50-asiakasohjelmalle samaan tapaan kuin esimerkiksi
Telnet-yhteydet toimivat. Z39.50r (retrieval URL) toimii "kulissien
takana" siten että URL-tunnuksessa määritelty haku tehdään
etätietokannasta käyttäjältä näkymättömissä, ja vasta haun tulokset
tuodaan WWW-selaimessa käyttäjän nähtäväksi.
Digitaalisten dokumenttien "ISBN", URN (Uniform Resource Name) on
edelleen keskeneräinen. Tiettävästi tunnusta laativa ryhmä ei ole
päässyt yksimielisyyteen tunnuksen rakenteesta ja sen jakeluun
liittyvistä seikoista, vaikka URN:n rooli on selvä. Ei ole vielä
varmaa, saadaanko URN laadituksi, mutta asianosaiset ovat "varovaisen
toiveikkaita". URN-koodi tarvitaan kipeästi, koska ilman sitä verkosta
löytyvien resurssien identifiointi on vaikeaa.
URN:lle ei ole olemassa kilpailevia vaihtoehtoja. Sen sijaan kolmas
URI-koodi, bibliografisia viitetietoja vastaava URC (Uniform Resource
Characteristics) kalastaa jo lähes tyhjiin ammennetuilla vesillä.
Kilpailevia esityksiä siitä, miten dokumenttien viitetiedot pitäisi
esittää, on monia (esim. IAFA Templates ja TEI headers). Lisäksi näin
kirjastonhoitajan näkökulmasta URC on huono ehdotus - sen tekijöillä
ei näyttäisi olleen kovin vankkaa tietoa bibliografisen tiedon
esittämisestä ja hakemisesta.
Digitaalisten dokumenttien kuvailu
URC:n jääminen toteutumattomien toiveiden joukkoon ei mielestäni olisi
kovin harmillista. Mutta kirjastojen on toki itse tykönään ratkaistava
se, miten digitaaliset dokumentin kuvaillaan. Kun kasvava määrä
käyttäjiä kiinnostavasta tiedosta löytyy myös tai ainoastaan
tietoverkoista, on kirjastojen ryhdyttävä systemaattisesti tarjoamaan
tietoa myös näistä tiedonlähteistä.
Perinteinen vaihtoehto on MARC-formaattiin perustuva luettelointi.
Esimerkiksi Suomessa perusedellytykset tähän täyttyvät ensi vuonna,
kun elektronisten talllenteiden FINMARC-formaatti valmistuu, ja sen
edellyttämät lisäpiirteet toivon mukaan nopeasti lisätään
mahdollisimman moniin Suomessa käytettäviin kirjastojärjestelmiin.
Puuttumatta sen kummemmin atk-tallenteiden luetteloinnin ongelmiin
yleensä voidaan sanoa, että suurin osa tästä materiaalista - kuten
myös painetusta aineistosta - jää ainiaaksi luetteloimatta. Mutta
digitaalisten dokumenttien löytyvyyttä voidaan parantaa myös
ohjelmallisesti rakentamalla ohjelmia, jotka paikallistavat
dokumentteja verkosta. "WWW-avaruudessa" on olemassa jo monia
"robotteja, jotka hakevat Internet-verkosta sinne tallennettuja HTML-
dokumentteja jo löydetyissä dokumenteissa olevien, uusiin teksteihin
viittaavien hypertekstilinkkien avulla. Esimerkiksi Lycos-palveluun on
tätä yksinkertaiselta kuullostavaa metodia käyttäen koottu
marraskuuhun 1995 mennessä jo yli 11 miljoonan dokumentin tiedot.
Vastaavasti Lundin yliopiston elektronisen kirjaston Pohjoismaat
kattavaan tietokantaan on paikallistettu jo yli 600.000 dokumenttia
(joista lähes puolet löytyi Suomesta).
Kun paikallistamisohjelmat ovat löytäneet ja kopioineet dokumentit, ne
indeksoidaan hakupalvelun omaan tietokantaan. Valitettavasti HTML-
dokumenttien koko tekstin indeksoiminen tuottaa ylisummaan kehnoja
tuloksia. Hakujen saanti esimerkiksi Telen Suomen kattavasta
Trampoliini-tietokannasta on kiitettävän hyvä, mutta tarkkuudesta ei
juuri voi puhua. Parempia tuloksia saadaan indeksoimalla vain osia
dokumenteista, kuten esimerkiksi nimeke (Title), otsikot (Headings)
sekä linkit ja erikoistermit (lihavoidut, kursivoidut tai alleviivatut
sanat). Tälläkään tavalla ei kuitenkaan saavuteta mitenkään
erinomaisia tuloksia.
Lundin yliopiston elektroninen kirjasto -hankkeessa on jo muutaman
vuoden ajan tutkittu mahdollisuuksia Internet-resurssien löytyvyyden
parantamiseksi. Vuosina 1993-1994 toteutettiin Nordic WAIS/WWW -
projektin (ks. http://www.ub2.lu.se/W4.html) osana pohjoismaisten
WWW-sivujen indeksi. Se on tarkoitus NORDINFOn hankkeena päivittää ajan
tasalle vuoden 1996 alussa. Indeksin nykyinen versio on käytettävissä
osoitteessa http://www.ub2.lu.se/wwwindex.html.
Jatkossa tietokantaa ylläpidetään säännöllisesti. Indeksoinnin
helpottamiseksi työ hajautetaan niin että kukin maa indeksoi omat
WWW-sivunsa. Suomesta hankkeeseen osallistuu FUNET. Toinen hajautuksen etu
on tietysti se, että järjestelmän kapasiteetti kasvaa, koska
tietokanta on yhden laitteen sijasta useassa koneessa.
Lundin elektroninen kirjasto on myös yksi EU:n Desire-projektin
(Development of a European Service for Information on Research and
Education) partnereista. Lundin vastuulla on erityisesti
indeksointityökalujen kehittäminen toisaalta parantamalla Nordic
WAIS/WWW-hankkeessa kehitettyjä työkaluja, toisaata luomalla
aiheenmukaisia yhdyskäytäviä (Subject-Based Information Gateways).
Esimerkkejä näistä ovat englantilainen SOSIG (Social Sciences
Infomation Gateway) ja Lundissa ylläpidetty EELS (Engineering
Electronic Library, http://www.ub2.lu.se/eel/eelhome.html).
"Älykkäät" dokumentit
Yksi mahdollisuus parantaa tiedonhaun tarkkuutta olisi se, että
dokumenttien tekijät tallentaisivat niiden kuvailun osaksi itse
dokumenttia. Käytännössä tämä sujuisi siten, että kirjastot
yhteistyössä esimerkiksi tutkimusverkkojen ylläpitäjien kanssa
määrittelevät joukon HTML/SGML-dokumentin header-osaan tulevia kenttiä
(tageja), joihin tekijä voisi viedä dokumenttia koskevat perustiedot
kuten tekijä, nimeke, aihe ja niin edelleen.
Kun WWW-dokumentteja indeksoiva robotti löytäisi tällaisen dokumentin,
se voisi indeksoida vain headeriin tallennetut bibliografiset tiedot
sekä sisällönkuvailun, ja luoda näin kohtuulliset hakutiedot. Lisäksi
voitaisiin haluttaessa indeksoida dokumentin koko teksti tai sen osia
samaan tai erilliseen tietokantaan.
Muun muassa Yhdysvalloissa on jo luotu esimerkkejä sille, millainen
rakenne "älykkään" dokumentin headerille pitää luoda. Kenties
merkittävin määritys on OCLC:n ja NCSA:n yhteistyössä laatima Dublin
core, joka sisältää 13 kenttää ilman mitään osakenttäjakoa (ks.
http://www.oclc.org:5047/oclc/research/conferences/metadata/
dublin_core_report.html).
MARCiin verrattuna Dublin core on siis erittäin yksinkertainen, mutta niin
ovat tietojen tallentajatkin, luettelointitaidoiltaan.
Lopuksi
Vanha klisee "tulevaisuus ei ole enää sellainen kuin sen oli tapana
olla" pitää paikkansa myös kirjastotyön osalta. Internet-verkon synty
on monien mielestä paras asia mitä kirjastoille on sattunut sitten
kirjapainotaidon keksimisen, mutta on myös ihmisiä - niin kirjastoissa
kuin niiden ulkopuolella - joiden mielestä Internet uhkaa kirjastoja.
Kenties molemmat katsantokannat ovat oikeita: Internet tarjoaa
kirjastoille suuria mahdollisuuksia, mutta niiden hyväksikäyttö ei
onnistu elleivät kirjastot itse tartu tilaisuuteen ja muokkaa
toimintojaan ja palveluitaan.
Hankalaksi tilanteen tekee se, että vanhat tehtävät eivät poistu
uusien tieltä. Työt on priorisoitava, ja tämä edellyttää tarkkaa
suunnittelua ja näkemystä siitä, mikä on todella tärkeää.
tietolinja 4/95 8.12.1995