Helsingin yliopiston kirjasto, Suomen kansalliskirjasto
kansi   lukijalle   esipuhe   kirjoittajat   galleria


Kirja  tietoverkkojen maailmassa

 «

    aihepiirit    

  I  

  II  

  III  

  IV  

  V  

  VI  

» 




Uskomattomat tietovarannot


Slaavilaisen kirjaston uusi elektroninen vetonaula
1 Aluksi
2 Velan vastikkeeksi
3 Uskomattomat tietovarannot
4 Haku päällä
5 Myös englanniksi
6 Lingvistinkin apuna
* Lähteet
tulosta Tulostettava versio
Integrum-tietokantaa on vaikea kuvata, koska en ole aikaisemmin tavannut mitään vastaavaa. Se on oikeastaan tietokantojen tietokanta, johon on rakennettu tehokas tiedonhakujärjestelmä. Aineiston laajuudesta saa jonkinlaisen kuvan kun verrataan sitä tavallisiin lingvistisiin tietokantoihin. Ne ovat viime vuosina kasvaneet niin, että tekstien yhteispituudet lasketaan jo miljoonissa sanoissa. Integrumissa on yli 175 miljoonaa dokumenttia! Laajuus merkkeinä laskettuna on 650 gigabittiä. Nämä valtavat luvut antavat häivähdyksen myös siitä, millaisiin mittasuhteisiin törmätään, kun kansakunnan tuottamaa tekstimateriaalia aletaan siirtää elektroniseen muotoon.

Millaisia tekstejä Integrumissa sitten on? Lehtiä, kirjoja, laki- ja asetustekstejä, uutistoimistojen ja valtion virastojen tiedotteita, patenttitietoja, erilaisia hakuteoksia puhelinluetteloita myöten, tilastoja, kirjastojen tietokantoja ja paljon muuta. Olennaista on suuri ajallinen ja alueellinen kattavuus. Tästä sopivat esimerkiksi sanomalehdet. Otsikon Central’nye gazety (keskeiset sanomalehdet) alla on satakunta nimikettä. Tämän lisäksi on erillinen otsikko Regional’naja pressa (alueellinen lehdistö), josta löytyy yli 600 lehteä. Oman ryhmänsä muodostaa aikakauslehdistö, jossa on 300 nimikettä. Kyseessä eivät ole lehtien nettimuunnelmat, vaan alkuperäiset paperimuodossa julkaistut versiot. Aikajänne ulottuu joidenkin lehtien osalta 1990-luvun alkuun, osasta on vain viime vuosien numerot. Laaja ajallinen ja alueellinen kattavuus näkyy myös esimerkiksi Lainsäädäntö-osastossa, jossa on federaatiotason ohella suuri määrä alueellisia lakitekstejä. Ajallisesti materiaali ulottuu vuoteen 1925, Venäjän valtiolliset sopimustekstit ovat vuodesta 1815.

Ehkä heikoin lenkki aineistossa on kaunokirjallisuus. Klassinen kirjallisuus ja käännöskirjallisuus on katettu melko hyvin. Sen sijaan uutta venäläistä kaunokirjallisuutta on vähän. Tähän ovat syynä tekijänoikeusongelmat.

Lukijan mielessä herää varmaan tässä vaiheessa kysymys siitä, miten Integrumin tarjoama paketti eroaa tavallisesta internet-materiaalista. Aineiston laajuuden suhteen kyse on samasta kokoluokasta. Tämän voi testata yksinkertaisella haulla. Esimerkiksi jokapäiväinen suomalaisillekin tuttu sana mesto ’paikka’ esiintyy Integrumissa 7,8 miljoonaan kertaa ja venäjänkielisen Rambler-hakukoneen materiaalissa 9,8, miljoonaa kertaa. Vastaavat luvut toisella jokaisen ihmisen elämään kuuluvalla sanalla biblioteka ’kirjasto’ ovat 1,0 miljoonaa Integrumissa ja 3,9 miljoonaa Ramblerissa. Sisältönsä puolesta materiaalit kuitenkin eroavat merkittävästi toisistaan. Internetissä oleva tekstimateriaali on suurelta osin sellaista, joka on varta vasten laadittu sähköistä käyttöä varten. Integrum-materiaalin joukossa on myös jonkin verran internet-tekstejä, mutta valtaosa siitä on perinteisiä paperille tuotettuja tekstejä, jotka sitten on saatettu elektroniseen muotoon.

Aineistojen ero näkyy myös niiden kieliasussa. Rambler-materiaalissa konjunktio potomu čto ’koska’ esiintyy noin 2 miljoonaa kertaa. Mielenkiintoisempaa on kuitenkin se, että sama konjunktio esiintyy lähes 10000 kertaa kirjakielen kannalta täysin väärässä kirjoitusasussa potomučto. Integrumissa konjunktio esiintyy oikeassa kirjoitusasussa suunnilleen yhtä usein. Yhteen kirjoitettua väärää muotoa on kuitenkin vain 1300 esiintymää. Niiden tarkempi analyysi paljastaa aineistojen eroista lisää yksityiskohtia. Integrum-aineiston vääristä kirjoitusasuista yli 1000 esiintymää on internet-aineistosta ja noin 150 ulkomailla julkaistavista venäjänkielisistä lehdistä. Aineiston luotettavuus onkin Integrumin tärkeimpiä ominaisuuksia systemaattisuuden ja aikaperspektiivin ohella.


«  1  2  3  4  5  6  *  »
URN:NBN:fi-fe20031613