Arto Mustajoki

Slaavilaisen kirjaston uusi elektroninen vetonaula


Helsingin yliopiston kirjaston slaavilainen kokoelma on vetänyt vuosikymmenien ajan puoleensa niin kotimaisia kuin ulkomaisia tutkijoita. Tämä ei ole ihme, koska Suomen autonomian ajan kokoelmat ovat ainutlaatuiset Venäjän ulkopuolella. Kirjaston vetovoimaa on lisännyt sen helppokäyttöisyys - suuri osa kirjallisuudesta on pitkään ollut avohyllyillä suoraan tutkijoiden käytettävissä. En aio tässä artikkelissa kuitenkaan kerrata kirjaston maineikkaita historiallisia vaiheita, koska niistä ovat kirjoittaneet muun muassa Maria Widnäs (1947) ja Jarmo Suonsyrjä (1992).

Kokoelma elää paraikaa vaikeaa murrosvaihetta. Aika ja helppo saatavuus ovat tehneet tehtävänsä - vanha arvokas kirjallisuus on vaarassa vähitellen hapertua tomuksi. Tämä on suuri haaste kirjaston lähivuosien suunnittelulle. Kirjallisuuden tulisi olla helposti tutkijoiden saatavilla, sitähän varten se hankitaan. Toisaalta kirjaston velvollisuus on huolehtia siitä, että sama materiaali on myös tulevien aikojen tutkijoiden käytössä.

Keskityn tällä kertaa esittelemään aivan muunlaista aineistoa, joka on tietynlainen slaavilaisen kokoelman jatke, vaikka sijaitseekin fyysisesti Moskovassa. Kyseessä on Integrum-firman ylläpitämä valtava tietokanta, joka hiljattain on saatu suomalaisten tutkijoiden käyttöön. Tällaisen aineiston käsittely sopii hyvin tämän juhlakirjan henkeen, kun ottaa huomioon sen julkaisumuodon ja päivänsankarin omat tutkimusintressit.


Velan vastikkeeksi

Integrum-tietokannan saaminen Suomeen on ollut jännittävä hallinnollinen seikkailu. Muistan kun 1990-luvun puolessa välissä sain vararehtorina ollessani eteeni kauppa- ja teollisuusministeriöstä tulleen kirjeen. Siinä toivottiin esityksiä Venäjältä tehtävistä hankinnoista, joilla oli tarkoitus kompensoida Neuvostoliiton velka Suomelle. Oli selvää, että mistään nappikaupasta ei ollut kyse, vaan esityksiä odotettiin lähinnä suurista laitteista. Tällöin saimme idean: miksei velkakompensaatiota voitaisi käyttää myös slaavilaisen kirjaston kokoelmien täydentämiseen! Tällöin mielessä olivat päällimmäisenä ne aukot, jotka olivat syntyneet kirjallisuuden hankinnassa määrärahojen romahtaessa 1990-luvulla. Laadimme asiasta yhden sivun esityksen. Teimme sen kuitenkin hymy suupielessä, koska olimme varmoja, että koskaan yhtään kirjaa ei tätä kautta kirjastoon saada. Itse velkakompensaatioasia näytti itsessään melko toivottomalta prosessilta. Lisäksi kirjallisuuden hankintaesitys oli kummajainen hienojen elektronisten hankkeiden joukossa. Näinhän me vaatimattomat humanistit olemme oppineet ajattelemaan.

Olin jo aikapäiviä unohtanut tehdyn esityksen, kun omalle laitokselle jo palanneena sain vuosien perästä kirjeen kauppa- ja teollisuusministeriöstä. Suuren kirjekuoren sisällä oli toinen musta kirjekuori, jonka päällä luki ”Salainen”. Sisällä oli kutsu neuvotteluihin, joissa oli tarkoitus keskustella velkakompensaatioesitysten priorisoinnista. Koska asia ei enää kuulunut omiin tehtäviini, sovimme, että Maire Aho yliopiston kirjastosta edustaisi yliopistoa tässä asiassa. Hänellä oli suorat kontaktit venäläisiin alan toimijoihin, näin hän saattoi antaa tarkkoja kustannusarvioita hankittavista aineistoista. Oli heti selvää, että kyse ei voinut olla vain perinteisestä kirjallisuudesta - niin suuria kirjavuoria ei voitaisi rahdata Suomeen, jotta hankinnasta olisi tullut riittävän iso paketti. Tässä vaiheessa kuvaan tuli Integrum-tietokanta.

Neuvottelut niin Suomen päässä kuin venäläisten kanssa olivat sitkeitä, mutta eri osapuolten yhteisten ponnistusten seurauksena lopputulos oli positiivinen. Näin epämääräisestä unelmasta oli tullut totta. Helsingin yliopiston kirjasto sai erinäisten vaiheiden jälkeen käyttöönsä miljoona dollaria erilaisiin Venäjältä tehtäviin hankintoihin. Integrum-tietokannan lisäksi tuota rahaa käytetään muun muassa mikrofilmauspalvelujen ostoon. Perinteistä kirjallisuutta voidaan hankkia eri alojen tutkijoiden toiveiden mukaisesti.

Integrum-tietokannan käyttö on mahdollista vain tietokoneista, jotka on auktorisoitu käyttämään sitä. Tehdyn sopimuksen nojalla Suomessa on tällä hetkellä 28 tällaista yhteyttä. Niitä on siis myös slaavilaisen kirjaston ulkopuolella eri yliopistoissa ja tutkimuslaitoksissa. Voidaan kuitenkin hyvällä syyllä puhua slaavilaisen kirjaston materiaalista, koska sen toimesta käytiin aineistoa koskevat neuvottelut ja vain siellä annetaan tietokantaan liittyvää opastusta. Lisäksi kirjasto tekee myös tilauksesta pienimuotoisia hakuja aineistosta.


Uskomattomat tietovarannot

Integrum-tietokantaa on vaikea kuvata, koska en ole aikaisemmin tavannut mitään vastaavaa. Se on oikeastaan tietokantojen tietokanta, johon on rakennettu tehokas tiedonhakujärjestelmä. Aineiston laajuudesta saa jonkinlaisen kuvan kun verrataan sitä tavallisiin lingvistisiin tietokantoihin. Ne ovat viime vuosina kasvaneet niin, että tekstien yhteispituudet lasketaan jo miljoonissa sanoissa. Integrumissa on yli 175 miljoonaa dokumenttia! Laajuus merkkeinä laskettuna on 650 gigabittiä. Nämä valtavat luvut antavat häivähdyksen myös siitä, millaisiin mittasuhteisiin törmätään, kun kansakunnan tuottamaa tekstimateriaalia aletaan siirtää elektroniseen muotoon.

Millaisia tekstejä Integrumissa sitten on? Lehtiä, kirjoja, laki- ja asetustekstejä, uutistoimistojen ja valtion virastojen tiedotteita, patenttitietoja, erilaisia hakuteoksia puhelinluetteloita myöten, tilastoja, kirjastojen tietokantoja ja paljon muuta. Olennaista on suuri ajallinen ja alueellinen kattavuus. Tästä sopivat esimerkiksi sanomalehdet. Otsikon Central’nye gazety (keskeiset sanomalehdet) alla on satakunta nimikettä. Tämän lisäksi on erillinen otsikko Regional’naja pressa (alueellinen lehdistö), josta löytyy yli 600 lehteä. Oman ryhmänsä muodostaa aikakauslehdistö, jossa on 300 nimikettä. Kyseessä eivät ole lehtien nettimuunnelmat, vaan alkuperäiset paperimuodossa julkaistut versiot. Aikajänne ulottuu joidenkin lehtien osalta 1990-luvun alkuun, osasta on vain viime vuosien numerot. Laaja ajallinen ja alueellinen kattavuus näkyy myös esimerkiksi Lainsäädäntö-osastossa, jossa on federaatiotason ohella suuri määrä alueellisia lakitekstejä. Ajallisesti materiaali ulottuu vuoteen 1925, Venäjän valtiolliset sopimustekstit ovat vuodesta 1815.

Ehkä heikoin lenkki aineistossa on kaunokirjallisuus. Klassinen kirjallisuus ja käännöskirjallisuus on katettu melko hyvin. Sen sijaan uutta venäläistä kaunokirjallisuutta on vähän. Tähän ovat syynä tekijänoikeusongelmat.

Lukijan mielessä herää varmaan tässä vaiheessa kysymys siitä, miten Integrumin tarjoama paketti eroaa tavallisesta internet-materiaalista. Aineiston laajuuden suhteen kyse on samasta kokoluokasta. Tämän voi testata yksinkertaisella haulla. Esimerkiksi jokapäiväinen suomalaisillekin tuttu sana mesto ’paikka’ esiintyy Integrumissa 7,8 miljoonaan kertaa ja venäjänkielisen Rambler-hakukoneen materiaalissa 9,8, miljoonaa kertaa. Vastaavat luvut toisella jokaisen ihmisen elämään kuuluvalla sanalla biblioteka ’kirjasto’ ovat 1,0 miljoonaa Integrumissa ja 3,9 miljoonaa Ramblerissa. Sisältönsä puolesta materiaalit kuitenkin eroavat merkittävästi toisistaan. Internetissä oleva tekstimateriaali on suurelta osin sellaista, joka on varta vasten laadittu sähköistä käyttöä varten. Integrum-materiaalin joukossa on myös jonkin verran internet-tekstejä, mutta valtaosa siitä on perinteisiä paperille tuotettuja tekstejä, jotka sitten on saatettu elektroniseen muotoon.

Aineistojen ero näkyy myös niiden kieliasussa. Rambler-materiaalissa konjunktio potomu čto ’koska’ esiintyy noin 2 miljoonaa kertaa. Mielenkiintoisempaa on kuitenkin se, että sama konjunktio esiintyy lähes 10000 kertaa kirjakielen kannalta täysin väärässä kirjoitusasussa potomučto. Integrumissa konjunktio esiintyy oikeassa kirjoitusasussa suunnilleen yhtä usein. Yhteen kirjoitettua väärää muotoa on kuitenkin vain 1300 esiintymää. Niiden tarkempi analyysi paljastaa aineistojen eroista lisää yksityiskohtia. Integrum-aineiston vääristä kirjoitusasuista yli 1000 esiintymää on internet-aineistosta ja noin 150 ulkomailla julkaistavista venäjänkielisistä lehdistä. Aineiston luotettavuus onkin Integrumin tärkeimpiä ominaisuuksia systemaattisuuden ja aikaperspektiivin ohella.


Haku päällä

Tärkeä tekijä tietokannan käyttökelpoisuudessa on hakujärjestelmän monipuolisuus ja nopeus. Tämä on Integrumin eräs vahvuus. Haku voidaan kohdistaa yksittäisiin tietokantoihin, esimerkiksi tiettyyn sanomalehteen, tai aineistokategorioihin, esimerkiksi ”Lainsäädäntö”. Ajallinen rajaus voidaan luonnollisesti myös tehdä. Integrum, kuten myös yleiset venäläiset internet-hakukoneet, osaa taivuttaa haettavat sanat. Toisin sanoen, jos hakusanaksi kirjoittaa vodka, tulokseksi saadaan kaikki esiintymät, joissa kyseistä sanaa käytetään, siis perusmuodon ohella myös taivutusmuodot vodki, vodke, vodku, vodkoj jne. Tämä on erittäin tärkeä ominaisuus, koska venäjän kielessä on rikas taivutusjärjestelmä kuten kuusi sijamuotoa ja monimuotoinen verbitaivutus. Jos hakujärjestelmässä ei olisi tätä ominaisuutta, jokaista muotoa tulisi hakea erikseen. Toinen vaihtoehto olisi tyytyä perusmuotoon, jolloin esimerkiksi substantiiveilla jäisi arviolta 70-85% sanan käyttöesiintymistä löytämättä.

Mielenkiintoinen ja eräitten hakujen kannalta olennainen piirre on mahdollisuus määritellä, kuinka kaukana etsittävät sanat voivat esiintyä toisistaan. Tätä ominaisuutta voidaan käyttää esimerkiksi silloin, kun halutaan selvittää substantiivien yhteydessä käytettäviä prepositioita, muussa tapauksessa tarkastelun piiriin tulisivat vain sellaiset tapaukset, joissa prepositio on välittömästi substantiivin edessä ilman attribuuttia. Tätä tekniikkaa käyttäen voidaan selvittää, miten yksi sekä vakavia että huvittaviakin piirteitä saanut Venäjän ja Ukrainan välinen kielipoliittinen kiista näkyy lehdistön käytänteissä. Taustalla olivat ukrainalaisten protestit venäjän kielen normia vastaan koskien sanaa Ukraina. Kaikkien muiden maan nimien yhteydessä venäjässä käytetään prepositiota v (vrt. suomen ilmaus Ruotsissa), mutta Ukrainasta sanotaan na Ukraine (vrt. suomen Venäjällä). Ukrainalaisten mielestä tällainen preposition käyttö on halventavaa, koska historiallisesti voidaan tulkita, että preposition käytöllä viitataan jotenkin laitamaihin eikä itsenäiseen alueeseen. Tämän vuoksi he vaativat, että venäjän kielessä tulisi sanoa v Ukraine. Integrum-materiaalin avulla voidaan tarkkaan seurata, miten kielenkäyttö on kehittynyt tämän sanan osalta viimeisten kymmenen vuoden aikana eri lehtityypeissä: Moskovassa ilmestyvät lehdet, aluelehdistö, Ukrainassa ilmestyvät lehdet, muualla IVY-maissa ilmestyvät lehdet. (Vrt. Smoljanskij 2003).

Suomalainen ei voi olla testaamatta maahamme liittyvien sanojen esiintymisiä. Tarja Halonen esiintyy materiaalissa 7000 kertaa. Mielenkiintoista on katsoa, mitä hänestä kirjoittaa esimerkiksi Rybak severa (Pohjoisen kalastaja). Matti Vanhasesta on ennättänyt olla vasta 120 mainintaa. Entä sitten sana Finljandija? Se esiintyy yli 400 000 kertaa. Suurin osa esiintymistä liittyy tietysti normaaliin uutismateriaaliin. Jotakuta saattaisi kuitenkin kiinnostaa, mitä Suomesta sanotaan Venäjän korkeimman oikeuden tiedotteissa (7 esiintymää), duuman istuntojen pöytäkirjoissa (47), patenttikuvauksissa (yli 500) tai se kenen kirjailijan teoksissa esiintyy sana Finljandija (pari sataa esiintymää).

Sauna tietysti kiinnostaa meitä. Vaikka professori Igor Vahros osoitti jo vuonna 1966 suomalaisen ja venäläisen saunan yhteiset sukujuuret, venäläiset edelleen uskovat, että venäläinen sauna (banja) ja suomalainen sauna (venäjäksikin sauna) ovat ihan eri käsitteitä. Edellinen on heidän mukaansa se perinteinen maalaissauna, jossa heitetään löylyä, ja jälkimmäinen on kuiva sähkösauna. Näkyykö tämä sitten jotenkin näiden sanojen käytön jakaumassa? Eri aineistoja koskevat luvut ovat hämmästyttävän samanlaiset. Lähes kaikissa materiaaleissa, niin erilaisissa lehdissä kuin lainsäädäntöonkiin liittyvissä teksteissä, sana banja on 2-4 kertaa yleisempi kuin sauna kokonaismäärien ollessa 184000 ja 73400. Mielenkiintoisen osan esiintymistä (noin 1000) muodostavat sellaiset lauseet, joissa esiintyvät molemmat sanat. Pikainen silmäys niihin osoittaa, että sanoilla useimmissa tapauksissa todellakin tarkoitetaan eri käsitteitä. Hakemistossa Venäjän poliittinen eliitti seitsemän miestä ilmoittaa harrastuksekseen saunomisen. Viisi heistä käy banjassa, yksi saunassa, yksi käy molemmissa. Yhdestä poliitikosta kerrotaan, että hänestä on julkaistu kuva, jossa hän on yhdessä alastomien naisten kanssa saunassa. Tuskin olisi ollut mahdollista, että lehdessä olisi julkaistu vastaava kuva banjasta.

Yllä olevat esimerkit ovat luonnollisesti vain pintapuolista leikkiä numeroilla ja yksittäisillä esimerkeillä. Joka tapauksessa ne osoittavat joitakin mahdollisuuksia käyttää tietokantaa.


Myös englanniksi

Integrum sisältää monia ominaisuuksia, joita tässä ei ole mahdollista kuvata, ja joita en itsekään välttämättä tunne. Yhdestä kiintoisasta yksityiskohdasta on kuitenkin syytä mainita - kaikki kun Suomessa eivät vielä osaa venäjää. Englanninkielisen käyttöliittymän lisäksi siinä on myös käännösautomaatti, joka kääntää mitkä tahansa tekstin välittömästi englanniksi. Kuten tunnettua, toimivia hyviä käännösautomaatteja on odotettu tietokoneympäristöön suurella hartaudella. Joitakin tällaisia onkin jo saatavilla. Ihmisen veroista käännösautomaattia ei ole kuitenkaan vielä kyetty laatimaan, eikä koskaan kyetäkään. Puutteista huolimatta koneellisten käännösten laatu alkaa olla jo sitä luokkaa, että niitä voidaan hyödyntää laajemmassa mittakaavassa. Tässä näyte Integrumin pikakäännöksestä:
Näyte Integrumin pikakäännöksestä.
Esimerkki osoittaa, että käännöksessä tyydytään epäselvissä tapauksissa antamaan vaihtoehtoja, joista lukija voi itse valita kontekstiin sopivan. Tällaiseen varovaiseen ratkaisuun on päädytty myös yhdessä automaattisen kääntämisen vaikeimmista ongelmista, pronominien viittaussuhteiden osoittamisessa.

Vierasperäiset erisnimet aiheuttavat luonnollisesti ongelmia, kun ne translitteroidaan ensin yhteen kieleen ja sitten sen kielen sääntöjen mukaisesti takaisin alkuperäiseen kirjaimistoon. Nimien translitterointi on iso ongelma myös tietokantojen käytössä, koska sama nimi voi esiintyä hyvin erilaisissa muodoissa. Venäläisten nimien moninaisuuteen Integrum on varautunut. Siihen on rakennettu kiintoisa hakuominaisuus: jos kirjoittaa A S Puškin /ФИО, niin hakujärjestelmä ottaa samalla kertaa huomioon eri kirjoitusasut. Aleksandr Puškin; A. S. Puškin; Aleksandr Sergeevič Puškin; Puškin, Aleksandr Sergeevič.

On syytä vielä mainita, että Puškinin teokset ja monet muut kaunokirjallisuuden klassikot saadaan Integrumissa näkyviin myös paralleeliteksteinä: alkuperäinen ja sen rinnalla ”oikea” käännös.


Lingvistinkin apuna

Integrum ei ole varsinaisesti tarkoitettu tutkimuskäyttöön. Sen keskeinen käyttäjäkunta ovat yritykset sekä virastot ja muut julkisen sektorin tiedon tarvitsijat. Heitä varten Integrum tarjoaa moninaisia informaationseurantapalveluita ja suuri osa materiaalista on valittu heitä silmällä pitäen. Integrum on kuitenkin myös Venäjä-tutkijan aarreaitta. Eniten siitä hyötyvät yhteiskunnan, politiikan ja talouden tutkijat. Kaikki Integrumin sisältämä tieto on varmasti olemassa myös jossakin muualla, missään se ei ole kuitenkaan saatavilla niin kompaktissa ja helposti käytettävässä muodossa. Aineistolle on varmasti käyttöä, jos tutkii esimerkiksi Tarja Halosen kuvaa venäläisessä lehdistössä, huumeiden torjuntaa Itä-Siperiassa, Venäjän alkoholilainsäädännön kehitystä viime Stalinin ajoista nykypäivään tai Venäjän patenttitoimen länsimaistumista. Oma kokemukseni on se, että itse aineisto nostaa esiin tutkimuskysymyksiä, joita aikaisemmin ei ole tullut ajatelleeksi. Uskon, että Suomen Akatemian uuden Muuttuva Venäjä -tutkimusohjelman tutkijoille Integrum-materiaali muodostaa tärkeä työkalun.

Kielentutkijana minua tietysti kiinnostaa, missä määrin materiaalia voidaan käyttää kielitieteellisissä tutkimuksissa. Jotta kysymykseen voisi vastata, on ensin lyhyesti kuvattava lingvistisessä tutkimuksessa käytettäviä aineistoja. Ne voidaan karkeasti jakaa neljään ryhmään. Yksinkertaisimmillaan aineisto koostuu tavallisesta tekstistä, jota ei ole käsitelty millään tavalla. Tällaisia aineistoja voidaan käyttää erityisesti sanojen käytön tutkimuksessa. Esimerkkien hyödynnettävyyttä voidaan lisätä ohjelmilla, jotka antavat tiettyjen parametrien avulla sanojen käyttöympäristön sekä edestä että takaa. Seuraavan aineistoryhmän muodostavat tekstit, joissa on suoritettu morfologinen analyysi. Tällöin aineisto kertoo, että tekstissä esiintyvä sana kirjastossa on sanan kirjasto yksikön inessiivimuoto. Morfologinen analyysi voidaan suorittaa automaattisesti käyttämällä esimerkiksi professori Kimmo Koskenniemen (1983) kehittämää kaksitasomallia. Sen pohjalta on laadittu myös venäjän kieltä analysoiva ohjelma. Ongelmaksi muodostuvat kuitenkin sananmuodot, jotka voidaan tulkita eri tavoin, esimerkiksi teillä on sekä sanan tie että sanan te muoto. Prosessia jonka avulla tulkinta tehdään yksiselitteiseksi, kutsutaan disambiguoinniksi. Ihminen pystyy yleensä helposti tulkitsemaan oikein monitulkintaiset muodot ja jopa käyttämään niitä vitsien ja sutkausten pohjana. Koneellisessa analyysissä ne ovat kuitenkin suuri ongelma. Ratkaisuna käytetään muun muassa professori Fred Karlssonin kehittämää rajoitekielioppia (ks. esim. Karlsson & al. 1995). Venäjän kieleen sitä on sovellettu hiljattain ilmestyneessä Alexander Pailen pro gradu -tutkielmassa. Näin käsitelty aineisto muodostaa kolmannen kategorian. Tämän lisäksi tarvitaan sellaisia aineistoja, joissa on tietoa myös lauseiden syntaktisista ja semanttisista ominaisuuksista. Vain pieni osa tällaisesta analyysistä voidaan automatisoida. Tämän johdosta aineiston laajuudesta joudutaan tinkimään. Esimerkiksi Helsingin yliopiston slavistiikan ja baltologian laitoksella laadittava HANCO-korpus kattaa noin 100 000 sanaa.

Integrum-materiaali kuuluu yllämainitussa luokittelussa ensimmäiseen kategoriaan. Sen vuoksi se soveltuu sellaisenaan vain sanaston tutkimiseen. Aikadimensio ja tekstityyppien kategorisointi tekee siitä tehokkaan välineen tällaisessa tutkimuksessa. Kirsi Kemppinen tutki pro gradu -työssään englannin sanojen distributor ja brand tuloa venäjän kieleen. Integrum-aineiston avulla voidaan tarkkaan osoittaa, milloin sanat ilmestyivät alan spesiaalilehtiin ja milloin yleisaikakauslehtiin. Samalla voidaan seurata sitä, miten sanojen venäjänkielinen kirjoitusasu on muuttunut. Tämä on esimerkki myös siitä, että hyvä aineisto herättää itsessään tutkimuskysymyksiä. Käsipelillä vastaavan aineiston kahlaaminen olisi vaatinut kuukausien työn. Nyt tilastoaineisto ja esimerkkimateriaali voitiin kerätä viikossa ja näin energia voitiin kohdistaa aineiston tarkempaan analyysiin ja johtopäätösten tekemiseen.

Tietyin edellytyksin Integrum-aineistoa voidaan käyttää myös morfologisissa ja syntaktisissa tutkimuksissa. Tällöin on kuitenkin kyettävä jotenkin sanatasolla yksilöimään haettava tutkimusmateriaali. Tämäntyyppisestä tutkimuksesta sopii esimerkiksi venäjän erikoinen syntaktinen rakenne tyyppiä Lodku uneslo vetrom. Se on tietynlainen aktiivi- ja passiivilauseen sekamuoto: objekti on akkusatiivisissa kuten aktiivilauseessa, mutta aiheuttaja on instrumentaalissa kuten passiivilauseessa. Tyyppinen käyttöympäristö rakenteelle ovat tilanteet, joissa tapahtuu jotakin yllättävää (usein negatiivista) esimerkiksi luonnonilmiöiden johdosta. Jos kyseistä esimerkkiä yrittäisi kääntää rakennetarkasti, niin suomenkielinen vastine voisi olla Veneen vei tuulen voimasta. Rakennetta on tietysti tutkittu, mutta yleensä artikkeleissa pyörivät samat parikymmentä esimerkkiä. Aineiston hankinnan ongelmana on se, että vaikka rakenne on täysin käyttökelpoinen ja hyväksyttävä nykyvenäjässä, se on varsin harvinainen. Kun Inna Reuss teki aiheesta pro gradu –tutkielman (2002), hän löysi läpikäymistään kahdesta romaanista yhteensä kaksi esimerkkiä. Kun pohdimme, miten voisimme käyttää Integrumia saadaksemme laajemman aineiston, emme aluksi keksineen mitään keinoa, koska kieliopillisen muodon tai syntaktisen rakenteen perusteellahan hakua ei voida suorittaa. Sitten oivalsimme, että lauseissa esiintyy rajallinen määrä verbejä, jotka ovat (lähes) aina tietyssä muodossa (preteritin neutrimuoto). Laadimme yhdessä listan verbeistä ja suoritimme sillä perusteella hakuja. Näin pystyimme luomaan ainutlaatuisen noin 3000 tapauksen esimerkkikokoelman, joka mahdollistaa rakenteen tutkimisen aivan uusista lähtökohdista.

Paras osoitus Integrum-aineiston käyttökelpoisuudesta venäjän kielen tutkimuksessa ovat laitoksellamme vierailevien venäläisten tutkijoiden reaktiot. Kun esittelemme aineiston käyttömahdollisuudet heille, tiedämme kokemuksesta, että he käyttävät kaiken käytettävissä olevan ajan materiaalin hyödyntämiseen.


Lähteet

Karlsson, Fred & Vuotilainen, Atro & Heikkilä, Juha & Anttila, Atro (toim.). Constraint grammar: a language-independent system for parsing unrestricted text. Berlin: Mouton de Gruyter, 1995.

Kemppinen, Kirsi. Upotreblenie v russkom jazyke novyh anglicizmov, distributor i brand. Pääaineen tutkielma. Humanistisen tiedekunnan kirjasto. Slavistiikan ja baltologian laitos, 2003. (valmistuu syksyllä)

Koskemniemi, Kimmo. Two-level morphology: a general computational model for word-form recognition and production. Helsinki: Helsingin yliopisto, 1983.

Paile, Alexander. Avtomatičeskij analiz russkogo teksta. Pääaineen tutkielma. Humanistisen tiedekunnan kirjasto. Slavistiikan ja baltologian laitos, 2003.

Reuss, Inna. Sema intencional’nosti kak komponent tipovogo značenija bezličnoj sintaksičeskoj modeli tipa Lodku uneslo tečeniem. Pääaineen tutkielma. Helsingin yliopisto. Humanistisen tiedekunnan kirjasto. Slavistiikan ja baltologian laitos, 2002.

Smoljanskij, Aleksandr. Internet i prepodavanie russkogo jazyka i literatury: novye vozmožnosti i starye problemy. Kongress MAPRJAL: Russkoe slovo v mirovoj kul’ture. Kruglye stoly: sbornik dokladov i soobščenij. Pietari 2003, 179-189.

Suonsyrjä, Jarmo. Slaavilaisen kirjaston kokoelmien synty ja kartunta, Bibliophilos 2, 1992.

Widnäs, Maria. Jacob Grot och Universitetets Ryska bibliotek. Miscellanea Bibliographicassa 5, 1947.


Lisätietoa verkossa

Integrum tietokanta. Saatavana http://www.integrum.com/

Suomen Akatemia, Muuttuva Venäjä -tutkimusohjelma. Saatavana http://www.aka.fi/russia/