Hankkeessa keskeistä oli suurten tietomassojen hallinta, jalostaminen ja hyödyntäminen erilaisten menetelmien avulla.

Digitaalisten aineistojen automaattinen analysointi eli tiedon- ja tekstinlouhinta tarjoaa uusia älykkäitä aineistojen käyttötapoja ja mahdollisuuksia uudelleenkäytölle yli tutkimusalojen. Tiedonlouhinnalla voidaan analysoida tietoa tavoilla, jotka eivät ole mahdollisia ilman automaattisia menetelmiä. Raakadataa voidaan jalostaa entistä käyttökelpoisemmiksi aineistoiksi ja kehittää menetelmiä, joilla niitä voidaan hyödyntää. Digitaalisten aineistojen tulevaisuuden käyttötapojen kehittäminen edellyttää monitieteistä tutkimusta, jossa on mukana tietotekniikan, kieliteknologian, humanististen tieteiden ja sähköisen arkistoinnin osaamista.

Digra-projektiin kuului tiedon- ja tekstinlouhinnan tutkimusta, opetusta sekä laajaa kansainvälistä ja kansallista verkottumista. Digitaalisten aineistojen tutkimuksen Suomen ensimmäisen professorin sijoituspaikat ovat Helsinki ja Mikkeli. Professorin Mikkelin tutkimusryhmään kuului Kansalliskirjaston Digra-hankehenkilöstön lisäksi projektin osatoteuttajan Mikkelin ammattikorkeakoulun sähköisen asioinnin ja arkistoinnin koulutusohjelman opettajakuntaa. Hanke vahvisti Mikkelin seudun digitaalisiin aineistoihin liittyvää osaamista ja ammattikorkeakoulun opetusta entisestään sekä loi pohjaa tulevalle tutkimukselle ja uutta kansainvälistä tutkimusyhteistyötä.

Projektiin kuului tutkimusta, opetusta ja laajaa kansallista sekä kansainvälistä verkottumista. Projektilla oli käytössään Kansalliskirjaston laaja digitoitu aineisto ja siihen linkittyvä tutkimusympäristö. Kansalliskirjaston digitoidut lehtiaineistot ova tärkeä Big Data -sisältö, joka edistää useiden tieteenalojen uusia tutkimusmahdollisuuksia kulttuurihistoriallisesti kattavalla kokoelmallaan. Kirjasto on tuottanut laajoja korpuksia mm. digitoitua sanoma- ja aikakauslehtiaineistoa, yhteensä n. 9 miljoonaa sivua. Sen pohjalta voidaan rakentaa erilaisia älykkäitä aineiston rikastamiseen ja jalostamiseen liittyviä palveluita. Tekijänoikeudesta vapaiden datasisältöjen avaus luo kansalaisystävällistä tietoyhteiskuntaa, uusia tietovarantoja ja uudenlaisia kulttuuriperinnön käyttötapoja. Kehittäjäekosysteemit ja yrittäjyys hyötyvät.

Digitaalisten aineistojen tutkimuksessa tapahtuman, paikan ja henkilöiden nimien koneellinen tunnistaminen edellyttää tekstintunnistuksen mahdollisimman hyvää laatua ja artikkelien automaattista poimintaa. Kansalliskirjaston digitoimien aineistojen tekstintunnistuksen laadunparannuksen tutkimus- ja kehitystyötä tehtiin Digrassa kirjaston digitointi- ja konservointikeskuksen ja FIN-CLARINin yhteistyönä. Tekstintunnistusvirheiden tunnistus- ja korjausjärjestelmästä on saatu valmiiksi prototyypin aihiota esiteltiin IFLA-järjestön sanomalehtijaoston konferenssissa Genevessä. Varsinainen työ on vielä aloitusvaiheessa varsinkin vanhemman, fraktuurafontilla painetun aineiston osalta.

Toinen tärkeä pohja nimientiteettien tunnistamiseen on digitoidun sanomalehtiaineiston artikkeleiden matemaattisiin menetelmiin perustuva rajaaminen ja poiminta. Projektissa tehtiin alustavia yksittäisten lehtinumeroiden artikkeleiden poimintakokeiluja eri aikakausilta.

Erilaisia kansallisia keskustelu- ja verkostoitumistilaisuuksia järjestettiin runsaasti. Esimerkiksi Mikkelissä oli useita työpajoja digitaalisten aineistojen tutkimuksen ja tiedonhakujärjestelmien kehittämiseksi. Osallistujat olivat monista yliopistoista ja tutkimuslaitoksista. Kansainvälistä verkottumista edisti mm. vierailu British Libraryyn ja King’s Collegeen Lontoossa ja esitykset siellä.

Mikkelin ammattikorkeakoulun kanssa aloitettiin kansalaisystävällisen tietoyhteiskuntakehityksen valmistelu. Ammattikorkeakoulun kanssa toteutettiin myös oikeuslingvistiikkaan ja lakitekstien tekstinlouhintaan liittyvä tilaisuus. Lisäksi professori opetti siellä digitalisoitumisen ja tietoyhteiskuntakehityksen teemoista.

Humanististen tieteiden tavoitteet tutkimuksen lähtökohtana ovat vahva tietojenkäsittelytieteen data-analyysi ja tiedonlouhinta yhdistettynä kieliteknologiseen ja muuhun tutkimukseen. Korpuslähtöinen tutkimus ja laajamittaisempi laskennallisten menetelmien käyttö kasvaa jo nyt räjähdysmäisesti. Digra-projekti on ollut ennakoimassa ja edistämässä tätä kehitystä.

DIGRA – Digitaalisesta raakadatasta aineistoksi -hanketta rahoitti Euroopan aluekehitysrahasto (EAKR) ja mukana olevat osapuolet.

Yhteystiedot

Noora Talsi
tutkimusjohtaja
p. 040 648 5020
noora.talsi(at)mamk.fi

 

 

Faktat

DIGRA - Digitaalisesta raakadatasta aineistoksi

01.06.2012 - 31.12.2014

Toteuttajat

Hallinnoija: Kansalliskirjaston Digitointi- ja konservointikeskus

Osatoteuttajat: Helsingin yliopiston humanistinen ja matemaattis-luonnontieteellinen tiedekunta, Mikkelin ammattikorkeakoulu, Mikkelin yliopistokeskus ja Otavan Opisto

Painoalat: Digitaalinen talous

Budjetti

Rahoittaja ja päärahoituslähde: Euroopan aluekehitysrahasto