M A R J AT TA PA L A N D E R , H E L K A R I I O N H E I M O,
H A N N U K E M P PA N E N & J U K K A M Ä K I S A LO
Itä -Suomen yliopisto
K ielikorpuk sia Suomen itärajalta
1.
Johdanto
ItäSuomen yliopistossa on pitkät perinteet rajaalueiden ja erityi
sesti Suomen itärajan monitieteisessä tutkimuksessa. Yliopiston ny
kyisessä tutkimusstrategiassa yksi kansainvälisistä huipputason tut
kimusalueista on Rajat, liikkuvuus ja kulttuurien kohtaaminen, joka
on edustettuna paitsi yhteiskunta ja historiatieteissä myös kieli ja
käännöstieteissä, mm. suomen ja venäjän kielessä sekä karjalan kie
len ja kulttuurin oppiaineessa. Näissä kieliaineissa on viime vuosina
työstetty kolmea digitaalista korpusta (Raja-Karjalan korpus, Inkerinsuomen korpus ja Karjalan suomen korpus), jotka ovat jo nyt useiden
tutkijoiden käytössä. Rajakarjalais ja inkeriläismurteiden aineistot
edustavat 1900luvun jälkipuoliskolla tallennettua vanhan polven
puhekieltä, kun taas Petroskoin suomen aineisto koostuu 2000luvun
mediakielestä.
Näitä korpuksia yhdistää se, että niiden edustamat kielimuo
dot ovat olleet omalla alueellaan vähemmistökieliä ja niihin on tul
lut runsaasti kontaktivaikutusta seudun valtakielestä. Inkerinsuomi
ja Petroskoin (yleiskielinen) suomi ovat siirtolaiskielimuotoja, jotka
ovat syntyneet siirtolaisryhmien muuttaessa uudelle kielialueelle:
inkerinsuomalaisten esiisät siirtyivät 1600luvulla Kannakselta ja
Savosta Inkerinmaalle ja Petroskoin suomalaiset 1930luvulla Suo
mesta ja Yhdysvalloista NeuvostoKarjalaan. Molemmissa suomen
muodoissa venäjän kielen vaikutus on selvää. Rajakarjalaismurteita
taas on alun perin puhuttu Suomen ja Venäjän välisellä rajaalueella,
jossa karjalan kieli on saanut vaikutusta sekä venäjästä että suomesta.
Multi lingual Finnic. Language
contact and change. 425–438.
Uralica Helsingiensia 14. Helsinki 2019.
‹https://doi.org/10.33341/uh.85045›
M A R JAT TA PA L A N D E R , H E L K A R I I O N H E I M O,
HAN N U K EM PPAN EN & J U K K A M ÄK ISALO
Inkerinsuomen korpus ja RajaKarjalan korpus ovat puolestaan siinä
suhteessa samanlaisia, että molemmissa on näkyvissä kaksi kielikon
taktien kerrosta. Osa kieltenvälisestä vaikutuksesta on pitkäaikaista ja
peräisin tilanteesta, jossa eri kielten puhujia on asunut samoilla seu
duilla, Inkerinmaalla ja RajaKarjalan alueella. Osa aineistoissa ilme
nevästä vaikutuksesta on kuitenkin tuoretta ja idiolektikohtaista ja on
syntynyt haastateltujen ihmisten henkilökohtaisten kokemusten kautta
heidän asetuttuaan asumaan läheistä sukukieltä puhuvaan uuteen kie
liyhteisöön. Inkerinsuomalaisista informanteista osa oli haastatteluti
lanteessa asunut noin 50 vuotta Virossa. Rajakarjalaiset oli jatkosodan
jälkeen asutettu muualle Suomeen suomenkielisille alueille, ja haas
tattelujen aikaan he olivat olleet Suomessa noin 20–30 vuotta.
Korpustyön tavoitteena on yhtäältä parantaa aiemmin, jo
1960luvulta lähtien koottujen puhekielisten aineistojen käytettävyyt
tä ja toisaalta tarjota Karjalan suomen lehtiteksteistä yhtenäinen tutki
musaineisto, jollaista ei ennestään ole olemassa. Korpusten laadinta
hyödyttää myös kieliteknologista tutkimusta: korpustyössä voidaan
testata kieliteknologisten työkalujen soveltuvuutta sekakieliseen ja
murteelliseen puhekielen aineistoon. Tavoitteena on, että korpukset
tarjoaisivat monipuolisia mahdollisuuksia sekä perinteisiin että uu
dentyyppisiin murteita ja kontaktivarieteetteja koskeviin tutkimusai
heisiin. Suomalaisessa dialektologiassa on toistaiseksi ollut niukasti
käytettävissä varsinaisia korpuksia, jotka mahdollistaisivat esimer
kiksi yhtenäisistä teksteistä tehtävät automaattiset hakutoiminnot. En
simmäinen korpuksen muotoon koostettu murreaineisto on Lauseopin
arkiston kokoelma. Se käsittää noin 130 tuntia Kotimaisten kielten
keskuksen Suomen kielen nauhoitearkiston litteroituja murrehaastat
teluja. Kotimaisten kielten keskuksessa on lisäksi saatu valmiiksi Suomen kielen näytteitä sarjan litteroitujen tekstien (100 t) yhdistämi
nen ääninäytteisiin. ItäSuomen yliopiston RajaKarjalan korpuksen
ja Inkerinsuomen korpuksen lopullinen tavoite on vastaavanlainen:
puheäänen kohdistaminen tarvittavalla tarkkuudella litteraatiotekstiin.
426
K I E L I KO R P U K S I A SU O M E N I TÄ R A JA LTA
2. Raja - K arjalan korpus
RajaKarjalan korpus perustuu Kotimaisten kielten keskuksessa säi
lytteillä oleviin suomen kielen nauhoitearkiston murreäänitteisiin,
jotka on tallennettu pääosin 1960luvulla ja digitoitu vuosina 2009–
2011. Äänitteet edustavat luovutetun RajaKarjalan pitäjien murteita,
joiden tutkimus on tähän saakka ollut vähäistä: 1800luvun lopulla ja
1900luvulla on ilmestynyt yksittäisiä, lähinnä äänneopillisia kuvauk
sia (Genetz 1870; Kujola 1910; Turunen 1965, 1973, 1982), joiden
perusteella saa yleiskuvan siitä, millaisia murreeroja alueella on ollut
ennen viime sotia. Rajakarjalaismurteet eivät kuitenkaan ole mukana
esim. Bubrihin, Beljakovin ja Punžinan Karjalan kielen murrekartastossa (1997), ja yksityiskohtainen tieto idiolektien välisestä variaati
osta on puuttunut kokonaan.
RajaKarjalan korpukseen kuuluu yhteensä noin 120 tuntia
litteroitua vanhan ikäpolven (70–90vuotiaiden) haastattelupuhetta
seuraavista pitäjistä: Ilomantsi, Korpiselkä, Suistamo, Suojärvi, Im
pilahti ja Salmi. Murrenäytteiden valintaperusteena on pidetty sitä,
että ne edustavat äidinkieleltään karjalankielisten puhujien murretta.
Haastateltavat ovat siis syntyneet luovutetun RajaKarjalan alueel
la, mutta heidät on asutettu siirtolaisina toisen maailmansodan jäl
keen nykyisen Suomen rajojen sisäpuolelle, enimmäkseen Pohjois
Karjalaan ja PohjoisSavoon. Erityisesti Ilomantsin, Korpiselän ja
Impilahden kielenoppaiden puhekieli on saanut paljon vaikutteita
suomen savolaismurteista, kun taas Suistamon, Suojärven ja Salmin
murteiden puhujilla karjalan kieli on säilynyt paremmin.
Rajakarjalaismurteiden korpus luotiin RajaKarjalan kielikon
taktien tutkimusta varten. Valtaosa äänitteistä litteroitiin puolikar
keaa transkriptiota hieman karkeammalla tarkekirjoituksella vuosina
2009–2011 ItäSuomen yliopistossa opiskelijavoimin, Karjalaisen
Kulttuurin Edistämissäätiön rahoituksella. Kun Suomen Akatemian
rahoittama nelivuotinen tutkimushanke FINKA (Suomen ja karjalan
rajalla: näkökulmia lähisukukieliin ja niiden murteisiin) perustet
tiin 2011, aloitettiin litterointien tarkistustyö ja aineiston täyden
täminen erityisesti RajaKarjalan itäisimpien murteiden litteroin
neilla. FINKAhankkeen lisäksi korpustyötä on rahoitettu Koneen
Säätiön apurahalla, joka myönnettiin vuosiksi 2013‒2015 Suomen
427
M A R JAT TA PA L A N D E R , H E L K A R I I O N H E I M O,
HAN N U K EM PPAN EN & J U K K A M ÄK ISALO
itäpuolisten lähialueiden kielikorpukset (SILK) hankkeelle, sekä
Karjalaisen Kulttuurin Edistämissäätiön apurahalla v. 2016–2017
(SILK 2). Aineisto on nyt lopullisessa koossaan, ja se on kokonaan
tarkistettu. Korpuksen koko on noin 850 000 sanaa. Korpusta käyte
tään FINKAhankkeessa alkaneeseen, erityisesti suomen ja karjalan
sekamurteiden morfologisten, morfosyntaktisten ja foneettisfono
logisten ilmiöiden tutkimukseen. Aineistosta on valmistunut kaksi
väitöskirjatutkimusta (Kok 2016, Uusitupa 2017), siitä on valmis
teilla viisi väitöskirjatutkimusta (Laura Arantola, Natalia Giloeva,
Henna Massinen, Ilja Moshnikov ja Susanna Tavi) ja tehtynä on
useita muita tutkimuksia (Palander & Riionheimo 2018, Uusitupa,
Koivisto & Palander 2017, Palander, Riionheimo & Koivisto 2018,
Koivisto 2018).
Korpus on nykyvaiheessaan digitaalisessa muodossa oleva teksti
kokoelma, jossa jokaisen nauhoitteen litterointi on omana Wordtiedos
tonaan sekä Unicodemuotoisena tekstitiedostona.1 Tekstitiedostot on
nyt kohdistettu äänitiedostoihin. Ääninäytteet on yhdistetty teksteihin
Praatohjelmaa käyttäen ns. puoliautomaattisella nimikointimenetel
mällä. Korpuksen valmistuttua ääni ja tekstitiedostot ovat käytettävis
sä rinnakkain, jolloin tutkija voi seurata litteroitua tekstiä ja autenttista
murrepuhetta samanaikaisesti. Äänen ja tekstin yhdistäminen palvelee
esimerkiksi lausepainon hyödyntämistä, sillä lausepainolla sekä äänen
sävyn ja voimakkuuden vaihtelulla on merkitystä puheen syntaktisen
rakenteen ja lausesemantiikan tutkimuksessa. Tekstin ja äänen yhdistä
vä korpus antaa mahdollisuuksia myös uudenlaisten tutkimuskysymys
ten kehittelyyn: miten suomen ja karjalan kohtaaminen on vaikuttanut
rajakarjalaismurteiden intonaatioon tai rytmiin (esim. lyhyttä ensi tavua
seuraavan toisen tavun lyhyen vokaalin kestoon; vrt. savolaiseen ns.
puolipitkään vokaaliin: talò : talòssa).
1. Korpuksen metatiedot ovat METASHAREtietokannassa osoitteessa ‹http://
metashare.csc.fi/repository/browse/thecorpusofborderkarelia/f2fdd49caac211e3
90f0005056be118eda6c88241c1440678c85b11488d58ae0/›.
428
K I E L I KO R P U K S I A SU O M E N I TÄ R A JA LTA
3. Inkerinsuomen korpus
Inkerinsuomen korpus perustuu Joensuun yliopiston tutkimushank
keessa tehtyihin ja nykyisin ItäSuomen yliopistossa säilytteillä oleviin
murreäänitteisiin, jotka on tallennettu 1990luvulla. Kielentallennus
ta tehtiin hankkeessa Inkerinsuomalaisten kieliolot ja inkerinsuomen
nykytila, jota johtivat suomen kielen professori Ilkka Savijärvi ja ve
näjän kielen professori Muusa Savijärvi. Hankkeen lähtökohtana oli
inkeriläismurteiden kohtalo 1990luvun uudessa yhteiskunnallises
sa tilanteessa Neuvostoliiton romahtamisen jälkeen ja vähemmistö
emansipaation alkuvaiheissa (hankkeen taustoista ks. esim. Riion
heimo 2007: 21–22). Nauhoiteaineistoa kerättiin Virossa kolmella
paikkakunnalla (Tartto, Pärnu ja Järvamaan maakunta) yhteensä noin
60 tuntia ja Venäjällä inkerinsuomen alkuperäisellä puhumaalueella
Inkerinmaalla viidessä pitäjässä (Toksova, Keltto, Skuoritsa, Kupanit
sa ja Narvusin Kurkolanniemi) yhteensä noin 125 tuntia. Aineistosta
on tähän mennessä julkaistu kolme kielennäytekokoelmaa (Riion
heimo & Kivisalu 1994, Savijärvi ym. 1996, Kokko ym. 2003).
Inkerin suomalaismurteista on olemassa jonkin verran aikaisem
paa tutkimusta, vaikkakin se on ollut huomattavasti vähäisempää ja
epäsystemaattisempaa kuin Suomen alueella puhuttujen murteiden
tutkimus. Ennen 1990lukua tutkimus on tapahtunut samoin menetel
min ja päämäärin kuin muidenkin suomen murteiden: päähuomio on
ollut äännehistoriassa, ja morfologiaa on kuvattu vain vähän, syntaksia
tuskin lainkaan. Tutkimuskohteena ovat olleet vanhat inkerinsuomen
murteet sellaisina kuin niitä puhuttiin ennen sotia alkuperäisillä asu
maalueilla tiiviissä suomenkelisissä yhteisöissä, ja aineistoa on koot
tu joko 1900luvun alussa tai sotien jälkeen iäkkäiltä kielenoppailta.
(Inkerinsuomen aiemmasta tutkimuksesta tarkemmin esim. Kokko
2007: 25–27, Riionheimo 2007: 20–21.) 1900luvun loppupuolella
puhuttu inkerinsuomi on kuitenkin aivan toisenlainen kielimuoto
kuin vanhat paikallismurteet. Inkerinsuomalaiset ovat Neuvosto
liiton karkotusten ja toisen maailmansodan tapahtumien vuoksi elä
neet pääasiassa alkuperäisen kotiseutunsa ulkopuolella, hajallaan
eri alueilla ja eri maissa ja kaikkialla pienenä vähemmistönä toisen
kielisen enemmistön keskuudessa. Kieleen ovat vaikuttaneet erilaiset
muutosvoimat kuin perinteisiin murteisiin, esimerkiksi kielenvaihto
429
M A R JAT TA PA L A N D E R , H E L K A R I I O N H E I M O,
HAN N U K EM PPAN EN & J U K K A M ÄK ISALO
enemmistökieleen, monikielisyys ja äidinkielen hiipuminen. Inkerin
suomen tutkimus on tämän myötä suuntautunut kohti uudenlaisia
näkökulmia, kuten kielikontaktien ja kielen attrition tutkimusta.
Joensuun yliopiston inkerinsuomen tutkimushankkeessa aineis
tonkeruun tavoitteena oli hankkia yleiskuva inkerinsuomen silloisesta
tilanteesta ja kielimuodon moninaisesta vaihtelusta, ja siksi haastatel
tavina on ollut monenlaisia kielenpuhujia: sekä murteensa säilyttänei
tä että sellaisia yksilöitä, joilla alkuperäinen murre on muuttunut joko
suomen yleiskielen tai vieraan kielen (venäjän tai viron) vaikutukses
ta. Suurin osa haastateltavista edustaa tuolloista vanhinta ikäpolvea
eli ikäluokkaa, joka oli ehtinyt omaksua Inkerinmaalla suomen äidin
kielekseen ennen toisen maailmansodan aikaista ja jälkeistä kansallis
ta hajaannusta. Aineisto on ainutlaatuinen dokumentti erään Suomen
valtion ulkopuolella puhutun suomen murteen kohtalosta: sosio
poliittisista syistä aiheutuneesta kielenvaihdosta ja sen seurauksista
puhujien äidinkieleen (inkerinsuomeen). Koska inkerinsuomalaisten
yhteiskunnallinen asema oli Neuvostoliitossa suhteellisen saman
lainen sekä Inkerinmaan alueella että Virossa, aineiston kaksi osaa
mahdollistavat vertailun kahden erilaisen kielikontaktitilanteen välil
lä: Virossa valtakielenä on ollut läheinen sukukieli viro, Inkerinmaalla
taas suomesta typologisesti paljon poikkeava venäjän kieli.
Inkeriläismurteista on ilmestynyt kaikkiaan neljä väitöskirjaa
(Lehto 1996, Kokko 2007, Riionheimo 2007 ja Mononen 2013), joista
Kokon ja Riionheimon tutkimukset perustuvat ItäSuomen yliopiston
Inkerinsuomen korpukseen. Samasta aineistosta on lisäksi valmistunut
pro gradu tutkielmia (tuorein Surakka 2011). Helka Riionheimo on
julkaissut väitöskirjansa jälkeen useita inkerinsuomen aineistoa hyö
dyntäviä artikkeleita sekä suomenkielisissä että englanninkielisissä
julkaisuissa tai kokoomateoksissa. Uusin vaihe aineiston hyödyntämi
sessä on Riionheimon ja Maria Frickin yhteistyö, jossa Viron inkerin
suomalaisten aineistoa on verrattu 1990luvun jälkeen Viroon muutta
neiden suomalaissiirtolaisten käyttämään kieleen (Frick & Riionheimo
2013, Riionheimo & Frick 2014). Tämä yhteistyö on osoittanut myös
sen, että haastatteluformaatista huolimatta inkerinsuomen aineisto
on kiinnostava tutkimuskohde myös vuorovaikutus(sosio)lingvis
tiikan näkökulmasta. Lisäksi Riionheimolta on ilmestynyt Virittäjälehdessä yhteisartikkeli (Riionheimo ym. 2014), jossa verrataan
430
K I E L I KO R P U K S I A SU O M E N I TÄ R A JA LTA
passiivimuotojen kohtaloa inkerinsuomen ja viron kielikontaktissa sii
hen, mitä suomen passiiville tapahtuu kääntämisessä, ja siihen, miten
suomen passiivi vaikuttaa englannin kielen passiivin omaksumiseen.
Nämä julkaisut osoittavat, että inkerinsuomen aineistolla on edelleen
runsaasti annettavaa tutkimukselle ja että aineistoa voidaan lähestyä
uusista näkökulmista.
Inkerinsuomen digitaalisen korpuksen työstäminen on tätä kir
joitettaessa loppusuoralla. Työ aloitettiin kirjoittamalla eri aikoina
tehtyjä alkuperäisiä (osin käsin kirjoitettuja) litteraatioita sähköiseen
muotoon tekstinkäsittelyohjelmalla. Aineiston nauhoitteet digitoitiin
jo 2000luvun alussa Joensuun yliopiston suomen kielen aineisto
kokoelmien laajemman digitoinnin yhteydessä, mutta muu korpus
työ tuli mahdolliseksi keväällä 2013 Koneen Säätiön rahoittaman
CROSSLINGhankkeen puitteissa. CROSSLING ja SILKhankkei
den mahdollistamien tutkimusapulaisen työkuukausien aikana kaik
ki olemassa olevat litteraatiot (noin 92 tuntia) kirjoitettiin tietokone
muotoon Wordtiedostoiksi. Litteraatioita olivat tehneet useat eri
litteroijat eri aikoina eri tarkoituksiin, ja puhtaaksikirjoittamisen ai
kana käytettyä tarkemerkistöä yksinkertaistettiin jonkin verran. Kor
pustyö on viimeistelty FINCLARINin rahoituksella kesällä 2019.
Viimeisessä vaiheessa eri tarkkuusasteilla tehdyt litteraatiot on kar
keistettu yhdenmukaisiksi ja muunnettu txttiedostoiksi. Aineistot on
luovutettu Kielipankkiin2, ja korpuksen viimeistely siellä aloitetaan
syksyllä 2019. Inkerinsuomen korpus julkaistaan tekstikorpuksena,
jossa myös äänitiedostot ovat tutkijoiden saatavilla. Tekstin ja äänen
kohdistaminen on hidas ja suuritöinen urakka, johon ei inkerinsuomen
korpuksen osalta ole ryhdytty.
2. Tiedot korpuksesta on jo liitetty FINCLARINin METASHAREtieto
kantaan: ‹http://metashare.csc.fi/repository/browse/thecorpusofingrianfinnish/
0bed3e04aacb11e390f0005056be118e57c9201eecd4428a9e86b7ac323f8ea8/›.
431
M A R JAT TA PA L A N D E R , H E L K A R I I O N H E I M O,
HAN N U K EM PPAN EN & J U K K A M ÄK ISALO
4.
K arjalan suomen korpus
Suomalaisia ja suomea puhuvaa väestöä on Karjalan tasavallassa ja
Petroskoissa asunut koko 1900luvun ajan. Suomen itsenäistymisen
jälkeen suomalaisia muutti paljolti poliittisista syistä Neuvostoliit
toon, ja suomalaisten määrä tasavallassa nousi tasaisesti vuoden 1926
väestölaskennan 2 544:stä vuoden 1959 väestölaskennan 27 829:ään
(Vsesojuznaja perepis naselenija 1926 goda, Vsesojuznaja perepis na
selenija 1959 goda). Sen jälkeen suomalaisten osuus on taas tasaisesti
vähentynyt, niin että vuoden 2010 väestölaskennan mukaan suoma
laisia on koko tasavallassa 8 577 (Vserossijskaja perepis naselenija
2010). Petroskoissa suomen kielellä ilmestyy sanomalehti Karjalan
Sanomat ja kulttuuriaikakauslehti Carelia, ja kaupungissa toimii mm.
suomalainen teatteri.
Karjalan suomen korpus on koottu Venäjän Karjalassa Petros
koissa ilmestyvän Karjalan Sanomat sanomalehden teksteistä kahta
tarkoitusta varten: Karjalan suomen ja käännetyn suomen variaation
tutkimukseen. Perusteena kyseisen aineiston valinnalle on se, että
Karjalan suomea ei ole toistaiseksi koottu elektroniseksi korpukseksi.
Mediatekstien voidaan katsoa edustavan normia luovaa osaa kielen
käytöstä. Karjalan suomen korpuksen edustama kielimuoto on lähellä
suomen yleiskieltä.
Karjalan suomen korpuksen perustana ovat digitaaliset aineistot,
joiden kokoaminen aloitettiin Suomen Akatemian ja Venäjän huma
nistisen tiedesäätiön vuosina 2009–2011 rahoittamassa tutkimushank
keessa Venäjästä suomeksi ja suomesta venäjäksi: kääntäminen monikulttuurisessa yhteisössä. Hanke toteutettiin yhteistyönä Joensuun
yliopiston (nykyisen ItäSuomen yliopiston) humanistisen osaston
ja Petroskoin valtiollisen yliopiston suomen kielen ja kirjallisuuden
laitoksen kanssa. Yhtenä hankkeen osaalueena oli koota kirjoitettua
Venäjän Karjalan suomea elektroniseksi korpukseksi, jonka pohjalta
voisi analysoida vähemmistökielen erityispiirteitä kääntämisen ja kie
likontaktien näkökulmasta sekä verrata aineistoa vastaavaan Suomes
sa tuotettuun suomenkieliseen materiaaliin.
Karjalan suomen tekstikorpus saatiin valmiiksi Koneen Säätiön
rahoittaman SILKhankkeen aikana vuosina 2013–2014 yhteistyössä
Petroskoin valtiollisen yliopiston kanssa. Korpus sisältää noin 600 000
432
K I E L I KO R P U K S I A SU O M E N I TÄ R A JA LTA
sanaa Karjalan Sanomat sanomalehden 2000luvulla ilmestyneistä
teksteistä. Kukin aineiston artikkeli on annotoitu käännöstieteellisen
ja kielikontaktien tutkimuksen kannalta relevantilla tavalla, josta käy
ilmi artikkelin syntytapa, toisin sanoen, onko kyseessä käännetty vai
alun perin suomeksi tuotettu aineisto. Analyysissa on hyödynnetty
myös venäjänkielisiä lähdetekstejä. Korpus3 on nyt Unicodemuotoon
koodattuina tekstitiedostoina, ja se mahdollistaa seuraavassa vaihees
sa tekstin morfologissyntaktisen annotoinnin. Hankkeen käyttöoike
us on ensi vaiheessa sekä Petroskoin valtiollisella yliopistolla että Itä
Suomen yliopistolla.
Jukka Mäkisalo, Hannu Kemppanen ja Anna Saikonen (2016)
ovat esitelleet Karjalan suomen korpusta ja ensimmäisiä siitä tehtyjä
korpusanalyyseja käännöstieteellisessä MikaELjulkaisussa. Käänne
tyn ja eikäännetyn kieliaineiston vertailu vähemmistökielen näkö
kulmasta on kyseenalaistanut aiempia väittämiä näille kielimuodoille
tyypillisistä piirteistä.
K iitok set
Korpushankkeemme ovat saaneet taloudellista tukea seuraavilta ra
hoittajilta: Suomen Akatemialta (137479; RajaKarjalan korpus),
Koneen Säätiöltä (405091; RajaKarjalan, Inkerinsuomen ja Kar
jalan suomen korpukset), Karjalaisen Kulttuurin Edistämissäätiöltä
(RajaKarjalan ja Inkerinsuomen korpukset) sekä FINCLARINilta
(Inkerinsuomen korpus). Kiitämme lämpimästi hankkeille osoitetusta
tuesta.
3. Korpuksen metatiedot ovat FINCLARINin METASHAREtieto
kannassa osoitteessa ‹http://metashare.csc.fi/repository/browse/thekarelian
finnishnewspapercorpus/80fa56f0454e11e49821005056be118e6a793e3276
d84c95b8d9cf6ff7d867c8/›.
433
M A R JAT TA PA L A N D E R , H E L K A R I I O N H E I M O,
HAN N U K EM PPAN EN & J U K K A M ÄK ISALO
L ähteet
Bubrih, D. V., A. A. Beljakov & A. V. Punžina 1997: Karjalan kielen murrekartasto. Dialektologičeskij atlas karelskogo jazyka [mukana tverin
karjalan murrekartat]. Toim. Leena Sarvas. Venäjän tiedeakatemian
Karjalan tiedekeskuksen kielen, kirjallisuuden ja historian insti
tuutti & Kotimaisten kielten tutkimuskeskus. Kotimaisten kielten tut
kimuskeskuksen julkaisuja 97. Helsinki: SuomalaisUgrilainen Seura.
Frick, Maria & Helka Riionheimo 2013: Bilingual voicing: A study of code
switching in the reported speech of Finnish immigrants in Estonia. –
Multilingua 32:5: 565–599.
Genetz, Arvid 1870: Kertomus Suojärven pitäjäästä ja matkustuksistani
siellä v. 1867. – Suomi II: 8. Kirjoituksia isän-maallisista aineista. Hel
sinki: SKS.
Koivisto, Vesa 2018: Border Karelian dialects – a diffuse variety of Kare
lian. – Marjatta Palander, Helka Riionheimo & Vesa Koivisto (eds), On
the Border of Language and Dialect. Studia Fennica Linguistica 21.
Helsinki: Finnish Literature Society. 56–84. Saatavissa: ‹http://dx.doi.
org/10.21435/sflin.21›
Kok, Maria 2016: Varjon kieliopillistuminen. Itse-sanan paradigman
rakenne ja merkityksenkehitys itäisessä itämerensuomessa. [Väitös
kirja.] Publications of the University of Eastern Finland. Dissertations
in Education, Humanities, and Theology 83. Joensuu: ItäSuomen yli
opisto. Saatavissa: ‹http://urn.fi/URN:ISBN:9789526120645›
Kokko, Ossi 2007: Inkerinsuomen pirstaleisuus. Eräiden sijojen kehitys
murteen yksilöllistymisen kuvastajana. Joensuun yliopiston humanis
tisia julkaisuja 48. Joensuu: Joensuun yliopisto. Saatavissa: ‹http://urn.
fi/URN:ISBN:9789522190369›
Kokko, Ossi, Ilkka Savijärvi & Muusa Savijärvi (toim.) 2003: Ennev vanhasii – Pohjois-Inkerin kieltä ja kohtaloita. Studia Carelica Humanistica
18. Joensuu: Joensuun yliopisto.
Kujola, Joh. 1910: Äänneopillinen tutkimus Salmin murteesta. Eripainos
Suomikirjasta. Helsinki: SKS.
Lehto, Manja Irmeli 1996: Ingrian Finnish: Dialect preservation and
change. [Väitöskirja.] Acta Universaliensis Upsaliensis. Studia Uralica
Upsaliensia 23. Uppsala: Uppsala University.
Mononen, Kaarina 2013: Inkerinsuomalaisten suomen kielen käyttö
Pietarissa ja sen lähialueella. [Väitöskirja.] Helsinki: Helsin
gin yliopiston suomen kielen, suomalaisugrilaisten ja pohjois
434
K I E L I KO R P U K S I A SU O M E N I TÄ R A JA LTA
maisten kielten ja kirjallisuuksien laitos. Saatavissa: ‹http://urn.fi/
URN:ISBN:9789521086571›
Mäkisalo, Jukka, Hannu Kemppanen & Anna Saikonen 2016: Karjalan Sanomat korpus. Petroskoin (käännös)suomen piirteitä. MikaEL. Kääntä
misen ja tulkkauksen tutkimuksen symposiumin verkkojulkaisu, vol. 9.
Saatavissa: ‹http://www.sktl.fi/liitto/seminaarit/mikaelverkkojulkaisu/›
Palander, Marjatta & Helka Riionheimo 2018: How is Karelian recalled and
imitated by Finns with Border Karelian roots? – Marjatta Palander,
Helka Riionheimo & Vesa Koivisto (eds), On the Border of Language
and Dialect. Studia Fennica Linguistica 21. Helsinki: Finnish Litera
ture Society. 85–122. Saatavissa: ‹http://dx.doi.org/10.21435/sflin.21›
Palander, Marjatta, Helka Riionheimo & Vesa Koivisto (eds) 2018: On
the Border of Language and Dialect. Studia Fennica Linguistica
21. Helsinki: Finnish Literature Society. Saatavissa: ‹http://dx.doi.
org/10.21435/sflin.21›
Riionheimo, Helka 2007: Muutoksen monet juuret. Oman ja vieraan risteytyminen Viron inkerinsuomalaisten imperfektinmuodostuksessa. [Väitöskirja.]
Suomalaisen Kirjallisuuden Seuran toimituksia 1107. Helsinki: SKS.
Riionheimo, Helka & Maria Frick 2014: Emergence of FinnishEstonian bilin
gual constructions in two contact settings. – Sociolinguistic Studies 8:3:
409–447.
Riionheimo, Helka & Krista Kivisalu (toim.) 1994: Inkeriläiskertomuksia.
Studia Carelica Humanistica 4. Joensuu: Joensuun yliopisto.
Riionheimo, Helka, Leena Kolehmainen & Lea Meriläinen 2014: Suomen
passiivi kontaktissa. Kieltenvälisiä kytköksiä migraatiossa, toisen kie
len omaksumisessa ja kääntämisessä. – Virittäjä 118: 334–371. Saata
vissa: ‹https://journal.fi/virittaja/article/view/9249›
Savijärvi, Ilkka, Muusa Savijärvi & Janne Heikkinen (toim.) 1996: Vot,
ihminen tahtoo kotimaalle. Länsi-Inkerin kieltä ja kohtaloita. Studia
Carelica Humanistica 8. Joensuu: Joensuun yliopisto.
Surakka, Anne 2011: Yleistävän yksikön 2. persoonan käyttö inkerinsuomessa. Pro gradu tutkielma. ItäSuomen yliopisto, suomen kieli. Saa
tavissa: ‹http://urn.fi/urn:nbn:fi:uef20110436›
Turunen, Aimo 1965: Suojärven murre. – Lauri Pelkonen (toim.), Suojärvi I.
Kajaani: Suosäätiö. 21–38.
— 1973: RajaKarjalan murteet ja vepsän kieli. – Hannes Sihvo (toim.),
Kalevalaseuran vuosikirja 53. Helsinki: SKS. 83–94.
— 1982: RajaKarjalan murteet. – Karjala 2. Karjalan maisema ja luonto.
Hämeenlinna: Karisto. 65–89.
435
M A R JAT TA PA L A N D E R , H E L K A R I I O N H E I M O,
HAN N U K EM PPAN EN & J U K K A M ÄK ISALO
Uusitupa, Milla 2017: Rajakarjalaismurteiden avoimet persoonaviittaukset.
[Väitöskirja.] Publications of the University of Eastern Finland. Disserta
tions in Education, Humanities, and Theology 117. Joensuu: ItäSuomen
yliopisto. Saatavissa: ‹http://urn.fi/URN:ISBN:9789526126463›
Uusitupa, Milla, Vesa Koivisto & Marjatta Palander 2017: RajaKarjalan
murteet ja rajaalueiden kielimuotojen nimitykset. – Virittäjä 121:
67–106. Saatavissa: ‹https://journal.fi/virittaja/article/view/53121›
Vserossijskaja perepis naselenija 2010. Natsionalnyi sostav naselenija po
subjektam Rossijskoi federatsii [Koko Venäjän kattava väestölaskenta
2010. Osa 1. Väestön lukumäärä ja jakauma. Taulukko 7 [MS Excel
taulukko]]. Federalnaja služba gosudarstvennoi statistiki [Venäjän
federaation tilastovirasto], 2012. Moskova: ИИЦ ”Статистика Рос
сии”. [Viitattu 18.12.2015] Saatavissa: ‹http://www.gks.ru/free_doc/
new_site/population/demo/peritog/tab7.xls›
Vsesojuznaja perepis naselenija 1926 goda. Natsionalnyi sostav naselenija
po regionam RSSR [Koko NeuvostoVenäjän kattava väestölaskenta
1926. Väestön kansallisuus ja jakautuminen maaseutu tai kaupunki
asukkaisiin. Karjalan ASSR]. Демоскоп Weekly. [Viitattu 18.12.2015]
Saatavissa: ‹http://demoscope.ru/weekly/ssp/rus_nac_26.php?reg=53›
— 1959 goda. Natsionalnyi sostav naselenija po regionam Rossii [Koko
Neuvostoliiton kattava väestölaskenta 1959. Väestön kansallisuus
Venäjän alueilla. Karjalan ASSR]. Демоскоп Weekly. [Viitattu
18.12.2015] Saatavissa: ‹http://demoscope.ru/weekly/ssp/rus_nac_59.
php?reg=81›
436
K I E L I KO R P U K S I A SU O M E N I TÄ R A JA LTA
Language corpora from the eastern border of Finland
Marjatta Palander, Helka Riionheimo, Hannu Kemppanen &
Jukka Mäkisalo
This report presents three language corpora on language varieties used
on both sides of the eastern border of Finland: the Corpus of Bor
der Karelia, the Corpus of Ingrian Finnish, and the Karelian Finnish
Newspaper Corpus. These digital corpora have been (and are in the
process of being) compiled on the subjects of the Finnish language,
Russian language, and Karelian language and culture at the Univer
sity of Eastern Finland. The varieties in question have been small mi
nority languages in their respective areas, and thus, the corpora offer
perspectives into the fates of minority languages and crosslinguistic
influence from the dominant languages.
The Corpus of Border Karelia consists of 120 hours of tran
scribed dialect samples from Karelian speakers who were born in the
Border Karelia parishes of Ilomantsi, Korpiselkä, Suistamo, Suo
järvi, Impilahti, and Salmi. The recordings were conducted mainly
in the 1960s in Finland in the places where the inhabitants of Border
Karelia were resettled after World War II (i.e., when Finland ceded
the Border Karelia region to the Soviet Union). The samples were
transcribed in 2009–2014 and the Unicode texts and sound files are
currently being aligned.
The interviews that form the basis of the Corpus of Ingrian Finn
ish were recorded in the 1990s in two locations: in Estonia and in Rus
sia (in the area named Ingria, surrounding St. Petersburg). The corpus
consists of 125 hours of recordings from Ingria (the parishes of Tok
sova, Keltto, Skuoritsa, Kupanitsa, and Kurkolanniemi) and about 60
hours of recordings made in Estonia (in the towns of Tartu and Pärnu
and the Järvamaa district). Parts of this data have been transcribed dur
ing the last two decades by several transcribers. At present, we are in
the process of transforming these miscellaneous (partly handwritten)
texts into digital form in order to build them into a text corpus in the
Unicode format. In the future, it will be possible to align the text and
sound files as well.
437
M A R JAT TA PA L A N D E R , H E L K A R I I O N H E I M O,
HAN N U K EM PPAN EN & J U K K A M ÄK ISALO
The Karelian Finnish Newspaper Corpus is a text corpus which
comprises written texts that have been published in the Karjalan Sanomat newspaper in Petrozavodsk (in the Karelian Republic of the Rus
sian Federation) in the 2000s. The corpus was compiled in 2009–2014
in cooperation with the State University of Petrozavodsk. It contains
about 600 000 words, and all the texts have been annotated so that we
know whether the text was translated from Russian or originally writ
ten in Finnish. Work on this corpus has now been completed and it has
been handed over to the FinClarin database.
Ultimately, the Corpus of Border Karelia and the Corpus of
Ingrian Finnish will also be included in FinClarin. The metadata
of these corpora have already been included in the METASHARE
database.
438