Tilastotiede

Normaalijakauma on tilastotieteessa usein käytetty työkalu.

Tilastotiede on todennäköisyyslaskentaan perustuva tieteenala, joka tutkii tilastollisten aineistojen keräämistä, käsittelyä ja tältä pohjalta tehtävää päättelyä.^[1] Tilastotieteen avulla voidaan mitata havaintoja ja käsitellä mittausten muodostamia aineistoja, ja tilastotiede tuo siten empiriaa erilaisiin tutkimuksiin. Tilastotieteen tulosten pohjalta tehtävä päättely on induktiivista päättelyä eli aineiston pohjalta pyritään yleistämään asioita yksittäisestä yleiseen. Havaintoaineistoja voidaan myös hankkia tietyllä aikavälillä eli tuottaa aikasarja. Tilastotiede voidaan jakaa teoreettiseen ja soveltavaan tilastotieteeseen. Tilastotiedettä käytetään tilastollisten tutkimusten tekemiseen ja nämä jaetaan määrällisiin (kvantitatiivisiin) ja laadullisiin (kvalitatiivisiin) tutkimuksiin. Tilastotieteen harjoittajaa kutsutaan tilastotieteilijäksi.

Tilastotiedettä sovelletaan monilla tutkimusaloilla, joihin kuuluvat esimerkiksi luonnon-, yhteiskunta- ja humanistiset tieteet. Tilastollisella päättelyllä on tärkeä osuus tieteellisessä hypoteesin testauksessa. Tilastotiedettä käytetään myös teollisuudessa. Tilastotiedettä hyödynnetään myös valtion ja kuntien virallisissa tilastoissa sekä kansantalouden tilan selvittämisessä, ja historiallisesti julkinen valta oli ensimmäinen tilastojen hyödyntäjä. Vuonna 1749 laadittiin Suomen ensimmäinen väestötilasto.^[2] Suomessa Tilastokeskus tuottaa valtaosan Suomen virallisista tilastoista.^[3] Muita tilastoviranomaisia Suomessa ovat Terveyden ja hyvinvoinnin laitos, Luonnonvarakeskus sekä Tulli. Myös Suomen Pankki tuottaa merkittävän määrän virallisia tilastoja.^[4]

Kun tilastotieteen menetelmiä käytetään havaitun aineiston esittämiseen, on kyse kuvailevasta tilastotieteestä. Kun kuvailusta siirrytään aineiston tarkasteluun tai mallinnukseen siten, että aineiston epävarmuus ja havaintojen satunnaisuus otetaan huomioon, puhutaan tilastollisesta päättelystä. Näissä molemmissa tapauksissa on kyse soveltavasta tilastotieteestä. Matemaattinen tilastotiede keskittyy puolestaan tarkastelemaan tilastotieteen teoreettista perustaa. Tilastotieteessä keskeisiä asioita ovat otantamenetelmät, mitta-asteikot, keskiluvut sekä vaihtelun ja riippuvuuden tunnusluvut. Tilastollisten tutkimusten tekeminen edellyttää suunnitelmallisuutta tutkimussuunnitelman muodossa, koska se luo pohjan sille, mitä kerätystä aineistoista voidaan lopulta saada irti.

Lähestymistapa

Tilastotieteen soveltaminen tarkasteltavaan tieteelliseen, teolliseen tai yhteiskunnalliseen ongelmaan alkaa populaation määrittelyllä. Kyseessä voi olla jonkin maan väestö tai tehtaan valmistamat tuotteet. Toisaalta voidaan havainnoida aineistoa tuottava prosessi eri ajankohtina, jolloin kyseessä on aikasarja.

Aineistoa on tavallisesti mahdollista kerätä vain populaation osajoukosta, jolloin tutkimuksen kohteena on otos. Otoksesta voidaan kerätä aineistoa joko havainnoiden tai kokeellisessa asetelmassa. Kun aineisto on kerätty, siitä tehtävä analyysi voidaan jakaa kuvailuun ja päättelyyn, jotka tosin liittyvät usein toisiinsa läheisesti.

Otanta

Pääartikkeli: Otanta

Otannalla tarkoitetaan tutkimukseen mukaan tulevien tutkimusyksiköiden valitsemista perusjoukosta. Otannan tavoitteena on saada mahdollisimman edustava otos koko perusjoukosta, jotta päättely voitaisiin yleistää koskemaan myös perusjoukkoa. ^[5] Otantamenetelmän valinnalla voi olla suuri vaikutus tutkimuksen onnistumiseen.

Esimerkki yksinkertaisesta satunnaisotannasta.

Yksinkertainen ja hyvin yleisesti käytetty otantamenetelmä on yksinkertainen satunnaisotanta. Yksinkertaisessa satunnaisotannassa jokaisella perusjoukon yksiköllä on yhtä suuri todennäköisyys tulla valituksi otokseen. Toinen yksinkertainen otantamenetelmä on systemaattinen otanta, jossa listatusta aineistosta valitaan tietyin välein yksikkö mukaan tutkimukseen. ^[6]

Monesti yksinkertaisimmat menetelmät eivät kuitenkaan tuota parasta mahdollista lopputulosta. Mikäli esimerkiksi tavoitteena on selvittää haastattelututkimuksella kaikkien Suomen kolmasluokkalaisten oppilaiden äidinkielen osaamista, olisi tutkijoilla todella kova työ kiertää kaikki koulut, joista oppilaita valittiin mukaan tutkimukseen. Tällaisissa tapauksissa käytetään usein ryväsotantaa. Ryväsotannassa aineisto jaetaan ryhmiin ja varsinainen otanta tapahtuu näiden ryhmien välillä. Esimerkin tapauksessa voitaisiin jakaa perusjoukko ryhmiin koululuokan perusteella ja arpoa, mitkä luokat valitaan kokonaisuudessaan mukaan tutkimukseen.^[6]

Perusjoukko voidaan usein jakaa toisensa poissulkeviin osajoukkoihin. Esimerkiksi tehtäessä tutkimusta siitä, ovatko yliopisto-opiskelijat tyytyväisiä pääaineeseensa, voitaisiin ajatella, että tutkimukseen halutaan mukaan kaikkien alojen opiskelijoita. Yksinkertaista satunnaisotantaa käytettäessä aloilta, joilla on vähän opiskelijoita, ei välttämättä tulisi lainkaan opiskelijoita mukaan tutkimukseen. Tämän estämiseksi voitaisiin etukäteen päättää, kuinka monta opiskelijaa halutaan mukaan kultakin alalta ja suorittaa sitten yksinkertainen satunnaisotanta kunkin alan opiskelijoiden kesken. Tätä kutsutaan ositetuksi otannaksi. Ositetussa otannassa on oleellista huomioida, että havaitusta aineistosta lasketut tunnusluvut eivät välttämättä edusta koko perusjoukkoa. Tämä on usein korjattavissa painotuksella.^[6]

Otantaa voidaan tehdä myös siten, että kunkin yksikön todennäköisyys tulla valituksi riippuu jostain tämän yksikön ominaisuudesta, kuten koosta. Esimerkiksi tehtäessä tutkimusta koko Suomen työttömyydestä yksittäisten kuntien työttömyysprosenttien perusteella on hyvin oleellista, että isoimmat kunnat tulevat valituksi mukaan. Näin ollen voidaan ajatella, että isommilla kunnilla tulisi olla suurempi todennäköisyys tulla valituksi. Tätä kutsutaan otannaksi tilastoyksikön koon mukaan.^[6]

Aineiston kuvailu

Muuttujien jakaumien tarkastelu ja vertailu onnistuu kätevästi viiksilaatikkokuvaajan avulla. Kuvaaja koostuu laatikosta ja viiksistä, missä laatikon yläreuna kuvaa järjestetyn aineiston yläneljännestä ja alareuna alaneljännestä siten, että 25 % aineistosta jää laatikon yläpuolelle ja 25 % laatikon alapuolelle. Laatikon sisällä oleva viiva kuvaa aineiston mediaania ja viiksien päät vastaavat aineiston minimiä ja maksimia.

Kuvaileva tilastollinen analyysi on havaitun aineiston esittämistä joko numeerisesti tai graafisesti. Havaitusta aineistosta voidaan laskea tunnuslukuja, jotka kuvaavat muuttujien ominaisuuksia, kuten sijaintia, hajontaa, vinoutta tai huipukkuutta.

Tyypillisiä sijaintia kuvaavia tunnuslukuja ovat moodi, minimi, maksimi, mediaani, kvantiilit, sekä erilaiset keskiarvot. Usein käytettyjä vaihtelua kuvaavia tunnuslukuja ovat keskihajonta, varianssi, kvartiiliväli ja vaihteluväli. Yleinen tapa esittää aineistoa tiivistetysti on esittää kustakin muuttujasta minimi, maksimi, ala- ja yläkvartiilit sekä mediaani.^[5] Näistä viidestä tunnusluvusta piirrettyä kuvaajaa kutsutaan viiksilaatikkokuvaajaksi. Yksittäisen muuttujan jakaumaa voidaan kuvailla graafisesti esimerkiksi histogrammilla. Histogrammin sijasta voidaan käyttää myös ydinestimaattoria, joka voidaan nähdä histogrammin yleistyksenä.

Usein ollaan kiinnostuneita myös kahden tai useamman muuttujien välisistä riippuvuussuhteista. Lineaarista riippuvuutta voidaan mitata esimerkiksi kovarianssilla tai korrelaatiolla. Muita riippuvuutta kuvaavia tunnuslukuja ovat muun muassa Kendallin järjestyskorrelaatiokerroin ja Spearmanin järjestyskorrelaatiokerroin. Kahden muuttujan välistä riippuvuutta voidaan havainnollistaa graafisesti sirontakuviolla.

Tilastollinen päättely

Tilastollisessa päättelyssä pyritään yleistämään aineiston perusteella saatuja tuloksia koko perusjoukkoon. Havaintoihin liittyy usein satunnaisuutta ja tilastollisen päättelyn tavoitteena onkin selvittää, että voiko aineistossa havaittu ilmiö selittyä pelkällä satunnaisvaihtelulla. Päättelyyn voi kuulua esimerkiksi mallin parametrien estimointi sekä tunnuslukujen laskeminen ja niiden tilastollisen merkitsevyyden testaus.

Uskottavuusfunktio

Pääartikkeli: Uskottavuusfunktio

Hyvin suuri osa tilastollisen päättelyn teoriasta nojaa uskottavuuteen. Uskottavuudella tarkoitetaan sitä, kuinka todennäköistä on havaita havaitun kaltaisia arvoja asetetusta, kiinteästä mallista. Uskottavuutta mitataan uskottavuusfunktiolla

L(y;\theta )=f(y;\theta ),

joka tulkitaan parametrin $\theta$ funktiona. Uskottavuuspäättelyn perusidea on se, että uskottavuusfunktion arvo on suuri niille parametrin $\theta$ arvoille, joista aineisto on todella peräisin. Usein oletetaan, että havainnot ovat riippumattomia ja samoin jakautuneita. Tällöin havaintoihin $(y_{1}\ldots ,y_{n})$ perustuva uskottavuusfunktio voidaan kirjoittaa

L(y;\theta )=\prod _{i=1}^{n}f(y_{i};\theta ),

jossa $f(y_{i};\theta )$ on kunkin satunnaismuuttujan $Y_{i}$ uskottavuusfunktio, eli jatkuvilla muuttujilla tiheysfunktio ja diskreeteillä muuttujilla pistetodennäköisyysfunktio.^[7]

Uskottavuusfunktio on hyvin paljon käytetty työkalu sekä frekventistisessä että Bayesiläisessä tilastotieteessä.^[7]^[8]

Frekventistinen päättely

Frekventistisessä tilastotieteessä ajatellaan, että tapahtuman todennäköisyys on tapahtuman suhteellinen osuus, kun toistojen määrä lähestyy ääretöntä. Näin ollen todennäköisyys on määritelty vain toistettavissa olevien tilanteiden mielessä. Esimerkiksi mallien parametrit ajatellaan kiinteiksi luvuiksi, joilla ei siis ole todennäköisyysjakaumaa. Sen sijaan frekventistisessä päättelyssä lasketaan usein, että kuinka todennäköistä on havaita havaitun kaltaisia tunnuslukujen arvoja jostain tietystä tilanteesta.

Suuri osa nykyään käytössä olevista tilastotieteen käsitteistä, kuten harha, tunnusluvun keskivirhe, p-arvo ja luottamusväli, on alun perin määritelty frekventistisessä tilastotieteessä.^[7]

Bayesiläinen päättely

Pääartikkeli: Bayesiläinen tilastotiede

Bayesiläinen tilastotiede perustuu Bayesin teoreemaan, joka määrittelee ehdollisen todennäköisyyden:

f(\theta |y)={\frac {f(y|\theta )f(\theta )}{f(y)}}

.

Bayesin teoreemassa yhdistetään aineistosta $y$ laskettava uskottavuus $f(y|\theta )$ parametrien $\theta$ priorijakaumaan $f(\theta )$ , jolloin saadaan parametreille $\theta$ posteriorijakauma $f(\theta |y)$ . Haluttu tilastollinen päättely tehdään tämän posteriorijakauman perusteella. Bayesiläisessä tilastotieteessä siis ajatellaan, että tilastollisiin tunnuslukuihin ja malliparametreihin liittyy epävarmuutta, jota voidaan kuvata todennäköisyysjakaumien avulla.

Bayesiläiseen tilastotieteeseen liittyy oleellisesti priorijakauman määrittäminen, joka kuvastaa määrittäjän ennakkotietoa kiinnostuksen kohteena olevasta parametrista. Bayesiläistä tilastotiedettä onkin usein kritisoitu ennakkotiedon sisällyttämisestä priorijakaumaan, mutta määrittämällä priorijakauma sopivasti saadaan sen merkitys posteriorijakaumaan hyvin pieneksi tai jopa olemattomaksi. Monet Bayesiläistä tilastotiedettä harjoittavat eivät kuitenkaan pidä ennakkotiedon käyttöä priorijakauman valitsemisessa ongelmana, vaan pikemminkin työkaluna, jolla mallinnuksessa voidaan hyödyntää esimerkiksi edellisiä tutkimustuloksia samalta alalta.^[9]

Mallintaminen

Esimerkki yksinkertaisesta lineaarisesta regressiomallista.

Pääartikkeli: Tilastollinen malli

Tilastollinen malli on todennäköisyysjakauma, jonka avulla pyritään tekemään päätelmiä käyttäen hyödyksi havaittua aineistoa.^[10] Mallintamisessa ollaan usein kiinnostuneita siitä, miten yhden tai useamman muuttujan arvot keskimäärin muuttuvat, kun muiden muuttujien arvo muuttuu. Tilastollista mallintamista voidaan esimerkiksi hyödyntää sen tutkimisessa, kasvavatko kuukausitulot keskimäärin, kun koulutuksen kesto pitenee. Tilastollista mallintamista voidaan tehdä sekä frekventistisestä että Bayesiläisestä näkökulmasta.^[10]

Usein käytettyjä mallinnusmenetelmiä ovat muun muassa

Testaaminen

Tilastollisilla testeillä testataan tunnusluvuille tai parametreille asetettuja hypoteeseja. Tilastollisessa testissä lasketaan ensin havaittu testisuureen arvo aineistosta ja sen jälkeen lasketaan p-arvo, eli todennäköisyys havaita vähintään näin poikkeavia testisuureen arvoja nollahypoteesin ollessa totta. Mikäli todennäköisyys havaita vähintään näin poikkeavia testisuureen arvoja nollahypoteesin ollessa voimassa on alle ennalta asetetun merkitsevyystason, voidaan nollahypoteesi hylätä valitulla merkitsevyystasolla. Mikäli p-arvo on yli merkitsevyystason, niin voidaan todeta, että ei ole näyttöä siitä, ettei nollahypoteesi olisi voimassa. Huomion arvoista on, ettei yli merkitsevyystason olevaa p-arvoa voida tulkita niin, että nollahypoteesi on totta. Merkitsevyystaso kuvaa testin todennäköisyyttä hylätä nollahypoteesi virheellisesti. Tyypillisesti käytettyjä merkitsevyystasoja ovat 10 %, 5 %, 1 % ja 0,1 %.^[5]

Testin voima on oleellinen käsite tilastollisessa testaamisessa. Testin voima on todennäköisyys, millä nollahypoteesi hylätään kun vaihtoehtoinen hypoteesi on tosi. Näin ollen mitä lähempänä lukua 1 testin voima on, sitä herkemmin testi havaitsee eroavaisuuden nollahypoteesista.^[5]

Yleisesti käytettyjä tilastollisia testejä ovat muun muassa

Monesti testisuureen otantajakauma on hankala tai jopa mahdoton laskea. Tällöin voidaan käyttää laskennallisia menetelmiä, kuten nollahypoteesin mukaisen jakauman simulointia tai pelkkään havaittuun aineistoon perustuvaa bootstrap-menetelmää. ^[5]

Kausaliteetti

Pääartikkeli: Kausaliteetti

Graafinen kuvaus muuttujien X, Y, Z välisestä kausaalisuhteesta. Z vaikuttaa molempiin muuttujiin X ja Y, joilla ei kuitenkaan ole suoraa kausaalivaikutusta toisiinsa.

Tilastotieteessä on tärkeää tehdä ero kausaliteetin ja korrelaation välillä. Kausaliteetti eli syy-seuraussuhde tarkoittaa tilastollisessa yhteydessä, että yhden muuttujan arvosta seuraa toisen muuttujan arvo.^lähde? Kahden muuttujan välinen korrelaatio taas tarkoittaa, että niiden arvot vaihtelevat aineistossa yhdessä, mutta kausaliteetin suuntaan ei oteta kantaa. Esimerkiksi tulojen ja eliniän tutkimus voi osoittaa, että rikkaat elävät köyhiä pidempään. Tällöin tulot ja elinikä ovat aineistossa korreloituneita. Tästä ei voida kuitenkaan johtaa kausaalisuhdetta, jonka mukaan varallisuus lisäisi elinikää. Korrelaatio voi syntyä kolmannen havaitsemattoman muuttujan vaikutuksesta, joka saattaisi olla esimerkiksi terveyspalveluiden saatavuus.

Perinteisesti ollaan ajateltu, että kausaalipäättely on mahdollista vain siinä tapauksessa, että selittävän muuttujan arvoja pystytään kontrolloimaan. ^[11] Viime aikoina ollaan kuitenkin pyritty kehittämään menetelmiä, joilla kausaalipäättelyä pystytään tekemään myös havainnoivassa tutkimuksessa. Pearlin kausaalimalli perustuu ajatukseen siitä, että muuttujien väliset vuorovaikutukset ja niiden suunta tunnetaan ja tämän perusteella pystytään joissain tapauksissa kausaalilaskennan säännöillä poistamaan tarve kontrolloida selittävän muuttujan arvoja. ^[12]

Tilastotieteen sovelluksia

Lotto

Lotossa pelaaja valitsee yhteen riviinsä seitsemän numeroa 39 vaihtoehdon joukosta. Arvonnassa 39 numeron joukosta valitaan 7 numeroa ja 3 lisänumeroa. Voittoluokat ovat 7 oikein, 6 oikein + lisänumero, 6 oikein, 5 oikein ja neljä oikein. Tarkasteltaessa sitä, kuinka monta erilasta lottoriviä on olemassa, on selvitettävä kuinka monella tavalla seitsemän numeroa voidaan valita 39 joukosta. 39 numerosta voidaan muodostaa 39*38*37*...*2*1 erilaista yhdistelmää. Lukusarjaa kutsutaan 39:n kertomaksi, 39!. Vastaavasti seitsemästä luvusta voidaan muodostaa 7! erilaista yhdistelmää. Riviin kuulumattomat 32 numeroa voidaan valita 32! eri tavalla. Erilaisten seitsemän numeroa sisältävien rivien määrä voidaan laskea seuraavasti: 39!/(7!*32!) = 15 380 937. Erilaisia lottorivejä on siis reilut 15 miljoonaa. Samalla laskukaavalla voidaan selvittää myös kuinka monta erilaista voittoyhdistelmää on. Erilaisia neljä oikein yhdistelmiä voidaan seitsemän oikean numeron joukosta muodostaa 7!/(4!*3!) = 35 kappaletta. Arpomatta jääneet kolme numeroa voidaan lisäksi valita 32!/(3!*29!) = 4 960 tavalla. Erilaisten neljä oikein rivien määrä saadaan näiden tulosten tulona eli 35*4 960 = 173 600. Samalla kombinaatioihin perustuvalla menetelmällä saadaan erilaisten voittoyhdistelmien lukumäärät: 7 oikein 1 6+1 oikein 21 6 oikein 203 5 oikein 10 416 4 oikein 173 600

Todennäköisyys sille, että yhdellä rivillä voittaa yhdellä kierroksella jotain voidaan laskea jakamalla kaikkien voittoyhdistelmien summa erilaisten rivien lukumäärällä eli (1 + 21 + 230 + 10 416+ 173 600) / 15 380 937 = 0.012 eli hieman yli 1%. Koska jokaisella rivillä tapahtuu varmasti jompikumpi tapahtuma, joko tulee voitto tai ei tule voittoa, on niiden yhteenlaskettu todennäköisyys yksi. Todennäköisyys olla voittamatta mitään voidaan laskea vähentämällä voittotodennäköisyys yhdestä. Yhden rivin todennäköisyys olla voittamatta on siis 1 - 0.012 = 0.988 eli 98.8%. ^[13]

Tietokonetomografia

Pääartikkeli: Tietokonetomografia

Lääketieteellisissä tutkimuksissa käytetään (esim. syöpäkasvaimia etsittäessä) apuna tietokonetomografiaa. Menetelmän avulla ihmisen kudoksista tai elimistä tuotetaan tomografi-nimisellä laitteella ns. viipale- tai tasokuvia. Kuvat perustuvat sähkömagneettisen tai hiukkassäteilyn mittaamiseen säteilyn kulkiessa kudosten tai elinten läpi. Kuvaa muodostettaessa tomografiin ohjelmoitu algoritmi ratkaisee inversio-ongelmaksi kutsutun matemaattisen ongelman, joka voidaan luontevimmin tulkita Bayesläisten tilastollisten menetelmien muodostamassa kehikossa.^[14]

Kyselytutkimukset

Kyselytutkimuksen tulos pylväsdiagrammilla esitettynä

Kyselytutkimusten suunnittelussa, toteutuksessa ja tulosten analysoinnissa sovelletaan tilastollisista menetelmistä mm. otantaa, estimointia ja testausta. Esimerkiksi ihmisten mielipiteitä erilaisiin yhteiskuntaa koskeviin kysymyksiin voidaan selvittää kyselytutkimuksilla. Kohteeksi poimitaan tyypillisesti 1000 – 2000 suomalaista, ja tavoitteena on tehdä kyselyn tulosten perusteella johtopäätöksiä mielipiteiden jakautumisesta kaikkien suomalaisten joukossa. Kyselyn tulokset voidaan yleistää koskemaan kaikkia suomalaisia, jos kyselyn kohteiksi poimittujen suomalaisten joukko muodostaa edustavan pienoiskuvan suomalaisista. Pienoiskuva on edustava, jos mielipiteet jakautuvat kyselyn kohteiksi poimittujen joukossa samalla tavalla kuin kaikkien suomalaisten muodostamassa perusjoukossa. Kyselyn kohteiden valinta arpomalla on ainoa menetelmä (satunnaisotanta), joka mahdollistaa edustavan pienoiskuvan saamisen. Arvonnan käyttö kyselyn kohteiden poiminnassa merkitsee sitä, että kyselyn tulokset ovat satunnaisia: Jos arvontaa toistettaisiin, kysely tuottaisi (suurella todennäköisyydellä) joka kerran erilaiset tulokset, koska eri arvonnoissa kyselyyn poimittaisiin (suurella todennäköisyydellä) eri henkilöt. Jos kyselyn kohteiden poiminnassa on käytetty satunnaisotantaa, kyselyn tuloksiin sisältyvälle epävarmuudelle ja satunnaisuudelle voidaan muodostaa tilastollinen malli, joka mahdollistaa sekä kyselyn tulosten yleistämisen että yleistyksen luotettavuuden arvioinnin.^[14]

Ajoneuvotilastot

Suomessa Trafi ja Tilastokeskus muun muassa laativat ajoneuvo- ja ajokorttitilastoja. Ajoneuvoliikennerekisterin ajoneuvotietoja julkaistaan rekisterissä olevien ja liikennekäytössä olevien ajoneuvojen määrinä. Tilastojen perusteella tehdään erilaisia päätelmiä esimerkiksi kansantalouden tilasta. Taloustilanteen ollessa huono ajoneuvoja ei hankita tai uusita yhtä paljon kuin paremmassa taloustilanteessa.^[13]

Viralliset tilastot, väestötieteen perusteet, indeksit ja kansantalouden tilinpito

Tilastokeskuksen ja muiden tahojen tuottamat viralliset tilastot kuvaavat maan taloudellisia ja sosiaalisia oloja, kuten sekä tulonjakoa ja yritystoimintaa. Myös väestönkehitystä kuten syntyvyyttä, kuolevuutta ja muuttoliikettä sekä työmarkkinatilannetta kuvataan erilaisien tilastojen avulla. Tilastotieteen menetelmiä sovelletaan myös erilaisten indeksien, kuten hinta-, kustannus- ja määräindeksien, laskemisessa. Kansantalouden tilinpito on kansantalouden toimintaa kuvaava tilastojärjestelmä, joka perustuu kansainvälisiin sopimuksiin. Sen avulla voidaan kuvata historiaa ja nykytilaa sekä tehdä erilaisia kansainvälisiä vertailuja. ^[15]

Tutkimusalueita

Aikasarja-analyysi
Bayesiläinen tilastotiede
Biometria (biotieteiden sovelluksia)
Data-analyysi
Ekonometria (taloustieteen sovelluksia)
Epidemiologia (terveyteen vaikuttavien tekijöiden tutkimus)
Otantateoria
Spatiaalinen tilastotiede

Ohjelmistoja

Vapaita tilasto-ohjelmistoja:

Kaupallisia tilasto-ohjelmistoja:

Katso myös

Lähteet

↑ Kielitoimiston sanakirja. (Kotimaisten kielten tutkimuskeskuksen julkaisuja 132. Internet-versio MOT Kielitoimiston sanakirja 1.0) Helsinki: Kotimaisten kielten tutkimuskeskus ja Kielikone Oy, 2004. ISBN 952-5446-11-5
↑ http://www.stat.fi/org/tilastokeskus/historia.html
↑ http://www.stat.fi/org/index.html
↑ http://www.suomenpankki.fi/fi/tilastot/Pages/default.aspx
↑ ^a ^b ^c ^d ^e Moore D. S., McCabe G. P., Craig B. A.: Introduction to the Practice of Statistics. (6:s painos) New York: W. H. Freeman and Company, 2009. ISBN 1-4292-1621-2
↑ ^a ^b ^c ^d Pahkinen E.: Kyselytutkimusten otantamenetelmät ja aineistoanalyysi. Jyväskylä: Jyväskylä University Printing House, 2012. ISBN 978-951-39-4687-6
↑ ^a ^b ^c Pawitan Y.: In All Likelihood: Statistical Modelling and Inference Using Likelihood. New York: Oxford University Press, 2001. ISBN 978-0-19-850765-9
↑ Gelman A., Carlin J. B., Stern H. S., Rubin D. B.: Bayesian Data Analysis. (2:n painos) Chapman & Hall/CRC, 2004. ISBN 1-58488-388-X
↑ Lunn D., Jackson C., Best N., Thomas A., Spiegelhalter D.: The BUGS Book: A Practical Introduction to Bayesian Analysis. Chapman & Hall/CRC, 2013. ISBN 978-1-58488-849-9
↑ ^a ^b Davison A. C.: ”4”, Statistical Models. Cambridge: Cambridge University Press, 2003. ISBN 0-521-77339-3
↑ Holland P. W.: Statistics and Causal Inference. Journal of the American Statistical Association, Joulukuu 1986, nro 81, s. 945–960. American Statistical Association. Artikkelin verkkoversio.
↑ Pearl J.: ”Luvut 2-3”, Causality: models, reasoning, and inference. New York: Cambridge University Press, 2000. ISBN 0-521-77362-8
↑ ^a ^b Tilastotieteen sovelluksia (PDF) koti.mbnet.fi. Arkistoitu 3.5.2015. Viitattu 13.5.2014.
↑ ^a ^b Johdatus todennäköisyyslaskentaan ja tilastotieteeseen. Tilastotiede tieteenalana. (PDF) 2004. Aalto-yliopisto.. Arkistoitu 13.5.2014. Viitattu 13.5.2014.
↑ Tilastokoulu (PDF) 2014. Tilastokeskus.

Kirjallisuutta

Grönroos, Matti: Johdatus tilastotieteeseen: Kuvailu, mallit ja päättely. Helsinki: Finn Lectura, 2003. ISBN 951-792-148-9
Heikkilä, Juha: Tilastotieteen ABC-kirja. 1, Kuvailevaa tilastotiedettä. Helsinki: Yliopistopaino, 1993. ISBN 951-570-184-8
Heikkilä, Tarja: Tilastollinen tutkimus. (7. uudistettu painos) Helsinki: Edita, 2008. ISBN 978-951-37-4812-8
Holopainen, Martti & Pulkkinen, Pekka: Tilastolliset menetelmät. (Kuvitus: Krista Partti. 5. uudistettu painos) Porvoo Helsinki: WSOY Oppimateriaalit, 2008. ISBN 978-951-0-33198-9
Valli, Raine: Johdatus tilastolliseen tutkimukseen. (Opetus 2000) Jyväskylä: PS-kustannus, 2001. ISBN 952-451-032-4
Vasama, Pyry-Matti; Vartia, Yrjö: Johdatus tilastotieteeseen, osa I. Hämeenlinna: Karisto, 1972. ISBN 951-662-015-9
Vasama, Pyry-Matti; Vartia, Yrjö: Johdatus tilastotieteeseen, osa II. Helsinki: Kyriiri, 1973. ISBN 951-662-040-X

Aiheesta muualla

Lisää luettavaa aiheesta Kirjallisuutta tilastotieteestä on Wikiaineistossa
Matemaattiset aineet (Opintoluotsi)
Verkkokoulu (Arkistoitu – Internet Archive). Tilastokeskus.
Tilastollisia menetelmiä (Arkistoitu – Internet Archive)
Etälukio: Pitkä matematiikka: Todennäköisyys ja tilastot (Arkistoitu – Internet Archive)
Juha Alho, Elja Arjas, Esa Läärä ja Pekka Pere: Tilastotieteen sanasto, Suomen Tilastoseuran julkaisuja 8, 2. laitos, Suomen Tilastoseura ry, Helsinki 2023 ISBN 978-952-9795-14-7 (pdf)

[Kielitoimiston_sanakirja-1] Kielitoimiston sanakirja. (Kotimaisten kielten tutkimuskeskuksen julkaisuja 132. Internet-versio MOT Kielitoimiston sanakirja 1.0) Helsinki: Kotimaisten kielten tutkimuskeskus ja Kielikone Oy, 2004. ISBN 952-5446-11-5

[2] ttp://www.stat.fi/org/tilastokeskus/historia.html

[3] ttp://www.stat.fi/org/index.html

[4] ttp://www.suomenpankki.fi/fi/tilastot/Pages/default.aspx

[introduction-5] Moore D. S., McCabe G. P., Craig B. A.: Introduction to the Practice of Statistics. (6:s painos) New York: W. H. Freeman and Company, 2009. ISBN 1-4292-1621-2

[pahkinen-6] Pahkinen E.: Kyselytutkimusten otantamenetelmät ja aineistoanalyysi. Jyväskylä: Jyväskylä University Printing House, 2012. ISBN 978-951-39-4687-6

[likelihoodBook-7] Pawitan Y.: In All Likelihood: Statistical Modelling and Inference Using Likelihood. New York: Oxford University Press, 2001. ISBN 978-0-19-850765-9

[bayesBook-8] Gelman A., Carlin J. B., Stern H. S., Rubin D. B.: Bayesian Data Analysis. (2:n painos) Chapman & Hall/CRC, 2004. ISBN 1-58488-388-X

[bugsBook-9] Lunn D., Jackson C., Best N., Thomas A., Spiegelhalter D.: The BUGS Book: A Practical Introduction to Bayesian Analysis. Chapman & Hall/CRC, 2013. ISBN 978-1-58488-849-9

[statModelsBook-10] Davison A. C.: ”4”, Statistical Models. Cambridge: Cambridge University Press, 2003. ISBN 0-521-77339-3

[11] Holland P. W.: Statistics and Causal Inference. Journal of the American Statistical Association, Joulukuu 1986, nro 81, s. 945–960. American Statistical Association. Artikkelin verkkoversio.

[12] Pearl J.: ”Luvut 2-3”, Causality: models, reasoning, and inference. New York: Cambridge University Press, 2000. ISBN 0-521-77362-8

[sov1-13] Tilastotieteen sovelluksia (PDF) koti.mbnet.fi. Arkistoitu 3.5.2015. Viitattu 13.5.2014.

[sov2-14] Johdatus todennäköisyyslaskentaan ja tilastotieteeseen. Tilastotiede tieteenalana. (PDF) 2004. Aalto-yliopisto.. Arkistoitu 13.5.2014. Viitattu 13.5.2014.

[sov3-15] Tilastokoulu (PDF) 2014. Tilastokeskus.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

Auktoriteettitunnisteet
Kansalliset	Ranska BnF data Saksa Israel Yhdysvallat Latvia Japani Tšekki Korea
Muut	Dictionnaire historique de la Suisse NARA 2

Tilastotiede

Sisällys

Lähestymistapa

Otanta

Aineiston kuvailu