Aineiston korrelaatio- ja regressioanalyysi. Korrelaatiokentän rakentaminen

Satunnaismuuttujien välisten riippuvuuksien kokeelliseen tutkimukseen x ja y suorittaa useita riippumattomia kokeita. Tulos i koe antaa arvoparin (x z, y d), i = 1, 2,..., P.

Esineiden eri ominaisuuksia kuvaavat arvot voivat olla itsenäisiä tai toisiinsa liittyviä. Vuorosuhteiden ilmentymismuodot ovat hyvin erilaisia. Kahdeksi yleisimmästä tyypistä erotetaan toiminnalliset (täydellinen) ja korrelaatio (epätäydellinen) suhteet.

Kahden suuren toiminnallisella riippuvuudella yhden arvo -x h vastaa välttämättä yhtä tai useampaa toisen suuren tarkasti määriteltyä arvoa -y (. Usein toiminnallinen yhteys ilmenee fysiikassa, kemiassa. Todellisissa tilanteissa esineellä itsellään ja ympäristöllä on ääretön määrä toisiinsa vaikuttavia ominaisuuksia, joten tällaista suhdetta ei ole, eli funktionaaliset suhteet ovat matemaattisia abstraktioita.

Yhteisten tekijöiden vaikutus, objektiivisten mallien esiintyminen esineiden käyttäytymisessä johtavat vain tilastollisen riippuvuuden ilmenemiseen. Tilastollinen on riippuvuus, jossa yhden suuren muutos aiheuttaa muutoksen muiden (toisten) jakautumisessa, ja nämä muut suureet saavat tietyt arvot tietyillä todennäköisyyksillä. Toiminnallista riippuvuutta tässä tapauksessa tulisi pitää tilastollisen riippuvuuden erikoistapauksena: yhden tekijän arvo vastaa muiden tekijöiden arvoja todennäköisyydellä yksi. Tärkeämpi tilastollisen riippuvuuden erityistapaus on korrelaatioriippuvuus, joka luonnehtii joidenkin satunnaismuuttujien arvojen välistä suhdetta toisten keskiarvoon, vaikka kussakin yksittäistapauksessa mikä tahansa toisiinsa liittyvä arvo voi saada eri arvoja.

Korrelaatio (jota kutsutaan myös epätäydelliseksi tai tilastolliseksi) esiintyy keskimäärin massahavainnoissa, kun riippuvan muuttujan annetut arvot vastaavat tiettyä määrää riippumattoman muuttujan todennäköisiä arvoja. Selitys - analysoitujen tekijöiden välisen suhteen monimutkaisuus, joiden vuorovaikutukseen vaikuttavat huomioimattomat satunnaismuuttujat. Siksi merkkien välinen suhde ilmenee vain keskimäärin tapausten massassa. Korrelaatiolla jokainen argumentin arvo vastaa funktion satunnaisesti jakautuneita arvoja tietyllä aikavälillä.

Termiä "korrelaatio" käytti ensin ranskalainen paleontologi J. Cuvier, joka päätteli "eläinten osien ja elinten korrelaatiolain" (tämän lain avulla voit palauttaa koko eläimen ulkonäön löydetyistä ruumiinosista ). Tämän termin otti tilastoihin englantilainen biologi ja tilastotieteilijä F. Galton (ei vain yhteys - suhde, vaan "ikään kuin yhteys" - korelaatio).

Korrelaatioita löytyy kaikkialta. Esimerkiksi maataloudessa tämä voi olla sadon ja käytetyn lannoitemäärän välinen suhde. Ilmeisesti viimeksi mainitut ovat mukana sadon muodostumisessa. Mutta jokaisella pellolla, palstalla sama määrä käytettyjä lannoitteita aiheuttaa erilaisen sadonlisäyksen, koska vuorovaikutuksessa on useita muita tekijöitä (sää, maaperän olosuhteet jne.), jotka muodostavat lopputuloksen. Keskimäärin kuitenkin havaitaan tällainen suhde - levitettyjen lannoitteiden massan kasvu johtaa sadon kasvuun.

Yksinkertaisin tekniikka tutkittujen ominaisuuksien välisen suhteen tunnistamiseksi on korrelaatiotaulukon rakentaminen; sen visuaalinen esitys on korrelaatiokenttä. Se on kaavio, jossa jq:n arvot on piirretty abskissalle, ordinaatille klo x. Pisteiden sijainnin, niiden keskittymisen tiettyyn suuntaan perusteella voidaan arvioida laadullisesti yhteyden olemassaolo.

Riisi. 7.3.

Positiivinen korrelaatio satunnaismuuttujien välillä, lähellä parabolista funktionaalista, on esitetty kuvassa. 6.1 , a. Kuvassa Kuvassa 6.1, b on esimerkki heikosta negatiivisesta korrelaatiosta, ja kuvassa 6.1. 6.1, sisään - esimerkki käytännössä korreloimattomista satunnaismuuttujista. Korrelaatio on korkea, jos riippuvuus "voidaan esittää" kaaviossa suorana (positiivisella tai negatiivisella kulmakertoimella).

Niitä on kahta tyyppiä taloudellisten ilmiöiden väliset suhteet: toiminnallinen ja tilastollinen. Kahden määrän välinen suhde X ja Y edustaa kahta ilmiötä, vastaavasti, kutsutaan toimiva, jos jokainen x:n arvo vastaa yhtä x:n arvoa Y ja päinvastoin. Esimerkki toiminnallisesta suhteesta taloudessa on työn tuottavuuden riippuvuus tuotannon määrästä ja työajan kustannuksista. On kuitenkin huomioitava, että jos X on deterministinen, ei-satunnainen muuttuja, niin siitä toiminnallisesti riippuvainen arvo Y on myös deterministinen. Jos X on siis satunnainen Y myös satunnaismuuttuja.

Kuitenkin paljon useammin taloudessa ei ole toimivaa, vaan tilastollinen riippuvuus, kun riippumattoman muuttujan jokainen kiinteä arvo X ei vastaa yhtä, vaan useita riippuvan muuttujan Y arvoja, ja on mahdotonta sanoa etukäteen, mikä arvo tulee Y. Tämä johtuu siitä, että on Y paitsi muuttuja X Myös monet hallitsemattomat satunnaiset tekijät vaikuttavat. Tässä tilanteessa Y on satunnaismuuttuja, ja muuttuja X voi olla joko deterministinen tai satunnainen.

Tilastollisen riippuvuuden erikoistapaus on korrelaatioriippuvuus, jossa tekijä X ja tehokkaan indikaattorin keskiarvo (matemaattinen odotus). Y. Tilastollinen riippuvuus voidaan paljastaa vain riittävän suuren havaintomäärän tuloksista. Graafisesti kahden ominaisuuden tilastollinen riippuvuus voidaan esittää käyttämällä korrelaatiokenttää, jonka konstruktiossa tekijäpiirteen arvo piirretään abskissa-akselille X, ja pitkin ordinaattia - tuloksena oleva Y.

korrelaatio- tilastollisen suhteen erikoistapaus, jossa muuttujan eri arvot vastaavat toisen muuttujan erilaisia ​​keskiarvoja. Korrelaatio viittaa siihen, että tutkittavilla muuttujilla on määrällinen ilmaisu.

Jos kahden ominaisuuden välistä suhdetta tutkitaan, on olemassa parikohtainen korrelaatio; jos monien piirteiden välistä suhdetta tutkitaan - moninkertainen korrelaatio.

Esimerkkinä kuvassa

Kuvio 1 esittää dataa, joka kuvaa suoraa yhteyttä X ja klo(Kuva 1, a) ja käänteinen suhde (Kuva 1, b). "a":n tapauksessa tämä on suora suhde esimerkiksi keskimääräisten asukasta kohti laskettujen tulojen välillä. X) ja säästöt ( klo) perheessä. Tapauksessa "b" puhumme käänteisestä suhteesta. Tämä on esimerkkimme, työn tuottavuuden välinen suhde ( X) ja tuotantoyksikkökustannukset ( klo). Kuvassa 1 jokainen pistehahmo tutkii havaintokohdetta omilla arvoillaan X ja klo.

Riisi. 1. Korrelaatiokenttä

Kuvassa 1 esittää myös suoria viivoja, tyyppisiä lineaarisia regressioyhtälöitä, jotka kuvaavat riippumattoman muuttujan välistä toiminnallista suhdetta X ja suoritusindikaattorin keskiarvo klo. Siten regressioyhtälön mukaan tietäen X, on mahdollista palauttaa vain keskiarvo klo.

Graafisesti kahden ominaisuuden suhde on kuvattu käyttämällä korrelaatiokenttää. Koordinaatistossa tekijän attribuutin arvot piirretään abskissa-akselille ja tuloksena oleva attribuutti piirretään ordinaatta-akselille. Jokainen näiden akselien kautta piirrettyjen viivojen leikkauspiste on merkitty pisteellä. Läheisten yhteyksien puuttuessa kaaviossa on satunnainen pistejärjestys (kuva 11.1).


Kuvataan saatu riippuvuus graafisesti koordinaattitason pisteillä (kuva 3.1). Tällaista kuvaa tilastollisesta suhteesta kutsutaan korrelaatiokentällä.

Rakenna korrelaatiokenttä ja muotoile hypoteesi yhteyden muodosta.

Kahden ominaisuuden välistä suhdetta tutkittaessa graafinen menetelmä regressioyhtälön tyypin valitsemiseksi on melko selkeä. Se perustuu korrelaatiokenttään. Suhteiden kvantitatiivisessa arvioinnissa käytetyt pääasialliset käyrätyypit on esitetty kuvassa. 2.1.

Koska kaikki korrelaatiokentän pisteet eivät sijaitse regressioviivalla, esiintyy aina sironta sekä tekijän x vaikutuksesta, eli regression y x:n vaikutuksesta, että muista syistä (selittämätön vaihtelu). Regressioviivan soveltuvuus ennustamiseen riippuu siitä, kuinka suuren osan piirteen y kokonaisvariaatiosta selittää selitetty variaatio. On selvää, että jos regressiosta johtuvien neliöityjen poikkeamien summa on suurempi kuin neliöiden jäännössumma, regressioyhtälö on tilastollisesti merkitsevä ja x-tekijällä on merkittävä vaikutus tulokseen. Tämä vastaa sitä tosiasiaa, että determinaatiokerroin r2 lähestyy yksikköä.

Vastaavasti kuvan 1 korrelaatiokentissä kuvatulle riippuvuudelle. 3.5 b) ja c), tähteiden heteroskedastisuus on esitetty kuvassa. 3.9 ja 3.10.

Jos arvot ovat riippumattomia, niin "korrelaatiokenttä" tai pa-

Jos korrelaatiokenttä voidaan approksimoida suoralla, jota kutsutaan regressioviivaksi, siirrytään parin korrelaatiokertoimen r laskemiseen. Sen numeeriset arvot ovat välillä [-1, 1]. Jos r on 1 tai -1, on olemassa toiminnallinen syöttö tai takaisinkytkentä. Kun r on lähellä nollaa, ilmiöiden välillä ei ole yhteyttä, ja arvolla r 0,7 yhteyttä pidetään merkittävänä. Korrelaatiokerroin lasketaan kaavalla

Yllä olevien rautatielaitosten ryhmien tunnistamisen jälkeen käytettiin toista likimääräistä menetelmää väestön homogeenisuuden alustavaan analysointiin jokaiselle rautatielaitosryhmälle - korrelaatiokenttien rakentaminen kullekin tutkimukseen sisältyvälle tekijälle kuljetuskustannusten kanssa. Valittujen populaatioiden homogeenisuuden tai heterogeenisyyden pääpiirre oli aukkojen ja hyppyjen puuttuminen tai esiintyminen pisteiden sijainnissa korrelaatiokentillä.

Tutkimukseen kaikki mahdolliset tekijät valittiin alustavasti ammatillisella loogisella analyysillä, joiden muutoksista on yritysten osalta saatavilla ministeriön raportoinnissa. Tällaisina tekijöinä tulee huomioida kuljetusten kokonaismäärä, työkaluston vaunujen ja veturien keskimääräinen tuottavuus, rahtiintensiteetti, kuljetusyksikön pääomaintensiteetti ja työn tuottavuus jne. (yhteensä 11 tekijää). Näin ollen neljälle yritysryhmälle muodostettiin 44 korrelaatiokenttää.

Ilmoitettujen arvojen määrittämisen jälkeen saadaan paririippuvuusyhtälö, jonka graafista esitystä koordinaattiakseleissa kutsutaan teoreettiseksi regressioviivaksi. Jos kaikki mittaukset sovelletaan sellaiseen kenttään, ei vain teoreettinen regressioviiva, niin saamme korrelaatiokentän.

Järjestämme lähdemateriaalin korrelaatiokenttään ja korrelaatiotaulukkoon. Esimerkissämme tekijä on koneiden hinta Cm ja funktio on keskimääräinen vuosityöntekijöiden lukumäärä P.

Intervalleiksi jaottelun seurauksena koko taso, jolle piirretään mittaukset sekä etumerkeille k että y, jota kutsutaan korrelaatiokentällä, on soluja, ja jokaiselle mittaukselle ei ole ominaista sen koordinaattien tarkat arvot, vaan vain sen välin arvojen perusteella, jossa se on määritetty.

Kuvassa Kuvassa 16 on esitetty korrelaatiokenttä, jolle on annettu argumentin Сы arvojen välit abskissa-akselia pitkin ja funktion P arvon välit ordinaatta-akselia pitkin. Tällä tavalla rakennettu korrelaatiokenttä kutsutaan toissijaiseksi.

Ensisijainen korrelaatiokenttä voidaan myös rakentaa intervallien valitsemiseksi. Kaikki tämän kentän pisteet on merkitty ottaen huomioon niiden koordinaattien arvot. Pisteiden tiheyden mukaan välit hahmotellaan.

Korrelaatiokentän rakentamisen yhteydessä, kuten edellä on osoitettu, kootaan korrelaatiotaulukko, jossa on kaikki keskiarvojen määrittämiseen liittyvät laskelmat, empiirisen regressiosuoran rakentaminen ja lähtötiedot parametrien määrittämiseksi normaalijärjestelmässä. yhtälöt suoritetaan.

Taulukossa. 36 kaikki materiaali on jaettu aikaväleihin. Sen avulla rakennamme toissijaisen korrelaatiokentän, jolle piirrämme muuttujien kaikki arvot ja määritämme keskiarvot (/, //, ..., yn aikavälein. Keskiarvojen yhdistäminen jokaisessa välissä suorien viivaosien kanssa saadaan empiirinen regressioviiva (katso kuva 16).

Palauttamalla kunkin intervallin keskeltä kohtisuora abskissa-akseliin nähden, laitamme syrjään jokaiselle niistä vastaavat y:n arvot, mutta välit r /, \u003d 1081, 1/2 \u003d 1774 jne. Yhdistämme saatu pisteitä keskenään suorilla janoilla. Tuloksena oleva katkoviiva on empiirinen regressioviiva koneiden kustannusten Cm ja työntekijöiden määrän P väliselle suhteelle. Analogisesti suoritettujen laskelmien kanssa voimme rakentaa korrelaatiotaulukoita ja korrelaatiokenttiä työntekijöiden määrän P välisen suhteen tunnistamiseksi. , työn määrä O, esivalmistettujen betoni- ja teräsbetonirakenteiden lukumäärä / Izh.b.
Riisi. 18. Korrelaatiotaulukko ja toissijainen korrelaatiokenttä betonielementtien työntekijöiden lukumäärän ja käyttömäärän riippuvuudesta /info/5440"> Myöhemmin johdettuja pariregression ja moninkertaisen regression yhtälöitä voidaan soveltaa, jos muuttujat muuttuvat seuraavissa rajoissa: työntekijöiden määrä - 850 - 7850 henkilöä, koneiden hinta - 0,15 - 3,15 miljoonaa ruplaa ., esivalmistettujen rakenteiden tilavuus on 10 - 230 tuhatta m ja piirretään pystyakselia pitkin itsenäisinä arvoina - vaakasuuntaan. Korrelaatiokenttää käytetään määrittämään muuttujien välisen suhteen muoto, Kaavio antaa tutkija ensimmäinen

Pienimpien neliöiden kolmas oletus edellyttää, että residuaalien varianssi on homoskedastinen. Tämä tarkoittaa, että jokaiselle tekijän Xj arvolle jäännöksillä e, - on sama varianssi. Jos tämä LSM:n soveltamisen ehto ei täyty, tapahtuu heteroskedastisuutta. Heteroskedastisuuden esiintyminen näkyy selvästi korrelaatiokentästä (kuva 3.5).

Toinen tyypillinen tutkimustehtävä - ilmiöiden välisten suhteiden arviointi - ratkaistaan ​​matemaattisen tilaston korrelaatioteorian hyvin kehittyneellä laitteistolla. Tätä varten tarvitaan näytteitä vertailtavista ilmiöistä, jotka on esitetty eri aiheiden kartoissa (esim. D ja C). Arvot a ja b otetaan samoista /. pisteistä, ts. tiukasti koordinoituja ja piirrä sitten korrelaatiokenttä.

1. Työn aihe.

2. Lyhyt teoreettinen tieto.

3. Työn järjestys.

4. Lähtötiedot matemaattisen mallin kehittämiseen.

5. Matemaattisen mallin kehittämisen tulokset.

6. Mallin tutkimuksen tulokset. Ennusteen rakentaminen.

7. Päätelmät.

Tehtävissä 2-4 voit käyttää Excel PPP:tä mallin suorituskyvyn laskemiseen.

Työ numero 1.

Pariregressiomallien rakentaminen. Jäännösten tarkistaminen heteroskedastisuuden varalta.

15 samantyyppistä tuotetta valmistavalle yritykselle tunnetaan kahden ominaisuuden arvot:

X - tuotanto, tuhat yksikköä;

y - tuotantokustannukset, miljoonaa ruplaa

x y
5,3 18,4
15,1 22,0
24,2 32,3
7,1 16,4
11,0 22,2
8,5 21,7
14,5 23,6
10,2 18,5
18,6 26,1
19,7 30,2
21,3 28,6
22,1 34,0
4,1 14,2
12,0 22,1
18,3 28,2

Edellytetään:

1. Rakenna korrelaatiokenttä ja muotoile hypoteesi suhteen muodosta.

2. Rakenna malleja:

Lineaarinen pariregressio.

Puolilogaritmi pariittainen regressio.

2.3 Tehoparin regressio.
Tätä varten:


2. Arvioi suhteen tiiviys kertoimen (indeksi) avulla
korrelaatioita.

3. Arvioi mallin laatu kertoimen (indeksin) avulla
määritys ja approksimaatiovirhe
.

4. Kirjoita käyttämällä keskimääräistä kimmokerrointa
vertaileva arvio tekijän ja tuloksen välisen suhteen vahvuudesta
.

5. Käyttämällä F- Fisherin kriteeri regressiomallinnuksen tulosten tilastollisen luotettavuuden arvioimiseksi.

Valitse kappaleissa 2-5 laskettujen ominaisuuksien arvojen mukaan paras regressioyhtälö.

Tarkista jäännösten heteroskedastisuus Golfreld-Quandt-menetelmällä.

Rakennamme korrelaatiokentän.

Analysoimalla korrelaatiokentän pisteiden sijaintia oletetaan, että merkkien välinen suhde X ja klo voi olla lineaarinen, ts. y=a+bx, tai epälineaarinen muoto: y=a+blnx, y=ax b.

Tutkittavan suhteen teorian perusteella odotamme saavamme riippuvuuden klo alkaen X ystävällinen y=a+bx, koska tuotantokustannukset y voidaan jakaa kahteen tyyppiin: vakio, tuotantomäärästä riippumaton - a kuten vuokra, hallintohuolto jne.; ja muuttujat, jotka muuttuvat suhteessa tuottoon bx, kuten materiaalin, sähkön tms.


2.1.Lineaarinen pariregressiomalli.

2.1.1. Lasketaan parametrit a ja b lineaarinen regressio y=a+bx.

Rakennamme laskentataulukon 1.

pöytä 1

Vaihtoehdot a ja b yhtälöt

Y x = a + bx


Jaettuna n b:

Regressioyhtälö:

=11,591+0,871x

Tuotanto kasvoi 1 tuhannella ruplalla. tuotantokustannukset nousevat 0,871 miljoonaa ruplaa. Keskimäärin kiinteät kustannukset ovat 11,591 miljoonaa ruplaa.

2.1.2. Arvioimme suhteen läheisyyden käyttämällä lineaarista parikorrelaatiokerrointa.

Määritetään alustavasti ominaisuuksien keskihajonnat.

Vakiopoikkeamat:

Korrelaatiokerroin:

Merkkien välissä X ja Y on erittäin vahva lineaarinen korrelaatio.

2.1.3. Arvioidaan rakennetun mallin laatu.

eli tämä malli selittää 90,5 % kokonaisvarianssista klo, selittämättömän varianssin osuus on 9,5 %.

Siksi mallin laatu on korkea.

MUTTA i .

Ensin määritämme regressioyhtälöstä teoreettiset arvot jokaiselle tekijän arvolle.

Arviointivirhe A i, i=1…15:

Keskimääräinen likimääräinen virhe:

2.1.4. Määritetään keskimääräinen kimmokerroin:

Se osoittaa, että kun tuotanto kasvaa 1 %, tuotantokustannukset nousevat keskimäärin 0,515 %.

2.1.5. Arvioidaan tuloksena olevan yhtälön tilastollinen merkitsevyys.
Testataan hypoteesia H0 että paljastunut riippuvuus klo alkaen X on satunnainen, eli tuloksena oleva yhtälö on tilastollisesti merkityksetön. Otetaan α=0,05. Etsitään taulukkomuotoinen (kriittinen) arvo F- Fisherin kriteeri:

Etsi todellinen arvo F- Fisherin kriteeri:

siksi hypoteesi H0 H1 x ja y ei ole sattumaa.

Muodostetaan tuloksena oleva yhtälö.

2.2. Puoliloginen parillinen regressiomalli.

2.2.1. Lasketaan parametrit a ja b regressiossa:

y x \u003d a + blnx.

Linearisoimme tämän yhtälön, mikä tarkoittaa:

y=a + bz.

Vaihtoehdot a ja b yhtälöt

= a+bz

määritetty pienimmän neliösumman menetelmällä:


Laskemme taulukon 2.

taulukko 2

Jaettuna n ja ratkaisemalla Cramerin menetelmällä, saadaan kaava määrittämistä varten b:

Regressioyhtälö:

= -1,136 + 9,902z

2.2.2. Arvioidaan ominaisuuksien välisen yhteyden läheisyys klo ja X.

Yhtälöstä lähtien y = a + bln x lineaarinen parametrien suhteen a ja b ja sen linearisointi ei liittynyt riippuvan muuttujan _ muuntamiseen klo, sitten muuttujien välisen yhteyden tiiviys klo ja X, arvioitu käyttämällä parikorrelaatioindeksiä Rxy, voidaan määrittää myös käyttämällä lineaarista parin korrelaatiokerrointa r yz

keskihajonta z:

Korrelaatioindeksin arvo on lähellä 1, joten muuttujien välillä klo ja X on hyvin läheinen korrelaatio = a + bz.

2.2.3. Arvioidaan rakennetun mallin laatu.

Määritetään determinaatiokerroin:

eli tämä malli selittää 83,8 % tuloksen kokonaisvaihtelusta klo, selittämättömän vaihtelun osuus on 16,2 %. Siksi mallin laatu on korkea.

Etsitään keskimääräisen approksimaatiovirheen arvo MUTTA i .

Ensin määritämme regressioyhtälöstä teoreettiset arvot jokaiselle tekijän arvolle. Arviointivirhe Ja minä ,:

, i=1…15.

Keskimääräinen likimääräinen virhe:

.

Virhe on pieni, mallin laatu on korkea.

2.2.4 Määritetään keskimääräinen kimmokerroin:

Se osoittaa, että kun tuotanto kasvaa 1 %, tuotantokustannukset nousevat keskimäärin 0,414 %.

2.2.5. Arvioidaan tuloksena olevan yhtälön tilastollinen merkitsevyys.
Testataan hypoteesia H0 että paljastunut riippuvuus klo alkaen X on satunnainen, ts. tuloksena oleva yhtälö on tilastollisesti merkityksetön. Otetaan α=0,05.

Etsitään taulukkomuotoinen (kriittinen) arvo F- Fisherin kriteeri:

Etsi todellinen arvo F- Fisherin kriteeri:

siksi hypoteesi H0 hylätty, vaihtoehtoinen hypoteesi hyväksytty H1: todennäköisyydellä 1-α=0,95 saatu yhtälö on tilastollisesti merkitsevä, muuttujien välinen suhde x ja y ei ole sattumaa.

Rakennetaan regressioyhtälö korrelaatiokenttään

2.3. Tehoparin regressiomalli.

2.3.1. Lasketaan parametrit a ja b tehon regressio:

Parametrien laskentaa edeltää tämän yhtälön linearisointi:

ja muuttujien muutos:

Y = lny, X = lnx, A = lna

Yhtälön parametrit:

määritetty pienimmän neliösumman menetelmällä:


Laskemme taulukon 3.

Me määrittelemme b:

Regressioyhtälö:

Rakennetaan regressioyhtälö korrelaatiokenttään:

2.3.2. Arvioidaan ominaisuuksien välisen yhteyden läheisyys klo ja X käyttämällä parikorrelaatioindeksiä R yx.

Laske teoreettinen arvo alustavasti jokaiselle tekijäarvolle x, ja sitten:

Korrelaatioindeksin arvo Rxy lähellä 1, siis muuttujien välillä klo ja X lomakkeella on hyvin läheinen korrelaatio:

2.3.3. Arvioidaan rakennetun mallin laatu.

Määritetään määritysindeksi:

R2=0,936 2 =0,878,

eli tämä malli selittää 87,6 % tuloksen kokonaisvaihtelusta y, ja selittämättömän vaihtelun osuus on 12,4 %.

Mallin laatu on korkea.

Etsitään keskimääräisen approksimaatiovirheen arvo.

Arviointivirhe A i, i=1…15:

Keskimääräinen likimääräinen virhe:

Virhe on pieni, mallin laatu on korkea.

2.3.4. Määritetään keskimääräinen kimmokerroin:

Se osoittaa, että kun tuotanto kasvaa 1 %, tuotantokustannukset nousevat keskimäärin 0,438 %.

2.3.5 Arvioidaan tuloksena olevan yhtälön tilastollinen merkitsevyys.

Testataan hypoteesia H0 että paljastunut riippuvuus klo alkaen X on satunnainen, eli tuloksena oleva yhtälö on tilastollisesti merkityksetön. Otetaan α=0,05.

taulukkomainen (kriittinen) arvo F- Fisherin kriteeri:

todellinen arvo F- Fisherin kriteeri:

siksi hypoteesi H0 hylätty, vaihtoehtoinen hypoteesi hyväksytty H1: todennäköisyydellä 1-α=0,95 saatu yhtälö on tilastollisesti merkitsevä, muuttujien välinen suhde x ja y ei ole sattumaa.

Taulukko 3

3. Parhaan yhtälön valinta.

Tehdään taulukko tutkimuksen tuloksista.

Taulukko 4

Analysoimme taulukon ja teemme johtopäätökset.

ú Kaikki kolme yhtälöä osoittautuivat tilastollisesti merkittäviksi ja luotettaviksi, niiden korrelaatiokerroin (indeksi) on lähellä 1, korkea (lähellä 1) määrityskerroin (indeksi) ja approksimaatiovirhe hyväksyttävissä rajoissa.

ú Samanaikaisesti lineaarisen mallin ominaisuudet osoittavat, että se kuvaa merkkien välistä suhdetta x ja y.

ú Siksi valitsemme regressioyhtälöksi lineaarisen mallin.

Kun esitetään kysymys kahden tilastollisen ominaisuuden X ja Y välisestä korrelaatiosta, suoritetaan koe niiden arvojen rinnakkaisrekisteröinnillä.

Esimerkki 8.1.

Selvitä, riippuuko pituushypyn tulos juoksulla (merkki X) lopullisen nousunopeuden arvosta (merkki Y). Tähän kysymykseen vastaamiseksi kirjataan samanaikaisesti urheilijan tai urheilijaryhmän jokaisen hypyn tuloksen X rekisteröimisen kanssa myös lopullisen nousunopeuden Y arvo. Anna heidän olla:

Taulukko 5

minä
xi (cm)
yi (m/s) 10,7 10,5 10,1 9,8 10,1 10,5 9,1 9,6

Esitetään taulukko 5 kaaviona suorakaiteen muotoisessa koordinaatistossa, jossa piirretään hypyn pituus (X) vaaka-akselille ja lopullisen nousunopeuden arvo tässä hyppyssä (Y) pystyakselille. .
toiminto PlayMyFlash(cmd)( Corel_.TPlay(cmd); )

№1 !!! №2 !!! №3 !!! №4 !!! №5!!! №6 !!! №7 !!! №8!!!

Riisi. 8. Kuvaaja korrelaatiokentästä.

Kutsumme näin saatujen pisteiden sirontavyöhykettä kuvaajassa korrelaatiokenttään. Kuvan 8 korrelaatiokenttää visuaalisesti analysoimalla voit nähdä, että se on ikään kuin pitkänomainen suoraa linjaa pitkin. Tämä kuva on tyypillinen ns. lineaariselle piirteiden väliselle korrelaatiosuhteelle. Tässä tapauksessa voidaan yleisesti olettaa, että nousun loppunopeuden kasvaessa myös hypyn pituus kasvaa ja päinvastoin. Nuo. tarkasteltujen ominaisuuksien välillä on suora (positiivinen) suhde.

Tämän esimerkin ohella seuraavat voidaan erottaa monista muista mahdollisista korrelaatiokentistä (kuvat 9-11):

Kuvassa 9 näkyy myös lineaarinen suhde, mutta yhden attribuutin arvojen kasvaessa toisen arvot pienenevät ja päinvastoin, ts. palautetta tai negatiivista. Voidaan olettaa, että kuvassa 11 korrelaatiokentän pisteet ovat hajallaan jonkin kaarevan viivan ympärillä. Tässä tapauksessa he sanovat, että merkkien välillä on kaareva korrelaatio.

Kuvassa 10 esitetyn korrelaatiokentän osalta ei voida sanoa, että pisteet sijaitsevat jollain suoralla tai kaarevalla viivalla, sillä on pallomainen muoto. Tässä tapauksessa piirteiden X ja Y sanotaan olevan toisistaan ​​riippumattomia.

Lisäksi korrelaatiokentän mukaan voidaan likimäärin arvioida korrelaation läheisyyttä, jos tämä suhde on olemassa. Täällä he sanovat: mitä vähemmän pisteitä on hajallaan kuvitteellisen keskiviivan ympärillä, sitä tiiviimpi on tarkasteltujen piirteiden välinen korrelaatio.

Korrelaatiokenttien visuaalinen analyysi auttaa ymmärtämään korrelaatiosuhteen olemusta, mahdollistaa oletuksen tekemisen suhteen olemassaolosta, suunnasta ja kireydestä. Mutta tällä menetelmällä on mahdotonta sanoa varmasti, onko merkkien välillä yhteys vai ei, lineaarinen yhteys vai kaareva, läheinen yhteys (luotettava) vai heikko (epäluotettava). Tarkin menetelmä piirteiden välisen lineaarisen suhteen tunnistamiseksi ja arvioimiseksi on menetelmä, jolla määritetään erilaisia ​​korrelaatioindikaattoreita tilastotiedoista.

3. Korrelaatiokertoimet ja niiden ominaisuudet

Usein määrittää kahden ominaisuuden välisen suhteen luotettavuus (X, Y) käyttää ei-parametrinen (rank) Spearman-korrelaatiokerroin ja Pearsonin parametrinen korrelaatiokerroin . Näiden korrelaatioindikaattoreiden arvo määritetään seuraavilla kaavoilla:

(1)

Missä: dx - ominaisuuden x tilastotietojen rivit;

dy - ominaisuuden y tilastotietojen rivit.

(2)

Missä: - ominaisuuden x tilastotiedot,

Kohteen y tilastotiedot.

Näillä suhteilla on seuraavat tehokkaat ominaisuudet:

1. Korrelaatiokertoimien perusteella voidaan arvioida vain suoraviivaista korrelaatiosuhdetta piirteiden välillä. Heidän avullaan kaarevasta yhteydestä ei voida sanoa mitään.
2. Korrelaatiokertoimien arvot ovat dimensioton arvo, joka ei voi olla pienempi kuin -1 ja suurempi kuin +1, ts.
3.
4. Jos korrelaatiokertoimien arvot ovat nolla, ts. = 0 tai = 0, niin ominaisuuksien x, y välinen suhde on poissa.
5. Jos korrelaatiokertoimien arvot ovat negatiivisia, ts.< 0 или < 0, то связь между признаками Х и Y käänteinen.
6. Jos korrelaatiokertoimien arvot ovat positiivisia, ts. > 0 tai y> 0, sitten piirteiden X ja Y välinen suhde suoraan(positiivinen).
7. Jos korrelaatiokertoimet saavat arvot +1 tai -1, ts. = ± 1 tai = ± 1, sitten piirteiden X ja Y välinen suhde lineaarinen (toiminnallinen).
8. Vain korrelaatiokertoimien arvon perusteella on mahdotonta arvioida merkkien välisen korrelaation luotettavuutta. Tämä luotettavuus riippuu myös vapausasteiden lukumäärä.

Missä: n on korreloitujen tilastotietojen parien lukumäärä piirteille X ja Y.

Mitä suurempi n, sitä suurempi on suhteen luotettavuus samalla korrelaatiokertoimella.

Listattujen yhteisten ominaisuuksien lisäksi tarkasteluissa korrelaatiokertoimissa on myös eroja. Niiden tärkein ero on, että Pearson-kerrointa ( voidaan käyttää vain, jos piirteiden X ja Y jakauma on normaali, Spearman-kerrointa () voidaan käyttää piirteille, joilla on minkä tahansa jakauman tyyppi. Jos tarkasteltavilla piirteillä on normaalijakauma, silloin on tarkoituksenmukaisempaa määrittää korrelaatioyhteyden olemassaolo käyttämällä Pearson-kerrointa (), koska tässä tapauksessa siinä on pienempi virhe kuin Spearman-kertoimella ().

Esimerkki 8.2.

Selvitä, onko juoksusta suoritetun pituushypyn tulosten (X) ja urheilijaryhmän lopullisen juoksunopeuden (Y) välillä yhteyttä Spearmanin rankkorrelaatiokertoimella (tiedot esimerkistä 8.1, taulukko 5).

Kaavassa (1) dx ja dy ovat tilastotietojen rivejä, ts. asettaa vaihtoehdon sijoittuneeseen väestöön. Jos aggregaatissa on useita identtisiä tietoja, niin niiden sijoitukset ovat yhtä suuret ja määritetään näiden vaihtoehtojen miehittämien paikkojen keskiarvona. Esimerkiksi,

Tiedot xi
dx sijoittuu 4,5 4,5 4,5 4,5 7,5 7,5
3 + 4 + 5 + 6 7 + 8

Tämän säännön avulla määritämme taulukon 5 tietojen järjestyksen. Mukavuuden vuoksi kirjoitamme kaikki muistiin taulukon 6 muodossa.

Taulukko 6

dx dy dx - dy
9,1 1 - 1 = 0 02 = 0
9,6 2 - 2 = 0 02 = 0
9,8 3 - 3 = 0 02 = 0
10,1 4 - 4 = 0 02 = 0
10,5 6,5 5 - 6,5 = - 1,5 (- 1,5)2 = 2,25
10,5 6,5 6 - 6,5 = - 0,5 (- 0,5)2 = 0,25
10,3 7 - 5 = 2 22 = 4
10,7 8 - 8 = 0 02 = 0
(dx-dy) = 0

Tässä tapauksessa meillä on 8 paria arvoja, ts. 8 korreloitua paria. Tämä tarkoittaa n = 8. Korvaamalla saatu tulos kaavaan (1), saamme:

Johtopäätös:

(0,92 > 0) , sitten merkkien välissä X ja Y klo X), ja päinvastoin - lentoonlähdön nopeuden pienentyessä hyppyn pituus pienenee. Spearman-korrelaatiokertoimen luotettavuus määräytyy rankkorrelaatiokertoimen kriittisten arvojen taulukosta.

b) koska saatu korrelaatiokertoimen arvo = 0,9 on suurempi kuin taulukkoarvot = 0,88, mikä vastaa tasoa b = 99%, silloin luottamus päätelmän (a) oikeellisuuteen on suurempi kuin 99%. Tällainen luotettavuus mahdollistaa päätelmän (a) laajentamisen koko populaatioon, ts. kaikille pituushyppääjille.

Jos tarkasteltavien populaatioiden alustavaa tarkistusta jakauman normaalisuuden suhteen ei ole, niin Pearson-korrelaatiokertoimen epäluotettavuuden tapauksessa yhteyden olemassaolo tulisi tarkistaa myös Spearman-kertoimella.

Esimerkki 8.3.

Rankkorrelaatiokerroin voi paljastaa suhteita muuttujien välillä, joilla on mikä tahansa tilastollinen jakautuminen. Mutta jos näillä muuttujilla on normaalijakauma (Gaussin), niin suhde voidaan määrittää tarkemmin käyttämällä normalisoitua (Brave-Pearson) korrelaatiokerrointa.

Oletetaan, että esimerkissämme ja - vastaavat normaalijakauman lakia, ja tarkistamme testitulosten välisen yhteyden olemassaolon X ja Y käyttämällä normalisoidun korrelaatiokertoimen laskentaa.

Kaavasta (1) voidaan nähdä, että laskentaa varten on tarpeen löytää ominaisuuksien keskiarvot X, Y ja kunkin tilaston poikkeama sen keskiarvosta. Kun tiedät nämä arvot, voit löytää summat, joiden laskeminen ei ole vaikeaa

Täytä taulukko 7 taulukon 5 mukaan:

Taulukko 7

962 = 9216 10,7 0,6 0,62 = 0,36 96 0,6 = 57,6
262 = 676 10,5 0,4 0,42 = 0,16 26 0,4 = 10,4
10,3 0,2 0,04 5,4
- 4 9,8 - 0,3 0,09 1,2
10,1 0,00 1,0
10,5 0,4 0,16 3,2
- 92 9,1 - 1,0 1,00 9,2
- 64 9,6 - 0,5 0,25 32,0
= 23262 = 2,06 = 201

Korvaamalla sarakkeen 7 summan kaavan (1) osoittajaan ja sarakkeiden 3 ja 6 summat nimittäjään, saadaan:

Johtopäätös:

a) koska korrelaatiokertoimen arvo on positiivinen (0.92>0) , sitten välillä X ja Y on suora suhde, ts. lentoonlähdön nopeuden kasvaessa (merkki Y) lisää hypyn pituutta (merkki X) ja päinvastoin - lentoonlähdön nopeuden pienentyessä hyppyn pituus pienenee. On erittäin tärkeää tietää luottamus johtopäätöksen oikeellisuuteen.