Moninkertainen lineaarinen korrelaatio. Korrelaatiokertoimet

Syy-ennustemenetelmien ydin on luoda matemaattinen suhde tuloksena saatavien ja tekijämuuttujien välille.

Syy-ennustemenetelmien soveltamisen välttämätön edellytys on suuren tietomäärän saatavuus. Jos muuttujien väliset suhteet voidaan kuvata matemaattisesti oikein, kausaaliennusteen tarkkuus on melko korkea.
Syy-ennustemenetelmiä ovat:


  • monimuuttujaregressiomallit,

  • simulaatiomallinnus.
Yleisimmät syy-ennustemenetelmät ovat monimuuttujaregressiomallit. .

1.4.1 Monimuuttujaregressiomallit

Monimuuttujaregressiomalli on yhtälö, jossa on useita riippumattomia muuttujia.

Monimuuttujaregressiomallin rakentamiseen voidaan käyttää erilaisia ​​funktioita, joista yleisimmät ovat lineaari- ja tehoriippuvuudet:

Lineaarisessa mallissa parametrit(b 1 , b 2 , … b n) tulkitaan kunkin riippumattoman muuttujan vaikutukseksi ennustettuun arvoon, jos kaikki muut riippumattomat muuttujat ovat nolla.

AT teho malli parametrit ovat elastisuuskertoimia. Ne osoittavat, kuinka monta prosenttia tulos (y) keskimäärin muuttuu, kun vastaava tekijä muuttuu 1%, kun taas muiden tekijöiden vaikutus pysyy ennallaan. Useiden regressioyhtälöiden parametrien laskemiseen käytetään myös pienimmän neliösumman menetelmä.

Regressiomalleja rakennettaessa datan laatu on ratkaisevassa roolissa. Tiedonkeruu luo pohjan ennusteille, joten dataa kerättäessä on noudatettava useita vaatimuksia ja sääntöjä.


  1. Ensinnäkin tietojen on oltava havaittavissa, eli saatu mittauksen, ei laskennan tuloksena.

  1. Toiseksi tietotaulukosta se on välttämätöntä sulkea pois päällekkäiset ja voimakkaasti erilaiset tiedot. Mitä enemmän ei-toistuvaa dataa ja mitä homogeenisempi populaatio on, sitä parempi yhtälö on. Voimakkaasti erilaiset arvot ymmärretään havainnoiksi, jotka eivät sovi yleiseen sarjaan. Esimerkiksi työntekijöiden palkkatiedot ovat neli- ja viisinumeroisia (7 000, 10 000, 15 000), mutta yksi kuusinumeroinen luku (250 000) löytyy. Ilmeisesti tämä on virhe.

  1. Kolmas sääntö (vaatimus) on melko suuri määrä dataa. Tilastomiehet ovat eri mieltä siitä, kuinka paljon tietoa tarvitaan hyvän yhtälön rakentamiseen. Joidenkin mielestä tiedot ovat välttämättömiä 4-6 kertaa enemmän useita tekijöitä. Toiset väittävät niin vähintään 10 kertaa enemmän tekijöiden lukumäärästä, niin täysimääräisesti toimiva suurten lukujen laki varmistaa satunnaisten poikkeamien tehokkaan takaisinmaksun suhteen säännöllisyydestä.

Monimuuttujaregressiomallin rakentaminen sisäänNEITIexcel
Excel-taulukoissa on mahdollista rakentaa vain lineaarinen monimuuttujaregressiomalli.
, (1.19)
Voit tehdä tämän valitsemalla "Tietojen analysointi", ja sitten ilmestyneeseen ikkunaan - työkalu "regressio"


Kuva 1.45 - "Regressio"-työkalun valintaikkuna
Näyttöön tulevassa ikkunassa sinun on täytettävä useita kenttiä, mukaan lukien:


  • syöttöväli Y – tietoalue yhdestä sarakkeesta, joka sisältää tuloksena olevan muuttujan Y arvot.

  • Syöttöväli X on tietoalue, joka sisältää tekijämuuttujien arvot.

Jos syöttövälin ensimmäinen rivi tai ensimmäinen sarake sisältää otsikoita, sinun on valittava valintaruutu "tunnisteet" .

Oletusasetus on käytössä 95% luotettavuustaso. Jos haluat asettaa eri tason, valitse valintaruutu ja kirjoita haluamasi luotettavuustaso sen viereiseen kenttään.

Valintaruutu "Vakio nolla" täytyy tarkistaa vain, jos haluat saada regressioyhtälön ilman leikkausta a, jotta regressioviiva kulkee origon kautta.
Laskentatulosten tulos voidaan järjestää kolmella tavalla:


  • sisään tämän laskentataulukon solualue (tätä varten kentällä "Tulostusalue" määritä alueen vasen yläsolu, jossa laskentatulokset näytetään);

  • päällä uusi laskentataulukko (voit kirjoittaa tämän arkin haluamasi nimen sen viereiseen kenttään);

  • sisään uusi työkirja .

valintaruudut "Jäännökset" ja "Standardoidut jäännökset" määrää ne sisällytettäväksi tuotantoalueeseen.
Piirrä jäännösarvot kullekin riippumattomalle muuttujalle valitsemalla valintaruutu Jäännöskaavio.Jäännökset tunnetaan muuten ennustevirheinä. Ne määritellään eroksi todellisten ja ennustettujen Y-arvojen välillä.
Jäännöspiirrosten tulkitseminen
Jäännöskaavioissa ei saa olla kuvioita. Jos kuvio on jäljitetty, niin tämä tarkoittaa, että malli ei sisällä meille tuntematonta, vaan luonnollisesti vaikuttavaa tekijää, josta ei ole tietoa.

Kun valitset ruutua "Aikataulun valinta" näyttöön tulee sarja kaavioita, jotka osoittavat kuinka hyvin teoreettinen regressioviiva sopii havaittuihin, ts. todellisia tietoja.

Poimintakaavioiden tulkitseminen
Excelissä valintakaavioissa punaiset pisteet osoittavat teoreettisia arvoja Y, siniset pisteet - alkutiedot. Jos punaiset pisteet menevät hyvin päällekkäin sinisten pisteiden kanssa, tämä osoittaa visuaalisesti onnistuneen regressioyhtälön.
Välttämätön askel monimuuttujaregressiomalleihin perustuvassa ennustamisessa on regressioyhtälön tilastollisen merkitsevyyden arviointi, ts. muodostetun regressioyhtälön soveltuvuus ennustamiseen. Tämän ongelman ratkaisemiseksi MS Excel laskee joukon kertoimia. Nimittäin:


  1. Moninkertainen korrelaatiokerroin

Se luonnehtii tuloksena olevan ja välisen suhteen tiukkuutta ja suuntaa useita tekijämuuttujat. Kaksitekijäriippuvuudella moninkertainen korrelaatiokerroin lasketaan kaavalla:
, (1.20)


  1. Moninkertainen determinaatiokerroin ( R 2 ).

R2 on teoreettisen arvon vaihtelun suhde y:n todellisiin arvoihin, mikä on selitetty malliin sisältyvillä tekijöillä. Loput teoreettisista arvoista riippuvat muista tekijöistä, jotka eivät liity malliin. R 2 voi ottaa arvot välillä 0 - 1. Jos , niin mallin laatu on korkea. Tämä ilmaisin on erityisen hyödyllinen useiden mallien vertailussa ja parhaan valinnassa.


  1. Normalisoitu determinaatiokerroin R 2

Indikaattorilla R 2 on haittapuoli, joka koostuu siitä, että määrityskertoimen suuret arvot voidaan saavuttaa havaintojen pienen määrän vuoksi. Normalisoitu tarjoaa tietoa siitä, mitä arvoa voit saada toisesta tietojoukosta, joka on paljon suurempi kuin tässä tapauksessa.

Normalisoitu lasketaan kaavalla:

, (1.21)

missä on normalisoitu moninkertainen determinaatiokerroin,

moninkertainen determinaatiokerroin,

Väestön määrä,

Tekijämuuttujien lukumäärä.


  1. regression standardivirhe osoittaa ennustevirheen likimääräisen määrän. Sitä käytetään pääsuurena estimoidun mallin laadun mittaamisessa. Laskettu kaavan mukaan:
, (1.22)

missä on jäännösten neliöiden summa,

Jäännösten vapausasteiden lukumäärä.
Toisin sanoen regression keskivirhe näyttää virheen neliön arvon yhtä vapausastetta kohden.


TULOKSET

Regressiotilastot

Useita R

0.973101

R-neliö

0.946926

Normalisoitu R-neliö

0.940682

standardivirhe

0.59867

Havainnot

20

Varianssianalyysi

df

SS

NEITI

F

Merkitys F

Regressio

2

108.7071

54.35355

151.6535

1.45E-11

Loput

17

6.092905

0.358406

Kaikki yhteensä

19

114.8

Kertoimet

standardivirhe

t-tilasto

P-arvo

pohja 95 %

Top 95 %

Pohja 95,0 %

Top 95,0 %

Y-risteys

1.835307

0.471065

3.89608

0.001162

0.841445

2.829169

0.841445

2.829169

x1

0.945948

0.212576

4.449917

0.000351

0.49745

1.394446

0.49745

1.394446

x2

0.085618

0.060483

1.415561

0.174964

-0.04199

0.213227

-0.04199

0.213227

Varianssianalyysimenetelmä koostuu muuttujan neliöpoikkeamien kokonaissumman hajottamisesta klo keskiarvosta kahteen osaan:


  1. selittyy regressiolla (tai tekijällä),

  2. jäännös.
, (1.2 3)
Regressiomallin soveltuvuus ennustamiseen riippuu siitä, kuinka suuri osa ominaisuuden kokonaisvariaatiosta on y selittää regression selittämän vaihtelun. On selvää, että jos regression selittämien neliöityjen poikkeamien summa on suurempi kuin jäännös, tehdään johtopäätös regressioyhtälön tilastollisesta merkitsevyydestä. Tämä vastaa sitä tosiasiaa, että determinaatiokerroin lähestyy yksikköä.
Nimitykset taulukossa "Varianssianalyysi":
Taulukon toista saraketta kutsutaan ja se tarkoittaa vapausasteiden määrää. Kokonaisvarianssille vapausasteiden lukumäärä on: , tekijävarianssille (tai regressiolla selitetylle varianssille), , jäännösvarianssille.

missä n on havaintojen lukumäärä,

m on mallin tekijämuuttujien lukumäärä.
Taulukon kolmatta saraketta kutsutaan . Se edustaa neliöityjen poikkeamien summaa. Poikkeamien neliösumma määritetään kaavalla:

, (1.24)
Kerroin neliöiden summa:

, (1.26)
Neljäs sarake on nimeltään - neliöityjen poikkeamien keskiarvo. Määritetään kaavalla:

Fisherin F-kriteerin avulla määritetään regressioyhtälön määrityskertoimen tilastollinen merkitsevyys. Tätä varten esitetään nollahypoteesi, joka ilmoittaa, että tuloksen ja tekijämuuttujien välillä ei yhteyttä. Tämä on mahdollista vain, jos kaikki moninkertaisen lineaarisen regressioyhtälön parametrit ja korrelaatiokerroin ovat nolla.

Tämän hypoteesin testaamiseksi on tarpeen laskea Fisherin F-testin todellinen arvo ja verrata sitä taulukkoon. F-kriteerin todellinen arvo lasketaan kaavalla:

, (1.28)

Erityisistä tilastotaulukoista valinnut:


  • annettu merkitystaso () ja

  • vapausasteiden lukumäärä.

MS Excelissä F-kriteerin taulukkoarvo voidaan määrittää funktiolla = FINV(todennäköisyys; vapausasteet1; vapausasteet2)

Esimerkki: =FDISP(0.05;df1;df2)
Merkitsevyystaso 1 on valittu samalle mallille, jolla regressiomallin parametrit laskettiin. Oletusarvo on 95 %.

Jos , ehdotettu hypoteesi hylätään ja regressioyhtälön tilastollinen merkitsevyys tunnustetaan. Erityisen tärkeiden ennusteiden tapauksessa F-kriteerin taulukkoarvoa suositellaan 4-kertaiseksi, eli ehto tarkistetaan:
=151.65; = 3.59
Laskettu arvo ylittää merkittävästi taulukossa olevan arvon. Tämä tarkoittaa, että determinaatiokerroin eroaa merkittävästi nollasta, joten hypoteesi regressioriippuvuuden puuttumisesta tulee hylätä.
Arvioidaan nyt regressiokertoimien merkitys sen perusteella t-Opiskelijakriteeri. Sen avulla voit määrittää, millä tekijämuuttujista (x) on suurin vaikutus tuloksena olevaan muuttujaan (y).

Vakiovirheet on yleensä merkitty . Alaindeksi ilmaisee sen regressioyhtälön parametrin, jolle tämä virhe lasketaan.

Laskettu kaavan mukaan:

, (1.29)

missä - tuloksena olevan muuttujan RMS,

Ominaisuuden RMS,

Determinaatiokerroin moninkertaiselle yhtälölle

regressio,

Determinaatiokerroin tekijän riippuvuudelle

kaikki muut yhtälön tekijät.

Neliöiden jäännössumman vapausasteiden lukumäärä

poikkeamat.
MS Excelissä standardivirheet lasketaan automaattisesti (sijaitsevat 3. taulukon 3. sarakkeessa).
todellinen arvot-Opiskelijakriteeri MS Excelissä sijaitsee 3. taulukon 4. sarakkeessa ja sitä kutsutaan nimellä t-tilasto.
(4. sarake) = (2. sarake) / (3. sarake)

t-statistic = kertoimet/standardivirhe
Taulukon arvot-Opiskelijakriteeri riippuu hyväksytystä merkitsevyystasosta (yleensä ; 0,05; 0,01) ja vapausasteiden lukumäärästä .

missä n on väestöyksiköiden lukumäärä,

m on yhtälön tekijöiden lukumäärä.
MS Excelissä opiskelijan kriteerin taulukkoarvo voidaan määrittää funktiolla:

STUDRASP(todennäköisyys; vapausasteiden lukumäärä)
Esimerkki: =STUDISP(0.05;7)
Jos , niin päätellään, että regressioyhtälön kerroin on tilastollisesti merkitsevä (luotettava) ja voidaan sisällyttää malliin ja käyttää ennustamiseen.

1.4.2 Monte Carlon simulointimenetelmä

Simulaatiomenetelmä on saanut nimensä Monte Carlon kaupungin kunniaksi, joka sijaitsee Monacon ruhtinaskunnassa, yhdessä maailman pienimmistä maista, ja joka sijaitsee Välimeren rannikolla lähellä Ranskan ja Italian rajaa.

Monte Carlo -simulointimenetelmä sisältää satunnaisten arvojen generoinnin annettujen rajoitusten mukaisesti. Simulaatiomallinnusta käynnistettäessä on ensinnäkin tarpeen kehittää ennustetun indikaattorin taloudellinen ja matemaattinen malli (EMM), joka kuvastaa tekijämuuttujien välistä suhdetta sekä niiden vaikutuksen astetta ja luonnetta tulokseen. Koska nykyaikaisissa markkinaolosuhteissa taloudellisten suhteiden subjektiin vaikuttavat samanaikaisesti monet eri luonteiset ja suuntaiset tekijät ja niiden vaikutusaste ei ole deterministinen, näyttää tarpeelliselta jakaa EMM-muuttujat kahteen ryhmään: stokastisiin. ja deterministinen;

Seuraavaksi sinun tulee määrittää kunkin stokastisen muuttujan todennäköisyysjakauman tyypit ja vastaavat syöttöparametrit, simuloida stokastisten muuttujien arvot MS Excelin satunnaislukugeneraattorilla tai muilla ohjelmistotyökaluilla.

"Satunnaislukujen luonti" -työkalu on MS Excel 2007:n käyttäjien käytettävissä apuohjelman aktivoinnin jälkeen. Analyysipaketti. Lisäosan aktivointijärjestys on kuvattu yllä (katso sivu 10, kuva 1.5-1.8). Simuloinnin suorittaminen valikossa TIEDOT kohde on valittava "Tietojen analysointi", valitse näkyviin tulevassa valintaikkunassa työkalu luettelosta "Satunnaisten numeroiden luominen" ja napsauta OK.

Kuva 1.46 - Tietojen analysointivalikkoliittymä
Näyttöön tulevassa valintaikkunassa sinun on valittava kunkin stokastisen muuttujan todennäköisyysjakauman tyyppi ja asetettava asianmukaiset syöttöparametrit.

Kuva 1.47 - Satunnaislukugeneraattorin valintaikkuna
Tämä vaihe on yksi vaikeimmista, joten sen suorittamisessa on käytettävä asiantuntijoiden tietämystä ja kokemusta. Todennäköisyysjakauman tyypin valitseminen voidaan suorittaa myös saatavilla olevien tilastotietojen perusteella. Käytännössä käytetään useimmiten sellaisia ​​todennäköisyysjakaumia kuin normaali, kolmio ja tasainen.

Normaalijakauma (tai Moivre-Gauss-Laplacen laki) olettaa, että ennustetun parametrin variantit painottuvat kohti keskiarvoa. Muuttuvilla arvoilla, jotka eroavat merkittävästi keskiarvosta, eli jotka sijaitsevat jakauman "hännissä", on pieni todennäköisyys.

kolmion jakautuminen on normaalijakauman derivaatta ja olettaa lineaarisesti kasvavan jakauman lähestyessään keskiarvoa.

Virka-asujen jakelu käytetään siinä tapauksessa, että muuttujan indikaattorin kaikilla arvoilla on sama toteutumisen todennäköisyys.

Muuttujan ja ja mahdottomuus valita jakautumislakia sitä voidaan tarkastella termein diskreetti jakelu. Yllä luetellut todennäköisyysjakauman tyypit edellyttävät taulukossa 1.11 esitettyjen syöteparametrien määrittelyä
Taulukko 1.11 - Todennäköisyysjakaumien päätyyppien syöttöparametrit


Todennäköisyyslaskennan tyyppi

jakelu


Syöttöparametrit

1 Normaalijakauma

  • tarkoittaa;

  • standardipoikkeama;

2 Kolmiojakauma

  • tarkoittaa;


3 Tasainen jakautuminen

  • mahdollisen arvoalueen rajat;

4 Diskreetti jakautuminen

  • muuttujan erityiset arvot;

  • jotka vastaavat annettuja todennäköisyyksiä.

Koesarjan tuloksena saadaan stokastisten muuttujien arvojen jakauma, jonka perusteella ennustetun indikaattorin arvo tulisi laskea.

Seuraava välttämätön vaihe on suorittaa simulaatiotulosten taloudellinen ja tilastollinen analyysi, jossa on suositeltavaa laskea seuraavat tilastolliset ominaisuudet:


  • tarkoittaa;

  • standardipoikkeama;

  • dispersio;

  • vähimmäis- ja enimmäisarvo;

  • vaihteluväli;

  • epäsymmetriakerroin;

  • ylimääräinen.
Yllä olevia indikaattoreita voidaan käyttää normaalijakauman hypoteesin testaamiseen. Jos hypoteesi vahvistuu, "kolmen sigman" sääntöä voidaan käyttää intervalliennusteen tekemiseen. Kolmen sigman sääntö sanoo, että jos satunnaismuuttuja X on parametrien normaalijakauman lain alainen ja on lähes varmaa, että sen arvot ovat välillä , eli . Selvyyden parantamiseksi ja tulkinnan yksinkertaistamiseksi on suositeltavaa rakentaa histogrammi.


Kuva 1.48 - Ennustettujen indikaattoriarvojen histogrammi

Näiden vaiheiden toteuttaminen mahdollistaa todennäköisyysarvioinnin ennustetun indikaattorin arvoista (väliennuste).

Nykyään jokainen, joka on vähintäänkin kiinnostunut tiedon louhinnasta, on luultavasti kuullut yksinkertaisesta lineaarisesta regressiosta. Siitä on jo kirjoitettu Habressa, ja Andrew Ng puhui myös yksityiskohtaisesti tunnetulla koneoppimiskurssillaan. Lineaarinen regressio on yksi perus- ja yksinkertaisimmista koneoppimisen menetelmistä, mutta menetelmät rakennetun mallin laadun arvioimiseksi mainitaan hyvin harvoin. Tässä artikkelissa yritän hieman korjata tätä ärsyttävää puutetta käyttämällä esimerkkiä summary.lm()-funktion tulosten jäsentämisestä R-kielellä. Pyrin tässä antamaan tarvittavat kaavat, joten kaikki laskutoimitukset voidaan ohjelmoida helposti millä tahansa muulla kielellä. Tämä artikkeli on tarkoitettu niille, jotka ovat kuulleet, että lineaarinen regressio on mahdollista rakentaa, mutta eivät ole törmänneet tilastollisiin menettelyihin sen laadun arvioimiseksi.

Lineaarinen regressiomalli

Olkoon siis useita riippumattomia satunnaismuuttujia X1, X2, ..., Xn (ennustajat) ja niistä riippuva muuttuja Y (oletetaan, että kaikki tarvittavat ennustajien muunnokset on jo tehty). Lisäksi oletetaan, että riippuvuus on lineaarinen ja virheet ovat normaalijakautuneita, ts.

Missä I on n x n -neliömatriisi.

Joten meillä on dataa, joka koostuu k havainnosta arvoista Y ja Xi ja haluamme arvioida kertoimet. Vakiomenetelmä kerroinestimaattien löytämiseksi on pienimmän neliösumman menetelmä. Ja analyyttinen ratkaisu, joka voidaan saada käyttämällä tätä menetelmää, näyttää tältä:

missä b cap - kerroinvektori estimaatiolla, y on riippuvan muuttujan arvojen vektori ja X on matriisi, jonka koko on k x n+1 (n on ennustajien lukumäärä, k on havaintojen lukumäärä), jossa ensimmäinen sarake koostuu ykkösistä, toinen - ensimmäisen ennustajan arvot, kolmannen - toisen ja niin edelleen, ja rivit, jotka ovat yhdenmukaisia ​​olemassa olevien havaintojen kanssa.

Summary.lm()-funktio ja tulosten arviointi

Harkitse nyt esimerkkiä lineaarisen regressiomallin rakentamisesta R-kielellä:
> kirjasto(kaukainen) > lm1<-lm(Species~Area+Elevation+Nearest+Scruz+Adjacent, data=gala) >yhteenveto(lm1) Kutsu: lm(kaava = Laji ~ Pinta-ala + Korkeus + Lähin + Scruz + Viereinen, data = gala) Jäännösarvot: Min 1Q Mediaani 3Q Max -111,679 -34,898 -7,862 33,460 182,584 Arvioidut kertoimet. Error t value Pr(>|t|) (Intercept) 7.068221 19.154198 0.369 0.715351 Area -0.023938 0.022422 -1.068 0.296318 Elevation 0.319465 0.053663 5.953 3.82e-06 *** Nearest 0.009144 1.054136 0.009 0.993151 Scruz -0.240524 0.215402 -1.117 0.275208 Adjacent -0.074805 0,017700 -4,226 0,000297 *** --- Signif. koodit: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Jäännösstandardivirhe: 60,98 24 vapausasteessa Usein R-neliö: 0,7658, Oikaistu R-neliö: 0,7171 tilastot: 15,7 5 ja 24 DF, p-arvo: 6,838e-07
Gaalataulukko sisältää tietoja 30 Galapagossaaresta. Tarkastellaan mallia, jossa Laji - eri kasvilajien lukumäärä saarella on lineaarisesti riippuvainen useista muista muuttujista.

Tarkastellaan summary.lm()-funktion tulosta.
Ensin tulee rivi, joka muistuttaa, kuinka malli rakennettiin.
Sitten tulee tietoa residuaalien jakautumisesta: minimi, ensimmäinen kvartiili, mediaani, kolmas kvartiili, maksimi. Tässä vaiheessa ei olisi hyödyllistä tarkastella vain joitain residuaalien kvantiileja, vaan myös tarkistaa niiden normaalisuus esimerkiksi Shapiro-Wilk-testillä.
Seuraavaksi - mielenkiintoisimmat - tiedot kertoimista. Tässä tarvitaan vähän teoriaa.
Ensin kirjoitamme seuraavan tuloksen:

jossa sigma neliö ja cap on puolueeton estimaattori todelliselle sigman neliölle. Tässä b on kertoimien todellinen vektori, ja rajattu epsilon on residuaalien vektori, jos otetaan pienimmän neliösumman estimaatit kertoimiksi. Eli olettaen, että virheet ovat normaalijakautuneita, myös kertoimien vektori jakautuu normaalisti todellisen arvon ympärille ja sen varianssi voidaan arvioida puolueettomasti. Tämä tarkoittaa, että voit testata hypoteesia kertoimien yhtäläisyydestä nollaan ja siten tarkistaa ennustajien merkitsevyyden, eli vaikuttaako Xi:n arvo todella voimakkaasti konstruoidun mallin laatuun.
Tämän hypoteesin testaamiseksi tarvitsemme seuraavan tilaston, jolla on Studentin jakauma, jos kertoimen bi todellinen arvo on 0:

missä
on kertoimen estimaatin keskivirhe ja t(k-n-1) on Studentin jakauma k-n-1 vapausasteella.

Olemme nyt valmiita jatkamaan summary.lm()-funktion tulosteen jäsentämistä.
Seuraavaksi siis pienimmän neliösumman menetelmällä saadut kerroinarviot, niiden keskivirheet, t-tilaston arvot ja sen p-arvot. Tyypillisesti p-arvoa verrataan johonkin riittävän pieneen ennalta valittuun kynnykseen, kuten 0,05 tai 0,01. Ja jos p-tilaston arvo on pienempi kuin kynnys, niin hypoteesi hylätään, jos enemmän, mitään konkreettista ei valitettavasti voida sanoa. Muistutan, että tässä tapauksessa, koska Studentin jakauma on symmetrinen noin 0:sta, niin p-arvo on yhtä suuri kuin 1-F(|t|)+F(-|t|), missä F on Studentin jakauma funktio k-n-1 vapausasteella . Lisäksi R merkitsee ystävällisesti tähdillä merkittäviä kertoimia, joiden p-arvo on riittävän pieni. Eli ne kertoimet, jotka ovat hyvin epätodennäköisiä 0. Rivillä Signif. koodit sisältävät vain tähtien dekoodauksen: jos niitä on kolme, niin p-arvo on 0 - 0,001, jos niitä on kaksi, niin se on 0,001 - 0,01 ja niin edelleen. Jos kuvakkeita ei ole, p-arvo on suurempi kuin 0,1.

Esimerkissämme voimme sanoa suurella varmuudella, että ennustajat Elevation ja Adjacent todella todennäköisesti vaikuttavat Lajien arvoon, mutta muista ennustajista ei voida sanoa mitään varmaa. Yleensä tällaisissa tapauksissa ennustajat poistetaan yksi kerrallaan ja katsotaan kuinka muut malliindikaattorit muuttuvat, esimerkiksi BIC tai Adjusted R-squared, joista keskustellaan myöhemmin.

Jäännöskeskivirheen arvo vastaa yksinkertaista sigman estimaattia, jossa on cap, ja vapausasteet lasketaan muodossa k-n-1.

Ja nyt tärkeimmät tilastot, jotka kannattaa ensin tarkastella: R-neliö ja Oikaistu R-neliö:

missä Yi ovat kunkin havainnon todelliset Y-arvot, Yi ja cap ovat mallin ennustamat arvot, Y pylväällä on kaikkien todellisten Yi-arvojen keskiarvo.

Aloitetaan R-neliötilastosta tai, kuten sitä joskus kutsutaan, determinaatiokertoimesta. Se näyttää kuinka mallin ehdollinen varianssi eroaa Y:n todellisten arvojen varianssista. Jos tämä kerroin on lähellä 1:tä, niin mallin ehdollinen varianssi on melko pieni ja on hyvin todennäköistä, että malli sopii tiedot hyvin. Jos R-neliökerroin on paljon pienempi, esimerkiksi pienempi kuin 0,5, niin malli ei suurella luottamustasolla kuvasta asioiden todellista tilaa.

R-neliötilastolla on kuitenkin yksi vakava haittapuoli: ennustajien määrän kasvaessa tämä tilasto voi vain kasvaa. Siksi voi vaikuttaa siltä, ​​että malli, jossa on enemmän ennustajia, on parempi kuin malli, jossa on vähemmän, vaikka kaikki uudet ennustajat eivät vaikuttaisi riippuvaan muuttujaan. Tässä voimme muistaa Occamin partakoneen periaatteen. Sitä seuraten kannattaa mahdollisuuksien mukaan päästä eroon tarpeettomista ennustajista mallissa, sillä mallista tulee yksinkertaisempi ja ymmärrettävämpi. Näitä tarkoituksia varten keksittiin korjattu R-neliötilasto. Se on tavallinen R-neliö, mutta sisältää rangaistuksen suuresta määrästä ennustajia. Pääidea: jos uudet riippumattomat muuttujat vaikuttavat suuresti mallin laatuun, tämän tilaston arvo kasvaa, jos ei, niin päinvastoin se pienenee.

Tarkastellaan esimerkiksi samaa mallia kuin ennen, mutta nyt jätämme viiden ennustajan sijasta kaksi:
>lm2<-lm(Species~Elevation+Adjacent, data=gala) >yhteenveto(lm2) Kutsu: lm(kaava = Laji ~ Korkeus + Viereinen, data = gala) Jäännös: Min 1Q Mediaani 3Q Max -103,41 -34,33 -11,43 22,57 203,65 Kertoimet: Arvio Std. Virheen t-arvo Pr(>|t|) (Leikkauspiste) 1,43287 15,02469 0,095 0,924727 Korkeus 0,27657 0,03176 8,707 2,53e-09 *** Vierekkäinen -0,0681, jos -4,0,049 koodit: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Jäännösstandardivirhe: 60,86 27 vapausasteessa Usein R-neliö: 0,7376, Oikaistu R-neliö: 0,7181 tilastot: 37,94 2:lla ja 27 DF:llä, p-arvo: 1,434e-08
Kuten näette, R-neliön tilaston arvo on laskenut, mutta korjatun R-neliön arvo jopa nousi hieman.

Testataan nyt hypoteesia, että kaikki ennustajien kertoimet ovat nolla. Eli hypoteesi siitä, riippuuko Y:n arvo yleensä Xi:n arvoista lineaarisesti. Tätä varten voit käyttää seuraavaa tilastoa, joka, jos olettamus, että kaikki kertoimet ovat nolla, on totta, on

Moninkertainen korrelaatiokerroin käytetään tuloksena saatavan indikaattorin (riippuvaisen muuttujan) välisen tilastollisen suhteen läheisyyden mittana y ja joukko selittäviä (riippumattomia) muuttujia tai toisin sanoen arvioi tekijöiden yhteisvaikutuksen läheisyyttä tulokseen.

Monikertakorrelaatiokerroin voidaan laskea useista kaavoista 5 , mukaan lukien:

    käyttämällä parillisten korrelaatiokertoimien matriisia

, (3.18)

missä  r- parillisten korrelaatiokertoimien matriisin determinantti y,
,

r 11 - interfaktoriaalisen korrelaatiomatriisin determinantti
;

. (3.19)

Mallissa, jossa on kaksi riippumatonta muuttujaa, kaava (3.18) on yksinkertaistettu

. (3.20)

Moninkertaisen korrelaatiokertoimen neliö on määrityskerroin R 2. Kuten parittaisen regression tapauksessa, R 2 osoittaa regressiomallin laadun ja heijastaa osuutta tuloksena olevan ominaisuuden kokonaismuuntelusta y selitetään muuttamalla regressiofunktiota f(x) (katso 2.4). Lisäksi determinaatiokerroin löytyy kaavasta

. (3.21)

Kuitenkin käyttö R 2 moninkertaisen regression tapauksessa ei ole aivan oikea, koska determinaatiokerroin kasvaa, kun regressoreita lisätään malliin. Tämä johtuu siitä, että jäännösvarianssi pienenee, kun lisämuuttujia otetaan käyttöön. Ja jos tekijöiden lukumäärä lähestyy havaintojen määrää, jäännösvarianssi on nolla, ja moninkertainen korrelaatiokerroin ja siten determinaatiokerroin lähestyy yksikköä, vaikka todellisuudessa tekijöiden ja tuloksen välinen suhde ja regressioyhtälön selitysvoima voi olla paljon pienempi.

Saadaksesi riittävän arvion siitä, kuinka hyvin tuloksena olevan ominaisuuden vaihtelu selittyy useiden tekijäominaisuuksien vaihtelulla, käytä mukautettu determinaatiokerroin

(3.22)

Oikaistu determinaatiokerroin on aina pienempi R 2. Lisäksi toisin kuin R 2 mikä on aina positiivista,
voi saada myös negatiivisen arvon.

Esimerkki (jatkoa esimerkille 1). Lasketaan moninkertainen korrelaatiokerroin kaavan (3.20) mukaan:

Moninkertaisen korrelaatiokertoimen arvo, joka on 0,8601, osoittaa vahvan yhteyden kuljetuskustannusten ja lastin painon ja kuljetusmatkan välillä.

Determinaatiokerroin on yhtä suuri: R 2 =0,7399.

Oikaistu determinaatiokerroin lasketaan kaavalla (3.22):

=0,7092.

Huomaa, että säädetyn determinaatiokertoimen arvo eroaa determinaatiokertoimen arvosta.

Näin ollen 70,9 % riippuvaisen muuttujan (kuljetuskustannus) vaihtelusta selittyy riippumattomien muuttujien (lastin paino ja kuljetusmatka) vaihtelulla. Loput 29,1 % riippuvaisen muuttujan vaihtelusta selittyvät tekijöillä, joita ei ole otettu mallissa huomioon.

Korjatun determinaatiokertoimen arvo on melko suuri, joten mallissa pystyimme huomioimaan tärkeimmät kuljetuskustannuksiin vaikuttavat tekijät. 

Regressioanalyysi on tilastollinen tutkimusmenetelmä, jonka avulla voit osoittaa parametrin riippuvuuden yhdestä tai useammasta riippumattomasta muuttujasta. Ennen tietokonetta sen käyttö oli varsin vaikeaa, varsinkin kun oli kyse suurista tietomääristä. Tänään, kun olet oppinut rakentamaan regression Excelissä, voit ratkaista monimutkaisia ​​tilastollisia ongelmia muutamassa minuutissa. Alla on konkreettisia esimerkkejä taloustieteen alalta.

Regression tyypit

Itse käsite otettiin käyttöön matematiikassa vuonna 1886. Regressio tapahtuu:

  • lineaarinen;
  • parabolinen;
  • teho;
  • eksponentiaalinen;
  • hyperbolinen;
  • mielenosoitus;
  • logaritminen.

Esimerkki 1

Harkitse ongelmaa määrittää eläkkeellä olevien ryhmän jäsenten lukumäärän riippuvuus 6 teollisuusyrityksen keskipalkasta.

Tehtävä. Kuudessa yrityksessä analysoitiin keskimääräinen kuukausipalkka ja omasta tahdostaan ​​lähteneiden työntekijöiden lukumäärä. Taulukkomuodossa meillä on:

Lähtineiden määrä

Palkka

30 000 ruplaa

35 000 ruplaa

40 000 ruplaa

45 000 ruplaa

50 000 ruplaa

55 000 ruplaa

60 000 ruplaa

Ongelmalle määrittää eläkkeellä olevien lukumäärän riippuvuus keskipalkasta 6 yrityksessä regressiomalli on yhtälössä Y = a 0 + a 1 x 1 +…+a k x k, missä x i ovat vaikuttavia muuttujia. , a i ovat regressiokertoimet, a k on tekijöiden lukumäärä.

Tässä tehtävässä Y on lähteneiden työntekijöiden indikaattori ja vaikuttava tekijä on palkka, jota merkitsemme X:llä.

Laskentataulukon "Excel" ominaisuuksien käyttäminen

Excelin regressioanalyysiä edeltää sisäänrakennettujen funktioiden soveltaminen käytettävissä oleviin taulukkotietoihin. Näihin tarkoituksiin on kuitenkin parempi käyttää erittäin hyödyllistä "Analysis Toolkit" -apuohjelmaa. Aktivoidaksesi sen tarvitset:

  • siirry "Tiedosto"-välilehdeltä "Asetukset"-osioon;
  • valitse avautuvasta ikkunasta rivi "Lisäosat";
  • napsauta "Go"-painiketta, joka sijaitsee alareunassa, "Hallinta"-rivin oikealla puolella;
  • valitse "Analysis Package" -nimen vieressä oleva valintaruutu ja vahvista toimintasi napsauttamalla "OK".

Jos kaikki on tehty oikein, haluttu painike tulee näkyviin Tiedot-välilehden oikealle puolelle, joka sijaitsee Excel-laskentataulukon yläpuolella.

Excelissä

Nyt kun meillä on käsillä kaikki tarvittavat virtuaaliset työkalut ekonometristen laskelmien suorittamiseen, voimme alkaa ratkaista ongelmaamme. Tätä varten:

  • napsauta "Data Analysis" -painiketta;
  • napsauta avautuvassa ikkunassa "Regressio" -painiketta;
  • kirjoita näkyviin tulevalle välilehdelle Y:n (irtisanoneiden työntekijöiden määrä) ja X:n (heidän palkansa) arvot;
  • Vahvistamme toimintamme painamalla "Ok"-painiketta.

Tämän seurauksena ohjelma täyttää automaattisesti uuden laskentataulukon arkin regressioanalyysitiedoilla. Merkintä! Excelillä on mahdollisuus asettaa manuaalisesti haluamasi sijainti tätä tarkoitusta varten. Se voi olla esimerkiksi sama arkki, jossa Y- ja X-arvot ovat, tai jopa uusi työkirja, joka on erityisesti suunniteltu tällaisten tietojen tallentamiseen.

R-neliön regressiotulosten analyysi

Excelissä tarkastellun esimerkin tietojen käsittelyn aikana saadut tiedot näyttävät tältä:

Ensinnäkin sinun tulee kiinnittää huomiota R-neliön arvoon. Se on determinaatiokerroin. Tässä esimerkissä R-neliö = 0,755 (75,5 %), eli mallin lasketut parametrit selittävät tarkasteltujen parametrien välisen suhteen 75,5 %:lla. Mitä suurempi determinaatiokertoimen arvo on, sitä soveltuvampi on valittu malli tiettyyn tehtävään. Sen uskotaan kuvaavan oikein todellista tilannetta R-neliöarvon ollessa yli 0,8. Jos R-neliö<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Suhdeanalyysi

Numero 64.1428 osoittaa, mikä on Y:n arvo, jos kaikki tarkastelemamme mallin muuttujat xi asetetaan nollaan. Toisin sanoen voidaan väittää, että analysoitavan parametrin arvoon vaikuttavat myös muut tekijät, joita ei ole kuvattu tietyssä mallissa.

Seuraava kerroin -0,16285, joka sijaitsee solussa B18, osoittaa muuttujan X vaikutuksen painon Y:hen. Tämä tarkoittaa, että tarkasteltavan mallin työntekijöiden keskimääräinen kuukausipalkka vaikuttaa lopettaneiden määrään painolla -0,16285, ts. sen vaikutuksen aste on ollenkaan pieni. "-"-merkki osoittaa, että kertoimella on negatiivinen arvo. Tämä on ilmeistä, sillä kaikki tietävät, että mitä korkeampi palkka yrityksessä, sitä vähemmän ihmiset ilmaisevat halunsa irtisanoa työsopimus tai irtisanoutua.

Moninkertainen regressio

Tämä termi viittaa yhteysyhtälöön, jossa on useita riippumattomia muuttujia muodossa:

y \u003d f (x 1 + x 2 + ... x m) + ε, missä y on tehollinen ominaisuus (riippuvainen muuttuja) ja x 1 , x 2 , ... x m ovat tekijätekijät (riippumattomat muuttujat).

Parametrien arvio

Moninkertaisen regression (MR) tapauksessa se suoritetaan pienimmän neliösumman menetelmällä (OLS). Lineaarisille yhtälöille, jotka ovat muotoa Y = a + b 1 x 1 +…+b m x m + ε, rakennamme normaaliyhtälöjärjestelmän (katso alla)

Ymmärtääksesi menetelmän periaatteen, harkitse kahden tekijän tapausta. Sitten meillä on kaavalla kuvattu tilanne

Täältä saamme:

missä σ on indeksiin heijastuneen vastaavan ominaisuuden varianssi.

LSM on sovellettavissa MP-yhtälöön standardoitavalla asteikolla. Tässä tapauksessa saamme yhtälön:

missä t y , t x 1, … t xm ovat standardoituja muuttujia, joiden keskiarvot ovat 0; β i ovat standardoituja regressiokertoimia, ja keskihajonna on 1.

Huomaa, että tässä tapauksessa kaikki β i on asetettu normalisoiduiksi ja keskitetyiksi, joten niiden vertailua keskenään pidetään oikeana ja hyväksyttävänä. Lisäksi on tapana suodattaa pois tekijät ja hylätä ne, joilla on pienimmät βi-arvot.

Ongelma käytettäessä lineaarista regressioyhtälöä

Oletetaan, että on olemassa taulukko tietyn tuotteen N hintadynamiikasta viimeisten 8 kuukauden ajalta. On tarpeen tehdä päätös sen erän ostamisen suositeltavuudesta hintaan 1850 ruplaa / tonni.

kuukauden numero

kuukauden nimi

Tuotteen hinta N

1750 ruplaa tonnilta

1755 ruplaa tonnilta

1767 ruplaa tonnilta

1760 ruplaa tonnilta

1770 ruplaa tonnilta

1790 ruplaa tonnilta

1810 ruplaa tonnilta

1840 ruplaa tonnilta

Tämän Excel-taulukon ongelman ratkaisemiseksi sinun on käytettävä yllä olevasta esimerkistä jo tunnettua Data Analysis -työkalua. Valitse seuraavaksi "Regressio"-osio ja aseta parametrit. On muistettava, että "Syöteväli Y" -kenttään on syötettävä riippuvaisen muuttujan (tässä tapauksessa tuotteen hinta tiettyinä kuukausina) arvoalue ja "Syöte" intervalli X" - riippumattomalle muuttujalle (kuukauden numero). Vahvista toimenpide napsauttamalla "Ok". Uudelta arkilta (jos niin on ilmoitettu) saamme tiedot regressiota varten.

Rakennamme niiden perusteella lineaarisen yhtälön muotoa y=ax+b, jossa parametrit a ja b ovat kuukauden numeron nimen omaavan rivin kertoimet ja kertoimet sekä rivin "Y-leikkaus" arkki regressioanalyysin tuloksista. Siten tehtävän 3 lineaarinen regressioyhtälö (LE) kirjoitetaan seuraavasti:

Tuotteen hinta N = 11.714* kk numero + 1727.54.

tai algebrallisella merkinnällä

y = 11,714 x + 1727,54

Tulosten analyysi

Sen päättämiseksi, onko tuloksena saatu lineaarinen regressioyhtälö riittävä, käytetään useita korrelaatiokertoimia (MCC) ja määrityskertoimia sekä Fisherin testiä ja Studentin testiä. Excel-taulukossa, jossa on regressiotulokset, ne näkyvät useiden R-, R-neliö-, F-tilasto- ja t-tilasto-nimien alla.

KMC R mahdollistaa riippumattoman ja riippuvan muuttujan välisen todennäköisyyssuhteen tiukkuuden arvioinnin. Sen korkea arvo osoittaa melko vahvan suhteen muuttujien "Kuukauden lukumäärä" ja "Tavaroiden hinta N ruplina tonnilta" välillä. Tämän suhteen luonne on kuitenkin edelleen tuntematon.

Determinaatiokertoimen neliö R 2 (RI) on kokonaissirontaosuuden numeerinen ominaisuus ja osoittaa, minkä osan sirontaa koeaineistosta, ts. riippuvan muuttujan arvot vastaavat lineaarista regressioyhtälöä. Käsiteltävänä olevassa ongelmassa tämä arvo on 84,8 %, eli saatu SD kuvaa tilastotietoja suurella tarkkuudella.

F-tilastoa, jota kutsutaan myös Fisherin testiksi, käytetään arvioimaan lineaarisen suhteen merkitystä, kumoamaan tai vahvistamaan hypoteesin sen olemassaolosta.

(Opiskelijan kriteeri) auttaa arvioimaan kertoimen merkitystä lineaarisen suhteen tuntemattomalla tai vapaalla termillä. Jos t-kriteerin arvo > t cr, niin hypoteesi lineaarisen yhtälön vapaan termin merkityksettömyydestä hylätään.

Tarkasteltavassa vapaajäsenen tehtävässä saatiin Excel-työkaluilla, että t = 169,20903 ja p = 2,89E-12, eli meillä on nolla todennäköisyys, että oikea hypoteesi vapaan jäsenen merkityksettömyydestä toteutuu. hylätä. Kertoimelle tuntemattoman kohdalla t = 5,79405 ja p = 0,001158. Toisin sanoen todennäköisyys, että oikea hypoteesi kertoimen merkityksettömyydestä tuntemattomalle hylätään on 0,12 %.

Siten voidaan väittää, että tuloksena oleva lineaarinen regressioyhtälö on riittävä.

Osakepaketin ostamisen tarkoituksenmukaisuuden ongelma

Excelissä suoritetaan useita regressioita käyttämällä samaa data-analyysityökalua. Harkitse tiettyä sovellettua ongelmaa.

NNN:n johdon on tehtävä päätös 20 %:n osuuden ostamisesta MMM SA:sta. Paketin (JV) hinta on 70 miljoonaa Yhdysvaltain dollaria. NNN:n asiantuntijat keräsivät tietoja vastaavista tapahtumista. Osakepaketin arvo päätettiin arvioida seuraavien parametrien mukaan, ilmaistuna miljoonina Yhdysvaltain dollareina:

  • ostovelat (VK);
  • vuotuinen liikevaihto (VO);
  • myyntisaamiset (VD);
  • käyttöomaisuuden kustannukset (SOF).

Lisäksi käytetään parametria yrityksen palkkarästi (V3 P) tuhansina Yhdysvaltain dollareina.

Ratkaisu Excel-laskentataulukon avulla

Ensinnäkin sinun on luotava taulukko alkutiedoista. Se näyttää tältä:

  • kutsu "Data Analysis" -ikkuna;
  • valitse "Regressio"-osio;
  • syötä kenttään "Syöteväli Y" riippuvien muuttujien arvoalue sarakkeesta G;
  • napsauta "Syöteväli X" -ikkunan oikealla puolella olevaa kuvaketta punaisella nuolella ja valitse kaikkien arvojen alue arkin sarakkeista B, C, D, F.

Valitse "Uusi työtaulukko" ja napsauta "Ok".

Hanki regressioanalyysi annetulle ongelmalle.

Tulosten tarkastelu ja johtopäätökset

"Keräämme" yllä esitetyistä Excel-taulukkolaskentataulukon pyöristetyistä tiedoista regressioyhtälön:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Tutussa matemaattisessa muodossa se voidaan kirjoittaa seuraavasti:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

JSC "MMM":n tiedot on esitetty taulukossa:

Kun ne korvataan regressioyhtälössä, saadaan luku 64,72 miljoonaa Yhdysvaltain dollaria. Tämä tarkoittaa, että JSC MMM:n osakkeita ei pitäisi ostaa, koska niiden 70 miljoonan Yhdysvaltain dollarin arvo on melko yliarvioitu.

Kuten näet, Excel-laskentataulukon ja regressioyhtälön käyttö mahdollisti tietoisen päätöksen tekemisen tietyn tapahtuman toteutettavuudesta.

Nyt tiedät mitä regressio on. Yllä käsitellyt esimerkit Excelissä auttavat sinua ratkaisemaan käytännön ongelmia ekonometriikan alalta.