Lineaarinen regressiomenetelmä tilastoissa. Regressio Excelissä: yhtälö, esimerkkejä

Regressioanalyysi on tilastollinen tutkimusmenetelmä, jonka avulla voit osoittaa parametrin riippuvuuden yhdestä tai useammasta riippumattomasta muuttujasta. Ennen tietokonetta sen käyttö oli varsin vaikeaa, varsinkin kun oli kyse suurista tietomääristä. Tänään, kun olet oppinut rakentamaan regression Excelissä, voit ratkaista monimutkaisia ​​tilastollisia ongelmia muutamassa minuutissa. Alla on konkreettisia esimerkkejä taloustieteen alalta.

Regression tyypit

Itse käsite otettiin käyttöön matematiikassa vuonna 1886. Regressio tapahtuu:

  • lineaarinen;
  • parabolinen;
  • teho;
  • eksponentiaalinen;
  • hyperbolinen;
  • mielenosoitus;
  • logaritminen.

Esimerkki 1

Harkitse ongelmaa määrittää eläkkeellä olevien ryhmän jäsenten lukumäärän riippuvuus 6 teollisuusyrityksen keskipalkasta.

Tehtävä. Analysoimme kuudessa yrityksessä keskimääräistä kuukausipalkkaa ja omasta tahdostaan ​​lähteneiden työntekijöiden määrää. Taulukkomuodossa meillä on:

Lähtineiden määrä

Palkka

30 000 ruplaa

35 000 ruplaa

40 000 ruplaa

45 000 ruplaa

50 000 ruplaa

55 000 ruplaa

60 000 ruplaa

Ongelmalle määrittää eläkkeellä olevien lukumäärän riippuvuus keskipalkasta 6 yrityksessä regressiomalli on yhtälössä Y = a 0 + a 1 x 1 +…+a k x k, missä x i ovat vaikuttavia muuttujia. , a i ovat regressiokertoimet, a k on tekijöiden lukumäärä.

Tässä tehtävässä Y on lähteneiden työntekijöiden indikaattori ja vaikuttava tekijä on palkka, jota merkitsemme X:llä.

Laskentataulukon "Excel" ominaisuuksien käyttäminen

Excelin regressioanalyysiä edeltää sisäänrakennettujen funktioiden soveltaminen käytettävissä oleviin taulukkotietoihin. Näihin tarkoituksiin on kuitenkin parempi käyttää erittäin hyödyllistä "Analysis Toolkit" -apuohjelmaa. Aktivoidaksesi sen tarvitset:

  • siirry "Tiedosto"-välilehdeltä "Asetukset"-osioon;
  • valitse avautuvasta ikkunasta rivi "Lisäosat";
  • napsauta "Go"-painiketta, joka sijaitsee alareunassa, "Hallinta"-rivin oikealla puolella;
  • valitse "Analysis Package" -nimen vieressä oleva valintaruutu ja vahvista toimintasi napsauttamalla "OK".

Jos kaikki on tehty oikein, haluttu painike tulee näkyviin Tiedot-välilehden oikealle puolelle, joka sijaitsee Excel-laskentataulukon yläpuolella.

Excelissä

Nyt kun meillä on käsillä kaikki tarvittavat virtuaaliset työkalut ekonometristen laskelmien suorittamiseen, voimme alkaa ratkaista ongelmaamme. Tätä varten:

  • napsauta "Data Analysis" -painiketta;
  • napsauta avautuvassa ikkunassa "Regressio" -painiketta;
  • kirjoita näkyviin tulevalle välilehdelle Y:n (irtisanoneiden työntekijöiden määrä) ja X:n (heidän palkansa) arvot;
  • Vahvistamme toimintamme painamalla "Ok"-painiketta.

Tämän seurauksena ohjelma täyttää automaattisesti uuden laskentataulukon arkin regressioanalyysitiedoilla. Huomautus! Excelillä on mahdollisuus asettaa manuaalisesti haluamasi sijainti tätä tarkoitusta varten. Se voi olla esimerkiksi sama arkki, jossa Y- ja X-arvot ovat, tai jopa uusi työkirja, joka on erityisesti suunniteltu tällaisten tietojen tallentamiseen.

R-neliön regressiotulosten analyysi

Excelissä tarkastellun esimerkin tietojen käsittelyn aikana saadut tiedot näyttävät tältä:

Ensinnäkin sinun tulee kiinnittää huomiota R-neliön arvoon. Se on determinaatiokerroin. Tässä esimerkissä R-neliö = 0,755 (75,5 %), eli mallin lasketut parametrit selittävät tarkasteltujen parametrien välisen suhteen 75,5 %:lla. Mitä suurempi determinaatiokertoimen arvo on, sitä soveltuvampi on valittu malli tiettyyn tehtävään. Sen uskotaan kuvaavan oikein todellista tilannetta R-neliöarvon ollessa yli 0,8. Jos R-neliö<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Suhdeanalyysi

Numero 64.1428 osoittaa, mikä on Y:n arvo, jos kaikki tarkastelemamme mallin muuttujat xi asetetaan nollaan. Toisin sanoen voidaan väittää, että analysoitavan parametrin arvoon vaikuttavat myös muut tekijät, joita ei ole kuvattu tietyssä mallissa.

Seuraava kerroin -0,16285, joka sijaitsee solussa B18, näyttää muuttujan X vaikutuksen painon Y:hen. Tämä tarkoittaa, että tarkasteltavan mallin työntekijöiden keskimääräinen kuukausipalkka vaikuttaa lopettaneiden määrään painolla -0,16285, ts. sen vaikutuksen aste on ollenkaan pieni. "-"-merkki osoittaa, että kertoimella on negatiivinen arvo. Tämä on ilmeistä, sillä kaikki tietävät, että mitä korkeampi palkka yrityksessä, sitä vähemmän ihmiset ilmaisevat halunsa irtisanoa työsopimus tai irtisanoutua.

Moninkertainen regressio

Tämä termi viittaa yhteysyhtälöön, jossa on useita riippumattomia muuttujia muodossa:

y \u003d f (x 1 + x 2 + ... x m) + ε, missä y on tehollinen ominaisuus (riippuvainen muuttuja) ja x 1 , x 2 , ... x m ovat tekijätekijät (riippumattomat muuttujat).

Parametrien arvio

Moninkertaisen regression (MR) tapauksessa se suoritetaan pienimmän neliösumman menetelmällä (OLS). Lineaarisille yhtälöille, jotka ovat muotoa Y = a + b 1 x 1 +…+b m x m + ε, rakennamme normaaliyhtälöjärjestelmän (katso alla)

Ymmärtääksesi menetelmän periaatteen, harkitse kahden tekijän tapausta. Sitten meillä on kaavalla kuvattu tilanne

Täältä saamme:

missä σ on indeksiin heijastuneen vastaavan ominaisuuden varianssi.

LSM on sovellettavissa MP-yhtälöön standardoitavalla asteikolla. Tässä tapauksessa saamme yhtälön:

missä t y , t x 1, … t xm ovat standardoituja muuttujia, joiden keskiarvot ovat 0; β i ovat standardoituja regressiokertoimia, ja keskihajonna on 1.

Huomaa, että tässä tapauksessa kaikki β i on asetettu normalisoiduiksi ja keskitetyiksi, joten niiden vertailua keskenään pidetään oikeana ja hyväksyttävänä. Lisäksi on tapana suodattaa pois tekijät ja hylätä ne, joilla on pienimmät βi-arvot.

Ongelma käytettäessä lineaarista regressioyhtälöä

Oletetaan, että on olemassa taulukko tietyn tuotteen N hintadynamiikasta viimeisten 8 kuukauden ajalta. On tarpeen tehdä päätös sen erän ostamisen suositeltavuudesta hintaan 1850 ruplaa / tonni.

kuukauden numero

kuukauden nimi

Tuotteen hinta N

1750 ruplaa tonnilta

1755 ruplaa tonnilta

1767 ruplaa tonnilta

1760 ruplaa tonnilta

1770 ruplaa tonnilta

1790 ruplaa tonnilta

1810 ruplaa tonnilta

1840 ruplaa tonnilta

Tämän Excel-taulukon ongelman ratkaisemiseksi sinun on käytettävä yllä olevasta esimerkistä jo tunnettua Data Analysis -työkalua. Valitse seuraavaksi "Regressio"-osio ja aseta parametrit. On muistettava, että "Syöteväli Y" -kenttään on syötettävä riippuvaisen muuttujan (tässä tapauksessa tuotteen hinta tiettyinä kuukausina) arvoalue ja "Syöte" intervalli X" - riippumattomalle muuttujalle (kuukauden numero). Vahvista toimenpide napsauttamalla "Ok". Uudelta arkilta (jos niin on ilmoitettu) saamme tiedot regressiota varten.

Rakennamme niiden perusteella lineaarisen yhtälön muotoa y=ax+b, jossa parametrit a ja b ovat kuukauden numeron nimen omaavan rivin kertoimet ja kertoimet sekä rivin "Y-leikkaus" arkki regressioanalyysin tuloksista. Siten tehtävän 3 lineaarinen regressioyhtälö (LE) kirjoitetaan seuraavasti:

Tuotteen hinta N = 11.714* kk numero + 1727.54.

tai algebrallisella merkinnällä

y = 11,714 x + 1727,54

Tulosten analyysi

Sen päättämiseksi, onko tuloksena saatu lineaarinen regressioyhtälö riittävä, käytetään useita korrelaatiokertoimia (MCC) ja määrityskertoimia sekä Fisherin testiä ja Studentin testiä. Excel-taulukossa, jossa on regressiotulokset, ne näkyvät useiden R-, R-neliö-, F-tilasto- ja t-tilasto-nimien alla.

KMC R mahdollistaa riippumattoman ja riippuvan muuttujan välisen todennäköisyyssuhteen tiukkuuden arvioinnin. Sen korkea arvo osoittaa melko vahvan suhteen muuttujien "Kuukauden lukumäärä" ja "Tavaroiden hinta N ruplina tonnilta" välillä. Tämän suhteen luonne on kuitenkin edelleen tuntematon.

Determinaatiokertoimen neliö R 2 (RI) on kokonaissirontaosuuden numeerinen ominaisuus ja osoittaa, minkä osan sirontaa koeaineistosta, ts. riippuvan muuttujan arvot vastaavat lineaarista regressioyhtälöä. Käsiteltävänä olevassa ongelmassa tämä arvo on 84,8 %, eli saatu SD kuvaa tilastotietoja suurella tarkkuudella.

F-tilastoa, jota kutsutaan myös Fisherin testiksi, käytetään arvioimaan lineaarisen suhteen merkitystä, kumoamaan tai vahvistamaan hypoteesin sen olemassaolosta.

(Opiskelijan kriteeri) auttaa arvioimaan kertoimen merkitystä lineaarisen suhteen tuntemattomalla tai vapaalla termillä. Jos t-kriteerin arvo > t cr, niin hypoteesi lineaarisen yhtälön vapaan termin merkityksettömyydestä hylätään.

Tarkasteltavassa vapaajäsenen tehtävässä saatiin Excel-työkaluilla, että t = 169,20903 ja p = 2,89E-12, eli meillä on nolla todennäköisyys, että oikea hypoteesi vapaajäsenen merkityksettömyydestä on hylätty. Kertoimelle tuntemattoman kohdalla t = 5,79405 ja p = 0,001158. Toisin sanoen todennäköisyys, että oikea hypoteesi kertoimen merkityksettömyydestä tuntemattomalle hylätään on 0,12 %.

Siten voidaan väittää, että tuloksena oleva lineaarinen regressioyhtälö on riittävä.

Osakepaketin ostamisen tarkoituksenmukaisuuden ongelma

Excelissä suoritetaan useita regressioita käyttämällä samaa data-analyysityökalua. Harkitse tiettyä sovellettua ongelmaa.

NNN:n johdon on tehtävä päätös 20 %:n osuuden ostamisesta MMM SA:sta. Paketin (JV) hinta on 70 miljoonaa Yhdysvaltain dollaria. NNN:n asiantuntijat keräsivät tietoja vastaavista tapahtumista. Osakepaketin arvo päätettiin arvioida seuraavien parametrien mukaan, ilmaistuna miljoonina Yhdysvaltain dollareina:

  • ostovelat (VK);
  • vuotuinen liikevaihto (VO);
  • myyntisaamiset (VD);
  • käyttöomaisuuden kustannukset (SOF).

Lisäksi käytetään parametria yrityksen palkkarästi (V3 P) tuhansina Yhdysvaltain dollareina.

Ratkaisu Excel-laskentataulukon avulla

Ensinnäkin sinun on luotava taulukko alkutiedoista. Se näyttää tältä:

  • kutsu "Data Analysis" -ikkuna;
  • valitse "Regressio"-osio;
  • syötä kenttään "Syöteväli Y" riippuvien muuttujien arvoalue sarakkeesta G;
  • napsauta "Syöteväli X" -ikkunan oikealla puolella olevaa kuvaketta punaisella nuolella ja valitse kaikkien arvojen alue arkin sarakkeista B, C, D, F.

Valitse "Uusi työtaulukko" ja napsauta "Ok".

Hanki regressioanalyysi annetulle ongelmalle.

Tulosten tarkastelu ja johtopäätökset

"Keräämme" yllä esitetyistä Excel-taulukkolaskentataulukon pyöristetyistä tiedoista regressioyhtälön:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Tutussa matemaattisessa muodossa se voidaan kirjoittaa seuraavasti:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

JSC "MMM":n tiedot on esitetty taulukossa:

Kun ne korvataan regressioyhtälössä, saadaan luku 64,72 miljoonaa Yhdysvaltain dollaria. Tämä tarkoittaa, että JSC MMM:n osakkeita ei pitäisi ostaa, koska niiden 70 miljoonan Yhdysvaltain dollarin arvo on melko yliarvioitu.

Kuten näet, Excel-laskentataulukon ja regressioyhtälön käyttö mahdollisti tietoisen päätöksen tekemisen tietyn tapahtuman toteutettavuudesta.

Nyt tiedät mitä regressio on. Yllä käsitellyt esimerkit Excelissä auttavat sinua ratkaisemaan käytännön ongelmia ekonometriikan alalta.

Regressioanalyysi on useimpien ekonometristen mallien luomisen taustalla, joihin tulisi sisällyttää kustannusarviomallit. Tätä menetelmää voidaan käyttää arviointimallien rakentamiseen, jos analogien (vertailukelpoisten kohteiden) ja kustannustekijöiden (vertailuelementtien) määrä korreloivat keskenään seuraavasti: P> (5-g-10) x , nuo. analogeja pitäisi olla 5-10 kertaa enemmän kuin kustannustekijöitä. Sama tietomäärän ja tekijöiden määrän suhdetta koskeva vaatimus koskee muita tehtäviä: kohteen kustannus- ja kuluttajaparametrien välisen suhteen määrittäminen; korjaavien indeksien laskentamenettelyn perustelut; hintakehityksen selkeyttäminen; kulumisen ja vaikuttavien tekijöiden muutosten välisen suhteen määrittäminen; riippuvuuksien hankkiminen kustannusstandardien laskemiseksi jne. Tämän vaatimuksen täyttyminen on välttämätöntä, jotta pienennetään todennäköisyyttä työskennellä datanäytteen kanssa, joka ei täytä satunnaismuuttujien normaalijakauman vaatimusta.

Regressiosuhde heijastaa vain tuloksena olevan muuttujan, esimerkiksi kustannusten, keskimääräistä trendiä yhden tai useamman tekijämuuttujan muutoksista, kuten sijainti, huonemäärä, pinta-ala, kerros jne. Tämä on ero regressiosuhteen ja funktionaalisen suhteen välillä, jossa tuloksena olevan muuttujan arvo on tiukasti määritelty tietylle tekijämuuttujien arvolle.

Regressiosuhteen läsnäolo / tuloksena olevien välillä klo ja tekijämuuttujat x s ..., x k(tekijät) osoittaa, että tämä suhde ei määräydy vain valittujen tekijämuuttujien vaikutuksesta, vaan myös muuttujien vaikutuksesta, joista osa on yleisesti tuntematon, toisia ei voida arvioida ja ottaa huomioon:

Huomattamattomien muuttujien vaikutus on merkitty tämän yhtälön toisella termillä ?, jota kutsutaan approksimaatiovirheeksi.

On olemassa seuraavan tyyppisiä regressioriippuvuuksia:

  • ? parillinen regressio - kahden muuttujan välinen suhde (resultantti ja tekijä);
  • ? moninkertainen regressio - yhden tuloksena olevan muuttujan ja kahden tai useamman tutkimukseen sisältyvän tekijämuuttujan riippuvuus.

Regressioanalyysin päätehtävänä on kvantifioida muuttujien (pariregressiossa) ja useiden muuttujien (moniregressiossa) välisen suhteen läheisyys. Suhteen tiiviys kvantifioidaan korrelaatiokertoimella.

Regressioanalyysin avulla voit määrittää päätekijöiden (hedonisten ominaisuuksien) vaikutuksen säännöllisyyden tutkittavaan indikaattoriin sekä kokonaisuutena että kukin erikseen. Regressioanalyysin avulla matemaattisen tilaston menetelmänä voidaan ensinnäkin löytää ja kuvata tuloksena olevan (toivotun) muuttujan analyyttisen riippuvuuden muoto tekijämuuttujista ja toiseksi arvioida muuttujan tiukkuutta. tämä riippuvuus.

Ratkaisemalla ensimmäinen tehtävä saadaan matemaattinen regressiomalli, jonka avulla sitten lasketaan haluttu indikaattori annetuille tekijäarvoille. Toisen ongelman ratkaisu mahdollistaa lasketun tuloksen luotettavuuden toteamisen.

Siten regressioanalyysi voidaan määritellä joukkona muodollisia (matemaattisia) proseduureja, jotka on suunniteltu mittaamaan tuloksena olevien muuttujien ja tekijämuuttujien välisen suhteen muodon tiukkuutta, suuntaa ja analyyttistä ilmaisua, ts. Tällaisen analyysin tulosten tulee olla rakenteellisesti ja määrällisesti määritelty tilastollinen malli muodossa:

missä y - tuloksena olevan muuttujan (halutun indikaattorin, esim. kustannus, vuokra, aktivointiaste) keskiarvon yli P hänen huomionsa; x on tekijämuuttujan arvo (/-th kustannustekijä); - tekijämuuttujien määrä.

Toiminto f(x l ,...,x lc), Tuloksena olevan muuttujan riippuvuutta tekijämuuttujista kuvaavaa kutsutaan regressioyhtälöksi (funktioksi). Termi "regressio" (regressio (lat.) - vetäytyminen, paluu johonkin) liittyy yhden menetelmän muodostusvaiheessa ratkaistujen tehtävien erityispiirteisiin, eikä se tällä hetkellä heijasta menetelmän koko olemusta. menetelmää, mutta sitä käytetään edelleen.

Regressioanalyysi sisältää yleensä seuraavat vaiheet:

  • ? näytteen muodostaminen homogeenisista objekteista ja alustavan tiedon kerääminen näistä objekteista;
  • ? tuloksena olevaan muuttujaan vaikuttavien päätekijöiden valinta;
  • ? näytteen normaaliuden tarkistaminen käyttämällä X 2 tai binomiaalinen kriteeri;
  • ? viestintämuotoa koskevan hypoteesin hyväksyminen;
  • ? matemaattinen tietojenkäsittely;
  • ? regressiomallin saaminen;
  • ? sen tilastollisten indikaattoreiden arviointi;
  • ? verifiointilaskelmat regressiomallilla;
  • ? tulosten analyysi.

Määritetty toimintosarja tapahtuu tutkittaessa sekä tekijämuuttujan ja yhden tuloksena olevan muuttujan välistä parisuhdetta että tuloksena olevan muuttujan ja useiden tekijämuuttujien välistä moninkertaista suhdetta.

Regressioanalyysin käyttö asettaa alkutiedoille tiettyjä vaatimuksia:

  • ? Tilastollisen otoksen esineistä tulee olla homogeeninen toiminnallisesti ja rakentavasti teknologisesti;
  • ? melko lukuisia;
  • ? tutkittava kustannusindikaattori - tuloksena oleva muuttuja (hinta, kustannukset, kustannukset) - on vähennettävä samoihin ehtoihin sen laskemiseksi kaikille otoksen kohteille;
  • ? tekijämuuttujat on mitattava riittävän tarkasti;
  • ? tekijämuuttujien on oltava riippumattomia tai minimaalisesti riippuvaisia.

Otoksen homogeenisuuden ja täydellisyyden vaatimukset ovat ristiriidassa: mitä tiukemmin objektit valitaan niiden homogeenisuuden mukaan, sitä pienempi otos saadaan, ja päinvastoin otoksen suurentamiseksi on tarpeen sisällyttää esineitä jotka eivät ole kovin samanlaisia ​​keskenään.

Kun tiedot on kerätty homogeenisten objektien ryhmästä, ne analysoidaan tuloksena olevien ja tekijämuuttujien välisen suhteen muodon määrittämiseksi teoreettisen regressioviivan muodossa. Teoreettisen regressiosuoran löytäminen koostuu approksimoivan käyrän järkevästä valinnasta ja sen yhtälön kertoimien laskemisesta. Regressioviiva on tasainen käyrä (tietyssä tapauksessa suora), joka kuvaa matemaattisen funktion avulla tutkittavan riippuvuuden yleistä trendiä ja tasoittaa epäsäännöllisiä, satunnaisia ​​poikkeavia sivutekijöiden vaikutuksesta.

Parillisten regressioriippuvuuksien näyttämiseksi arviointitehtävissä käytetään useimmiten seuraavia funktioita: lineaarinen - y - a 0 + ars + s teho - y - aj&i + c demonstratiivinen - y - lineaarinen eksponentiaalinen - y - a 0 + ar* + s. täällä - e likimääräinen virhe, joka johtuu huomioimattomien satunnaisten tekijöiden vaikutuksesta.

Näissä funktioissa y on tuloksena oleva muuttuja; x - tekijämuuttuja (tekijä); a 0 , a r a 2 - regressiomallin parametrit, regressiokertoimet.

Lineaarinen eksponentiaalinen malli kuuluu ns. hybridimallien luokkaan muodossa:

missä

missä x (i = 1, /) - tekijöiden arvot;

b t (i = 0, /) ovat regressioyhtälön kertoimia.

Tässä yhtälössä komponentit A, B ja Z vastaavat arvostettavan omaisuuden yksittäisten osien kustannuksia, esimerkiksi tontin hintaa ja parannuskustannuksia sekä parametria K on yleistä. Se on suunniteltu säätämään arvostettavan omaisuuden kaikkien komponenttien arvoa yhteisen vaikutustekijän, kuten sijainnin, mukaan.

Vastaavien kertoimien asteessa olevien tekijöiden arvot ovat binäärimuuttujia (0 tai 1). Tutkinnon pohjalla olevat tekijät ovat diskreettejä tai jatkuvia muuttujia.

Kertomerkkikertoimiin liittyvät tekijät ovat myös jatkuvia tai diskreettejä.

Määrittely suoritetaan pääsääntöisesti empiirisesti ja sisältää kaksi vaihetta:

  • ? regressiokentän pisteiden piirtäminen kaavioon;
  • ? graafinen (visuaalinen) analyysi mahdollisen approksimoivan käyrän tyypistä.

Regressiokäyrän tyyppi ei ole aina heti valittavissa. Sen määrittämiseksi regressiokentän pisteet piirretään ensin kaavioon lähtötietojen mukaan. Sitten pisteiden sijaintia pitkin piirretään visuaalisesti viiva yrittämällä selvittää yhteyden laadullinen kuvio: tasainen kasvu tai tasainen lasku, kasvu (lasku) dynamiikan lisääntymisellä (laskulla), sujuva lähestymistapa tietty taso.

Tätä empiiristä lähestymistapaa täydentää looginen analyysi, joka lähtee jo tunnetuista ideoista tutkittavien tekijöiden taloudellisesta ja fyysisestä luonteesta ja niiden keskinäisestä vaikutuksesta.

Tiedetään esimerkiksi, että tuloksena olevien muuttujien - taloudellisten indikaattorien (hinnat, vuokra) riippuvuudet useista tekijämuuttujista - hintaa muodostavat tekijät (etäisyys asutuksen keskustasta, alue jne.) ovat epälineaarisia. , ja niitä voidaan kuvata melko tiukasti potenssi-, eksponentiaalisella tai neliöfunktiolla . Mutta pienillä tekijöiden vaihteluvälillä hyväksyttäviä tuloksia voidaan saada myös käyttämällä lineaarifunktiota.

Jos on vielä mahdotonta tehdä heti varmaa valintaa jostakin toiminnosta, valitaan kaksi tai kolme toimintoa, lasketaan niiden parametrit, ja sitten toiminto valitaan lopuksi käyttämällä asianmukaisia ​​yhteyden tiiviyskriteerejä.

Teoriassa käyrän muodon löytämisen regressioprosessia kutsutaan erittely malli ja sen kertoimet - kalibrointi mallit.

Jos havaitaan, että tuloksena oleva muuttuja y riippuu useista tekijämuuttujista (tekijöistä) x ( , x 2 , ..., x k, sitten he turvautuvat moninkertaisen regressiomallin rakentamiseen. Yleensä käytetään kolmea moninkertaisen viestinnän muotoa: lineaarinen - y - a 0 + a x x x + a^x 2 + ... + a k x k, demonstratiivinen - y - a 0 a*i a x t- a x b, teho - y - a 0 x x ix 2 a 2. .x^ tai niiden yhdistelmät.

Eksponentiaali- ja eksponentiaalifunktiot ovat universaalimpia, koska ne approksimoivat epälineaarisia suhteita, jotka ovat suurin osa arvioinnissa tutkituista riippuvuuksista. Lisäksi niitä voidaan käyttää objektien arvioinnissa ja tilastollisen mallinnuksen menetelmässä massaarvioinnissa sekä suoran vertailun menetelmässä yksilöarvioinnissa korjauskertoimia määritettäessä.

Kalibrointivaiheessa regressiomallin parametrit lasketaan pienimmän neliösumman menetelmällä, jonka ydin on, että tuloksena olevan muuttujan laskettujen arvojen neliöpoikkeamien summa. klo., eli valitun relaatioyhtälön mukaan laskettuna todellisista arvoista tulee olla minimaalisia:

Arvot j) (. ja y. tunnetaan siis K on vain yhtälön kertoimien funktio. Löytääksesi minimin S ottaa osittaisia ​​johdannaisia K yhtälön kertoimilla ja rinnasta ne nollaan:

Tuloksena saadaan normaaliyhtälöjärjestelmä, jonka lukumäärä on yhtä suuri kuin halutun regressioyhtälön määritettyjen kertoimien lukumäärä.

Oletetaan, että meidän on löydettävä lineaarisen yhtälön kertoimet y - a 0 + ars. Poikkeamien neliösumma on:

/=1

Erota funktio K tuntemattomilla kertoimilla a 0 ja ja rinnasta osittaiset derivaatat nollaan:

Muutosten jälkeen saamme:

missä P - alkuperäisten todellisten arvojen lukumäärä klo(analogien määrä).

Yllä oleva menetelmä regressioyhtälön kertoimien laskemiseksi soveltuu myös epälineaarisille riippuvuuksille, jos nämä riippuvuudet voidaan linearisoida, ts. tuoda lineaariseen muotoon muuttujien muutoksen avulla. Potenssi- ja eksponentiaalifunktiot logaritmin ja sitä vastaavan muuttujien muutoksen jälkeen saavat lineaarisen muodon. Esimerkiksi potenssifunktio logaritmin ottamisen jälkeen saa muotoa: In y \u003d 1n 0 +a x 1ph. Muuttujien muutoksen jälkeen Y- Sisään y, L 0 - Sisään ja nro X- x:ssä saamme lineaarisen funktion

Y = A0 + cijX, joiden kertoimet löytyvät edellä kuvatulla tavalla.

Pienimmän neliösumman menetelmää käytetään myös moninkertaisen regressiomallin kertoimien laskemiseen. Joten, normaaliyhtälöjärjestelmä kahdella muuttujalla olevan lineaarisen funktion laskemiseksi Xj ja x 2 Muutossarjan jälkeen se näyttää tältä:

Yleensä tämä yhtälöjärjestelmä ratkaistaan ​​lineaarisilla algebramenetelmillä. Monien eksponentiaalifunktio saatetaan lineaariseen muotoon ottamalla logaritmeja ja muuttamalla muuttujia samalla tavalla kuin parillinen eksponentiaalinen funktio.

Hybridimalleja käytettäessä useita regressiokertoimia löydetään käyttämällä peräkkäisten approksimaatioiden menetelmän numeerisia proseduureja.

Lopullisen valinnan tekemiseksi useiden regressioyhtälöiden joukosta on tarpeen testata kunkin yhtälön suhteen tiiviys, jota mitataan korrelaatiokertoimella, varianssilla ja variaatiokertoimella. Arvioinnissa voit käyttää myös Studentin ja Fisherin kriteerejä. Mitä suurempi liitoksen tiiviys paljastaa käyrän, sitä edullisempi se on, kun kaikki muut asiat ovat samat.

Jos tällaisen luokan ongelmaa ratkaistaan, kun on tarpeen määrittää kustannusindikaattorin riippuvuus kustannustekijöistä, niin halutaan ottaa huomioon mahdollisimman monta vaikuttavia tekijöitä ja sitä kautta rakentaa tarkempi moninkertainen regressiomalli. ymmärrettävää. Kaksi objektiivista rajoitusta kuitenkin haittaa tekijöiden määrän laajentamista. Ensinnäkin usean regressiomallin rakentaminen vaatii paljon suuremman otoksen objekteista kuin parillisen mallin rakentaminen. On yleisesti hyväksyttyä, että otoksessa olevien objektien lukumäärän tulee olla suurempi kuin määrä P tekijät, vähintään 5-10 kertaa. Tästä seuraa, että kolmen vaikuttavan tekijän mallin rakentamiseksi on tarpeen kerätä noin 20 kohteen otos eri tekijäarvoilla. Toiseksi malliin valittujen tekijöiden vaikutuksensa arvoindikaattoriin tulee olla riittävän riippumattomia toisistaan. Tätä ei ole helppo varmistaa, koska otoksessa on yleensä yhdistetty samaan perheeseen kuuluvia objekteja, joissa monissa tekijöissä tapahtuu säännöllistä muutosta objektista toiseen.

Regressiomallien laatua testataan yleensä seuraavilla tilastoilla.

Regressioyhtälön virheen keskihajonta (estimointivirhe):

missä P - näytteen koko (analogien lukumäärä);

- tekijöiden määrä (kustannustekijät);

Regressioyhtälön selittämätön virhe (kuva 3.2);

y. - tuloksena olevan muuttujan todellinen arvo (esimerkiksi kustannukset); y t - tuloksena olevan muuttujan laskettu arvo.

Tätä indikaattoria kutsutaan myös arvioinnin standardivirhe (RMS-virhe). Kuvassa pisteet osoittavat näytteen tiettyjä arvoja, symboli osoittaa näytteen keskiarvojen viivan, kalteva katkoviiva on regressioviiva.


Riisi. 3.2.

Arviointivirheen keskihajonta mittaa y:n todellisten arvojen poikkeamaa vastaavista lasketuista arvoista. klo( , saatu regressiomallilla. Jos otos, jolle malli on rakennettu, on normaalijakauman lain alainen, niin voidaan väittää, että 68 % todellisista arvoista klo ovat alueella klo ± &e regressioviivasta ja 95 % - alueella klo ± 2d e. Tämä indikaattori on kätevä, koska mittayksiköt vk? vastaa mittayksiköitä klo,. Tässä suhteessa sitä voidaan käyttää osoittamaan arviointiprosessissa saadun tuloksen tarkkuutta. Esimerkiksi arvotodistuksessa voit osoittaa, että regressiomallilla saadun markkina-arvon arvo V todennäköisyydellä 95 % on välillä (V-2d,.) ennen (at + 2ds).

Tuloksena olevan muuttujan variaatiokerroin:

missä y - tuloksena olevan muuttujan keskiarvo (kuva 3.2).

Regressioanalyysissä variaatiokerroin var on tuloksen keskihajonta, joka ilmaistaan ​​prosentteina tulosmuuttujan keskiarvosta. Variaatiokerroin voi toimia kriteerinä tuloksena olevan regressiomallin ennustusominaisuuksille: mitä pienempi arvo var, sitä korkeammat ovat mallin ennustavat ominaisuudet. Variaatiokertoimen käyttö on parempi kuin eksponentti &e, koska se on suhteellinen eksponentti. Tämän indikaattorin käytännön käytössä voidaan suositella, että mallia, jonka variaatiokerroin ylittää 33 %, ei käytetä, koska tässä tapauksessa ei voida sanoa, että nämä otokset ovat normaalijakauman lain alaisia.

Määrityskerroin (moninkertainen korrelaatiokerroin neliöity):

Tätä indikaattoria käytetään tuloksena olevan regressiomallin yleisen laadun analysoimiseen. Se osoittaa, kuinka suuri prosenttiosuus tuloksena olevan muuttujan vaihtelusta johtuu kaikkien malliin sisältyvien tekijämuuttujien vaikutuksesta. Determinaatiokerroin on aina välillä nollasta yhteen. Mitä lähempänä yksikköä determinaatiokertoimen arvo on, sitä paremmin malli kuvaa alkuperäistä tietosarjaa. Determinaatiokerroin voidaan esittää toisella tavalla:

Tässä on regressiomallin selittämä virhe,

a - selittämätön virhe

regressiomalli. Taloudellisesta näkökulmasta tämä kriteeri mahdollistaa sen arvioimisen, kuinka paljon prosenttiosuutta hintavaihtelusta regressioyhtälö selittää.

Indikaattorin tarkka hyväksymisraja R2 on mahdotonta määritellä kaikissa tapauksissa. Sekä otoskoko että yhtälön mielekäs tulkinta on otettava huomioon. Yleensä kun tutkitaan tietoja samantyyppisistä objekteista, jotka on saatu suunnilleen samaan aikaan, arvo R2 ei ylitä tasoa 0,6-0,7. Jos kaikki ennustusvirheet ovat nolla, ts. kun tulos- ja tekijämuuttujien välinen suhde on toiminnallinen, niin R2 =1.

Mukautettu determinaatiokerroin:

Tarve ottaa käyttöön mukautettu determinaatiokerroin selittyy sillä, että tekijöiden lukumäärän kasvaessa kohtaan tavallinen determinaatiokerroin kasvaa lähes aina, mutta vapausasteiden lukumäärä pienenee (n - k- yksi). Syötetty säätö pienentää aina arvoa R2, siltä osin kuin (P - 1) > (n---- yksi). Tämän seurauksena arvo R 2 CKOf) voi jopa muuttua negatiiviseksi. Tämä tarkoittaa, että arvo R2 oli lähellä nollaa ennen säätöä ja varianssin osuus selittyy muuttujan regressioyhtälöllä klo hyvin pieni.

Regressiomallien kahdesta versiosta, jotka eroavat säädetyn determinaatiokertoimen arvossa, mutta joilla on yhtä hyvät muut laatukriteerit, on parempi vaihtoehto, jolla on suuri säädetyn determinaatiokertoimen arvo. Determinaatiokerrointa ei korjata, jos (n - k): k> 20.

Fisher-suhde:

Tätä kriteeriä käytetään determinaatiokertoimen merkittävyyden arvioimiseen. Neliöiden jäännössumma on ennustevirheen mitta, joka käyttää tunnettujen kustannusarvojen regressiota osoitteessa.. Sen vertailu neliöiden regressiosummaan osoittaa kuinka monta kertaa regressioriippuvuus ennustaa tuloksen keskiarvoa paremmin klo. Siellä on kriittisten arvojen taulukko F R Fisher-kerroin, joka riippuu osoittajan vapausasteiden lukumäärästä - kohtaan, nimittäjä v 2 = p - k- 1 ja merkitystaso a. Jos Fisher-kriteerin laskettu arvo F R on suurempi kuin taulukon arvo, niin hypoteesi determinaatiokertoimen merkityksettömyydestä, ts. regressioyhtälöön upotettujen suhteiden ja todella olemassa olevien suhteiden välisestä erosta todennäköisyydellä p \u003d 1 - a hylätään.

Keskimääräinen likimääräinen virhe(keskimääräinen prosentuaalinen poikkeama) lasketaan prosentteina ilmaistuna keskimääräisenä suhteellisena erona tuloksena olevan muuttujan todellisen ja lasketun arvojen välillä:

Mitä pienempi tämän indikaattorin arvo on, sitä parempi on mallin ennustava laatu. Kun tämän indikaattorin arvo ei ole suurempi kuin 7%, ne osoittavat mallin suurta tarkkuutta. Jos 8 > 15%, osoittavat mallin epätyydyttävän tarkkuuden.

Regressiokertoimen standardivirhe:

missä (/I) -1 .- matriisin diagonaalielementti (X G X) ~ 1 - - tekijöiden lukumäärä;

X- tekijämuuttujien arvojen matriisi:

X7- tekijämuuttujien arvojen transponoitu matriisi;

(JL) _| on matriisin käänteismatriisi.

Mitä pienemmät nämä pisteet kullekin regressiokertoimelle ovat, sitä luotettavampi on vastaavan regressiokertoimen arvio.

Opiskelijan testi (t-tilastot):

Tämän kriteerin avulla voit mitata annetusta regressiokertoimesta johtuvan suhteen luotettavuuden (merkittävyyden) asteen. Jos laskettu arvo t. suurempi kuin taulukon arvo

t av , missä v - p - k - 1 on vapausasteiden lukumäärä, silloin hypoteesi, että tämä kerroin on tilastollisesti merkityksetön, hylätään todennäköisyydellä (100 - a)%. On olemassa erityisiä /-jakauman taulukoita, joiden avulla voidaan määrittää kriteerin kriittinen arvo annetulla merkitsevyystasolla a ja vapausasteiden lukumäärällä v. Yleisimmin käytetty a:n arvo on 5 %.

Monikollineaarisuus, eli tekijämuuttujien keskinäisten suhteiden vaikutus johtaa tarpeeseen tyytyä rajoitettuun määrään niitä. Jos tätä ei oteta huomioon, voit päätyä epäloogiseen regressiomalliin. Multikollineaarisuuden negatiivisen vaikutuksen välttämiseksi parin korrelaatiokertoimet lasketaan ennen moniregressiomallin rakentamista. rxjxj valittujen muuttujien välillä X. ja X

Tässä XjX; - kahden tekijämuuttujan tulon keskiarvo;

XjXj- kahden tekijämuuttujan keskiarvojen tulo;

Tekijämuuttujan x varianssin arviointi..

Kahden muuttujan katsotaan olevan regressiivisesti sukua (eli kollineaarista), jos niiden parikohtainen korrelaatiokerroin on ehdottomasti suurempi kuin 0,8 absoluuttisena arvona. Tässä tapauksessa mikä tahansa näistä muuttujista on jätettävä huomioimatta.

Laajentaakseen syntyneiden regressiomallien taloudellisen analyysin mahdollisuuksia käytetään keskiarvoja elastisuuskertoimet, määräytyy kaavalla:

missä Xj- vastaavan tekijämuuttujan keskiarvo;

y - tuloksena olevan muuttujan keskiarvo; a i - vastaavan tekijämuuttujan regressiokerroin.

Elastisuuskerroin osoittaa kuinka monta prosenttia tuloksena olevan muuttujan arvo muuttuu keskimäärin, kun tekijämuuttuja muuttuu 1 % eli. kuinka tuloksena oleva muuttuja reagoi tekijämuuttujan muutokseen. Esimerkiksi kuinka neliöhinta m asunnon etäisyydellä kaupungin keskustasta.

Hyödyllinen tietyn regressiokertoimen merkityksen analysoinnin kannalta on arvio yksityinen määrityskerroin:

Tässä on arvio tuloksen varianssista

muuttuja. Tämä kerroin osoittaa kuinka monta prosenttia tuloksena olevan muuttujan vaihtelu selittyy regressioyhtälöön sisältyvän /:nnen tekijämuuttujan vaihtelulla.

  • Hedoniset ominaisuudet ovat esineen ominaisuuksia, jotka heijastavat sen hyödyllisiä (arvokkaita) ominaisuuksia ostajien ja myyjien näkökulmasta.

Regressio- ja korrelaatioanalyysi - tilastolliset tutkimusmenetelmät. Nämä ovat yleisimpiä tapoja osoittaa parametrin riippuvuus yhdestä tai useammasta riippumattomasta muuttujasta.

Seuraavassa tarkastelemme näitä kahta taloustieteilijöiden keskuudessa erittäin suosittua analyysiä konkreettisten käytännön esimerkkien avulla. Annamme myös esimerkin tulosten saamisesta, kun ne yhdistetään.

Regressioanalyysi Excelissä

Näyttää joidenkin arvojen (riippumaton, riippumaton) vaikutuksen riippuvaan muuttujaan. Esimerkiksi kuinka taloudellisesti aktiivisen väestön määrä riippuu yritysten lukumäärästä, palkoista ja muista parametreistä. Tai: miten ulkomaiset sijoitukset, energian hinnat jne. vaikuttavat BKT:n tasoon.

Analyysin tulos antaa sinun priorisoida. Ja päätekijöiden perusteella ennustaa, suunnitella painopistealueiden kehitystä, tehdä johtamispäätöksiä.

Regressio tapahtuu:

  • lineaarinen (y = a + bx);
  • parabolinen (y = a + bx + cx 2);
  • eksponentiaalinen (y = a * exp(bx));
  • teho (y = a*x^b);
  • hyperbolinen (y = b/x + a);
  • logaritminen (y = b * 1n(x) + a);
  • eksponentiaalinen (y = a * b^x).

Harkitse esimerkkiä regressiomallin rakentamisesta Excelissä ja tulosten tulkitsemisesta. Otetaan lineaarinen regressiotyyppi.

Tehtävä. Kuudessa yrityksessä analysoitiin keskimääräinen kuukausipalkka ja lähteneiden työntekijöiden määrä. On tarpeen määrittää eläkkeellä olevien työntekijöiden lukumäärän riippuvuus keskipalkasta.

Lineaarisella regressiomallilla on seuraava muoto:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Missä a ovat regressiokertoimet, x ovat vaikuttavia muuttujia ja k on tekijöiden lukumäärä.

Esimerkissämme Y on irtisanoutuneiden työntekijöiden indikaattori. Vaikuttava tekijä on palkat (x).

Excelissä on sisäänrakennettuja funktioita, joiden avulla voidaan laskea lineaarisen regressiomallin parametreja. Mutta Analysis ToolPak -apuohjelma tekee sen nopeammin.

Aktivoi tehokas analyyttinen työkalu:

Kun lisäosa on aktivoitu, se on käytettävissä Tiedot-välilehdessä.

Nyt käsittelemme suoraan regressioanalyysiä.



Ensinnäkin kiinnitämme huomiota R-neliöön ja kertoimiin.

R-neliö on determinaatiokerroin. Esimerkissämme se on 0,755 tai 75,5 %. Tämä tarkoittaa, että mallin lasketut parametrit selittävät tutkittujen parametrien välisen suhteen 75,5 %:lla. Mitä suurempi determinaatiokerroin, sitä parempi malli. Hyvä - yli 0,8. Huono - alle 0,5 (tällaista analyysiä tuskin voidaan pitää järkevänä). Esimerkissämme - "ei paha".

Kerroin 64,1428 osoittaa, mikä Y on, jos kaikki tarkasteltavan mallin muuttujat ovat yhtä suuret kuin 0. Eli myös muut tekijät, joita ei ole kuvattu mallissa, vaikuttavat analysoitavan parametrin arvoon.

Kerroin -0,16285 osoittaa muuttujan X painon Y:ssä. Eli keskimääräinen kuukausipalkka tässä mallissa vaikuttaa lopettaneiden määrään painolla -0,16285 (tämä on vähäinen vaikutus). "-"-merkki tarkoittaa negatiivista vaikutusta: mitä korkeampi palkka, sitä vähemmän lopettaa. Mikä on reilua.



Korrelaatioanalyysi Excelissä

Korrelaatioanalyysi auttaa selvittämään, onko indikaattoreiden välillä suhdetta yhdessä vai kahdessa otoksessa. Esimerkiksi koneen käyttöajan ja korjauskustannusten välillä, laitteiden hinta ja käyttöaika, lasten pituus ja paino jne.

Jos suhde on olemassa, niin johtaako yhden parametrin kasvu toisen parametrin nousuun (positiivinen korrelaatio) vai laskuun (negatiivinen). Korrelaatioanalyysi auttaa analyytikkoa määrittämään, voidaanko yhden indikaattorin arvoa käyttää toisen mahdollisen arvon ennustamiseen.

Korrelaatiokerroin on merkitty r:llä. Vaihtelee +1:stä -1:een. Korrelaatioiden luokittelu eri alueilla on erilainen. Kun kertoimen arvo on 0, näytteiden välillä ei ole lineaarista suhdetta.

Mieti, kuinka käyttää Exceliä korrelaatiokertoimen löytämiseen.

CORREL-funktiota käytetään parillisten kertoimien etsimiseen.

Tehtävä: Selvitä, onko sorvin käyttöajan ja sen ylläpitokustannusten välillä suhdetta.

Aseta kohdistin mihin tahansa soluun ja paina fx-painiketta.

  1. Valitse "Tilasto"-luokasta CORREL-toiminto.
  2. Argumentti "Matriisi 1" - ensimmäinen arvoalue - koneen aika: A2: A14.
  3. Argumentti "Array 2" - toinen arvoalue - korjauskustannukset: B2:B14. Napsauta OK.

Yhteystyypin määrittämiseksi sinun on tarkasteltava kertoimen absoluuttista lukumäärää (jokaisella toiminta-alalla on oma asteikko).

Useiden parametrien (yli 2) korrelaatioanalyysiin on kätevämpää käyttää "Data Analysis" -lisäosaa ("Analysis Package"). Luettelosta sinun on valittava korrelaatio ja määritettävä taulukko. Kaikki.

Tuloksena saadut kertoimet näytetään korrelaatiomatriisissa. Niinkuin tämä:

Korrelaatio-regressioanalyysi

Käytännössä näitä kahta tekniikkaa käytetään usein yhdessä.

Esimerkki:


Nyt regressioanalyysin tiedot ovat näkyvissä.

Mitä regressio on?

Tarkastellaan kahta jatkuvaa muuttujaa x=(x1, x2, .., xn), y=(y1, y2, ..., yn).

Laitetaan pisteet 2D-sironnadiagrammille ja sanotaan, että meillä on lineaarinen suhde jos data on likimääräinen suoralla viivalla.

Jos oletamme niin y riippuu x, ja muutokset y muutosten aiheuttama x, voimme määritellä regressioviivan (regressio y päällä x), joka kuvaa parhaiten näiden kahden muuttujan välistä suoraviivaista suhdetta.

Sanan "regressio" tilastollinen käyttö tulee ilmiöstä, joka tunnetaan nimellä regressio keskiarvoon ja jonka syynä on Sir Francis Galton (1889).

Hän osoitti, että vaikka pitkillä isillä on yleensä pitkiä poikia, poikien keskipituus on pienempi kuin pitkien isien. Poikien keskipituus "taantui" ja "siirtyi takaisin" väestön kaikkien isien keskipituuteen. Näin ollen pitkillä isillä on keskimäärin lyhyempiä (mutta silti pitkiä) poikia ja lyhyillä isillä on pitkiä (mutta silti melko lyhyitä) poikia.

regressioviiva

Matemaattinen yhtälö, joka arvioi yksinkertaisen (parittaisen) lineaarisen regressioviivan:

x kutsutaan riippumattomaksi muuttujaksi tai ennustajaksi.

Y on riippuvainen tai vastemuuttuja. Tämä on arvo, jota odotamme y(keskimäärin), jos tiedämme arvon x, eli on ennustettu arvo y»

  • a- arviointilinjan vapaa jäsen (ylitys); tämä arvo Y, kun x=0(Kuva 1).
  • b- arvioidun viivan kaltevuus tai kaltevuus; se on määrä, jolla Y kasvaa keskimäärin, jos lisäämme x yhdelle yksikölle.
  • a ja b kutsutaan estimoidun suoran regressiokertoimiksi, vaikka tätä termiä käytetään usein vain b.

Pariittainen lineaarinen regressio voidaan laajentaa sisältämään useamman kuin yhden riippumattoman muuttujan; tässä tapauksessa se tunnetaan nimellä moninkertainen regressio.

Kuva 1. Lineaarinen regressioviiva, joka näyttää a:n ja kaltevuuden b leikkauskohdan (Y:n kasvun määrä, kun x kasvaa yhdellä yksiköllä)

Pienimmän neliön menetelmä

Suoritamme regressioanalyysin käyttämällä havaintojen otosta, jossa a ja b- otosestimaatit todellisista (yleisistä) parametreista α ja β , jotka määrittävät lineaarisen regressiolinjan populaatiossa (yleinen populaatio).

Yksinkertaisin menetelmä kertoimien määrittämiseksi a ja b on pienimmän neliösumman menetelmä(MNK).

Sopivuus arvioidaan ottamalla huomioon residuaalit (kunkin pisteen pystysuora etäisyys viivasta, esim. jäännös = havaittavissa y-ennustettu y, Riisi. 2).

Sopiva rivi valitaan siten, että jäännösten neliöiden summa on minimaalinen.

Riisi. 2. Lineaarinen regressioviiva, jossa on kuvattu jäännös (pystysuorat katkoviivat) jokaiselle pisteelle.

Lineaariset regressiooletukset

Jokaisen havaitun arvon residuaali on siis yhtä suuri kuin erotus ja vastaava ennustettu arvo.Jokainen jäännös voi olla positiivinen tai negatiivinen.

Voit käyttää residuaaleja testataksesi seuraavia lineaarisen regression taustalla olevia oletuksia:

  • Residuaalit jakautuvat normaalisti nollakeskiarvolla;

Jos oletukset lineaarisuudesta, normaalisuudesta ja/tai vakiovarianssista ovat kyseenalaisia, voidaan muuntaa tai laskea uusi regressiosuora, jolle nämä oletukset täyttyvät (esim. käyttää logaritmista muunnosa jne.).

Epänormaalit arvot (outliers) ja vaikutuspisteet

"Vaikuttava" havainto, jos se jätetään pois, muuttaa yhtä tai useampaa mallin parametriarviota (eli kaltevuutta tai leikkauskohtaa).

Poikkeusarvo (havainto, joka on ristiriidassa useimpien tietojoukon arvojen kanssa) voi olla "vaikuttava" havainto, ja se voidaan havaita hyvin visuaalisesti, kun tarkastellaan 2D-sirontakuvaa tai jäännösdiagrammia.

Sekä poikkeaville että "vaikuttaville" havainnoille (pisteille) käytetään malleja, sekä niiden sisällyttämisessä että ilman niitä, huomioi estimaatin muutos (regressiokertoimet).

Kun teet analyysiä, älä hylkää automaattisesti poikkeamia tai vaikutuspisteitä, koska niiden huomioimatta jättäminen voi vaikuttaa tuloksiin. Tutki aina näiden poikkeamien syitä ja analysoi ne.

Lineaarisen regression hypoteesi

Lineaarista regressiota muodostettaessa nollahypoteesi tarkistetaan, että regressioviivan β yleinen jyrkkyys on yhtä suuri kuin nolla.

Jos suoran kaltevuus on nolla, ja välillä ei ole lineaarista suhdetta: muutos ei vaikuta

Voit testata nollahypoteesia, että todellinen kaltevuus on nolla, käyttämällä seuraavaa algoritmia:

Laske testitilasto, joka on yhtä suuri kuin suhde , joka noudattaa vapausasteiden jakaumaa, jossa kertoimen keskivirhe


,

- jäännösten varianssin estimointi.

Yleensä, jos saavutettu merkitsevyystaso on nollahypoteesi, hylätään.


missä on prosenttipiste vapausasteiden jakaumasta, joka antaa kaksisuuntaisen testin todennäköisyyden

Tämä on väli, joka sisältää yleisen kaltevuuden todennäköisyydellä 95%.

Oletetaan, että suurille näytteille voimme tehdä likiarvon arvolla 1,96 (eli testitilasto on yleensä jakautunut normaalisti)

Lineaarisen regression laadun arviointi: determinaatiokerroin R 2

Lineaarisen suhteen takia ja odotamme sen muuttuvan muutoksina , ja kutsumme tätä vaihteluksi, joka johtuu regressiosta tai selittää sen. Jäännösvaihtelun tulee olla mahdollisimman pieni.

Jos näin on, suurin osa vaihtelusta selittyy regressiolla ja pisteet ovat lähellä regressioviivaa, ts. rivi sopii hyvin dataan.

Regression selittämää osuutta kokonaisvarianssista kutsutaan määrityskerroin, ilmaistaan ​​yleensä prosentteina ja merkitään R2(paritetussa lineaarisessa regressiossa tämä on arvo r2, korrelaatiokertoimen neliö), voit arvioida subjektiivisesti regressioyhtälön laatua.

Ero on se varianssiprosentti, jota ei voida selittää regressiolla.

Koska arvioitavaa ei ole muodollista testiä, meidän on pakko luottaa subjektiiviseen harkintaan määrittääksemme regressioviivan sovituksen laadun.

Regressiosuoran käyttäminen ennusteeseen

Voit käyttää regressioviivaa ennustamaan arvon havaitulla alueella olevasta arvosta (älä koskaan ekstrapoloi näiden rajojen yli).

Ennustamme keskiarvon havainnoitaville kohteille, joilla on tietty arvo, korvaamalla tämä arvo regressioviivayhtälöön.

Joten jos ennustaa kuten Käytämme tätä ennustettua arvoa ja sen keskivirhettä arvioidaksemme todellisen populaation keskiarvon luottamusvälin.

Toistamalla tämän toimenpiteen eri arvoille voit rakentaa luottamusrajoja tälle riville. Tämä on vyöhyke tai alue, joka sisältää esimerkiksi todellisen viivan 95 %:n luottamustasolla.

Yksinkertaiset regressiosuunnitelmat

Yksinkertaiset regressiomallit sisältävät yhden jatkuvan ennustajan. Jos ennustearvoilla P on 3 tapausta, kuten 7, 4 ja 9, ja suunnittelu sisältää ensimmäisen kertaluvun efektin P, niin suunnittelumatriisi X on

ja regressioyhtälö, jossa käytetään P:tä X1:lle, näyttää tältä

Y = b0 + b1 P

Jos yksinkertainen regressiomalli sisältää korkeamman kertaluvun vaikutuksen P:hen, kuten neliövaikutuksen, niin suunnittelumatriisin sarakkeen X1 arvot nostetaan toiseen potenssiin:

ja yhtälö saa muodon

Y = b0 + b1 P2

Sigmarajoitettuja ja yliparametreja koodausmenetelmiä ei voida soveltaa yksinkertaisiin regressiosuunnitelmiin ja muihin malleihin, jotka sisältävät vain jatkuvia ennustajia (koska kategorisia ennustajia ei yksinkertaisesti ole). Valitusta koodausmenetelmästä riippumatta jatkuvien muuttujien arvoja kasvatetaan sopivalla teholla ja niitä käytetään X-muuttujien arvoina. Tässä tapauksessa muuntamista ei tehdä. Lisäksi regressiosuunnitelmia kuvattaessa voit jättää huomioimatta suunnitelmamatriisin X ja työskennellä vain regressioyhtälön kanssa.

Esimerkki: Yksinkertainen regressioanalyysi

Tässä esimerkissä käytetään taulukon tietoja:

Riisi. 3. Taulukko lähtötiedoista.

Tiedot perustuvat vuosien 1960 ja 1970 väestönlaskennan vertailuun 30 satunnaisesti valitussa läänissä. Maakuntien nimet esitetään havaintoniminä. Alla on tiedot kustakin muuttujasta:

Riisi. 4. Muuttujamäärittelytaulukko.

Tutkimuksen tavoite

Tässä esimerkissä analysoidaan köyhyysasteen ja köyhyysrajan alapuolella olevien perheiden prosenttiosuuden ennustavan voiman välistä korrelaatiota. Siksi käsittelemme muuttujaa 3 (Pt_Poor ) riippuvaisena muuttujana.

Voidaan esittää hypoteesi: väestönmuutos ja köyhyysrajan alapuolella olevien perheiden prosenttiosuus liittyvät toisiinsa. Vaikuttaa kohtuulliselta olettaa, että köyhyys johtaa väestön ulosvirtaukseen, joten köyhyysrajan alapuolella olevien ihmisten prosenttiosuuden ja väestönmuutoksen välillä olisi negatiivinen korrelaatio. Siksi käsittelemme muuttujaa 1 (Pop_Chng ) ennustajamuuttujana.

Näytä tulokset

Regressiokertoimet

Riisi. 5. Regressiokertoimet Pt_Poor kohdassa Pop_Chng.

Pop_Chng-rivin ja Param risteyksessä. standardoimaton kerroin Pt_Poor:n regressiolle Pop_Chng:lla on -0,40374. Tämä tarkoittaa, että jokaista väestönvähennystä kohden köyhyysaste nousee 0,40374. Tämän standardoimattoman kertoimen ylempi ja alempi (oletus) 95 %:n luottamusraja eivät sisällä nollaa, joten regressiokerroin on merkittävä p-tasolla<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Muuttujien jakautuminen

Korrelaatiokertoimet voivat tulla merkittävästi yli- tai aliarvioituiksi, jos tiedoissa on suuria poikkeavuuksia. Tarkastellaan riippuvan muuttujan Pt_Poor jakautumista maakuntien mukaan. Tätä varten rakennamme Pt_Poor-muuttujan histogrammin.

Riisi. 6. Pt_Poor-muuttujan histogrammi.

Kuten näet, tämän muuttujan jakauma poikkeaa huomattavasti normaalijakaumasta. Vaikka jopa kahdessa läänissä (kaksi oikeaa saraketta) on suurempi prosenttiosuus perheistä, jotka ovat köyhyysrajan alapuolella kuin normaalijakaumassa odotetaan, ne näyttävät olevan "alueen sisällä".

Riisi. 7. Pt_Poor-muuttujan histogrammi.

Tämä tuomio on hieman subjektiivinen. Nyrkkisääntönä on, että poikkeamat tulee ottaa huomioon, jos havainto (tai havainnot) ei osu väliin (keskiarvo ± 3 kertaa standardipoikkeama). Tässä tapauksessa analyysi kannattaa toistaa poikkeavuuksien kanssa ja ilman, jotta voidaan varmistaa, että niillä ei ole vakavaa vaikutusta väestön jäsenten väliseen korrelaatioon.

Sirontakaavio

Jos jokin hypoteeseista on a priori koskien annettujen muuttujien välistä suhdetta, niin se kannattaa tarkistaa vastaavan sirontakaavion käyrältä.

Riisi. 8. Sirontakaavio.

Sirontakaavio osoittaa selkeän negatiivisen korrelaation (-.65) näiden kahden muuttujan välillä. Se näyttää myös 95 %:n luottamusvälin regressioviivalle, eli 95 %:n todennäköisyydellä regressioviiva kulkee kahden katkoviivakäyrän välillä.

Merkityskriteerit

Riisi. 9. Taulukko, joka sisältää merkittävyyskriteerit.

Pop_Chng-regressiokertoimen testi vahvistaa, että Pop_Chng liittyy vahvasti Pt_Poor, p<.001 .

Tulokset

Tämä esimerkki osoitti, kuinka yksinkertainen regressiosuunnitelma analysoidaan. Esitettiin myös tulkinta standardoimattomista ja standardoiduista regressiokertoimista. Riippuvan muuttujan vastejakauman tutkimisen tärkeydestä keskustellaan ja tekniikkaa ennustajan ja riippuvan muuttujan välisen suhteen suunnan ja voimakkuuden määrittämiseksi.