Esimerkki regressioanalyysistä. Taantumisanalyysi

Regressioanalyysin pääominaisuus on, että sen avulla voidaan saada täsmällistä tietoa tutkittavien muuttujien välisen suhteen muodosta ja luonteesta.

Regressioanalyysin vaiheiden järjestys

Tarkastellaanpa lyhyesti regressioanalyysin vaiheita.

    Tehtävän muotoilu. Tässä vaiheessa muodostuu alustavia hypoteeseja tutkittujen ilmiöiden riippuvuudesta.

    Riippuvien ja riippumattomien (selittävien) muuttujien määrittely.

    Tilastotietojen kerääminen. Tiedot on kerättävä jokaisesta regressiomalliin sisältyvästä muuttujasta.

    Hypoteesin muotoileminen yhteyden muodosta (yksinkertainen tai moninkertainen, lineaarinen tai epälineaarinen).

    Määritelmä regressiofunktiot (koostuu regressioyhtälön parametrien numeeristen arvojen laskemisesta)

    Regressioanalyysin tarkkuuden arviointi.

    Saatujen tulosten tulkinta. Regressioanalyysin tuloksia verrataan alustaviin hypoteeseihin. Saatujen tulosten oikeellisuus ja uskottavuus arvioidaan.

    Riippuvan muuttujan tuntemattomien arvojen ennustus.

Regressioanalyysin avulla on mahdollista ratkaista ennustamisen ja luokittelun ongelma. Ennustavat arvot lasketaan korvaamalla selittävien muuttujien arvot regressioyhtälöön. Luokitteluongelma ratkaistaan ​​näin: regressioviiva jakaa koko objektijoukon kahteen luokkaan ja se osa joukosta, jossa funktion arvo on suurempi kuin nolla, kuuluu yhteen luokkaan ja se osa, jossa se on pienempi. kuin nolla kuuluu toiseen luokkaan.

Regressioanalyysin tehtävät

Harkitse regressioanalyysin päätehtäviä: riippuvuuden muodon määrittäminen, määrittäminen regressiofunktiot, arvio riippuvan muuttujan tuntemattomista arvoista.

Riippuvuuden muodon määrittäminen.

Muuttujien välisen suhteen luonne ja muoto voivat muodostaa seuraavan tyyppisiä regressioita:

    positiivinen lineaarinen regressio (ilmaistuna funktion tasaisena kasvuna);

    positiivinen tasaisesti kiihtyvä regressio;

    positiivinen tasaisesti kasvava regressio;

    negatiivinen lineaarinen regressio (ilmaistuna funktion tasaisena pudotuksena);

    negatiivinen tasaisesti kiihtynyt laskeva regressio;

    negatiivinen tasaisesti laskeva regressio.

Kuvattuja lajikkeita ei kuitenkaan yleensä löydy puhtaassa muodossa, vaan yhdistelmänä keskenään. Tässä tapauksessa puhutaan yhdistetyistä regression muodoista.

Regressiofunktion määritelmä.

Toinen tehtävä on määrittää päätekijöiden tai syiden vaikutus riippuvaan muuttujaan kaikkien muiden asioiden ollessa yhtäläisiä ja satunnaiselementtien riippuvaiseen muuttujaan kohdistuva vaikutus poissuljettu. regressiofunktio määritellään jonkin tyyppiseksi matemaattiseksi yhtälöksi.

Riippuvan muuttujan tuntemattomien arvojen estimointi.

Tämän ongelman ratkaisu rajoittuu yhden seuraavan tyyppisen ongelman ratkaisemiseen:

    Riippuvan muuttujan arvojen estimointi lähtötietojen tarkasteluvälillä, ts. puuttuvat arvot; tämä ratkaisee interpolointiongelman.

    Arvioimalla riippuvaisen muuttujan tulevaisuuden arvot, ts. arvojen löytäminen lähtötietojen tietyn aikavälin ulkopuolelta; tämä ratkaisee ekstrapolointiongelman.

Molemmat ongelmat ratkaistaan ​​korvaamalla löydetyt estimaatit riippumattomien muuttujien arvojen parametreista regressioyhtälöön. Yhtälön ratkaisun tulos on estimaatti kohdemuuttujan (riippuvaisen) arvosta.

Katsotaanpa joitain oletuksia, joihin regressioanalyysi perustuu.

Lineaarisuusoletus, ts. oletetaan, että tarkasteltavien muuttujien välinen suhde on lineaarinen. Joten tässä esimerkissä rakensimme sirontakaavion ja pystyimme näkemään selkeän lineaarisen suhteen. Jos muuttujien sirontakaaviossa näemme selkeän lineaarisen suhteen puuttumisen, ts. on epälineaarinen suhde, ei-lineaarisia analyysimenetelmiä tulisi käyttää.

Normaalioletus jäämiä. Se olettaa, että ennustettujen ja havaittujen arvojen eron jakautuminen on normaali. Voit määrittää jakauman luonteen visuaalisesti käyttämällä histogrammeja jäämiä.

Regressioanalyysiä käytettäessä tulee ottaa huomioon sen tärkein rajoitus. Se koostuu siitä, että regressioanalyysin avulla voit havaita vain riippuvuudet, ei näiden riippuvuuksien taustalla olevia suhteita.

Regressioanalyysi mahdollistaa muuttujien välisen assosiaatioasteen arvioimisen laskemalla muuttujan odotusarvo useiden tunnettujen arvojen perusteella.

Regressioyhtälö.

Regressioyhtälö näyttää tältä: Y=a+b*X

Tätä yhtälöä käyttämällä muuttuja Y ilmaistaan ​​vakiona a ja suoran (tai jyrkkyyden) b kaltevuus kerrottuna muuttujan X arvolla. Vakiota a kutsutaan myös leikkauspisteeksi ja kulmakerroin on regressio. kerroin tai B-kerroin.

Useimmissa tapauksissa (ellei aina) regressioviivaa koskevissa havainnoissa on tietty hajonta.

Loput on yksittäisen pisteen (havainnon) poikkeama regressioviivasta (ennustettu arvo).

Voit ratkaista regressioanalyysin ongelman MS Excelissä valitsemalla valikosta Palvelu"Analyysipaketti" ja regressioanalyysityökalu. Määritä X- ja Y-syöttövälit. Y-syöttöväli on analysoitavien riippuvaisten tietojen alue, ja sen tulee sisältää yksi sarake. Syöttöväli X on analysoitavien riippumattomien tietojen alue. Syöttöalueiden määrä ei saa ylittää 16:ta.

Proseduurin ulostulossa lähtöalueella saamme raportin, joka on annettu taulukko 8.3a-8.3v.

TULOKSET

Taulukko 8.3a. Regressiotilastot

Regressiotilastot

Useita R

R-neliö

Normalisoitu R-neliö

standardivirhe

Havainnot

Harkitse ensin kohdassa esitettyjen laskelmien yläosaa taulukko 8.3a, - regressiotilastot.

Arvo R-neliö, jota kutsutaan myös varmuuden mittaksi, luonnehtii tuloksena olevan regressioviivan laatua. Tämä laatu ilmaistaan ​​alkuperäisen datan ja regressiomallin (laskettujen tietojen) välisen vastaavuuden asteena. Varmuuden mitta on aina intervallin sisällä.

Useimmissa tapauksissa arvo R-neliö on näiden arvojen välissä, nimeltään äärimmäinen, ts. nollan ja yhden välillä.

Jos arvo R-neliö lähellä yhtenäisyyttä, tämä tarkoittaa, että rakennettu malli selittää lähes kaiken vastaavien muuttujien vaihtelun. Päinvastoin, arvo R-neliö, lähellä nollaa, tarkoittaa rakennetun mallin huonoa laatua.

Esimerkissämme varmuuden mitta on 0,99673, mikä osoittaa regressioviivan erittäin hyvän sovituksen alkuperäiseen dataan.

monikko R - moninkertaisen korrelaation kerroin R - ilmaisee riippumattomien muuttujien (X) ja riippuvaisen muuttujan (Y) riippuvuuden asteen.

Useita R yhtä suuri kuin determinaatiokertoimen neliöjuuri, tämä arvo ottaa arvot välillä nollasta yhteen.

Yksinkertaisessa lineaarisessa regressioanalyysissä monikko R yhtä suuri kuin Pearsonin korrelaatiokerroin. Todella, monikko R meidän tapauksessamme se on yhtä suuri kuin edellisen esimerkin Pearson-korrelaatiokerroin (0,998364).

Taulukko 8.3b. Regressiokertoimet

Kertoimet

standardivirhe

t-tilasto

Y-risteys

Muuttuja X 1

* Laskelmien lyhennetty versio on annettu

Harkitse nyt esitettyjen laskelmien keskiosaa taulukko 8.3b. Tässä on annettu regressiokerroin b (2,305454545) ja poikkeama y-akselia pitkin, ts. vakio a (2,694545455).

Laskelmien perusteella voimme kirjoittaa regressioyhtälön seuraavasti:

Y= x*2,305454545+2,694545455

Muuttujien välisen suhteen suunta määräytyy regressiokertoimien (kerroin b) etumerkkien (negatiivinen tai positiivinen) perusteella.

Jos regressiokertoimen etumerkki on positiivinen, riippuvan muuttujan ja riippumattoman muuttujan välinen suhde on positiivinen. Meidän tapauksessamme regressiokertoimen etumerkki on positiivinen, joten myös suhde on positiivinen.

Jos regressiokertoimen etumerkki on negatiivinen, riippuvan muuttujan ja riippumattoman muuttujan välinen suhde on negatiivinen (käänteinen).

AT taulukko 8.3c. tuotostulokset esitetään jäämiä. Jotta nämä tulokset näkyisivät raportissa, on "Regressio"-työkalua käynnistettäessä aktivoitava "Jäännöt" -valintaruutu.

JÄLJELLÄ PERUUTTAMINEN

Taulukko 8.3c. Jäännökset

Havainto

Ennustettu Y

Jäännökset

Vakiosaldot

Raportin tätä osaa käyttämällä voimme nähdä kunkin pisteen poikkeamat rakennetusta regressioviivasta. Suurin itseisarvo loput meidän tapauksessamme - 0,778, pienin - 0,043. Näiden tietojen paremman tulkinnan vuoksi käytämme alkuperäisen datan kaaviota ja muodostettua regressioviivaa, joka on esitetty kuvassa 1. riisi. 8.3. Kuten näet, regressioviiva on melko tarkasti "sovitettu" alkuperäisten tietojen arvoihin.

On otettava huomioon, että tarkasteltava esimerkki on melko yksinkertainen ja lineaarista regressiosuoraa ei läheskään aina ole mahdollista rakentaa kvalitatiivisesti.

Riisi. 8.3 Alkutiedot ja regressioviiva

Ongelma riippumattoman muuttujan tuntemattomien tulevaisuuden arvojen estimoinnissa riippumattoman muuttujan tunnettujen arvojen perusteella jäi huomioimatta, ts. ennustetehtävä.

Kun käytössä on regressioyhtälö, ennusteongelma pelkistetään yhtälön Y= x*2,305454545+2,694545455 ratkaisemiseksi tunnetuilla x:n arvoilla. Tulokset riippuvan muuttujan Y ennustamisesta kuusi askelta eteenpäin esitetään taulukossa 8.4.

Taulukko 8.4. Y-muuttujan ennustustulokset

Y (ennustettu)

Näin ollen Microsoft Excel -paketin regressioanalyysin käytön seurauksena:

    rakensi regressioyhtälön;

    vahvistettiin riippuvuuden muoto ja muuttujien välisen suhteen suunta - positiivinen lineaarinen regressio, joka ilmaistaan ​​funktion tasaisena kasvuna;

    määritti muuttujien välisen suhteen suunnan;

    arvioi tuloksena olevan regressioviivan laadun;

    pystyivät näkemään laskettujen tietojen poikkeamat alkuperäisen joukon tiedoista;

    ennusti riippuvan muuttujan tulevat arvot.

Jos regressiofunktio on määritelty, tulkittu ja perusteltu ja regressioanalyysin tarkkuuden arviointi täyttää vaatimukset, voidaan olettaa, että muodostettu malli ja ennustearvot ovat riittävän luotettavia.

Tällä tavalla saadut ennustetut arvot ovat keskiarvoja, jotka voidaan odottaa.

Tässä artikkelissa käytiin läpi tärkeimmät ominaisuudet kuvailevia tilastoja ja niiden joukossa sellaiset käsitteet kuin tarkoittaa,mediaani,enimmäismäärä,minimi ja muut tietojen vaihtelun ominaisuudet.

Konseptista käytiin myös lyhyt keskustelu päästöt. Käsitellyt ominaisuudet viittaavat ns. tutkivaan data-analyysiin, jonka johtopäätökset eivät välttämättä päde yleiseen perusjoukkoon, vaan vain otokseen. Tutkivaa data-analyysiä käytetään peruspäätelmien ja hypoteesien muodostamiseen väestöstä.

Lisäksi pohdittiin korrelaatio- ja regressioanalyysin perusteita, tehtäviä ja käytännön käyttömahdollisuuksia.

Regressioanalyysi on menetelmä tutkittujen piirteiden välisen stokastisen suhteen analyyttisen ilmaisun muodostamiseksi. Regressioyhtälö näyttää, kuinka keskimäärin muuttuu klo kun muutat mitä tahansa x i , ja näyttää tältä:

missä y - riippuva muuttuja (se on aina yksi);

X i - riippumattomia muuttujia (tekijöitä) (niitä voi olla useita).

Jos on vain yksi riippumaton muuttuja, tämä on yksinkertainen regressioanalyysi. Jos niitä on useita P 2), silloin tällaista analyysiä kutsutaan monimuuttujaksi.

Regressioanalyysin aikana ratkaistaan ​​kaksi päätehtävää:

    regressioyhtälön rakentaminen, ts. tulosindikaattorin ja riippumattomien tekijöiden välisen suhteen tyypin löytäminen x 1 , x 2 , …, x n .

    tuloksena olevan yhtälön merkityksen arviointi, ts. sen määrittäminen, kuinka paljon valitut tekijäominaisuudet selittävät ominaisuuden vaihtelun y.

Regressioanalyysiä käytetään pääasiassa suunnitteluun sekä sääntelykehyksen kehittämiseen.

Toisin kuin korrelaatioanalyysi, joka vastaa vain kysymykseen, onko analysoitujen piirteiden välillä suhdetta, regressioanalyysi antaa myös formalisoidun ilmaisunsa. Lisäksi jos korrelaatioanalyysissä tutkitaan mitä tahansa tekijöiden yhteyttä, niin regressioanalyysissä tutkitaan yksipuolista riippuvuutta, ts. yhteys, joka näyttää kuinka tekijämerkkien muutos vaikuttaa tuloksena olevaan etumerkkiin.

Regressioanalyysi on yksi kehittyneimmistä matemaattisten tilastojen menetelmistä. Tarkkaan ottaen regressioanalyysin toteuttaminen edellyttää useiden erityisvaatimusten täyttämistä (erityisesti x l ,x 2 ,...,x n ;y on oltava riippumattomia, normaalijakautuneita satunnaismuuttujia, joilla on vakiovarianssi). Tosielämässä regressio- ja korrelaatioanalyysin vaatimusten tiukka noudattaminen on hyvin harvinaista, mutta molemmat menetelmät ovat hyvin yleisiä taloustutkimuksessa. Talouden riippuvuudet voivat olla paitsi suoria, myös käänteisiä ja epälineaarisia. Regressiomalli voidaan rakentaa minkä tahansa riippuvuuden läsnä ollessa, mutta monimuuttujaanalyysissä käytetään vain muodon lineaarisia malleja:

Regressioyhtälön rakentaminen suoritetaan pääsääntöisesti pienimmän neliösumman menetelmällä, jonka ydin on minimoida tuloksena olevan attribuutin todellisten arvojen neliöpoikkeamien summa sen lasketuista arvoista, eli:

missä t - havaintojen määrä;

j =a+b 1 x 1 j +b 2 x 2 j + ... + b n X n j - tulostekijän laskettu arvo.

Regressiokertoimet suositellaan määritettäväksi käyttämällä henkilökohtaisen tietokoneen analyyttisiä paketteja tai erityistä talouslaskinta. Yksinkertaisimmassa tapauksessa muotoisen yksitekijäisen lineaarisen regressioyhtälön regressiokertoimet y = a + bx löytyy käyttämällä kaavoja:

ryhmäanalyysi

Klusterianalyysi on yksi monimuuttuja-analyysin menetelmistä, joka on suunniteltu ryhmittelemään (klusteroimaan) populaatiota, jonka elementeille on tunnusomaista monet piirteet. Kunkin ominaisuuden arvot toimivat tutkitun populaation kunkin yksikön koordinaatteina moniulotteisessa ominaisuusavaruudessa. Jokainen havainto, jolle on tunnusomaista useiden indikaattoreiden arvot, voidaan esittää pisteenä näiden indikaattoreiden avaruudessa, joiden arvoja pidetään koordinaatteina moniulotteisessa avaruudessa. Pisteiden välinen etäisyys R ja q Kanssa k koordinaatit määritellään seuraavasti:

Klusteroinnin pääkriteeri on, että klustereiden väliset erot ovat merkittävämpiä kuin samaan klusteriin kohdistettujen havaintojen välillä, ts. moniulotteisessa avaruudessa on huomioitava epäyhtälö:

missä r 1, 2 - klustereiden 1 ja 2 välinen etäisyys.

Regressioanalyysimenetelmien ohella klusterointi on melko työlästä, ja se kannattaa suorittaa tietokoneella.

Opintojensa aikana opiskelijat kohtaavat hyvin usein erilaisia ​​yhtälöitä. Yhtä niistä - regressioyhtälöä - tarkastellaan tässä artikkelissa. Tämän tyyppistä yhtälöä käytetään erityisesti kuvaamaan matemaattisten parametrien välisen suhteen ominaisuuksia. Tämän tyyppistä tasa-arvoa käytetään tilastoissa ja ekonometriassa.

Regression määritelmä

Matematiikassa regressio ymmärretään tietyksi suureksi, joka kuvaa tietojoukon keskiarvon riippuvuutta toisen suuren arvoista. Regressioyhtälö näyttää tietyn piirteen funktiona toisen piirteen keskiarvon. Regressiofunktiolla on yksinkertainen yhtälö y \u003d x, jossa y toimii riippuvaisena muuttujana ja x on riippumaton muuttuja (ominaisuustekijä). Itse asiassa regressio ilmaistaan ​​muodossa y = f (x).

Mitkä ovat muuttujien väliset suhteet

Yleensä erotetaan kaksi vastakkaista suhdetyyppiä: korrelaatio ja regressio.

Ensimmäiselle on ominaista ehdollisten muuttujien yhtäläisyys. Tässä tapauksessa ei tiedetä varmasti, mikä muuttuja riippuu toisesta.

Jos muuttujien välillä ei ole tasa-arvoa ja ehdot sanovat, mikä muuttuja on selittävä ja mikä riippuvainen, voidaan puhua toisen tyyppisen yhteyden olemassaolosta. Lineaarisen regressioyhtälön rakentamiseksi on tarpeen selvittää, minkä tyyppinen suhde havaitaan.

Regression tyypit

Tähän mennessä on olemassa 7 erilaista regressiotyyppiä: hyperbolinen, lineaarinen, moninkertainen, epälineaarinen, parillinen, käänteinen, logaritmisesti lineaarinen.

Hyperbolinen, lineaarinen ja logaritminen

Lineaarista regressioyhtälöä käytetään tilastoissa selittämään selkeästi yhtälön parametrit. Näyttää siltä, ​​että y = c + m * x + E. Hyperbolinen yhtälö on muodoltaan säännöllinen hyperbola y \u003d c + m / x + E. Logaritmisesti lineaarinen yhtälö ilmaisee suhteen logaritmisen funktion avulla: In y \u003d In c + m * In x + In E.

Useita ja epälineaarisia

Kaksi monimutkaisempaa regressiotyyppiä ovat useat ja epälineaariset. Moninkertainen regressioyhtälö ilmaistaan ​​funktiolla y \u003d f (x 1, x 2 ... x c) + E. Tässä tilanteessa y on riippuva muuttuja ja x on selittävä muuttuja. Muuttuja E on stokastinen ja sisältää muiden tekijöiden vaikutuksen yhtälöön. Epälineaarinen regressioyhtälö on hieman epäjohdonmukainen. Toisaalta huomioon otettujen indikaattoreiden osalta se ei ole lineaarinen, ja toisaalta indikaattoreiden arvioinnin roolissa se on lineaarinen.

Käänteinen ja parillinen regressio

Käänteisfunktio on eräänlainen funktio, joka on muutettava lineaariseen muotoon. Perinteisimmissä sovellusohjelmissa se on muodoltaan funktio y \u003d 1 / c + m * x + E. Parillinen regressioyhtälö näyttää tietojen välisen suhteen y = f(x) + E:n funktiona. Kuten muutkin yhtälöt, y riippuu x:stä ja E on stokastinen parametri.

Korrelaation käsite

Tämä on indikaattori, joka osoittaa kahden ilmiön tai prosessin välisen suhteen. Suhteen vahvuus ilmaistaan ​​korrelaatiokertoimena. Sen arvo vaihtelee [-1;+1] välillä. Negatiivinen indikaattori osoittaa palautteen olemassaolon, positiivinen indikaattori osoittaa suoraa. Jos kerroin saa arvon, joka on yhtä suuri kuin 0, suhdetta ei ole. Mitä lähempänä arvoa 1 - mitä vahvempi on parametrien välinen suhde, sitä lähempänä 0 - sitä heikompi.

menetelmät

Korrelaatioparametrisilla menetelmillä voidaan arvioida suhteen tiukkuutta. Niitä käytetään jakautumaestimaattien perusteella normaalijakauman lain mukaisten parametrien tutkimiseen.

Lineaarisen regressioyhtälön parametrit ovat tarpeen riippuvuuden tyypin, regressioyhtälön funktion tunnistamiseksi ja valitun suhdekaavan indikaattoreiden arvioimiseksi. Korrelaatiokenttää käytetään menetelmänä suhteen tunnistamiseen. Tätä varten kaikki olemassa olevat tiedot on esitettävä graafisesti. Suorakaiteen muotoisessa kaksiulotteisessa koordinaattijärjestelmässä kaikki tunnetut tiedot on piirrettävä. Näin muodostuu korrelaatiokenttä. Kuvaavan kertoimen arvo on merkitty abskissaa pitkin, kun taas riippuvaisen tekijän arvot on merkitty ordinaatta pitkin. Jos parametrien välillä on toiminnallinen suhde, ne asettuvat riviin.

Jos tällaisten tietojen korrelaatiokerroin on alle 30%, voimme puhua melkein täydellisestä yhteyden puuttumisesta. Jos se on 30 % ja 70 % välillä, tämä osoittaa keskitiiviiden linkkien olemassaolon. 100 %:n ilmaisin osoittaa toimivan yhteyden.

Epälineaarista regressioyhtälöä, kuten lineaarista, on täydennettävä korrelaatioindeksillä (R).

Korrelaatio moninkertaiselle regressiolle

Determinaatiokerroin on moninkertaisen korrelaation neliön indikaattori. Hän puhuu esitetyn indikaattorijoukon suhteen tiukkuudesta tutkittavaan piirteeseen. Se voi myös puhua parametrien vaikutuksen luonteesta tulokseen. Moniregressioyhtälö arvioidaan tällä indikaattorilla.

Monikorrelaatioindeksin laskemiseksi on tarpeen laskea sen indeksi.

Pienimmän neliön menetelmä

Tämä menetelmä on tapa arvioida regressiotekijöitä. Sen ydin on minimoida neliöityjen poikkeamien summa, joka saadaan kertoimen riippuvuudesta funktiosta.

Parillinen lineaarinen regressioyhtälö voidaan estimoida tällä menetelmällä. Tämän tyyppisiä yhtälöitä käytetään, kun havaitaan parillisen lineaarisen suhteen indikaattoreiden välillä.

Yhtälövaihtoehdot

Jokaisella lineaarisen regressiofunktion parametrilla on erityinen merkitys. Parillinen lineaarinen regressioyhtälö sisältää kaksi parametria: c ja m. Parametri t näyttää funktion y lopullisen indikaattorin keskimääräisen muutoksen, mikäli muuttuja x pienenee (lisää) yhdellä tavanomaisella yksiköllä. Jos muuttuja x on nolla, funktio on yhtä suuri kuin parametri c. Jos muuttuja x ei ole nolla, tekijällä c ei ole taloudellista järkeä. Ainoa vaikutus funktioon on tekijän c edessä oleva merkki. Jos on miinus, voimme sanoa tuloksen hitaasta muutoksesta tekijään verrattuna. Jos on plus, tämä tarkoittaa nopeutettua muutosta tuloksessa.

Jokainen parametri, joka muuttaa regressioyhtälön arvoa, voidaan ilmaista yhtälönä. Esimerkiksi tekijän c muoto on c = y - mx.

Ryhmitetty data

On olemassa sellaisia ​​​​tehtävän ehtoja, joissa kaikki tiedot ryhmitellään attribuutin x mukaan, mutta samalla tietylle ryhmälle ilmoitetaan riippuvan indikaattorin vastaavat keskiarvot. Tässä tapauksessa keskiarvot kuvaavat sitä, kuinka indikaattori riippuu x:stä. Siten ryhmitelty tieto auttaa löytämään regressioyhtälön. Sitä käytetään suhdeanalyysinä. Tällä menetelmällä on kuitenkin haittapuolensa. Valitettavasti keskiarvot ovat usein alttiina ulkoisille vaihteluille. Nämä vaihtelut eivät heijasta suhteen kaavoja, ne vain peittävät sen "melun". Keskiarvot osoittavat suhdekuvioita paljon huonommin kuin lineaarinen regressioyhtälö. Niitä voidaan kuitenkin käyttää perustana yhtälön löytämiseen. Kerromalla tietyn populaation koko vastaavalla keskiarvolla saat y:n summan ryhmän sisällä. Seuraavaksi sinun on tyrmättävä kaikki vastaanotetut määrät ja löydettävä lopullinen indikaattori y. Laskelmien tekeminen summaindikaattorilla xy on hieman vaikeampaa. Siinä tapauksessa, että välit ovat pienet, voimme ehdollisesti ottaa indikaattorin x kaikille yksiköille (ryhmän sisällä) samana. Kerro se y:n summalla saadaksesi x:n ja y:n tulojen summan. Lisäksi kaikki summat lyödään yhteen ja saadaan kokonaissumma xy.

Usean parin yhtälön regressio: Suhteen tärkeyden arviointi

Kuten aiemmin mainittiin, moninkertaisen regression funktio on muotoa y \u003d f (x 1, x 2, ..., x m) + E. Useimmiten tällaista yhtälöä käytetään ratkaisemaan tavaroiden kysynnän ja tarjonnan ongelma, takaisinostettujen osakkeiden korkotulot, tutkimaan tuotantokustannusfunktion syitä ja tyyppiä. Sitä käytetään myös aktiivisesti monenlaisissa makrotaloudellisissa tutkimuksissa ja laskelmissa, mutta mikrotalouden tasolla tätä yhtälöä käytetään hieman harvemmin.

Moninkertaisen regression päätehtävänä on rakentaa valtavan tietomäärän sisältävä tietomalli, jotta voidaan edelleen määrittää, mikä vaikutus kullakin tekijällä on yksittäin ja kokonaisuutena mallinnettavaan indikaattoriin ja sen kertoimiin. Regressioyhtälö voi saada useita arvoja. Tässä tapauksessa käytetään yleensä kahdenlaisia ​​funktioita arvioimaan suhdetta: lineaarista ja epälineaarista.

Lineaarinen funktio on kuvattu tällaisen suhteen muodossa: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. Tässä tapauksessa a2, a m katsotaan "puhtaan" regression kertoimille. Ne ovat välttämättömiä parametrin y keskimääräisen muutoksen karakterisoimiseksi kunkin vastaavan parametrin x muutoksella (laskulla tai kasvulla) yhdellä yksiköllä muiden indikaattoreiden stabiilin arvon ehdolla.

Epälineaarisilla yhtälöillä on esimerkiksi potenssifunktion muoto y=ax 1 b1 x 2 b2 ...x m bm . Tässä tapauksessa indikaattoreita b 1, b 2 ..... b m - kutsutaan joustokertoimiksi, ne osoittavat, kuinka tulos muuttuu (kuinka paljon%) vastaavan indikaattorin x kasvaessa (vähentyessä) 1 %. ja muiden tekijöiden vakaa indikaattori.

Mitä tekijöitä tulee ottaa huomioon moninkertaista regressiota rakennettaessa

Jotta moninkertainen regressio voidaan muodostaa oikein, on tarpeen selvittää, mihin tekijöihin tulisi kiinnittää erityistä huomiota.

On tarpeen ymmärtää jonkin verran taloudellisten tekijöiden ja mallinnetun välisen suhteen luonnetta. Mukaan otettavien tekijöiden on täytettävä seuraavat kriteerit:

  • Täytyy olla mitattavissa. Jotta esineen laatua kuvaavaa tekijää voidaan käyttää, sille tulee joka tapauksessa antaa määrällinen muoto.
  • Tekijöiden keskinäistä korrelaatiota tai toiminnallista suhdetta ei pitäisi olla. Tällaiset toimet johtavat useimmiten peruuttamattomiin seurauksiin - tavallisten yhtälöiden järjestelmästä tulee ehdollinen, ja tämä johtaa sen epäluotettavuuteen ja sumeisiin arvioihin.
  • Valtavan korrelaatioindikaattorin tapauksessa ei ole mahdollista selvittää tekijöiden yksittäistä vaikutusta indikaattorin lopputulokseen, joten kertoimet muuttuvat tulkitsemattomiksi.

Rakennusmenetelmät

On olemassa valtava määrä menetelmiä ja tapoja selittää, kuinka voit valita yhtälön tekijät. Kaikki nämä menetelmät perustuvat kuitenkin kertoimien valintaan käyttämällä korrelaatioindeksiä. Niiden joukossa ovat:

  • Poissulkemismenetelmä.
  • Ota menetelmä käyttöön.
  • Vaiheittainen regressioanalyysi.

Ensimmäinen menetelmä sisältää kaikkien kertoimien seulomisen aggregaattijoukosta. Toinen menetelmä sisältää monia lisätekijöitä. No, kolmas on sellaisten tekijöiden poistaminen, joita aiemmin sovellettiin yhtälöön. Jokaisella näistä menetelmistä on oikeus olla olemassa. Niillä on hyvät ja huonot puolensa, mutta ne voivat ratkaista tarpeettomien indikaattoreiden seulonnan omalla tavallaan. Pääsääntöisesti kullakin yksittäisellä menetelmällä saadut tulokset ovat melko läheisiä.

Monimuuttuja-analyysin menetelmät

Tällaiset menetelmät tekijöiden määrittämiseksi perustuvat toisiinsa liittyvien ominaisuuksien yksittäisten yhdistelmien huomioimiseen. Näitä ovat erotteluanalyysi, hahmontunnistus, pääkomponenttianalyysi ja klusterianalyysi. Lisäksi on olemassa myös tekijäanalyysiä, joka kuitenkin ilmestyi komponenttimenetelmän kehityksen seurauksena. Kaikkia niitä sovelletaan tietyissä olosuhteissa, tietyissä olosuhteissa ja tekijöissä.

Regressioanalyysin päätavoite koostuu sen suhteen analyyttisen muodon määrittämisestä, jossa tuloksen muuttujan attribuutin muutos johtuu yhden tai useamman tekijämerkin vaikutuksesta ja kaikkien muiden tekijöiden joukko, jotka myös vaikuttavat resultanttimääritteeseen, otetaan vakio- ja keskiarvoiksi .
Regressioanalyysin tehtävät:
a) Riippuvuuden muodon määrittäminen. Mitä tulee ilmiöiden välisen suhteen luonteeseen ja muotoon, on olemassa positiivinen lineaarinen ja epälineaarinen sekä negatiivinen lineaarinen ja epälineaarinen regressio.
b) Regressiofunktion määrittely eräänlaisena matemaattisena yhtälönä ja selittävien muuttujien vaikutuksen selvittäminen riippuvaan muuttujaan.
c) Riippuvan muuttujan tuntemattomien arvojen estimointi. Regressiofunktion avulla voit toistaa riippuvan muuttujan arvot selittävien muuttujien annettujen arvojen välillä (eli ratkaista interpolointitehtävän) tai arvioida prosessin kulkua määritetyn aikavälin ulkopuolella (ts. ratkaise ekstrapolointiongelma). Tuloksena on arvio riippuvan muuttujan arvosta.

Pariregressio - kahden muuttujan y ja x suhteen yhtälö: y=f(x), missä y on riippuvainen muuttuja (tulosmerkki); x - riippumaton, selittävä muuttuja (ominaisuus-tekijä).

On lineaarisia ja epälineaarisia regressioita.
Lineaarinen regressio: y = a + bx + ε
Epälineaariset regressiot jaetaan kahteen luokkaan: regressioihin, jotka ovat epälineaarisia analyysiin sisältyvien selittävien muuttujien suhteen, mutta lineaarisia arvioitujen parametrien suhteen, ja regressioihin, jotka ovat epälineaarisia arvioitujen parametrien suhteen.
Regressiot, jotka ovat epälineaarisia selittävissä muuttujissa:

Regressiot, jotka ovat epälineaarisia arvioiduissa parametreissa:

  • teho y=a x b ε
  • eksponentiaalinen y=a b x ε
  • eksponentiaalinen y=e a+b x ε
Regressioyhtälön konstruointi pelkistetään sen parametrien arvioimiseen. Parametreiltaan lineaaristen regressioiden parametrien arvioimiseksi käytetään pienimmän neliösumman menetelmää (LSM). LSM mahdollistaa sellaisten parametriestimaattien saamisen, joilla tehollisen ominaisuuden y todellisten arvojen neliöpoikkeamien summa teoreettisista arvoista y x on minimaalinen, ts.
.
Lineaarisille ja epälineaarisille yhtälöille, jotka voidaan pelkistää lineaariseksi, ratkaistaan ​​seuraava järjestelmä a:lle ja b:lle:

Voit käyttää valmiita kaavoja, jotka seuraavat tästä järjestelmästä:

Tutkittujen ilmiöiden välisen yhteyden läheisyys arvioidaan lineaarisen regression lir xy (-1≤r xy ≤1):

ja korrelaatioindeksi p xy - epälineaariselle regressiolle (0≤p xy ≤1):

Arvio rakennetun mallin laadusta saadaan determinaatiokertoimen (indeksin) sekä keskimääräisen approksimaatiovirheen perusteella.
Keskimääräinen likimääräinen virhe on laskettujen arvojen keskimääräinen poikkeama todellisista:
.
Sallittu arvojen A raja - enintään 8-10%.
Keskimääräinen kimmokerroin E osoittaa, kuinka monta prosenttia keskimäärin tulos y muuttuu keskiarvostaan, kun tekijä x muuttuu 1 % keskiarvostaan:
.

Varianssianalyysin tehtävänä on analysoida riippuvan muuttujan varianssia:
∑(y-y )²=∑(y x -y )²+∑(y-y x)²
missä ∑(y-y)² on neliöityjen poikkeamien kokonaissumma;
∑(y x -y)² - regressiosta johtuvien neliöityjen poikkeamien summa ("selitetty" tai "tekijä");
∑(y-y x)² - neliöpoikkeamien jäännössumma.
Regressiolla selitetyn varianssin osuutta efektiivisen ominaisuuden y kokonaisvarianssista kuvaa määrityksen R2 kerroin (indeksi):

Determinaatiokerroin on kertoimen tai korrelaatioindeksin neliö.

F-testi - regressioyhtälön laadun arviointi - koostuu hypoteesin testaamisesta Mutta regressioyhtälön tilastollisesta merkityksettömyydestä ja yhteyden läheisyyden indikaattorista. Tätä varten suoritetaan Fisherin F-kriteerin arvojen todellisen F-faktion ja kriittisen (taulukkomuotoisen) F-taulukon vertailu. F-fakta määritetään yhdelle vapausasteelle lasketun tekijä- ja jäännösvarianssien arvojen suhteesta:
,
missä n on väestöyksiköiden lukumäärä; m on muuttujien x parametrien lukumäärä.
F-taulukko on kriteerin suurin mahdollinen arvo satunnaisten tekijöiden vaikutuksesta tietyille vapausasteille ja merkitsevyystasolle a. Merkitystaso a – oikean hypoteesin hylkäämisen todennäköisyys, mikäli se on totta. Yleensä a on 0,05 tai 0,01.
Jos F-taulukko< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F on tosiasia, silloin hypoteesia H ei hylätä ja regressioyhtälön tilastollinen merkityksettömyys, epäluotettavuus tunnustetaan.
Regressio- ja korrelaatiokertoimien tilastollisen merkitsevyyden arvioimiseksi lasketaan Studentin t-testi ja luottamusvälit kullekin indikaattorille. Esitetään hypoteesi H indikaattoreiden satunnaisuudesta, ts. niiden merkityksettömästä erosta nollasta. Regressio- ja korrelaatiokertoimien merkittävyyden arviointi Studentin t-testillä suoritetaan vertaamalla niiden arvoja satunnaisvirheen suuruuteen:
; ; .
Lineaarisen regressioparametrien ja korrelaatiokertoimen satunnaisvirheet määritetään seuraavilla kaavoilla:



Vertaamalla t-tilaston todellisia ja kriittisiä (taulukkomuotoisia) arvoja - t tabl ja t fact - hyväksymme tai hylkäämme hypoteesin H o.
Fisherin F-testin ja Studentin t-tilaston välinen suhde ilmaistaan ​​tasa-arvolla

Jos t taulukko< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t se, että hypoteesia H ei hylätä ja a:n, b:n tai r xy:n muodostumisen satunnainen luonne tunnistetaan.
Luottamusvälin laskemiseksi määritämme kunkin indikaattorin marginaalivirheen D:
Δ a =t taulukko m a , Δ b =t taulukko m b .
Luottamusvälien laskentakaavat ovat seuraavat:
γ a \u003d aA a; γ a = a-A a; γa =a+Δa
γb = bΔb; yb = b-Ab; γb =b+Δb
Jos nolla osuu luottamusvälin rajoihin, ts. Jos alaraja on negatiivinen ja yläraja on positiivinen, estimoidun parametrin oletetaan olevan nolla, koska se ei voi saada samanaikaisesti sekä positiivisia että negatiivisia arvoja.
Ennustearvo y p määritetään korvaamalla vastaava (ennuste) arvo x p regressioyhtälöön y x =a+b·x . Ennusteen m y x keskimääräinen keskivirhe lasketaan:
,
missä
ja ennusteen luottamusväli rakennetaan:
y y x = y p A y p; yyxmin=yp-Ayp; γ y x max=y p + Δ y p
missä Δ y x =t taulukko ·m y x .

Esimerkki ratkaisusta

Tehtävä numero 1. Ural-alueen seitsemälle alueelle Vuodelle 199X tunnetaan kahden merkin arvot.
Pöytä 1.

Vaaditaan: 1. Luonnehditaan y:n riippuvuutta x:stä laskemalla seuraavien funktioiden parametrit:
a) lineaarinen;
b) potenssilaki (aiemmin on tarpeen suorittaa muuttujien linearisointi ottamalla molempien osien logaritmi);
c) demonstroiva;
d) tasasivuinen hyperbola (sinun on myös selvitettävä, kuinka tämä malli esilinearisoidaan).
2. Arvioi jokainen malli keskimääräisen approksimaatiovirheen A ja Fisherin F-testin avulla.

Ratkaisu (vaihtoehto 1)

Lineaarisen regression parametrien a ja b laskemiseksi y=a+b·x (laskennan voi tehdä laskimella).
ratkaise normaaliyhtälöjärjestelmä suhteessa a ja b:
Alkutietojen perusteella laskemme ∑y, ∑x, ∑y x, ∑x², ∑y²:
y x yx x2 y2 y xy-y xA i
l68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Kaikki yhteensä405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
ke arvo (Yhteensä/n)57,89
y
54,90
x
3166,05
x v
3048,34
3383,68
XX8,1
s 5,74 5,86 XXXXXX
s232,92 34,34 XXXXXX


a=y -b x = 57,89 + 0,35 54,9 ≈ 76,88

Regressioyhtälö: y= 76,88 - 0,35X. Keskimääräisen päiväpalkan nousun myötä 1 rupla. Elintarvikkeiden hankintamenojen osuus pienenee keskimäärin 0,35 prosenttiyksikköä.
Laske parin korrelaation lineaarinen kerroin:

Viestintä on maltillista, käänteistä.
Määritetään determinaatiokerroin: r² xy =(-0.35)=0.127
Tuloksen 12,7 %:n vaihtelu selittyy x-tekijän vaihtelulla. Korvaamalla todelliset arvot regressioyhtälöön X, määritämme y x:n teoreettiset (lasketut) arvot. Etsitään keskimääräisen approksimaatiovirheen A arvo:

Keskimäärin lasketut arvot poikkeavat todellisista 8,1 %.
Lasketaan F-kriteeri:

Saatu arvo osoittaa tarvetta hyväksyä hypoteesi H 0 paljastetun riippuvuuden satunnaisuudesta ja yhtälön parametrien tilastollisesta merkityksettömyydestä ja yhteyden läheisyyden indikaattorista.
1b. Tehomallin y=a x b rakentamista edeltää muuttujien linearisointimenettely. Esimerkissä linearisointi tehdään ottamalla yhtälön molempien puolten logaritmi:
lg y=lg a + b lg x
Y=C+b Y
jossa Y=lg(y), X=lg(x), C=lg(a).

Laskennassa käytämme taulukon tietoja. 1.3.
Taulukko 1.3

YX YX Y2 x2 y xy-y x(y-yx)²A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Kaikki yhteensä12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Tarkoittaa1,7605 1,7370 3,0572 3,1011 3,0194 XX28,27 8,0
σ 0,0425 0,0484 XXXXXXX
σ20,0018 0,0023 XXXXXXX

Laske C ja b:

C=Y -b X = 1,7605 + 0,298 1,7370 = 2,278126
Saamme lineaarisen yhtälön: Y=2,278-0,298 X
Sen vahvistamisen jälkeen saamme: y=10 2,278 x -0,298
Korvaa tässä yhtälössä todelliset arvot X, saamme tuloksen teoreettiset arvot. Niiden perusteella lasketaan indikaattorit: yhteyden tiiviys - korrelaatioindeksi p xy ja keskimääräinen approksimaatiovirhe A .

Tehomallin ominaisuudet osoittavat, että se kuvaa suhdetta jonkin verran paremmin kuin lineaarifunktio.

1c. Eksponentiaalisen käyrän y \u003d a b x yhtälön rakentamista edeltää muuttujien linearisointimenettely, kun otetaan yhtälön molempien osien logaritmi:
lg y=lg a + x lg b
Y=C+B x
Laskennassa käytämme taulukon tietoja.

Yx Yx Y2 x2y xy-y x(y-yx)²A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Kaikki yhteensä12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
ke zn.1,7605 54,9 96,5711 3,1011 3048,34 XX28,68 8,0
σ 0,0425 5,86 XXXXXXX
σ20,0018 34,339 XXXXXXX

Regressioparametrien arvot A ja AT määrä oli:

A = Y - B x = 1,7605 + 0,0023 54,9 = 1,887
Saadaan lineaarinen yhtälö: Y = 1,887-0,0023x. Potentioimme tuloksena olevaa yhtälöä ja kirjoitamme sen tavalliseen muotoon:
y x = 10 1,887 10 -0,0023 x = 77,1 0,9947 x
Arvioimme suhteen tiukkuuden korrelaatioindeksin p xy avulla:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Kaikki yhteensä405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Tarkoittaa57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX σ232,9476 0,000005 XX

Regressioanalyysi on tilastollinen tutkimusmenetelmä, jonka avulla voit osoittaa parametrin riippuvuuden yhdestä tai useammasta riippumattomasta muuttujasta. Ennen tietokonetta sen käyttö oli varsin vaikeaa, varsinkin kun oli kyse suurista tietomääristä. Tänään, kun olet oppinut rakentamaan regression Excelissä, voit ratkaista monimutkaisia ​​tilastollisia ongelmia muutamassa minuutissa. Alla on konkreettisia esimerkkejä taloustieteen alalta.

Regression tyypit

Itse käsite otettiin käyttöön matematiikassa vuonna 1886. Regressio tapahtuu:

  • lineaarinen;
  • parabolinen;
  • teho;
  • eksponentiaalinen;
  • hyperbolinen;
  • mielenosoitus;
  • logaritminen.

Esimerkki 1

Harkitse ongelmaa määrittää eläkkeellä olevien ryhmän jäsenten lukumäärän riippuvuus 6 teollisuusyrityksen keskipalkasta.

Tehtävä. Kuudessa yrityksessä analysoitiin keskimääräinen kuukausipalkka ja omasta tahdostaan ​​lähteneiden työntekijöiden lukumäärä. Taulukkomuodossa meillä on:

Lähtineiden määrä

Palkka

30 000 ruplaa

35 000 ruplaa

40 000 ruplaa

45 000 ruplaa

50 000 ruplaa

55 000 ruplaa

60 000 ruplaa

Ongelmalle määrittää eläkkeellä olevien lukumäärän riippuvuus keskipalkoista 6 yrityksessä regressiomalli on yhtälössä Y = a 0 + a 1 x 1 +…+a k x k, missä x i ovat vaikuttavia muuttujia. , a i ovat regressiokertoimet, a k on tekijöiden lukumäärä.

Tässä tehtävässä Y on lähteneiden työntekijöiden indikaattori ja vaikuttava tekijä on palkka, jota merkitsemme X:llä.

Laskentataulukon "Excel" ominaisuuksien käyttäminen

Excelin regressioanalyysiä edeltää sisäänrakennettujen funktioiden soveltaminen käytettävissä oleviin taulukkotietoihin. Näihin tarkoituksiin on kuitenkin parempi käyttää erittäin hyödyllistä "Analysis Toolkit" -apuohjelmaa. Aktivoidaksesi sen tarvitset:

  • siirry "Tiedosto"-välilehdeltä "Asetukset"-osioon;
  • valitse avautuvasta ikkunasta rivi "Lisäosat";
  • napsauta "Go"-painiketta, joka sijaitsee alareunassa, "Hallinta"-rivin oikealla puolella;
  • valitse "Analysis Package" -nimen vieressä oleva valintaruutu ja vahvista toimintasi napsauttamalla "OK".

Jos kaikki on tehty oikein, haluttu painike tulee näkyviin Tiedot-välilehden oikealle puolelle, joka sijaitsee Excel-laskentataulukon yläpuolella.

Excelissä

Nyt kun meillä on käsillä kaikki tarvittavat virtuaaliset työkalut ekonometristen laskelmien suorittamiseen, voimme alkaa ratkaista ongelmaamme. Tätä varten:

  • napsauta "Data Analysis" -painiketta;
  • napsauta avautuvassa ikkunassa "Regressio" -painiketta;
  • kirjoita näkyviin tulevalle välilehdelle Y:n (irtisanoneiden työntekijöiden määrä) ja X:n (heidän palkansa) arvot;
  • Vahvistamme toimintamme painamalla "Ok"-painiketta.

Tämän seurauksena ohjelma täyttää automaattisesti uuden laskentataulukon arkin regressioanalyysitiedoilla. Merkintä! Excelillä on mahdollisuus asettaa manuaalisesti haluamasi sijainti tätä tarkoitusta varten. Se voi olla esimerkiksi sama arkki, jossa Y- ja X-arvot ovat, tai jopa uusi työkirja, joka on erityisesti suunniteltu tällaisten tietojen tallentamiseen.

R-neliön regressiotulosten analyysi

Excelissä tarkastellun esimerkin tietojen käsittelyn aikana saadut tiedot näyttävät tältä:

Ensinnäkin sinun tulee kiinnittää huomiota R-neliön arvoon. Se on determinaatiokerroin. Tässä esimerkissä R-neliö = 0,755 (75,5 %), eli mallin lasketut parametrit selittävät tarkasteltujen parametrien välisen suhteen 75,5 %:lla. Mitä suurempi determinaatiokertoimen arvo on, sitä soveltuvampi on valittu malli tiettyyn tehtävään. Sen uskotaan kuvaavan oikein todellista tilannetta R-neliöarvon ollessa yli 0,8. Jos R-neliö<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Suhdeanalyysi

Numero 64.1428 osoittaa, mikä on Y:n arvo, jos kaikki tarkastelemamme mallin muuttujat xi asetetaan nollaan. Toisin sanoen voidaan väittää, että analysoitavan parametrin arvoon vaikuttavat myös muut tekijät, joita ei ole kuvattu tietyssä mallissa.

Seuraava kerroin -0,16285, joka sijaitsee solussa B18, osoittaa muuttujan X vaikutuksen painon Y:hen. Tämä tarkoittaa, että tarkasteltavana olevan mallin työntekijöiden keskimääräinen kuukausipalkka vaikuttaa lopettaneiden määrään painolla -0,16285, ts. sen vaikutuksen aste on ollenkaan pieni. "-"-merkki osoittaa, että kertoimella on negatiivinen arvo. Tämä on ilmeistä, sillä kaikki tietävät, että mitä korkeampi palkka yrityksessä, sitä vähemmän ihmiset ilmaisevat halunsa irtisanoa työsopimus tai irtisanoutua.

Moninkertainen regressio

Tämä termi viittaa yhteysyhtälöön, jossa on useita riippumattomia muuttujia muodossa:

y \u003d f (x 1 + x 2 + ... x m) + ε, missä y on tehollinen ominaisuus (riippuvainen muuttuja) ja x 1 , x 2 , ... x m ovat tekijätekijät (riippumattomat muuttujat).

Parametrien arvio

Moninkertaisen regression (MR) tapauksessa se suoritetaan pienimmän neliösumman menetelmällä (OLS). Lineaarisille yhtälöille, jotka ovat muotoa Y = a + b 1 x 1 +…+b m x m + ε, rakennamme normaaliyhtälöjärjestelmän (katso alla)

Ymmärtääksesi menetelmän periaatteen, harkitse kahden tekijän tapausta. Sitten meillä on kaavalla kuvattu tilanne

Täältä saamme:

missä σ on indeksiin heijastuneen vastaavan ominaisuuden varianssi.

LSM on sovellettavissa MP-yhtälöön standardoitavalla asteikolla. Tässä tapauksessa saamme yhtälön:

missä t y , t x 1, … t xm ovat standardoituja muuttujia, joiden keskiarvot ovat 0; β i ovat standardoituja regressiokertoimia, ja keskihajonna on 1.

Huomaa, että tässä tapauksessa kaikki β i on asetettu normalisoiduiksi ja keskitetyiksi, joten niiden vertailua keskenään pidetään oikeana ja hyväksyttävänä. Lisäksi on tapana suodattaa pois tekijät ja hylätä ne, joilla on pienimmät βi-arvot.

Ongelma käytettäessä lineaarista regressioyhtälöä

Oletetaan, että on olemassa taulukko tietyn tuotteen N hintadynamiikasta viimeisten 8 kuukauden ajalta. On tarpeen tehdä päätös sen erän ostamisen suositeltavuudesta hintaan 1850 ruplaa / tonni.

kuukauden numero

kuukauden nimi

Tuotteen hinta N

1750 ruplaa tonnilta

1755 ruplaa tonnilta

1767 ruplaa tonnilta

1760 ruplaa tonnilta

1770 ruplaa tonnilta

1790 ruplaa tonnilta

1810 ruplaa tonnilta

1840 ruplaa tonnilta

Tämän Excel-taulukon ongelman ratkaisemiseksi sinun on käytettävä yllä olevasta esimerkistä jo tunnettua Data Analysis -työkalua. Valitse seuraavaksi "Regressio"-osio ja aseta parametrit. On muistettava, että "Syöteväli Y" -kenttään on syötettävä riippuvaisen muuttujan (tässä tapauksessa tuotteen hinta tiettyinä kuukausina) arvoalue ja "Syöte" intervalli X" - riippumattomalle muuttujalle (kuukauden numero). Vahvista toimenpide napsauttamalla "Ok". Uudelta arkilta (jos niin on ilmoitettu) saamme tiedot regressiota varten.

Rakennamme niiden perusteella lineaarisen yhtälön muotoa y=ax+b, jossa parametrit a ja b ovat kuukauden numeron nimen omaavan rivin kertoimet ja kertoimet sekä rivin "Y-leikkaus" arkki regressioanalyysin tuloksista. Siten tehtävän 3 lineaarinen regressioyhtälö (LE) kirjoitetaan seuraavasti:

Tuotteen hinta N = 11.714* kk numero + 1727.54.

tai algebrallisella merkinnällä

y = 11,714 x + 1727,54

Tulosten analyysi

Sen päättämiseksi, onko tuloksena saatu lineaarinen regressioyhtälö riittävä, käytetään useita korrelaatiokertoimia (MCC) ja määrityskertoimia sekä Fisherin testiä ja Studentin testiä. Excel-taulukossa, jossa on regressiotulokset, ne näkyvät useiden R-, R-neliö-, F-tilasto- ja t-tilasto-nimien alla.

KMC R mahdollistaa riippumattoman ja riippuvan muuttujan välisen todennäköisyyssuhteen tiukkuuden arvioinnin. Sen korkea arvo osoittaa melko vahvan suhteen muuttujien "Kuukauden lukumäärä" ja "Tavaroiden hinta N ruplina tonnilta" välillä. Tämän suhteen luonne on kuitenkin edelleen tuntematon.

Determinaatiokertoimen neliö R 2 (RI) on kokonaissirontaosuuden numeerinen ominaisuus ja osoittaa, minkä osan sirontaa koeaineistosta, ts. riippuvan muuttujan arvot vastaavat lineaarista regressioyhtälöä. Käsiteltävänä olevassa ongelmassa tämä arvo on 84,8 %, eli saatu SD kuvaa tilastotietoja suurella tarkkuudella.

F-tilastoa, jota kutsutaan myös Fisherin testiksi, käytetään arvioimaan lineaarisen suhteen merkitystä, kumoamaan tai vahvistamaan hypoteesin sen olemassaolosta.

(Opiskelijan kriteeri) auttaa arvioimaan kertoimen merkitystä lineaarisen suhteen tuntemattomalla tai vapaalla termillä. Jos t-kriteerin arvo > t cr, niin hypoteesi lineaarisen yhtälön vapaan termin merkityksettömyydestä hylätään.

Tarkasteltavassa vapaajäsenen tehtävässä saatiin Excel-työkaluilla, että t = 169,20903 ja p = 2,89E-12, eli meillä on nolla todennäköisyys, että oikea hypoteesi vapaan jäsenen merkityksettömyydestä toteutuu. hylätä. Kertoimelle tuntemattoman kohdalla t = 5,79405 ja p = 0,001158. Toisin sanoen todennäköisyys, että oikea hypoteesi kertoimen merkityksettömyydestä tuntemattomalle hylätään on 0,12 %.

Siten voidaan väittää, että tuloksena oleva lineaarinen regressioyhtälö on riittävä.

Osakepaketin ostamisen tarkoituksenmukaisuuden ongelma

Excelissä suoritetaan useita regressioita käyttämällä samaa data-analyysityökalua. Harkitse tiettyä sovellettua ongelmaa.

NNN:n johdon on tehtävä päätös 20 %:n osuuden ostamisesta MMM SA:sta. Paketin (JV) hinta on 70 miljoonaa Yhdysvaltain dollaria. NNN:n asiantuntijat keräsivät tietoja vastaavista tapahtumista. Osakepaketin arvo päätettiin arvioida seuraavien parametrien mukaan, ilmaistuna miljoonina Yhdysvaltain dollareina:

  • ostovelat (VK);
  • vuotuinen liikevaihto (VO);
  • myyntisaamiset (VD);
  • käyttöomaisuuden kustannukset (SOF).

Lisäksi käytetään parametria yrityksen palkkarästi (V3 P) tuhansina Yhdysvaltain dollareina.

Ratkaisu Excel-laskentataulukon avulla

Ensinnäkin sinun on luotava taulukko alkutiedoista. Se näyttää tältä:

  • kutsu "Data Analysis" -ikkuna;
  • valitse "Regressio"-osio;
  • syötä kenttään "Syöteväli Y" riippuvien muuttujien arvoalue sarakkeesta G;
  • napsauta "Syöteväli X" -ikkunan oikealla puolella olevaa kuvaketta punaisella nuolella ja valitse kaikkien arvojen alue arkin sarakkeista B, C, D, F.

Valitse "Uusi työtaulukko" ja napsauta "Ok".

Hanki regressioanalyysi annetulle ongelmalle.

Tulosten tarkastelu ja johtopäätökset

"Keräämme" yllä esitetyistä Excel-taulukkolaskentataulukon pyöristetyistä tiedoista regressioyhtälön:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Tutussa matemaattisessa muodossa se voidaan kirjoittaa seuraavasti:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

JSC "MMM":n tiedot on esitetty taulukossa:

Kun ne korvataan regressioyhtälössä, saadaan luku 64,72 miljoonaa Yhdysvaltain dollaria. Tämä tarkoittaa, että JSC MMM:n osakkeita ei pitäisi ostaa, koska niiden 70 miljoonan Yhdysvaltain dollarin arvo on melko yliarvioitu.

Kuten näet, Excel-laskentataulukon ja regressioyhtälön käyttö mahdollisti tietoisen päätöksen tekemisen tietyn tapahtuman toteutettavuudesta.

Nyt tiedät mitä regressio on. Yllä käsitellyt esimerkit Excelissä auttavat sinua ratkaisemaan käytännön ongelmia ekonometriikan alalta.