Perinteinen pienimmän neliösumman menetelmä. Pienimmän neliön menetelmä

Sillä on monia sovelluksia, koska se mahdollistaa likimääräisen esityksen tietystä funktiosta muilla yksinkertaisemmilla. LSM voi olla erittäin hyödyllinen havaintojen käsittelyssä, ja sitä käytetään aktiivisesti arvioimaan joitain suureita toisten satunnaisvirheitä sisältävien mittausten tuloksista. Tässä artikkelissa opit toteuttamaan pienimmän neliösumman laskelmia Excelissä.

Ongelman kuvaus tietyssä esimerkissä

Oletetaan, että on kaksi indikaattoria X ja Y. Lisäksi Y riippuu X:stä. Koska OLS kiinnostaa meitä regressioanalyysin kannalta (Excelissä sen menetelmät on toteutettu sisäänrakennetuilla funktioilla), on syytä jatkaa heti. pohtimaan tiettyä ongelmaa.

Olkoon X siis ruokakaupan myyntipinta-ala neliömetrinä mitattuna ja Y vuosiliikevaihto miljoonissa ruplissa.

On tehtävä ennuste liikevaihdosta (Y), jos sillä on yhtä tai toista myyntitilaa. On selvää, että funktio Y = f (X) kasvaa, koska hypermarket myy enemmän tavaraa kuin kioski.

Muutama sana ennustukseen käytettyjen lähtötietojen oikeellisuudesta

Oletetaan, että meillä on taulukko, joka on rakennettu n myymälän tiedoista.

Matemaattisten tilastojen mukaan tulokset ovat enemmän tai vähemmän oikein, jos tutkitaan vähintään 5-6 kohteen tiedot. Myöskään "poikkeavia" tuloksia ei voida käyttää. Erityisesti eliittipienen putiikin liikevaihto voi olla monta kertaa suurempi kuin "masmarket"-luokan suurten myyntipisteiden liikevaihto.

Menetelmän ydin

Taulukon tiedot voidaan näyttää suorakulmaisessa tasossa pisteinä M 1 (x 1, y 1), ... M n (x n, y n). Nyt tehtävän ratkaisu pelkistetään approksimoivan funktion y = f (x) valintaan, jolla on graafi, joka kulkee mahdollisimman läheltä pisteitä M 1, M 2, .. M n .

Tietysti voit käyttää korkean asteen polynomia, mutta tämä vaihtoehto ei ole vain vaikea toteuttaa, vaan se on yksinkertaisesti virheellinen, koska se ei heijasta päätrendiä, joka on havaittava. Järkevin ratkaisu on etsiä suoraa y = ax + b, joka parhaiten approksimoi kokeellista dataa ja tarkemmin sanottuna kertoimia - a ja b.

Tarkkuuspisteet

Kaikessa likiarvossa sen tarkkuuden arviointi on erityisen tärkeää. Merkitse e i:llä pisteen x i toiminnallisten ja kokeellisten arvojen välinen ero (poikkeama), eli e i = y i - f (x i).

On selvää, että arvioidaksesi likiarvon tarkkuutta, voit käyttää poikkeamien summaa, eli kun valitset suoran X:n riippuvuuden likimääräiselle esitykselle Y:stä, etusijalle tulee antaa se, jolla on pienin arvo summa e i kaikissa tarkasteltavina olevissa kohdissa. Kaikki ei kuitenkaan ole niin yksinkertaista, koska positiivisten poikkeamien ohella on käytännössä negatiivisiakin.

Voit ratkaista ongelman käyttämällä poikkeamamoduuleja tai niiden neliöitä. Jälkimmäinen menetelmä on yleisimmin käytetty. Sitä käytetään monilla aloilla, mukaan lukien regressioanalyysi (Excelissä sen toteutus suoritetaan kahdella sisäänrakennetulla funktiolla), ja se on pitkään osoittautunut tehokkaaksi.

Pienimmän neliön menetelmä

Excelissä, kuten tiedät, on sisäänrakennettu automaattinen summaustoiminto, jonka avulla voit laskea kaikkien valitulla alueella sijaitsevien arvojen arvot. Näin ollen mikään ei estä meitä laskemasta lausekkeen arvoa (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

Matemaattisessa merkinnässä tämä näyttää tältä:

Koska päätös tehtiin alun perin likimääräiseksi suoralla viivalla, meillä on:

Siten tehtävä löytää suora, joka parhaiten kuvaa tiettyä X:n ja Y:n välistä suhdetta, tarkoittaa kahden muuttujan funktion minimin laskemista:

Tämä vaatii nollan osittaisderivaatta-arvon tasaamisen uusien muuttujien a ja b suhteen ja primitiivisen järjestelmän ratkaisemisen, joka koostuu kahdesta yhtälöstä, joiden muoto on 2 tuntematonta:

Yksinkertaisten muunnosten jälkeen, mukaan lukien jakaminen kahdella ja summien manipulointi, saamme:

Ratkaisemalla se esimerkiksi Cramerin menetelmällä saamme stationaarisen pisteen tietyillä kertoimilla a * ja b * . Tämä on minimi, eli myymälän tietyn alueen liikevaihdon ennustamiseen sopii suora y = a * x + b *, joka on regressiomalli kyseessä olevalle esimerkille. Tietenkään se ei anna sinun löytää tarkkaa tulosta, mutta se auttaa sinua saamaan käsityksen siitä, kannattaako myymälän ostaminen tietylle alueelle luotolla.

Kuinka ottaa pienimmän neliösumman menetelmä käyttöön Excelissä

Excelissä on funktio pienimmän neliösumman arvon laskemiseen. Sillä on seuraava muoto: TREND (tunnetut Y-arvot; tunnetut X-arvot; uudet X-arvot; vakio). Sovelletaan taulukkoomme kaavaa OLS:n laskemiseksi Excelissä.

Tätä varten kirjoita "="-merkki soluun, jossa Excelin pienimmän neliösumman menetelmällä suoritetun laskennan tulos tulee näkyä, ja valitse "TREND"-toiminto. Täytä avautuvassa ikkunassa tarvittavat kentät korostaen:

  • Y:n tunnettujen arvojen alue (tässä tapauksessa liikevaihdon tiedot);
  • alue x 1 , …x n , eli liiketilan koko;
  • ja x:n tunnetut ja tuntemattomat arvot, joille sinun on selvitettävä liikevaihdon koko (katso alta tietoja niiden sijainnista laskentataulukossa).

Lisäksi kaavassa on looginen muuttuja "Const". Jos kirjoitat 1 sitä vastaavaan kenttään, tämä tarkoittaa, että laskelmat on suoritettava olettaen, että b \u003d 0.

Jos haluat tietää ennusteen useammalle kuin yhdelle x-arvolle, kaavan syöttämisen jälkeen sinun ei pitäisi painaa "Enter", vaan sinun on kirjoitettava yhdistelmä "Shift" + "Control" + "Enter" ("Enter" ) näppäimistöllä.

Jotkut ominaisuudet

Regressioanalyysi voi olla jopa nukkejen saatavilla. Excel-kaavaa tuntemattomien muuttujien joukon arvon ennustamiseen - "TREND" - voivat käyttää myös ne, jotka eivät ole koskaan kuulleet pienimmän neliösumman menetelmästä. Riittää, kun tietää joitakin sen työn piirteitä. Erityisesti:

  • Jos sijoitat muuttujan y tunnettujen arvojen alueen yhdelle riville tai sarakkeelle, ohjelma havaitsee jokaisen rivin (sarakkeen), jolla on tunnetut x:n arvot, erillisenä muuttujana.
  • Jos tunnetulla x:llä olevaa aluetta ei ole määritetty TREND-ikkunassa, niin funktiota käytettäessä Excelissä ohjelma pitää sitä taulukona, joka koostuu kokonaisluvuista, joiden numero vastaa aluetta annetuilla arvoilla ​muuttujasta y.
  • "Ennustettujen" arvojen taulukon tulostamiseksi trendilauseke on syötettävä taulukkokaavana.
  • Jos uusia x-arvoja ei ole määritetty, TREND-funktio pitää niitä yhtä suurena kuin tunnetut arvot. Jos niitä ei ole määritetty, taulukko 1 otetaan argumentiksi; 2; 3; 4;…, joka on verrannollinen jo annettujen parametrien y alueelle.
  • Uudet x-arvot sisältävällä alueella on oltava sama tai useampi rivi tai sarake kuin alueella, jolla on annetut y-arvot. Toisin sanoen sen on oltava suhteessa riippumattomiin muuttujiin.
  • Taulukko, jolla on tunnetut x-arvot, voi sisältää useita muuttujia. Jos kuitenkin puhumme vain yhdestä, vaaditaan, että vaihteluvälit annetuilla x:n ja y:n arvoilla ovat oikeassa suhteessa. Useamman muuttujan tapauksessa on välttämätöntä, että alue annetuilla y-arvoilla mahtuu yhteen sarakkeeseen tai yhteen riviin.

ENNUSTE-toiminto

Se toteutetaan useiden toimintojen avulla. Yksi niistä on nimeltään "PREDICTION". Se on samanlainen kuin TREND, eli se antaa laskutoimituksen tuloksen pienimmän neliösumman menetelmällä. Kuitenkin vain yhdelle X:lle, jolle Y:n arvoa ei tunneta.

Nyt tiedät Excel-kaavat tutille, joiden avulla voit ennustaa indikaattorin tulevan arvon arvon lineaarisen trendin mukaan.

Kokeellisten tietojen lähentäminen on menetelmä, joka perustuu kokeellisesti saatujen tietojen korvaamiseen analyyttisellä funktiolla, joka läpäisee tai osuu läheisimmin solmupisteissä alkuarvojen kanssa (kokeen tai kokeen aikana saadut tiedot). Tällä hetkellä on kaksi tapaa määrittää analyyttinen funktio:

Rakentamalla n-asteinen interpolaatiopolynomi, joka läpäisee suoraan kaikkien pisteiden läpi annettu tietojoukko. Tässä tapauksessa approksimoiva funktio esitetään seuraavasti: interpolaatiopolynomi Lagrange-muodossa tai interpolaatiopolynomi Newton-muodossa.

Rakentamalla n-asteinen approksimoiva polynomi, joka läpäisee lähellä pisteitä annetusta datajoukosta. Näin ollen approksimoiva funktio tasoittaa kaikki kokeen aikana mahdollisesti ilmenevät satunnaiset kohinat (tai virheet): kokeen aikana mitatut arvot riippuvat satunnaistekijöistä, jotka vaihtelevat omien satunnaislakiensa mukaan (mittaus- tai laitevirheet, epätarkkuus tai kokeellinen virheet). Tässä tapauksessa approksimoiva funktio määritetään pienimmän neliösumman menetelmällä.

Pienimmän neliön menetelmä(englanninkielisessä kirjallisuudessa Ordinary Least Squares, OLS) on matemaattinen menetelmä, joka perustuu approksimoivan funktion määritelmään, joka on rakennettu lähimpään pisteisiin tietyn kokeellisen datajoukon perusteella. Alku- ja approksimaatiofunktion F(x) läheisyys määritetään numeerisella mittauksella, nimittäin: kokeellisten tietojen neliöpoikkeamien summan approksimointikäyrästä F(x) tulee olla pienin.

Pienimmän neliösumman menetelmällä muodostettu sovituskäyrä

Pienimmän neliösumman menetelmää käytetään:

Ratkaisemaan ylimäärättyjä yhtälöjärjestelmiä, kun yhtälöiden lukumäärä ylittää tuntemattomien määrän;

Etsiä ratkaisua tavallisten (ei ylimääritettyjen) epälineaaristen yhtälöjärjestelmien tapauksessa;

Pistearvojen lähentämiseksi jollain approksimoivalla funktiolla.

Pienimmän neliösumman menetelmällä approksimoiva funktio määritetään lasketun approksimoivan funktion neliöpoikkeamien minimisumman ehdosta tietystä kokeellisen datajoukosta. Tämä pienimmän neliösumman menetelmän kriteeri kirjoitetaan seuraavasti:

Lasketun approksimoivan funktion arvot solmupisteissä,

Määritelty joukko kokeellisia tietoja solmupisteissä .

Kvadraattisella kriteerillä on useita "hyviä" ominaisuuksia, kuten differentiaatiokyky, mikä tarjoaa ainutlaatuisen ratkaisun approksimaatioongelmaan polynomisten approksimointifunktioiden kanssa.

Riippuen tehtävän ehdoista approksimoiva funktio on m-asteinen polynomi

Approksimoivan funktion aste ei riipu solmupisteiden lukumäärästä, vaan sen dimensio on aina pienempi kuin annetun kokeellisen datajoukon dimensio (pistemäärä).

∙ Jos approksimoivan funktion aste on m=1, niin taulukkofunktiota approksimoidaan suoralla (lineaarinen regressio).

∙ Jos approksimoivan funktion aste on m=2, niin taulukkofunktiota approksimoidaan neliöparaabelilla (neliöapproksimaatio).

∙ Jos approksimoivan funktion aste on m=3, niin taulukkofunktiota approksimoidaan kuutioparaabelilla (kuutioapproksimaatio).

Yleisessä tapauksessa, kun annetuille taulukkoarvoille on muodostettava m-asteen likimääräinen polynomi, ehto kaikkien solmupisteiden neliöpoikkeamien vähimmäissummalle kirjoitetaan uudelleen seuraavassa muodossa:

- m-asteisen approksimoivan polynomin tuntemattomat kertoimet;

Määritettyjen taulukon arvojen määrä.

Funktion minimin olemassaolon välttämätön ehto on sen osittaisten derivaattojen yhtäläisyys nollaan tuntemattomien muuttujien suhteen . Tuloksena saamme seuraavan yhtälöjärjestelmän:

Muunnetaan tuloksena oleva lineaarinen yhtälöjärjestelmä: avaa sulut ja siirrä vapaat termit lausekkeen oikealle puolelle. Tämän seurauksena tuloksena oleva lineaaristen algebrallisten lausekkeiden järjestelmä kirjoitetaan seuraavassa muodossa:

Tämä lineaaristen algebrallisten lausekkeiden järjestelmä voidaan kirjoittaa uudelleen matriisimuotoon:

Tuloksena saatiin lineaarinen yhtälöjärjestelmä, jonka mitat ovat m + 1 ja joka koostuu m + 1 tuntemattomista. Tämä järjestelmä voidaan ratkaista millä tahansa menetelmällä lineaaristen algebrallisten yhtälöiden ratkaisemiseksi (esimerkiksi Gaussin menetelmällä). Ratkaisun tuloksena löydetään approksimointifunktiolle tuntemattomia parametreja, jotka antavat approksimointifunktion neliöpoikkeamien minimisumman alkuperäisestä tiedosta, ts. paras mahdollinen neliöllinen approksimaatio. On muistettava, että jos yksikin lähtötiedon arvo muuttuu, kaikki kertoimet muuttavat arvojaan, koska ne määräytyvät kokonaan lähtötietojen perusteella.

Alkutietojen likiarvo lineaarisen riippuvuuden perusteella

(lineaarinen regressio)

Esimerkkinä tarkastellaan menetelmää approksimoivan funktion määrittämiseksi, joka on annettu lineaarisena suhteena. Pienimmän neliösumman menetelmän mukaisesti neliöpoikkeamien minimisumman ehto kirjoitetaan seuraavasti:

Taulukon solmupisteiden koordinaatit;

Approksimoivan funktion tuntemattomat kertoimet, joka on annettu lineaarisena suhteena.

Funktion minimin olemassaolon välttämätön ehto on sen osittaisten derivaattojen yhtäläisyys nollaan tuntemattomien muuttujien suhteen. Tuloksena saamme seuraavan yhtälöjärjestelmän:

Muunnetaan tuloksena oleva lineaarinen yhtälöjärjestelmä.

Ratkaisemme tuloksena olevan lineaariyhtälöjärjestelmän. Approksimoivan funktion kertoimet analyyttisessä muodossa määritetään seuraavasti (Cramerin menetelmä):

Nämä kertoimet muodostavat lineaarisen approksimoivan funktion sen kriteerin mukaisesti, jolla minimoidaan approksimoivan funktion neliösumma annetuista taulukkoarvoista (kokeellinen data).

Algoritmi pienimmän neliösumman menetelmän toteuttamiseksi

1. Alkutiedot:

Annettu joukko kokeellisia tietoja mittausten lukumäärällä N

Approksimoivan polynomin aste (m) on annettu

2. Laskenta-algoritmi:

2.1. Kertoimet määritetään yhtälöjärjestelmän muodostamiseksi, jolla on ulottuvuus

Yhtälöjärjestelmän kertoimet (yhtälön vasen puoli)

- yhtälöjärjestelmän neliömatriisin sarakkeen numeron indeksi

Lineaarisen yhtälöjärjestelmän vapaat jäsenet (yhtälön oikea puoli)

- yhtälöjärjestelmän neliömatriisin rivinumeron indeksi

2.2. Lineaarisen yhtälöjärjestelmän muodostaminen dimensiolla .

2.3. Lineaariyhtälöjärjestelmän ratkaisu m-asteisen approksimoivan polynomin tuntemattomien kertoimien määrittämiseksi.

2.4 Approksimoivan polynomin neliöpoikkeamien summan määrittäminen alkuarvoista kaikissa solmupisteissä

Poikkeamien neliösumman löydetty arvo on pienin mahdollinen.

Lähentäminen muihin toimintoihin

On huomioitava, että lähetettäessä alkutietoja pienimmän neliösumman menetelmän mukaisesti, käytetään joskus logaritmista funktiota, eksponentiaalifunktiota ja tehofunktiota approksimoivana funktiona.

Lokin likiarvo

Tarkastellaan tapausta, jossa approksimoiva funktio annetaan muodon logaritmisella funktiolla:

Pienimmän neliösumman menetelmän ydin on etsimään trendimallin parametreja, jotka parhaiten kuvaavat jonkin satunnaisen ilmiön kehitystrendiä ajassa tai tilassa (trendi on viiva, joka kuvaa tämän kehityksen trendiä). Pienimmän neliösumman menetelmän (OLS) tehtävänä on löytää trendimallin lisäksi paras tai optimaalinen malli. Tämä malli on optimaalinen, jos havaittujen todellisten arvojen ja vastaavien laskettujen trendiarvojen välisten neliöityjen poikkeamien summa on minimaalinen (pienin):

missä on keskihajonta havaitun todellisen arvon välillä

ja vastaava laskettu trendiarvo,

Tutkittavan ilmiön todellinen (havaittu) arvo,

Trendimallin arvioitu arvo,

Tutkittavan ilmiön havaintojen määrä.

MNC:tä käytetään harvoin yksinään. Yleensä sitä käytetään useimmiten vain välttämättömänä tekniikkana korrelaatiotutkimuksissa. On syytä muistaa, että LSM:n tietopohja voi olla vain luotettava tilastollinen sarja, eikä havaintojen lukumäärä saa olla pienempi kuin 4, muuten LSM:n tasoitusmenettelyt voivat menettää järkensä.

OLS-työkalupakki on rajoitettu seuraaviin toimenpiteisiin:

Ensimmäinen menettely. Selvitetään, onko ylipäätään taipumusta muuttaa tuloksena olevaa attribuuttia, kun valittu tekijä-argumentti muuttuu, tai toisin sanoen, onko "" välillä yhteyttä " klo " ja " X ».

Toinen menettely. Määritetään, mikä viiva (rata) pystyy parhaiten kuvaamaan tai luonnehtimaan tätä suuntausta.

Kolmas menettely.

Esimerkki. Oletetaan, että meillä on tietoa tutkittavan tilan auringonkukan keskisadosta (taulukko 9.1).

Taulukko 9.1

Havaintonumero

Tuottavuus, c/ha

Koska teknologian taso auringonkukan tuotannossa maassamme ei ole juurikaan muuttunut viimeisen 10 vuoden aikana, se tarkoittaa, että todennäköisimmin sadon vaihtelut tarkastelujaksolla riippuivat hyvin paljon sää- ja ilmasto-olosuhteiden vaihteluista. Onko se totta?

Ensimmäinen MNC-menettely. Hypoteesia auringonkukan sadon muutostrendin olemassaolosta sään ja ilmasto-olosuhteiden muutoksista analysoidun 10 vuoden aikana testataan.

Tässä esimerkissä " y » on suositeltavaa ottaa auringonkukan sato, ja « x » on tarkastelun vuoden luku tarkastelujaksolla. Hypoteesin testaaminen minkä tahansa suhteen olemassaolosta " x " ja " y » voidaan tehdä kahdella tavalla: manuaalisesti ja tietokoneohjelmien avulla. Tietenkin tietokonetekniikan saatavuuden myötä tämä ongelma ratkeaa itsestään. Mutta OLS-työkalupakin ymmärtämiseksi paremmin on suositeltavaa testata hypoteesi, joka koskee " x " ja " y » manuaalisesti, kun vain kynä ja tavallinen laskin ovat käsillä. Tällaisissa tapauksissa hypoteesi trendin olemassaolosta on parhaiten tarkistettavissa visuaalisesti analysoitavan aikasarjan graafisen kuvan sijainnilla - korrelaatiokentällä:

Esimerkissämme korrelaatiokenttä sijaitsee hitaasti nousevan viivan ympärillä. Tämä itsessään osoittaa, että auringonkukan sadon muutoksessa on tietty trendi. On mahdotonta puhua minkään trendin olemassaolosta vain, kun korrelaatiokenttä näyttää ympyrältä, ympyrältä, tiukasti pystysuoralta tai tiukasti vaakasuoralta pilveltä tai koostuu satunnaisesti hajallaan olevista pisteistä. Kaikissa muissa tapauksissa on tarpeen vahvistaa hypoteesi "suhteen olemassaolosta" x " ja " y ja jatka tutkimusta.

Toinen MNC-menettely. Selvitetään, mikä linja (rata) pystyy parhaiten kuvaamaan tai luonnehtimaan auringonkukan sadonmuutosten kehitystä tarkastelujaksolla.

Tietotekniikan saatavuuden myötä optimaalisen trendin valinta tapahtuu automaattisesti. "Manuaalisella" käsittelyllä optimaalisen toiminnon valinta suoritetaan yleensä visuaalisella tavalla - korrelaatiokentän sijainnin mukaan. Eli kaaviotyypin mukaan valitaan empiiriseen trendiin (todelliseen liikeradan) parhaiten sopiva viivan yhtälö.

Kuten tiedät, luonnossa on valtavasti erilaisia ​​toiminnallisia riippuvuuksia, joten on erittäin vaikeaa analysoida visuaalisesti edes pientä osaa niistä. Onneksi reaalitalouden käytännössä useimmat suhteet voidaan kuvata tarkasti joko paraabelilla, hyperbolalla tai suoralla. Tältä osin "manuaalinen" -vaihtoehto parhaan toiminnon valitsemiseksi voit rajoittaa itsesi vain näihin kolmeen malliin.

Hyperbeli:

Toisen kertaluvun paraabeli: :

On helppo nähdä, että esimerkissämme auringonkukan sadon muutostrendi analysoidun 10 vuoden aikana on parhaiten luonnehdittu suoralla, joten regressioyhtälöstä tulee suora yhtälö.

Kolmas menettely. Lasketaan tätä suoraa kuvaavan regressioyhtälön parametrit, eli toisin sanoen määritetään analyyttinen kaava, joka kuvaa parasta trendimallia.

Regressioyhtälön parametrien arvojen löytäminen, tässä tapauksessa parametrit ja , on LSM:n ydin. Tämä prosessi rajoittuu normaaliyhtälöjärjestelmän ratkaisemiseen.

(9.2)

Tämä yhtälöjärjestelmä on melko helposti ratkaistavissa Gaussin menetelmällä. Muista, että ratkaisun seurauksena esimerkissämme parametrien ja arvot löytyvät. Siten löydetyllä regressioyhtälöllä on seuraava muoto:

Tasauksen jälkeen saadaan seuraavan muotoinen funktio: g (x) = x + 1 3 + 1 .

Voimme arvioida nämä tiedot lineaarisella suhteella y = a x + b laskemalla sopivat parametrit. Tätä varten meidän on sovellettava niin kutsuttua pienimmän neliösumman menetelmää. Sinun on myös tehtävä piirustus tarkistaaksesi, mikä viiva kohdistaa kokeelliset tiedot parhaiten.

Yandex.RTB R-A-339285-1

Mikä tarkalleen on OLS (pienimpien neliöiden menetelmä)

Tärkein asia, joka meidän on tehtävä, on löytää sellaiset lineaariset riippuvuuskertoimet, joilla kahden muuttujan F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 funktion arvo on pienin. . Toisin sanoen tietyille a:n ja b:n arvoille esitettyjen tietojen neliöityjen poikkeamien summalla tuloksena olevasta suorasta on vähimmäisarvo. Tämä on pienimmän neliösumman menetelmän merkitys. Ainoa mitä meidän tarvitsee tehdä esimerkin ratkaisemiseksi, on löytää kahden muuttujan funktion ääripää.

Kuinka johtaa kertoimien laskentakaavat

Kaavojen johtamiseksi kertoimien laskemiseksi on tarpeen muodostaa ja ratkaista yhtälöjärjestelmä kahdella muuttujalla. Tätä varten lasketaan lausekkeen F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 osittaisderivaatat a:n ja b:n suhteen ja rinnastetaan ne 0:ksi.

δ F (a , b) δ a = 0 δ F (a , b) δ b = 0 ⇔ - 2 ∑ i = 1 n (y i - (a x i + b)) x i = 0 - 2 ∑ i = 1 n ( y i - (a x i + b)) = 0 ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + ∑ b i = 1 n x i + ∑ b i = i = i ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + n b = ∑ i = 1 n y i

Yhtälöjärjestelmän ratkaisemiseksi voit käyttää mitä tahansa menetelmiä, kuten substituutiota tai Cramerin menetelmää. Tuloksena pitäisi saada kaavat, jotka laskevat kertoimet pienimmän neliösumman menetelmällä.

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n ∑ i = 1 n ∑ i

Olemme laskeneet niiden muuttujien arvot, joille funktio on
F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 ottaa pienimmän arvon. Kolmannessa kappaleessa todistamme, miksi se on niin.

Tämä on pienimmän neliösumman menetelmän soveltaminen käytännössä. Hänen kaavansa, jota käytetään parametrin a etsimiseen, sisältää ∑ i = 1 n x i, ∑ i = 1 n y i, ∑ i = 1 n x i y i, ∑ i = 1 n x i 2 ja parametrin
n - se ilmaisee kokeellisen tiedon määrää. Suosittelemme laskemaan jokaisen summan erikseen. Kertoimen arvo b lasketaan välittömästi a:n jälkeen.

Palataan alkuperäiseen esimerkkiin.

Esimerkki 1

Tässä meillä on n yhtä kuin viisi. Jotta kerroinkaavoihin sisältyvien tarvittavien määrien laskeminen olisi helpompaa, täytämme taulukon.

i = 1 i = 2 i = 3 i = 4 i = 5 ∑ i = 15
x i 0 1 2 4 5 12
y i 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
x i y i 0 2 , 4 5 , 2 11 , 2 15 33 , 8
x i 2 0 1 4 16 25 46

Päätös

Neljännellä rivillä on tiedot, jotka on saatu kertomalla toisen rivin arvot kolmannen arvoilla jokaiselle yksilölle i . Viides rivi sisältää tiedot toisesta neliöstä. Viimeinen sarake näyttää yksittäisten rivien arvojen summat.

Lasketaan tarvittavat kertoimet a ja b pienimmän neliösumman menetelmällä. Voit tehdä tämän korvaamalla haluamasi arvot viimeisestä sarakkeesta ja laskemalla summat:

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n ∑ i = 1 n ∑ i = 1 n x i = 1 n ∑ i - 12 12, 9 5 46 - 12 2 b = 12, 9 - a 12 5 ⇒ a ≈ 0, 165 b ≈ 2, 184

Saimme, että haluttu approksimoiva suora näyttää tältä y = 0, 165 x + 2, 184. Nyt meidän on määritettävä, mikä rivi parhaiten approksimoi dataa - g (x) = x + 1 3 + 1 vai 0 , 165 x + 2 , 184 . Tehdään arvio pienimmän neliösumman menetelmällä.

Virheen laskemiseksi meidän on löydettävä datan neliöpoikkeamien summat suorista σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 ja σ 2 = ∑ i = 1 n (y i - g (x i)) 2, minimiarvo vastaa sopivampaa viivaa.

σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 = = ∑ i = 1 5 (y i - (0 , 165 x i + 2 , 184)) 2 ≈ 0, 019 ψ 2 = ∑ i = ∑ i = 1 5 1 n (y i - g (x i)) 2 = = ∑ i = 1 5 (y i - (x i + 1 3 + 1)) 2 ≈ 0, 096

Vastaus: koska σ 1< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
y = 0, 165 x + 2, 184.

Pienimmän neliösumman menetelmä näkyy selkeästi graafisessa kuvassa. Punainen viiva merkitsee suoraa g (x) = x + 1 3 + 1, sininen viiva merkitsee y = 0, 165 x + 2, 184. Raakatiedot on merkitty vaaleanpunaisilla pisteillä.

Selvitetään, miksi juuri tämän tyyppisiä approksimaatioita tarvitaan.

Niitä voidaan käyttää ongelmissa, jotka vaativat tietojen tasoitusta, sekä niissä, joissa dataa on interpoloitava tai ekstrapoloitava. Esimerkiksi edellä käsitellyssä ongelmassa havaitun suuren y arvo voitaisiin löytää kohdassa x = 3 tai kohdassa x = 6 . Olemme omistaneet erillisen artikkelin tällaisille esimerkeille.

Todiste LSM-menetelmästä

Jotta funktio saa pienimmän arvon lasketuille a:lle ja b:lle, on välttämätöntä, että tietyssä pisteessä muotoa F (a, b) olevan funktion differentiaalin neliömuodon matriisi = ∑ i = 1 n ( y i - (a x i + b)) 2 on positiivinen määrätty. Näytämme sinulle, miltä sen pitäisi näyttää.

Esimerkki 2

Meillä on seuraavan muodon toisen asteen erotus:

d 2 F (a ; b) = δ 2 F (a ; b) δ a 2 d 2 a + 2 δ 2 F (a ; b) δ a δ b d a d b + δ 2 F (a ; b) δ b 2 d 2b

Päätös

δ 2 F (a ; b) δ a 2 = δ δ F (a ; b) δ a δ a = = δ - 2 ∑ i = 1 n (y i - (a x i + b)) x i δ a = 2 ∑ i = 1 n (x i) 2 δ 2 F (a ; b) δ a δ b = δ δ F (a ; b) δ a δ b = = δ - 2 ∑ i = 1 n (y i - (a x i + b) ) x i δ b = 2 ∑ i = 1 n x i δ 2 F (a ; b) δ b 2 = δ δ F (a ; b) δ b δ b = δ - 2 ∑ i = 1 n (y i - (a x i + b)) δ b = 2 ∑ i = 1 n (1) = 2 n

Toisin sanoen se voidaan kirjoittaa seuraavasti: d 2 F (a ; b) = 2 ∑ i = 1 n (x i) 2 d 2 a + 2 2 ∑ x i i = 1 n d a d b + (2 n) d 2 b .

Olemme saaneet matriisin, jonka neliömuoto on M = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n .

Tässä tapauksessa yksittäisten elementtien arvot eivät muutu a:sta ja b:stä riippuen. Onko tämä matriisi positiivinen? Vastataksemme tähän kysymykseen tarkistamalla, ovatko sen kulmikkaat alaikäiset positiiviset.

Laske ensimmäisen kertaluvun kulmamolli: 2 ∑ i = 1 n (x i) 2 > 0 . Koska pisteet x i eivät ole samat, epäyhtälö on tiukka. Pidämme tämän mielessä tulevissa laskelmissa.

Laskemme toisen asteen kulmamollin:

d e t (M) = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n = 4 n ∑ i = 1 n (x i) 2 - 1 2 n i = i

Tämän jälkeen edetään matemaattisen induktion avulla epäyhtälön n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 todistukseen.

  1. Tarkastetaan, onko tämä epäyhtälö pätevä mielivaltaiselle n:lle. Otetaan 2 ja lasketaan:

2 ∑ i = 1 2 (x i) 2 - ∑ i = 1 2 x i 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0

Saimme oikean yhtälön (jos arvot x 1 ja x 2 eivät täsmää).

  1. Oletetaan, että tämä epäyhtälö on totta n:lle, ts. n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 – totta.
  2. Todistetaan nyt pätevyys n + 1:lle, ts. että (n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 > 0, jos n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 .

Laskemme:

(n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 = = (n + 1) ∑ i = 1 n (x i) 2 + x n + 1 2 - ∑ i = 1 n x i + x n + 1 2 = = n ∑ i = 1 n (x i) 2 + n x n + 1 2 + ∑ i = 1 n (x i) 2 + x n + 1 2 - - ∑ i = 1 n x i 2 + x n + 1 ∑ i = 1 n x i + x n + 1 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + n x n + 1 2 - x n + 1 ∑ i = 1 n x 1 n (x i) 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + x n + 1 2 - 2 x n + 1 x 1 + x 1 2 + + x n + 1 2 - 2 x n + 1 x 2 + x 2 2 + . . . + x n + 1 2 - 2 x n + 1 x 1 + x n 2 = = n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + + (x n + 1 - x 1) 2 + (x n + 1) - x 2) 2 + . . . + (x n - 1 - x n) 2 > 0

Aaltosulkeiden sisällä oleva lauseke on suurempi kuin 0 (perustuu siihen, mitä oletimme vaiheessa 2), ja loput termit ovat suurempia kuin 0, koska ne ovat kaikki numeroiden neliöitä. Olemme todistaneet eriarvoisuuden.

Vastaus: löydetyt a ja b vastaavat funktion pienintä arvoa F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2, mikä tarkoittaa, että ne ovat pienimmän neliösumman menetelmän haluttuja parametreja (LSM).

Jos huomaat tekstissä virheen, korosta se ja paina Ctrl+Enter

Sitä käytetään laajalti ekonometriassa sen parametrien selkeän taloudellisen tulkinnan muodossa.

Lineaarinen regressio pelkistetään muodon yhtälön löytämiseen

tai

Tyyppiyhtälö sallii tietyt parametriarvot X niillä on tehokkaan ominaisuuden teoreettiset arvot, jotka korvaavat siihen tekijän todelliset arvot X.

Lineaarisen regression rakentaminen laskee sen parametrien − a ja sisään. Lineaarisen regression parametriestimaatit voidaan löytää eri menetelmillä.

Klassinen lähestymistapa lineaarisen regression parametrien arvioimiseen perustuu pienimmän neliösumman(MNK).

LSM mahdollistaa tällaisten parametrien arvioiden saamisen a ja sisään, jonka alle tuloksena olevan ominaisuuden todellisten arvojen neliöityjen poikkeamien summa (y) lasketusta (teoreettisesta) minimiminimi:

Funktion minimin löytämiseksi on tarpeen laskea osittaiset derivaatat kunkin parametrin suhteen a ja b ja rinnastaa ne nollaan.

Merkitse S:n kautta, sitten:

Muuttamalla kaava saadaan seuraava normaaliyhtälöjärjestelmä parametrien estimoimiseksi a ja sisään:

Ratkaisemalla normaaliyhtälöjärjestelmä (3.5) joko muuttujien peräkkäisen eliminoinnin menetelmällä tai determinanttien menetelmällä saadaan halutut parametriestimaatit a ja sisään.

Parametri sisään kutsutaan regressiokertoimeksi. Sen arvo näyttää keskimääräisen tuloksen muutoksen kertoimen muutoksella yhden yksikön verran.

Regressioyhtälöä täydennetään aina suhteen tiiviyden indikaattorilla. Lineaarista regressiota käytettäessä lineaarinen korrelaatiokerroin toimii sellaisena indikaattorina. Lineaarisen korrelaatiokertoimen kaavaan on erilaisia ​​muunnelmia. Jotkut niistä on lueteltu alla:

Kuten tiedät, lineaarinen korrelaatiokerroin on rajoissa: -1 1.

Lineaarifunktion valinnan laadun arvioimiseksi neliö lasketaan

Lineaarinen korrelaatiokerroin ns määrityskerroin. Determinaatiokerroin kuvaa tehollisen ominaisuuden varianssin osuutta y, selittyy regressiolla tuloksena olevan piirteen kokonaisvarianssissa:

Vastaavasti arvo 1 - kuvaa dispersion osuutta y, aiheutuu muiden mallissa huomioimattomien tekijöiden vaikutuksesta.

Kysymyksiä itsehillintää varten

1. Pienimmän neliösumman menetelmän ydin?

2. Kuinka monta muuttujaa mahdollistaa parittaisen regression?

3. Mikä kerroin määrittää muutosten välisen yhteyden tiiviyden?

4. Missä rajoissa determinaatiokerroin määritetään?

5. Parametrin b estimointi korrelaatio-regressioanalyysissä?

1. Christopher Dougherty. Johdatus ekonometriaan. - M.: INFRA - M, 2001 - 402 s.

2. S.A. Borodich. Ekonometria. Minsk LLC "New Knowledge" 2001.


3. R.U. Rakhmetova Ekonometriikan lyhyt kurssi. Opetusohjelma. Almaty. 2004. -78s.

4. I.I. Eliseeva, ekonometria. - M.: "Rahoitus ja tilastot", 2002

5. Kuukausittainen tieto- ja analyyttinen aikakauslehti.

Epälineaariset talousmallit. Epälineaariset regressiomallit. Muuttuva muunnos.

Epälineaariset talousmallit..

Muuttuva muunnos.

elastisuuskerroin.

Jos talousilmiöiden välillä on epälineaarisia suhteita, ne ilmaistaan ​​käyttämällä vastaavia epälineaarisia funktioita: esimerkiksi tasasivuinen hyperbola , toisen asteen paraabelit jne.

Epälineaarisia regressioita on kaksi luokkaa:

1. Regressiot, jotka ovat epälineaarisia analyysiin sisältyvien selittävien muuttujien suhteen, mutta lineaarisia arvioitujen parametrien suhteen, esimerkiksi:

Eriasteiset polynomit - , ;

Tasasivuinen hyperboli - ;

Puoligaritminen funktio - .

2. Regressiot, jotka ovat epälineaarisia arvioiduissa parametreissa, esimerkiksi:

Teho - ;

Demonstroiva -;

Eksponentiaalinen - .

Tuloksena olevan attribuutin yksittäisten arvojen neliöityjen poikkeamien kokonaissumma klo keskiarvosta johtuu monien tekijöiden vaikutuksesta. Jaamme ehdollisesti koko syyjoukon kahteen ryhmään: tutkittu tekijä x ja muut tekijät.

Jos tekijä ei vaikuta tulokseen, kaavion regressioviiva on yhdensuuntainen akselin kanssa vai niin ja

Tällöin tuloksena olevan attribuutin koko dispersio johtuu muiden tekijöiden vaikutuksesta ja neliöityjen poikkeamien kokonaissumma osuu yhteen jäännöksen kanssa. Jos muut tekijät eivät vaikuta tulokseen, niin olet sidottu kanssa X toiminnallisesti, ja neliöiden jäännössumma on nolla. Tässä tapauksessa regression selittämien poikkeamien neliösumma on sama kuin neliöiden kokonaissumma.

Koska kaikki korrelaatiokentän pisteet eivät ole regressioviivalla, tapahtuu niiden sironta aina tekijän vaikutuksesta X, eli regressio klo päällä X, ja johtuu muiden syiden vaikutuksesta (selittämätön vaihtelu). Regressioviivan soveltuvuus ennusteeseen riippuu siitä, mikä osa ominaisuuden kokonaisvariaatiosta klo selittää selitetyn muunnelman

Ilmeisesti, jos regressiosta johtuvien neliöityjen poikkeamien summa on suurempi kuin neliöiden jäännössumma, niin regressioyhtälö on tilastollisesti merkitsevä ja tekijä X sillä on merkittävä vaikutus lopputulokseen. y.

, eli ominaisuuden itsenäisen vaihtelun vapauden lukumäärällä. Vapausasteiden lukumäärä on suhteessa populaation n yksikkömäärään ja siitä määritettyyn vakioiden määrään. Suhteessa tutkittavaan ongelmaan vapausasteiden lukumäärän tulisi näyttää kuinka monesta riippumattomasta poikkeamasta P

Arvio regressioyhtälön merkityksestä kokonaisuutena annetaan avulla F- Fisherin kriteeri. Tässä tapauksessa esitetään nollahypoteesi, että regressiokerroin on nolla, ts. b= 0, ja siten tekijä X ei vaikuta tulokseen y.

F-kriteerin suoraa laskemista edeltää varianssianalyysi. Keskeistä siinä on muuttujan neliöityjen poikkeamien kokonaissumman laajentaminen klo keskiarvosta klo kahteen osaan - "selitetty" ja "selittämätön":

- neliöityjen poikkeamien kokonaissumma;

- regressiolla selitettyjen poikkeamien neliösumma;

on poikkeaman neliöiden jäännössumma.

Mikä tahansa neliöityjen poikkeamien summa liittyy vapausasteiden määrään , eli ominaisuuden riippumattoman vaihtelun vapauden lukumäärällä. Vapausasteiden määrä on suhteessa väestöyksiköiden määrään n ja siitä määritetyllä vakiomäärällä. Suhteessa tutkittavaan ongelmaan vapausasteiden lukumäärän tulisi näyttää kuinka monesta riippumattomasta poikkeamasta P mahdollista tietyn neliösumman muodostamiseksi.

Dispersio vapausastetta kohdenD.

F-suhteet (F-kriteeri):

Jos nollahypoteesi pitää paikkansa, silloin tekijä- ja jäännösvarianssit eivät eroa toisistaan. H 0:lle kumoaminen on tarpeen, jotta tekijävarianssi ylittää residuaalin useita kertoja. Englantilainen tilastotieteilijä Snedecor kehitti kriittisten arvojen taulukot F-suhteet nollahypoteesin eri merkitystasoilla ja eri vapausasteiden määrällä. Taulukon arvo F-kriteeri on varianssien suhteen maksimiarvo, joka voi esiintyä, jos ne poikkeavat satunnaisesti tietyllä nollahypoteesin olemassaolon todennäköisyystasolla. Laskettu arvo F-suhde tunnustetaan luotettavaksi, jos o on suurempi kuin taulukko.

Tässä tapauksessa nollahypoteesi piirteiden suhteen puuttumisesta hylätään ja tehdään johtopäätös tämän suhteen merkityksestä: F tosiasia > F-taulukko H 0 hylätään.

Jos arvo on pienempi kuin taulukko F tosiasia ‹, F-taulukko, silloin nollahypoteesin todennäköisyys on korkeampi kuin annettu taso, eikä sitä voida hylätä ilman vakavaa riskiä tehdä väärä johtopäätös suhteen olemassaolosta. Tässä tapauksessa regressioyhtälöä pidetään tilastollisesti merkityksettömänä. N o ei poikkea.

Regressiokertoimen standardivirhe

Regressiokertoimen merkityksen arvioimiseksi sen arvoa verrataan sen keskivirheeseen eli määritetään todellinen arvo t- Opiskelijan kriteeri: jota sitten verrataan taulukkoarvoon tietyllä merkitystasolla ja vapausasteiden lukumäärällä ( n- 2).

Parametrin vakiovirhe a:

Lineaarisen korrelaatiokertoimen merkitys tarkistetaan virheen suuruuden perusteella korrelaatiokerroin r:

Ominaisuuden kokonaisvarianssi X:

Useita lineaarisia regressioita

Mallirakennus

Moninkertainen regressio on tehokkaan ominaisuuden regressio kahdella tai useammalla tekijällä, eli muodon malli

Regressio voi antaa hyvän tuloksen mallintamisessa, jos muiden tutkimuskohteeseen vaikuttavien tekijöiden vaikutus voidaan jättää huomiotta. Yksittäisten taloudellisten muuttujien käyttäytymistä ei voida kontrolloida, eli ei ole mahdollista varmistaa kaikkien muiden ehtojen yhtäläisyyttä yhden tutkittavan tekijän vaikutuksen arvioimiseksi. Tässä tapauksessa sinun tulee yrittää tunnistaa muiden tekijöiden vaikutus ottamalla ne mukaan malliin, eli rakentaa moninkertainen regressioyhtälö: y = a+b 1 x 1 +b 2 +…+b p x p + .

Moninkertaisen regression päätavoitteena on rakentaa malli, jossa on suuri määrä tekijöitä, ja samalla määrittää kunkin vaikutuksen yksittäin sekä niiden kumulatiivinen vaikutus mallinnettuun indikaattoriin. Mallin määrittely sisältää kaksi kysymysaluetta: tekijöiden valinnan ja regressioyhtälön tyypin valinnan