Metoda tradițională a celor mai mici pătrate. Metoda celor mai mici pătrate

Are multe aplicații, deoarece permite o reprezentare aproximativă a unei anumite funcții de către altele mai simple. LSM poate fi extrem de util în procesarea observațiilor și este utilizat în mod activ pentru a estima unele cantități din rezultatele măsurătorilor altora care conțin erori aleatoare. În acest articol, veți învăța cum să implementați calculele celor mai mici pătrate în Excel.

Enunțarea problemei pe un exemplu specific

Să presupunem că există doi indicatori X și Y. Mai mult, Y depinde de X. Deoarece OLS este de interes pentru noi din punct de vedere al analizei de regresie (în Excel, metodele sale sunt implementate folosind funcții încorporate), ar trebui să procedăm imediat a lua în considerare o problemă specifică.

Deci, fie X aria de vânzare a unui magazin alimentar, măsurată în metri pătrați, iar Y cifra de afaceri anuală, definită în milioane de ruble.

Se cere sa se faca o previziune a ce cifra de afaceri (Y) va avea magazinul daca are unul sau altul spatiu comercial. Evident, funcția Y = f (X) este în creștere, deoarece hipermarketul vinde mai multe mărfuri decât taraba.

Câteva cuvinte despre corectitudinea datelor inițiale utilizate pentru predicție

Să presupunem că avem un tabel construit cu date pentru n magazine.

Conform statisticilor matematice, rezultatele vor fi mai mult sau mai puțin corecte dacă se examinează datele de pe cel puțin 5-6 obiecte. De asemenea, rezultatele „anomale” nu pot fi folosite. În special, un mic butic de elită poate avea o cifră de afaceri de multe ori mai mare decât cifra de afaceri a magazinelor mari din clasa „masmarket”.

Esența metodei

Datele din tabel pot fi afișate pe planul cartezian ca puncte M 1 (x 1, y 1), ... M n (x n, y n). Acum soluția problemei se va reduce la selectarea unei funcții de aproximare y = f (x), care are un grafic care trece cât mai aproape de punctele M 1, M 2, .. M n .

Desigur, puteți utiliza un polinom de grad înalt, dar această opțiune nu este doar dificil de implementat, ci pur și simplu incorectă, deoarece nu va reflecta tendința principală care trebuie detectată. Soluția cea mai rezonabilă este găsirea dreptei y = ax + b, care aproximează cel mai bine datele experimentale, sau mai degrabă, coeficienții - a și b.

Scorul de precizie

Pentru orice aproximare, evaluarea acurateței sale este de o importanță deosebită. Notați cu e i diferența (abaterea) dintre valorile funcționale și experimentale pentru punctul x i , adică e i = y i - f (x i).

Evident, pentru a evalua acuratețea aproximării, puteți utiliza suma abaterilor, adică atunci când alegeți o linie dreaptă pentru o reprezentare aproximativă a dependenței lui X de Y, ar trebui să se acorde preferință celei care are cea mai mică valoare a suma e i în toate punctele luate în considerare. Cu toate acestea, nu totul este atât de simplu, deoarece împreună cu abaterile pozitive, practic vor fi și negative.

Puteți rezolva problema folosind modulele de abatere sau pătratele acestora. Această din urmă metodă este cea mai utilizată. Este folosit în multe domenii, inclusiv în analiza regresiei (în Excel, implementarea sa se realizează folosind două funcții încorporate) și s-a dovedit de mult timp a fi eficient.

Metoda celor mai mici pătrate

În Excel, după cum știți, există o funcție de asumare automată încorporată care vă permite să calculați valorile tuturor valorilor situate în intervalul selectat. Astfel, nimic nu ne va împiedica să calculăm valoarea expresiei (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

În notație matematică, aceasta arată astfel:

Deoarece inițial a fost luată decizia de a aproxima folosind o linie dreaptă, avem:

Astfel, sarcina de a găsi o linie dreaptă care descrie cel mai bine o relație specifică între X și Y echivalează cu calcularea minimului unei funcții a două variabile:

Acest lucru necesită egalarea la zero derivate parțiale în raport cu noile variabile a și b și rezolvarea unui sistem primitiv format din două ecuații cu 2 necunoscute de forma:

După transformări simple, inclusiv împărțirea la 2 și manipularea sumelor, obținem:

Rezolvând-o, de exemplu, prin metoda lui Cramer, obținem un punct staționar cu anumiți coeficienți a * și b * . Acesta este minimul, adică pentru a prezice ce cifră de afaceri va avea magazinul pentru o anumită zonă, este potrivită linia dreaptă y = a * x + b *, care este un model de regresie pentru exemplul în cauză. Desigur, nu vă va permite să găsiți rezultatul exact, dar vă va ajuta să vă faceți o idee dacă cumpărarea unui magazin cu credit pentru o anumită zonă va da roade.

Cum se implementează metoda celor mai mici pătrate în Excel

Excel are o funcție pentru calcularea valorii celor mai mici pătrate. Are următoarea formă: TREND (valori Y cunoscute; valori X cunoscute; valori X noi; constantă). Să aplicăm formula pentru calcularea MOL în Excel în tabelul nostru.

Pentru a face acest lucru, în celula în care ar trebui să fie afișat rezultatul calculului folosind metoda celor mai mici pătrate în Excel, introduceți semnul „=” și selectați funcția „TENDINȚA”. În fereastra care se deschide, completați câmpurile corespunzătoare, evidențiind:

  • interval de valori cunoscute pentru Y (în acest caz date pentru cifra de afaceri);
  • interval x 1 , …x n , adică dimensiunea spațiului comercial cu amănuntul;
  • și valorile cunoscute și necunoscute ale lui x, pentru care trebuie să aflați dimensiunea cifrei de afaceri (pentru informații despre locația lor pe foaia de lucru, consultați mai jos).

În plus, există o variabilă logică „Const” în formulă. Dacă introduceți 1 în câmpul corespunzător, atunci aceasta va însemna că trebuie efectuate calcule, presupunând că b \u003d 0.

Dacă trebuie să cunoașteți prognoza pentru mai mult de o valoare x, atunci după introducerea formulei, nu trebuie să apăsați „Enter”, ci trebuie să introduceți combinația „Shift” + „Control” + „Enter” („Enter” ) pe tastatură.

Unele caracteristici

Analiza de regresie poate fi accesibilă chiar și pentru manechin. Formula Excel pentru prezicerea valorii unui tablou de variabile necunoscute – „TENDINȚA” – poate fi folosită chiar și de cei care nu au auzit niciodată de metoda celor mai mici pătrate. Este suficient doar să cunoști câteva caracteristici ale muncii sale. În special:

  • Dacă aranjați intervalul de valori cunoscute ale variabilei y într-un rând sau coloană, atunci fiecare rând (coloană) cu valori cunoscute ale lui x va fi perceput de program ca o variabilă separată.
  • Dacă intervalul cu x cunoscut nu este specificat în fereastra TREND, atunci în cazul utilizării funcției în Excel, programul o va considera ca o matrice formată din numere întregi, al căror număr corespunde intervalului cu valorile date. a variabilei y.
  • Pentru a scoate o matrice de valori „prevăzute”, expresia tendinței trebuie introdusă ca formulă matrice.
  • Dacă nu sunt specificate noi valori x, atunci funcția TREND le consideră egale cu cele cunoscute. Dacă nu sunt specificate, atunci tabloul 1 este luat ca argument; 2; 3; 4;…, care este proporțional cu intervalul cu parametrii deja dați y.
  • Intervalul care conține noile valori x trebuie să aibă aceleași sau mai multe rânduri sau coloane ca și intervalul cu valorile y date. Cu alte cuvinte, trebuie să fie proporțional cu variabilele independente.
  • O matrice cu valori x cunoscute poate conține mai multe variabile. Cu toate acestea, dacă vorbim doar despre unul, atunci este necesar ca intervalele cu valorile date ale lui x și y să fie proporționale. În cazul mai multor variabile, este necesar ca intervalul cu valorile y date să se încadreze într-o coloană sau un rând.

Funcția FORECAST

Este implementat folosind mai multe funcții. Una dintre ele se numește „PREDICȚIE”. Este similar cu TREND, adică oferă rezultatul calculelor folosind metoda celor mai mici pătrate. Cu toate acestea, numai pentru un X, pentru care valoarea lui Y este necunoscută.

Acum cunoașteți formulele Excel pentru manechine care vă permit să preziceți valoarea viitoarei valori a unui indicator în funcție de o tendință liniară.

Aproximarea datelor experimentale este o metodă bazată pe înlocuirea datelor obținute experimental cu o funcție analitică care trece cel mai aproape sau coincide în punctele nodale cu valorile inițiale (date obținute în timpul experimentului sau experimentului). În prezent, există două moduri de a defini o funcție analitică:

Prin construirea unui polinom de interpolare de n grade care trece direct prin toate punctele o gamă dată de date. În acest caz, funcția de aproximare este reprezentată ca: un polinom de interpolare în forma Lagrange sau un polinom de interpolare în forma Newton.

Construind un polinom de aproximare de n grade care trece aproape de puncte din matricea de date dată. Astfel, funcția de aproximare netezește toate zgomotele (sau erorile) aleatorii care pot apărea în timpul experimentului: valorile măsurate în timpul experimentului depind de factori aleatori care fluctuează în funcție de propriile legi aleatorii (erori de măsurare sau instrumente, inexactitate sau experimentale). erori). În acest caz, funcția de aproximare este determinată prin metoda celor mai mici pătrate.

Metoda celor mai mici pătrate(în literatura engleză Ordinary Least Squares, MCO) este o metodă matematică bazată pe definiția unei funcții de aproximare, care este construită în cea mai apropiată apropiere de puncte dintr-o serie dată de date experimentale. Proximitatea funcțiilor inițiale și de aproximare F(x) este determinată de o măsură numerică și anume: suma abaterilor pătrate ale datelor experimentale de la curba de aproximare F(x) ar trebui să fie cea mai mică.

Curba de potrivire construită prin metoda celor mai mici pătrate

Se folosește metoda celor mai mici pătrate:

Să rezolve sisteme de ecuații supradeterminate când numărul de ecuații depășește numărul de necunoscute;

Pentru a căuta o soluție în cazul sistemelor de ecuații neliniare obișnuite (nu supradeterminate);

Pentru aproximarea valorilor punctuale printr-o funcție de aproximare.

Funcția de aproximare prin metoda celor mai mici pătrate este determinată din condiția sumei minime a abaterilor pătrate a funcției de aproximare calculată dintr-o serie dată de date experimentale. Acest criteriu al metodei celor mai mici pătrate se scrie ca următoarea expresie:

Valorile funcției de aproximare calculate la punctele nodale,

Matrice specificată de date experimentale la punctele nodale.

Un criteriu pătratic are o serie de proprietăți „bune”, cum ar fi diferențiabilitatea, oferind o soluție unică la problema de aproximare cu funcții de aproximare polinomială.

În funcție de condițiile problemei, funcția de aproximare este un polinom de gradul m

Gradul funcției de aproximare nu depinde de numărul de puncte nodale, dar dimensiunea acesteia trebuie să fie întotdeauna mai mică decât dimensiunea (numărul de puncte) a matricei date de date experimentale.

∙ Dacă gradul funcției de aproximare este m=1, atunci aproximăm funcția tabelă cu o dreaptă (regresie liniară).

∙ Dacă gradul funcției de aproximare este m=2, atunci aproximăm funcția tabelă cu o parabolă pătratică (aproximare pătratică).

∙ Dacă gradul funcției de aproximare este m=3, atunci aproximăm funcția tabelă cu o parabolă cubică (aproximație cubică).

În cazul general, când este necesară construirea unui polinom de aproximare de gradul m pentru valori tabelare date, condiția pentru suma minimă a abaterilor pătrate asupra tuturor punctelor nodale este rescrisă în următoarea formă:

- coeficienți necunoscuți ai polinomului de aproximare de gradul m;

Numărul de valori specificate din tabel.

O condiție necesară pentru existența unui minim al unei funcții este egalitatea cu zero a derivatelor sale parțiale în raport cu variabilele necunoscute . Ca rezultat, obținem următorul sistem de ecuații:

Să transformăm sistemul liniar de ecuații rezultat: deschideți parantezele și mutați termenii liberi în partea dreaptă a expresiei. Ca urmare, sistemul rezultat de expresii algebrice liniare va fi scris în următoarea formă:

Acest sistem de expresii algebrice liniare poate fi rescris sub formă de matrice:

Ca urmare, s-a obținut un sistem de ecuații liniare de dimensiunea m + 1, care constă din m + 1 necunoscute. Acest sistem poate fi rezolvat folosind orice metodă de rezolvare a ecuațiilor algebrice liniare (de exemplu, metoda Gauss). Ca urmare a soluției, se vor găsi parametri necunoscuți ai funcției de aproximare care furnizează suma minimă a abaterilor pătrate ale funcției de aproximare față de datele originale, adică. cea mai bună aproximare pătratică posibilă. Trebuie amintit că, dacă chiar și o valoare a datelor inițiale se modifică, toți coeficienții își vor schimba valorile, deoarece sunt complet determinați de datele inițiale.

Aproximarea datelor inițiale prin dependență liniară

(regresie liniara)

Ca exemplu, luați în considerare metoda de determinare a funcției de aproximare, care este dată ca o relație liniară. În conformitate cu metoda celor mai mici pătrate, condiția pentru suma minimă a abaterilor pătrate se scrie după cum urmează:

Coordonatele punctelor nodale ale tabelului;

Coeficienți necunoscuți ai funcției de aproximare, care este dat ca relație liniară.

O condiție necesară pentru existența unui minim al unei funcții este egalitatea la zero a derivatelor sale parțiale în raport cu variabilele necunoscute. Ca rezultat, obținem următorul sistem de ecuații:

Să transformăm sistemul liniar de ecuații rezultat.

Rezolvăm sistemul rezultat de ecuații liniare. Coeficienții funcției de aproximare în forma analitică se determină după cum urmează (metoda lui Cramer):

Acești coeficienți asigură construcția unei funcții de aproximare liniare în conformitate cu criteriul de minimizare a sumei pătratelor funcției de aproximare din valori tabelare date (date experimentale).

Algoritm pentru implementarea metodei celor mai mici pătrate

1. Date inițiale:

Având în vedere o serie de date experimentale cu numărul de măsurători N

Este dat gradul polinomului de aproximare (m).

2. Algoritm de calcul:

2.1. Se determină coeficienți pentru construirea unui sistem de ecuații cu dimensiune

Coeficienții sistemului de ecuații (partea stângă a ecuației)

- indicele numărului coloanei matricei pătrate a sistemului de ecuații

Membri liberi ai sistemului de ecuații liniare (partea dreaptă a ecuației)

- indicele numărului de rând al matricei pătrate a sistemului de ecuații

2.2. Formarea unui sistem de ecuații liniare cu dimensiunea .

2.3. Rezolvarea unui sistem de ecuații liniare pentru a determina coeficienții necunoscuți ai polinomului de aproximare de gradul m.

2.4 Determinarea sumei abaterilor pătrate ale polinomului de aproximare de la valorile inițiale pe toate punctele nodale

Valoarea găsită a sumei abaterilor pătrate este minimul posibil.

Aproximare cu alte funcții

Trebuie remarcat că atunci când se aproximează datele inițiale în conformitate cu metoda celor mai mici pătrate, o funcție logaritmică, o funcție exponențială și o funcție de putere sunt uneori folosite ca funcție de aproximare.

Aproximarea jurnalului

Luați în considerare cazul în care funcția de aproximare este dată de o funcție logaritmică de forma:

Esența metodei celor mai mici pătrate este în găsirea parametrilor modelului de tendință care descrie cel mai bine tendința de dezvoltare a oricărui fenomen aleatoriu în timp sau spațiu (o tendință este o linie care caracterizează tendința acestei dezvoltări). Sarcina metodei celor mai mici pătrate (OLS) este de a găsi nu doar un model de tendință, ci de a găsi cel mai bun sau optim model. Acest model va fi optim dacă suma abaterilor pătrate dintre valorile reale observate și valorile de tendință calculate corespunzătoare este minimă (cea mai mică):

unde este abaterea standard dintre valoarea reală observată

și valoarea de tendință calculată corespunzătoare,

Valoarea reală (observată) a fenomenului studiat,

Valoarea estimată a modelului de tendință,

Numărul de observații ale fenomenului studiat.

MNC este rareori folosit pe cont propriu. De regulă, cel mai adesea este folosit doar ca tehnică necesară în studiile de corelație. Trebuie amintit că baza informațională a LSM poate fi doar o serie statistică de încredere, iar numărul de observații nu trebuie să fie mai mic de 4, în caz contrar, procedurile de netezire ale LSM-ului își pot pierde bunul simț.

Setul de instrumente OLS este redus la următoarele proceduri:

Prima procedură. Se dovedește dacă există vreo tendință de a schimba atributul rezultat atunci când factorul-argument selectat se schimbă sau, cu alte cuvinte, dacă există o legătură între " la " și " X ».

A doua procedură. Se stabilește care linie (traiectorie) este cel mai în măsură să descrie sau să caracterizeze această tendință.

A treia procedură.

Exemplu. Să presupunem că avem informații despre randamentul mediu de floarea soarelui pentru ferma studiată (Tabelul 9.1).

Tabelul 9.1

Numărul de observație

Productivitate, c/ha

Întrucât nivelul tehnologiei în producția de floarea soarelui în țara noastră nu s-a schimbat foarte mult în ultimii 10 ani, înseamnă că, cel mai probabil, fluctuațiile de producție în perioada analizată au depins foarte mult de fluctuațiile condițiilor meteo și climatice. Este adevarat?

Prima procedură MNC. Se testează ipoteza despre existența unei tendințe de modificare a randamentului floarea-soarelui în funcție de schimbările condițiilor meteo și climatice pe parcursul celor 10 ani analizați.

În acest exemplu, pentru „ y » este indicat să luați randamentul de floarea soarelui, iar pentru « X » este numărul anului observat în perioada analizată. Testarea ipotezei despre existența oricărei relații între " X " și " y » se poate face in doua moduri: manual si cu ajutorul programelor de calculator. Desigur, odată cu disponibilitatea tehnologiei informatice, această problemă se rezolvă de la sine. Dar, pentru a înțelege mai bine setul de instrumente OLS, este recomandabil să testați ipoteza despre existența unei relații între " X " și " y » manual, când sunt la îndemână doar un pix și un calculator obișnuit. În astfel de cazuri, ipoteza existenței unei tendințe este cel mai bine verificată vizual prin locația imaginii grafice a seriei temporale analizate - câmpul de corelație:

Câmpul de corelație din exemplul nostru este situat în jurul unei linii care crește încet. Acest lucru în sine indică existența unei anumite tendințe în schimbarea producției de floarea soarelui. Este imposibil să vorbim despre prezența oricărei tendințe doar atunci când câmpul de corelare arată ca un cerc, un cerc, un nor strict vertical sau strict orizontal sau este format din puncte împrăștiate aleatoriu. În toate celelalte cazuri, este necesar să se confirme ipoteza existenței unei relații între " X " și " y și continuă cercetarea.

A doua procedură MNC. Se determină care linie (traiectorie) este cel mai în măsură să descrie sau să caracterizeze tendința modificărilor producției de floarea-soarelui pentru perioada analizată.

Odată cu disponibilitatea tehnologiei informatice, selectarea tendinței optime are loc automat. Cu prelucrarea „manuală”, alegerea funcției optime se realizează, de regulă, într-un mod vizual - prin locația câmpului de corelare. Adică, în funcție de tipul de diagramă, este selectată ecuația liniei, care se potrivește cel mai bine tendinței empirice (la traiectoria reală).

După cum știți, în natură există o mare varietate de dependențe funcționale, așa că este extrem de dificil să analizați vizual chiar și o mică parte din ele. Din fericire, în practica economică reală, majoritatea relațiilor pot fi descrise cu acuratețe fie printr-o parabolă, fie printr-o hiperbolă, fie printr-o linie dreaptă. În acest sens, cu opțiunea „manual” pentru selectarea celei mai bune funcții, te poți limita doar la aceste trei modele.

Hiperbolă:

Parabola de ordinul doi: :

Este ușor de observat că în exemplul nostru, tendința de modificare a randamentului de floarea-soarelui pe parcursul celor 10 ani analizați este cel mai bine caracterizată printr-o linie dreaptă, astfel încât ecuația de regresie va fi o ecuație în linie dreaptă.

A treia procedură. Se calculează parametrii ecuației de regresie care caracterizează această linie sau, cu alte cuvinte, se determină o formulă analitică care descrie cel mai bun model de tendință.

Găsirea valorilor parametrilor ecuației de regresie, în cazul nostru, parametrii și , este nucleul LSM. Acest proces se reduce la rezolvarea unui sistem de ecuații normale.

(9.2)

Acest sistem de ecuații este destul de ușor de rezolvat prin metoda Gauss. Amintiți-vă că, ca urmare a soluției, în exemplul nostru, se găsesc valorile parametrilor și. Astfel, ecuația de regresie găsită va avea următoarea formă:

După aliniere, obținem o funcție de următoarea formă: g (x) = x + 1 3 + 1 .

Putem aproxima aceste date cu o relație liniară y = a x + b calculând parametrii corespunzători. Pentru a face acest lucru, va trebui să aplicăm așa-numita metodă a celor mai mici pătrate. De asemenea, va trebui să faceți un desen pentru a verifica care linie va alinia cel mai bine datele experimentale.

Yandex.RTB R-A-339285-1

Ce este exact MOL (metoda celor mai mici pătrate)

Principalul lucru pe care trebuie să-l facem este să găsim astfel de coeficienți de dependență liniară la care valoarea funcției a două variabile F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 va fi cel mai mic. Cu alte cuvinte, pentru anumite valori ale lui a și b, suma abaterilor pătrate ale datelor prezentate de la linia dreaptă rezultată va avea o valoare minimă. Acesta este sensul metodei celor mai mici pătrate. Tot ce trebuie să facem pentru a rezolva exemplul este să găsim extremul funcției a două variabile.

Cum se obțin formule pentru calcularea coeficienților

Pentru a deriva formule de calcul a coeficientilor este necesara alcatuirea si rezolvarea unui sistem de ecuatii cu doua variabile. Pentru a face acest lucru, calculăm derivatele parțiale ale expresiei F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 față de a și b și le echivalăm cu 0 .

δ F (a , b) δ a = 0 δ F (a , b) δ b = 0 ⇔ - 2 ∑ i = 1 n (y i - (a x i + b)) x i = 0 - 2 ∑ i = 1 n ( y i - (a x i + b)) = 0 ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + ∑ i = 1 n b = ∑ i = 1 n y i ⇔ ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + n b = ∑ i = 1 n y i

Pentru a rezolva un sistem de ecuații, puteți folosi orice metodă, cum ar fi substituția sau metoda lui Cramer. Ca rezultat, ar trebui să obținem formule care calculează coeficienții folosind metoda celor mai mici pătrate.

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n x i n

Am calculat valorile variabilelor pentru care funcția
F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 va lua valoarea minimă. În al treilea paragraf, vom demonstra de ce este așa.

Aceasta este aplicarea metodei celor mai mici pătrate în practică. Formula sa, care este folosită pentru a găsi parametrul a , include ∑ i = 1 n x i , ∑ i = 1 n y i , ∑ i = 1 n x i y i , ∑ i = 1 n x i 2 , iar parametrul
n - denotă cantitatea de date experimentale. Vă sfătuim să calculați fiecare sumă separat. Valoarea coeficientului b se calculează imediat după a .

Să revenim la exemplul inițial.

Exemplul 1

Aici avem n egal cu cinci. Pentru a face mai convenabil calculul sumelor necesare incluse în formulele coeficientului, completăm tabelul.

i = 1 i = 2 i = 3 i = 4 i = 5 ∑ i = 1 5
x i 0 1 2 4 5 12
y eu 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
x i y i 0 2 , 4 5 , 2 11 , 2 15 33 , 8
x i 2 0 1 4 16 25 46

Decizie

Al patrulea rând conține datele obținute prin înmulțirea valorilor din al doilea rând cu valorile celui de-al treilea pentru fiecare individ i. A cincea linie conține datele din al doilea pătrat. Ultima coloană arată sumele valorilor rândurilor individuale.

Să folosim metoda celor mai mici pătrate pentru a calcula coeficienții a și b de care avem nevoie. Pentru a face acest lucru, înlocuiți valorile dorite din ultima coloană și calculați sumele:

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n x i n ⇒ a = 5 8 - 12 12, 9 5 46 - 12 2 b = 12, 9 - a 12 5 ⇒ a ≈ 0, 165 b ≈ 2, 184

Am obținut că linia dreaptă de aproximare dorită va arăta ca y = 0, 165 x + 2, 184. Acum trebuie să determinăm care linie va aproxima cel mai bine datele - g (x) = x + 1 3 + 1 sau 0 , 165 x + 2 , 184 . Să facem o estimare folosind metoda celor mai mici pătrate.

Pentru a calcula eroarea, trebuie să găsim sumele abaterilor pătrate ale datelor din liniile σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 și σ 2 = ∑ i = 1 n (y i - g (x i)) 2 , valoarea minimă va corespunde unei linii mai potrivite.

σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 = = ∑ i = 1 5 (y i - (0 , 165 x i + 2 , 184)) 2 ≈ 0 , 019 σ 2 = ∑ i = 1 n (y i - g (x i)) 2 = = ∑ i = 1 5 (y i - (x i + 1 3 + 1)) 2 ≈ 0 , 096

Răspuns: deoarece σ 1< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
y = 0 , 165 x + 2 , 184 .

Metoda celor mai mici pătrate este prezentată clar în ilustrația grafică. Linia roșie marchează linia dreaptă g (x) = x + 1 3 + 1, linia albastră marchează y = 0, 165 x + 2, 184. Datele brute sunt marcate cu puncte roz.

Să explicăm de ce sunt necesare exact aproximări de acest tip.

Ele pot fi utilizate în probleme care necesită netezirea datelor, precum și în acelea în care datele trebuie interpolate sau extrapolate. De exemplu, în problema discutată mai sus, s-ar putea găsi valoarea mărimii observate y la x = 3 sau la x = 6 . Am dedicat un articol separat unor astfel de exemple.

Dovada metodei LSM

Pentru ca funcția să ia valoarea minimă pentru a și b calculat, este necesar ca la un punct dat matricea formei pătratice a diferențială a funcției de forma F (a, b) = ∑ i = 1 n ( y i - (a x i + b)) 2 fi definit pozitiv. Să vă arătăm cum ar trebui să arate.

Exemplul 2

Avem o diferenţială de ordinul doi de următoarea formă:

d 2 F (a ; b) = δ 2 F (a ; b) δ a 2 d 2 a + 2 δ 2 F (a ; b) δ a δ b d a d b + δ 2 F (a ; b) δ b 2 d 2b

Decizie

δ 2 F (a ; b) δ a 2 = δ δ F (a ; b) δ a δ a = = δ - 2 ∑ i = 1 n (y i - (a x i + b)) x i δ a = 2 ∑ i = 1 n (x i) 2 δ 2 F (a ; b) δ a δ b = δ δ F (a ; b) δ a δ b = = δ - 2 ∑ i = 1 n (y i - (a x i + b) ) x i δ b = 2 ∑ i = 1 n x i δ 2 F (a ; b) δ b 2 = δ δ F (a ; b) δ b δ b = δ - 2 ∑ i = 1 n (y i - (a x i + b)) δ b = 2 ∑ i = 1 n (1) = 2 n

Cu alte cuvinte, se poate scrie astfel: d 2 F (a ; b) = 2 ∑ i = 1 n (x i) 2 d 2 a + 2 2 ∑ x i i = 1 n d a d b + (2 n) d 2 b .

Am obținut o matrice de formă pătratică M = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n .

În acest caz, valorile elementelor individuale nu se vor schimba în funcție de a și b. Este această matrice pozitivă definită? Pentru a răspunde la această întrebare, să verificăm dacă minorele sale unghiulare sunt pozitive.

Calculați primul unghiular de ordinul întâi: 2 ∑ i = 1 n (x i) 2 > 0 . Deoarece punctele x i nu coincid, inegalitatea este strictă. Vom ține cont de acest lucru în calculele ulterioare.

Calculăm minorul unghiular de ordinul doi:

d e t (M) = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n = 4 n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2

După aceea, trecem la demonstrarea inegalității n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 folosind inducția matematică.

  1. Să verificăm dacă această inegalitate este valabilă pentru n arbitrar. Să luăm 2 și să calculăm:

2 ∑ i = 1 2 (x i) 2 - ∑ i = 1 2 x i 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0

Am obținut egalitatea corectă (dacă valorile x 1 și x 2 nu se potrivesc).

  1. Să presupunem că această inegalitate va fi adevărată pentru n , i.e. n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 – adevărat.
  2. Acum să demonstrăm validitatea pentru n + 1 , adică. că (n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 > 0 dacă n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 .

Noi calculăm:

(n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 = = (n + 1) ∑ i = 1 n (x i) 2 + x n + 1 2 - ∑ i = 1 n x i + x n + 1 2 = = n ∑ i = 1 n (x i) 2 + n x n + 1 2 + ∑ i = 1 n (x i) 2 + x n + 1 2 - - ∑ i = 1 n x i 2 + 2 x n + 1 ∑ i = 1 n x i + x n + 1 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + n x n + 1 2 - x n + 1 ∑ i = 1 n x i + ∑ i = 1 n (x i) 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + x n + 1 2 - 2 x n + 1 x 1 + x 1 2 + + x n + 1 2 - 2 x n + 1 x 2 + x 2 2 + . . . + x n + 1 2 - 2 x n + 1 x 1 + x n 2 = = n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + + (x n + 1 - x 1) 2 + (x n + 1) - x 2) 2 + . . . + (x n - 1 - x n) 2 > 0

Expresia cuprinsă între acolade va fi mai mare decât 0 (pe baza a ceea ce am presupus la pasul 2), iar restul termenilor va fi mai mare decât 0 deoarece toți sunt pătrate de numere. Am dovedit inegalitatea.

Răspuns: a și b găsite vor corespunde celei mai mici valori a funcției F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2, ceea ce înseamnă că sunt parametrii doriti ai metodei celor mai mici pătrate (LSM).

Dacă observați o greșeală în text, vă rugăm să o evidențiați și să apăsați Ctrl+Enter

Este utilizat pe scară largă în econometrie sub forma unei interpretări economice clare a parametrilor săi.

Regresia liniară se reduce la găsirea unei ecuații de formă

sau

Tip ecuație permite valorile parametrilor date X au valori teoretice ale caracteristicii efective, substituind valorile reale ale factorului în ea X.

Construirea unei regresii liniare se reduce la estimarea parametrilor ei − Ași în. Estimările parametrilor de regresie liniară pot fi găsite prin diferite metode.

Abordarea clasică a estimării parametrilor de regresie liniară se bazează pe cele mai mici pătrate(MNK).

LSM permite obținerea unor astfel de estimări ale parametrilor Ași în, sub care suma abaterilor pătrate ale valorilor reale ale trăsăturii rezultate (y) din calculat (teoretic) minim minim:

Pentru a găsi minimul unei funcții, este necesar să se calculeze derivatele parțiale în raport cu fiecare dintre parametri. Ași bși echivalează-le cu zero.

Denota prin S, atunci:

Transformând formula, obținem următorul sistem de ecuații normale pentru estimarea parametrilor Ași în:

Rezolvând sistemul de ecuații normale (3.5) fie prin metoda eliminării succesive a variabilelor, fie prin metoda determinanților, găsim estimările parametrilor dorite. Ași în.

Parametru în numit coeficient de regresie. Valoarea acestuia arată modificarea medie a rezultatului cu o modificare a factorului cu o unitate.

Ecuația de regresie este întotdeauna completată cu un indicator al strângerii relației. Când se utilizează regresia liniară, coeficientul de corelație liniară acționează ca un astfel de indicator. Există diverse modificări ale formulei coeficientului de corelație liniară. Unele dintre ele sunt enumerate mai jos:

După cum știți, coeficientul de corelație liniară este în limitele: -1 1.

Pentru a evalua calitatea selecției unei funcții liniare, se calculează pătratul

Un coeficient de corelație liniară numit coeficient de determinare. Coeficientul de determinare caracterizează proporția varianței caracteristicii efective y, explicată prin regresie, în varianța totală a trăsăturii rezultate:

În consecință, valoarea 1 - caracterizează proporția de dispersie y, cauzate de influenţa altor factori neluaţi în considerare în model.

Întrebări pentru autocontrol

1. Esența metodei celor mai mici pătrate?

2. Câte variabile oferă o regresie pe perechi?

3. Ce coeficient determină strânsoarea legăturii dintre modificări?

4. În ce limite se determină coeficientul de determinare?

5. Estimarea parametrului b în analiza corelației-regresiune?

1. Christopher Dougherty. Introducere în econometrie. - M.: INFRA - M, 2001 - 402 p.

2. S.A. Borodich. Econometrie. Minsk LLC „Noi cunoștințe” 2001.


3. R.U. Rakhmetova Curs scurt de econometrie. Tutorial. Almaty. 2004. -78s.

4. I.I. Eliseeva.Econometrie. - M.: „Finanțe și statistică”, 2002

5. Revista lunară de informare și analitică.

Modele economice neliniare. Modele de regresie neliniară. Conversie variabilă.

Modele economice neliniare..

Conversie variabilă.

coeficient de elasticitate.

Dacă există relații neliniare între fenomenele economice, atunci acestea sunt exprimate folosind funcțiile neliniare corespunzătoare: de exemplu, o hiperbolă echilaterală , parabole de gradul doi si etc.

Există două clase de regresii neliniare:

1. Regresii care sunt neliniare în raport cu variabilele explicative incluse în analiză, dar liniare în raport cu parametrii estimați, de exemplu:

Polinoame de diferite grade - , ;

Hiperbola echilaterală - ;

Funcția semilogaritmică - .

2. Regresii care sunt neliniare în parametrii estimați, de exemplu:

Putere -;

Demonstrativ -;

Exponenţial - .

Suma totală a abaterilor pătrate ale valorilor individuale ale atributului rezultat la din valoarea medie este cauzată de influența multor factori. Împărțim condiționat întregul set de motive în două grupuri: factorul x studiatși alti factori.

Dacă factorul nu afectează rezultatul, atunci linia de regresie de pe grafic este paralelă cu axa Ohși

Atunci întreaga dispersie a atributului rezultat se datorează influenței altor factori și suma totală a abaterilor pătrate va coincide cu reziduul. Dacă alți factori nu afectează rezultatul, atunci ai legat cu X funcțional, iar suma reziduală a pătratelor este zero. În acest caz, suma abaterilor pătrate explicate prin regresie este aceeași cu suma totală a pătratelor.

Deoarece nu toate punctele câmpului de corelație se află pe dreapta de regresie, împrăștierea lor are loc întotdeauna ca datorită influenței factorului X, adică regresie la pe X,şi cauzate de acţiunea altor cauze (variaţie inexplicabilă). Adecvarea liniei de regresie pentru prognoză depinde de ce parte din variația totală a trăsăturii laține seama de variația explicată

Evident, dacă suma abaterilor pătrate datorate regresiei este mai mare decât suma reziduală a pătratelor, atunci ecuația de regresie este semnificativă statistic și factorul X are un impact semnificativ asupra rezultatului. y.

, adică cu numărul de libertate de variație independentă a caracteristicii. Numărul de grade de libertate este legat de numărul de unități ale populației n și de numărul de constante determinate din aceasta. În raport cu problema studiată, numărul de grade de libertate ar trebui să arate câte abateri independente de la P

Evaluarea semnificației ecuației de regresie în ansamblu este dată cu ajutorul lui F- Criteriul lui Fisher. În acest caz, se propune o ipoteză nulă că coeficientul de regresie este egal cu zero, adică. b= 0 și, prin urmare, factorul X nu afectează rezultatul y.

Calculul direct al criteriului F este precedat de o analiză a varianței. Centrală este expansiunea sumei totale a abaterilor pătrate ale variabilei la din valoarea medie laîn două părți - „explicat” și „neexplicat”:

- suma totală a abaterilor pătrate;

- suma abaterilor pătrate explicate prin regresie;

este suma reziduală a pătratelor abaterii.

Orice sumă a abaterilor pătrate este legată de numărul de grade de libertate , adică cu numărul de libertate de variație independentă a caracteristicii. Numărul de grade de libertate este raportat la numărul de unități de populație n si cu numarul de constante determinate din acesta. În raport cu problema studiată, numărul de grade de libertate ar trebui să arate câte abateri independente de la P posibil este necesar pentru a forma o sumă dată de pătrate.

Dispersia pe grad de libertateD.

Raporturi F (criteriul F):

Dacă ipoteza nulă este adevărată, atunci factorul și variațiile reziduale nu diferă unul de celălalt. Pentru H 0, este necesară o infirmare, astfel încât varianța factorului să depășească de câteva ori rezidualul. Statisticianul englez Snedecor a dezvoltat tabele de valori critice F-relaţii la diferite niveluri de semnificaţie ale ipotezei nule şi un număr diferit de grade de libertate. Valoarea tabelului F-criteriul este valoarea maximă a raportului varianțelor care poate apărea dacă acestea diverge aleatoriu pentru un anumit nivel de probabilitate a prezenței unei ipoteze nule. Valoarea calculată F-relația este recunoscută ca de încredere dacă o este mai mare decât cea tabelară.

În acest caz, ipoteza nulă despre absența unei relații de trăsături este respinsă și se face o concluzie despre semnificația acestei relații: F fapt > F tabel H 0 este respins.

Dacă valoarea este mai mică decât tabelul F fapt ‹, F tabel, atunci probabilitatea ipotezei nule este mai mare decât un nivel dat și nu poate fi respinsă fără riscul serios de a trage concluzia greșită despre prezența unei relații. În acest caz, ecuația de regresie este considerată nesemnificativă statistic. N o nu se abate.

Eroarea standard a coeficientului de regresie

Pentru a evalua semnificația coeficientului de regresie, valoarea acestuia este comparată cu eroarea sa standard, adică se determină valoarea reală t- Criteriul elevului: care este apoi comparată cu valoarea tabelară la un anumit nivel de semnificație și cu numărul de grade de libertate ( n- 2).

Eroare standard parametru A:

Semnificația coeficientului de corelație liniară este verificată pe baza mărimii erorii coeficient de corelație r:

Varianta totală a unei caracteristici X:

Regresia liniară multiplă

Construirea modelului

Regresie multiplă este o regresie a unei caracteristici eficiente cu doi sau mai mulți factori, adică un model al formei

Regresia poate da un rezultat bun în modelare dacă influența altor factori care afectează obiectul de studiu poate fi neglijată. Comportamentul variabilelor economice individuale nu poate fi controlat, adică nu este posibil să se asigure egalitatea tuturor celorlalte condiții pentru evaluarea influenței unui factor studiat. În acest caz, ar trebui să încercați să identificați influența altor factori prin introducerea acestora în model, adică să construiți o ecuație de regresie multiplă: y = a+b 1 x 1 +b 2 +…+b p x p + .

Scopul principal al regresiei multiple este de a construi un model cu un număr mare de factori, determinând în același timp influența fiecăruia dintre ei în mod individual, precum și impactul lor cumulativ asupra indicatorului modelat. Specificarea modelului include două domenii de întrebări: selecția factorilor și alegerea tipului de ecuație de regresie