Coeficienți mnk. Cele mai mici pătrate în Excel

Metoda celor mai mici pătrate (OLS, ing. Cele mai mici pătrate obișnuite, MCO) -- o metodă matematică utilizată pentru rezolvarea diferitelor probleme, bazată pe minimizarea sumei abaterilor pătrate ale unor funcții de la variabilele dorite. Poate fi folosit pentru a „rezolva” sisteme de ecuații supradeterminate (atunci când numărul de ecuații depășește numărul de necunoscute), pentru a găsi o soluție în cazul sistemelor de ecuații neliniare obișnuite (nu supradeterminate), pentru a aproxima valorile punctuale prin vreo funcție. MCO este una dintre metodele de bază de analiză de regresie pentru estimarea parametrilor necunoscuți ai modelelor de regresie din datele eșantionului.

Esența metodei celor mai mici pătrate

Fie un set de variabile (parametri) necunoscute, fie un set de funcții din acest set de variabile. Sarcina este de a selecta astfel de valori ale lui x, astfel încât valorile acestor funcții să fie cât mai apropiate de unele valori. În esență, vorbim despre „soluția” unui sistem supradeterminat de ecuații în sensul indicat de apropierea maximă a părților din stânga și din dreapta ale sistemului. Esența LSM este de a alege ca „măsură de proximitate” suma abaterilor pătrate ale părților din stânga și din dreapta - . Astfel, esența LSM poate fi exprimată astfel:

Dacă sistemul de ecuații are o soluție, atunci minimul sumei pătratelor va fi egal cu zero și soluțiile exacte ale sistemului de ecuații pot fi găsite analitic sau, de exemplu, prin diverse metode de optimizare numerică. Daca sistemul este supradeterminat, adica vorbind vag, numarul de ecuatii independente este mai mare decat numarul de variabile necunoscute, atunci sistemul nu are o solutie exacta si metoda celor mai mici patrate permite gasirea unui vector „optim” in sensul a proximității maxime a vectorilor și sau a proximității maxime a vectorului de abatere față de zero (proximitatea înțeleasă în sensul distanței euclidiene).

Exemplu - sistem de ecuații liniare

În special, metoda celor mai mici pătrate poate fi folosită pentru a „rezolva” sistemul de ecuații liniare

unde matricea nu este pătrată, ci dreptunghiulară (mai precis, rangul matricei A este mai mare decât numărul de variabile necesare).

Un astfel de sistem de ecuații, în cazul general, nu are soluție. Prin urmare, acest sistem poate fi „rezolvat” doar în sensul alegerii unui astfel de vector pentru a minimiza „distanța” dintre vectori și. Pentru a face acest lucru, puteți aplica criteriul de minimizare a sumei diferențelor pătrate ale părților din stânga și din dreapta ale ecuațiilor sistemului, adică. Este ușor de arătat că rezolvarea acestei probleme de minimizare duce la rezolvarea următorului sistem de ecuații

Folosind operatorul de pseudo-inversie, soluția poate fi rescrisă astfel:

unde este matricea pseudoinversa pentru.

Această problemă poate fi, de asemenea, „rezolvată” folosind așa-numitul LSM ponderat (vezi mai jos), atunci când diferite ecuații ale sistemului primesc ponderi diferite din considerente teoretice.

Fundamentarea și determinarea strictă a limitelor aplicabilității semnificative a metodei au fost date de A. A. Markov și A. N. Kolmogorov.

MCO în analiza de regresie (aproximarea datelor)[modifica | editați textul wiki] Să fie valori ale unei variabile (pot fi rezultatele observațiilor, experimentelor etc.) și variabilelor corespunzătoare. Sarcina este de a aproxima relația dintre și de către o funcție cunoscută până la niște parametri necunoscuți, adică, de fapt, să găsim cele mai bune valori ale parametrilor care să aducă valorile cât mai aproape de valorile reale. De fapt, acest lucru se rezumă la cazul „rezolvării” unui sistem supradeterminat de ecuații cu privire la:

În analiza de regresie, și în special în econometrie, sunt utilizate modele probabilistice ale relației dintre variabile.

unde sunt așa-numitele erori aleatoare ale modelului.

În consecință, abaterile valorilor observate de la valorile modelului sunt deja presupuse în modelul însuși. Esența LSM (obișnuită, clasică) este găsirea unor astfel de parametri sub care suma abaterilor pătrate (erori, pentru modelele de regresie sunt adesea numite reziduuri de regresie) să fie minimă:

unde este engleza. Suma reziduală a pătratelor este definită ca:

În cazul general, această problemă poate fi rezolvată prin metode numerice de optimizare (minimizare). În acest caz, se vorbește de cele mai mici pătrate neliniare (NLS sau NLLS - Non-Linear Least Squares). În multe cazuri, se poate obține o soluție analitică. Pentru a rezolva problema de minimizare, este necesar să se găsească punctele staționare ale funcției prin diferențierea acesteia în raport cu parametrii necunoscuți, echivalând derivatele la zero și rezolvând sistemul de ecuații rezultat:

MCO în cazul regresiei liniare[modifica | editați textul wiki]

Fie dependența de regresie liniară:

Fie y un vector coloană de observații ale variabilei explicate și o matrice de observații ale factorilor (rândurile matricei sunt vectori ai valorilor factorilor într-o observație dată, coloanele sunt un vector al valorilor unei date date factor în toate observațiile). Reprezentarea matricială a modelului liniar are forma:

Atunci vectorul estimărilor variabilei explicate și vectorul reziduurilor de regresie vor fi egale cu

în consecință, suma pătratelor reziduurilor de regresie va fi egală cu

Diferențiând această funcție în raport cu vectorul parametru și echivalând derivatele la zero, obținem un sistem de ecuații (sub formă de matrice):

În forma matricei descifrate, acest sistem de ecuații arată astfel:


unde toate sumele sunt preluate peste toate valorile admisibile.

Dacă în model este inclusă o constantă (ca de obicei), atunci pentru toate, prin urmare, în colțul din stânga sus al matricei sistemului de ecuații este numărul de observații, iar în elementele rămase din primul rând și prima coloană - doar suma valorilor variabilelor: și primul element din partea dreaptă a sistemului -- .

Rezolvarea acestui sistem de ecuații oferă formula generală pentru estimările celor mai mici pătrate pentru modelul liniar:

În scopuri analitice, ultima reprezentare a acestei formule se dovedește a fi utilă (în sistemul de ecuații când se împarte la n, în loc de sume apar mediile aritmetice). Dacă datele sunt centrate în modelul de regresie, atunci în această reprezentare prima matrice are semnificația matricei de covarianță a factorilor eșantionului, iar a doua este vectorul de covarianță a factorilor cu variabila dependentă. Dacă, în plus, datele sunt și normalizate la abaterea standard (adică în cele din urmă standardizate), atunci prima matrice are semnificația unei matrice de corelație eșantion de factori, al doilea vector - vectorul de corelații de eșantion de factori cu o variabilă dependentă.

O proprietate importantă a estimărilor LLS pentru modelele cu o constantă este că linia regresiei construite trece prin centrul de greutate al datelor eșantionului, adică egalitatea este îndeplinită:

În special, în cazul extrem, când singurul regresor este o constantă, constatăm că estimarea MCO a unui singur parametru (constanta însăși) este egală cu valoarea medie a variabilei care se explică. Adică, media aritmetică, cunoscută pentru proprietățile sale bune din legile numerelor mari, este și o estimare a celor mai mici pătrate - satisface criteriul minimului sumei abaterilor pătrate de la aceasta.

Cele mai simple cazuri speciale[modifica | editați textul wiki]

În cazul regresiei liniare perechi, când se estimează dependența liniară a unei variabile față de alta, formulele de calcul sunt simplificate (puteți face fără algebra matriceală). Sistemul de ecuații are forma:

De aici este ușor de găsit estimări pentru coeficienți:

Deși modelele constante sunt în general de preferat, în unele cazuri se știe din considerente teoretice că constanta ar trebui să fie zero. De exemplu, în fizică, relația dintre tensiune și curent are forma; măsurând tensiunea și curentul, este necesar să se estimeze rezistența. În acest caz, vorbim despre model. În acest caz, în loc de un sistem de ecuații, avem o singură ecuație

Prin urmare, formula de estimare a unui singur coeficient are forma

Proprietățile statistice ale estimărilor MOL[modifica | editați textul wiki]

În primul rând, observăm că pentru modelele liniare, estimările celor mai mici pătrate sunt estimări liniare, după cum rezultă din formula de mai sus. Pentru estimările MCO nepărtinitoare, este necesar și suficient să se îndeplinească cea mai importantă condiție a analizei de regresie: așteptarea matematică a unei erori aleatoare condiționată de factori trebuie să fie egală cu zero. Această condiție, în special, este îndeplinită dacă așteptarea matematică a erorilor aleatoare este egală cu zero, iar factorii și erorile aleatoare sunt variabile aleatoare independente.

Prima condiție poate fi considerată întotdeauna îndeplinită pentru modelele cu o constantă, deoarece constanta presupune o așteptare matematică diferită de zero de erori (prin urmare, modelele cu o constantă sunt în general de preferat). covarianța regresiei celor mai mici pătrate

A doua condiție – condiția factorilor exogeni – este fundamentală. Dacă această proprietate nu este satisfăcută, atunci putem presupune că aproape orice estimări vor fi extrem de nesatisfăcătoare: nici măcar nu vor fi consistente (adică chiar și o cantitate foarte mare de date nu permite obținerea de estimări calitative în acest caz). În cazul clasic, se face o presupunere mai puternică despre determinismul factorilor, în contrast cu o eroare aleatorie, ceea ce înseamnă automat că condiția exogenă este satisfăcută. În cazul general, pentru consistența estimărilor, este suficient să se îndeplinească condiția de exogeneitate împreună cu convergența matricei către o matrice nesingulară cu o creștere a dimensiunii eșantionului la infinit.

Pentru ca, pe lângă consistență și imparțialitate, estimările (obișnuite) ale celor mai mici pătrate să fie și eficiente (cele mai bune din clasa estimărilor liniare imparțial), trebuie îndeplinite proprietăți suplimentare ale unei erori aleatoare:

Varianța constantă (aceeași) a erorilor aleatoare în toate observațiile (fără heteroscedasticitate):

Lipsa corelației (autocorelarea) erorilor aleatorii în diferite observații între ele

Aceste ipoteze pot fi formulate pentru matricea de covarianță a vectorului de eroare aleatorie

Un model liniar care satisface aceste condiții se numește clasic. Estimările LLS pentru regresia liniară clasică sunt estimări imparțiale, consecvente și cele mai eficiente din clasa tuturor estimărilor nepărtinitoare liniare (în literatura engleză folosesc uneori abrevierea BLUE (Best Linear Unbiased Estimator) - cea mai bună estimare liniară imparțială; în literatura internă, se dă mai des teorema Gauss - Markov). După cum este ușor de arătat, matricea de covarianță a vectorului de estimare a coeficienților va fi egală cu:

Eficiența înseamnă că această matrice de covarianță este „minimă” (orice combinație liniară de coeficienți, și în special coeficienții înșiși, au o varianță minimă), adică, în clasa estimărilor liniare nepărtinitoare, estimările MCO sunt cele mai bune. Elementele diagonale ale acestei matrice, varianțele estimărilor coeficienților, sunt parametri importanți ai calității estimărilor obținute. Cu toate acestea, nu este posibil să se calculeze matricea de covarianță deoarece varianța erorii aleatoare este necunoscută. Se poate dovedi că estimarea imparțială și consistentă (pentru modelul liniar clasic) a varianței erorilor aleatoare este valoarea:

Înlocuind această valoare în formula pentru matricea de covarianță, obținem o estimare a matricei de covarianță. Estimările rezultate sunt, de asemenea, imparțial și consecvente. De asemenea, este important ca estimarea varianței de eroare (și, prin urmare, variațiile coeficienților) și estimările parametrilor modelului să fie variabile aleatoare independente, ceea ce face posibilă obținerea de statistici de testare pentru testarea ipotezelor despre coeficienții modelului.

Trebuie remarcat faptul că, dacă ipotezele clasice nu sunt îndeplinite, estimările parametrilor celor mai mici pătrate nu sunt estimările cele mai eficiente (rămânând imparțial și consecvent). Cu toate acestea, estimarea matricei de covarianță se înrăutățește și mai mult - devine părtinitoare și inconsecventă. Aceasta înseamnă că concluziile statistice despre calitatea modelului construit în acest caz pot fi extrem de nesigure. O modalitate de a rezolva ultima problemă este utilizarea estimărilor speciale ale matricei de covarianță, care sunt consistente în cazul încălcării ipotezelor clasice (erori standard în forma White și erori standard în forma Newey-West). O altă abordare este utilizarea așa-numitelor cele mai mici pătrate generalizate.

Cele mai mici pătrate generalizate[modifica | editați textul wiki]

Articolul principal: Cele mai mici pătrate generalizate

Metoda celor mai mici pătrate permite o generalizare largă. În loc de a minimiza suma pătratelor reziduurilor, se poate minimiza o formă pătratică definită pozitiv a vectorului de reziduuri, unde este o matrice de greutate simetrică pozitiv-definită. Cele mai mici pătrate obișnuite este un caz special al acestei abordări, când matricea de ponderi este proporțională cu matricea de identitate. După cum se știe din teoria matricelor simetrice (sau operatorilor), există o descompunere pentru astfel de matrici. Prin urmare, această funcționalitate poate fi reprezentată după cum urmează

adică acest funcţional poate fi reprezentat ca suma pătratelor unor „reziduuri” transformate. Astfel, putem distinge o clasă de metode ale celor mai mici pătrate - LS-methods (Least Squares).

Se dovedește (teorema lui Aitken) că pentru un model de regresie liniară generalizată (în care nu sunt impuse restricții asupra matricei de covarianță a erorilor aleatoare), cele mai eficiente (din clasa estimărilor liniare nepărtinitoare) sunt estimările așa-numitelor. minime pătrate generalizate (GLS, GLS - Generalized Least Squares) - LS-metoda cu o matrice de ponderi egală cu matricea de covarianță inversă a erorilor aleatoare: .

Se poate arăta că formula pentru estimările GLS ale parametrilor modelului liniar are forma

Matricea de covarianță a acestor estimări, respectiv, va fi egală cu

De fapt, esența MCO constă într-o anumită transformare (liniară) (P) a datelor originale și aplicarea celor mai mici pătrate uzuale la datele transformate. Scopul acestei transformări este ca pentru datele transformate, erorile aleatoare să satisfacă deja ipotezele clasice.

MCO ponderat[modifica | editați textul wiki]

În cazul unei matrice de ponderi diagonale (și, prin urmare, matricea de covarianță a erorilor aleatoare), avem așa-numitele cele mai mici pătrate ponderate (WLS - Weighted Least Squares). În acest caz, suma ponderată a pătratelor a reziduurilor modelului este minimizată, adică fiecare observație primește o „pondere” care este invers proporțională cu varianța erorii aleatoare din această observație:

De fapt, datele sunt transformate prin ponderarea observațiilor (împărțirea la o sumă proporțională cu abaterea standard presupusă a erorilor aleatoare), iar datelor ponderate se aplică cele mai mici pătrate normale.

După aliniere, obținem o funcție de următoarea formă: g (x) = x + 1 3 + 1 .

Putem aproxima aceste date cu o relație liniară y = a x + b calculând parametrii corespunzători. Pentru a face acest lucru, va trebui să aplicăm așa-numita metodă a celor mai mici pătrate. De asemenea, va trebui să faceți un desen pentru a verifica care linie va alinia cel mai bine datele experimentale.

Yandex.RTB R-A-339285-1

Ce este exact MOL (metoda celor mai mici pătrate)

Principalul lucru pe care trebuie să-l facem este să găsim astfel de coeficienți de dependență liniară la care valoarea funcției a două variabile F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 va fi cea mai mică . Cu alte cuvinte, pentru anumite valori ale lui a și b, suma abaterilor pătrate ale datelor prezentate de la linia dreaptă rezultată va avea o valoare minimă. Acesta este sensul metodei celor mai mici pătrate. Tot ce trebuie să facem pentru a rezolva exemplul este să găsim extremul funcției a două variabile.

Cum se obțin formule pentru calcularea coeficienților

Pentru a deriva formule de calcul a coeficientilor este necesara alcatuirea si rezolvarea unui sistem de ecuatii cu doua variabile. Pentru a face acest lucru, calculăm derivatele parțiale ale expresiei F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 față de a și b și le echivalăm cu 0 .

δ F (a , b) δ a = 0 δ F (a , b) δ b = 0 ⇔ - 2 ∑ i = 1 n (y i - (a x i + b)) x i = 0 - 2 ∑ i = 1 n ( y i - (a x i + b)) = 0 ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + ∑ i = 1 n b = ∑ i = 1 n y i ⇔ ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + n b = ∑ i = 1 n y i

Pentru a rezolva un sistem de ecuații, puteți utiliza orice metodă, de exemplu, substituția sau metoda lui Cramer. Ca rezultat, ar trebui să obținem formule care calculează coeficienții folosind metoda celor mai mici pătrate.

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n x i n

Am calculat valorile variabilelor pentru care funcția
F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 va lua valoarea minimă. În al treilea paragraf, vom demonstra de ce este așa.

Aceasta este aplicarea metodei celor mai mici pătrate în practică. Formula sa, care este folosită pentru a găsi parametrul a , include ∑ i = 1 n x i , ∑ i = 1 n y i , ∑ i = 1 n x i y i , ∑ i = 1 n x i 2 , iar parametrul
n - denotă cantitatea de date experimentale. Vă sfătuim să calculați fiecare sumă separat. Valoarea coeficientului b se calculează imediat după a .

Să revenim la exemplul inițial.

Exemplul 1

Aici avem n egal cu cinci. Pentru a face mai convenabil calculul sumelor necesare incluse în formulele coeficientului, completăm tabelul.

i = 1 i = 2 i = 3 i = 4 i = 5 ∑ i = 1 5
x i 0 1 2 4 5 12
y eu 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
x i y i 0 2 , 4 5 , 2 11 , 2 15 33 , 8
x i 2 0 1 4 16 25 46

Soluţie

Al patrulea rând conține datele obținute prin înmulțirea valorilor din al doilea rând cu valorile celui de-al treilea pentru fiecare individ i. A cincea linie conține datele din al doilea pătrat. Ultima coloană arată sumele valorilor rândurilor individuale.

Să folosim metoda celor mai mici pătrate pentru a calcula coeficienții a și b de care avem nevoie. Pentru a face acest lucru, înlocuiți valorile dorite din ultima coloană și calculați sumele:

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n x i n ⇒ a = 5 8 - 12 12, 9 5 46 - 12 2 b = 12, 9 - a 12 5 ⇒ a ≈ 0, 165 b ≈ 2, 184

Am obținut că linia dreaptă de aproximare dorită va arăta ca y = 0, 165 x + 2, 184. Acum trebuie să determinăm care linie va aproxima cel mai bine datele - g (x) = x + 1 3 + 1 sau 0 , 165 x + 2 , 184 . Să facem o estimare folosind metoda celor mai mici pătrate.

Pentru a calcula eroarea, trebuie să găsim sumele abaterilor pătrate ale datelor din liniile σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 și σ 2 = ∑ i = 1 n (y i - g (x i)) 2 , valoarea minimă va corespunde unei linii mai potrivite.

σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 = = ∑ i = 1 5 (y i - (0 , 165 x i + 2 , 184)) 2 ≈ 0 , 019 σ 2 = ∑ i = 1 n (y i - g (x i)) 2 = = ∑ i = 1 5 (y i - (x i + 1 3 + 1)) 2 ≈ 0 , 096

Răspuns: deoarece σ 1< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
y = 0 , 165 x + 2 , 184 .

Metoda celor mai mici pătrate este prezentată clar în ilustrația grafică. Linia roșie marchează linia dreaptă g (x) = x + 1 3 + 1, linia albastră marchează y = 0, 165 x + 2, 184. Datele brute sunt marcate cu puncte roz.

Să explicăm de ce sunt necesare exact aproximări de acest tip.

Ele pot fi utilizate în probleme care necesită netezirea datelor, precum și în acelea în care datele trebuie interpolate sau extrapolate. De exemplu, în problema discutată mai sus, s-ar putea găsi valoarea mărimii observate y la x = 3 sau la x = 6 . Am dedicat un articol separat unor astfel de exemple.

Dovada metodei LSM

Pentru ca funcția să ia valoarea minimă pentru a și b calculat, este necesar ca la un punct dat matricea formei pătratice a diferenţialului funcţiei de forma F (a, b) = ∑ i = 1 n ( y i - (a x i + b)) 2 fi definit pozitiv. Să vă arătăm cum ar trebui să arate.

Exemplul 2

Avem o diferenţială de ordinul doi de următoarea formă:

d 2 F (a ; b) = δ 2 F (a ; b) δ a 2 d 2 a + 2 δ 2 F (a ; b) δ a δ b d a d b + δ 2 F (a ; b) δ b 2 d 2b

Soluţie

δ 2 F (a ; b) δ a 2 = δ δ F (a ; b) δ a δ a = = δ - 2 ∑ i = 1 n (y i - (a x i + b)) x i δ a = 2 ∑ i = 1 n (x i) 2 δ 2 F (a ; b) δ a δ b = δ δ F (a ; b) δ a δ b = = δ - 2 ∑ i = 1 n (y i - (a x i + b) ) x i δ b = 2 ∑ i = 1 n x i δ 2 F (a ; b) δ b 2 = δ δ F (a ; b) δ b δ b = δ - 2 ∑ i = 1 n (y i - (a x i + b)) δ b = 2 ∑ i = 1 n (1) = 2 n

Cu alte cuvinte, se poate scrie astfel: d 2 F (a ; b) = 2 ∑ i = 1 n (x i) 2 d 2 a + 2 2 ∑ x i i = 1 n d a d b + (2 n) d 2 b .

Am obținut o matrice de formă pătratică M = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n .

În acest caz, valorile elementelor individuale nu se vor schimba în funcție de a și b. Este această matrice pozitivă definită? Pentru a răspunde la această întrebare, să verificăm dacă minorele sale unghiulare sunt pozitive.

Calculați primul unghiular de ordinul întâi: 2 ∑ i = 1 n (x i) 2 > 0 . Deoarece punctele x i nu coincid, inegalitatea este strictă. Vom ține cont de acest lucru în calculele ulterioare.

Calculăm minorul unghiular de ordinul doi:

d e t (M) = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n = 4 n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2

După aceea, trecem la demonstrarea inegalității n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 folosind inducția matematică.

  1. Să verificăm dacă această inegalitate este valabilă pentru n arbitrar. Să luăm 2 și să calculăm:

2 ∑ i = 1 2 (x i) 2 - ∑ i = 1 2 x i 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0

Am obținut egalitatea corectă (dacă valorile x 1 și x 2 nu se potrivesc).

  1. Să presupunem că această inegalitate va fi adevărată pentru n , i.e. n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 – adevărat.
  2. Acum să demonstrăm validitatea pentru n + 1 , adică. că (n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 > 0 dacă n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 .

Noi calculăm:

(n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 = = (n + 1) ∑ i = 1 n (x i) 2 + x n + 1 2 - ∑ i = 1 n x i + x n + 1 2 = = n ∑ i = 1 n (x i) 2 + n x n + 1 2 + ∑ i = 1 n (x i) 2 + x n + 1 2 - - ∑ i = 1 n x i 2 + 2 x n + 1 ∑ i = 1 n x i + x n + 1 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + n x n + 1 2 - x n + 1 ∑ i = 1 n x i + ∑ i = 1 n (x i) 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + x n + 1 2 - 2 x n + 1 x 1 + x 1 2 + + x n + 1 2 - 2 x n + 1 x 2 + x 2 2 + . . . + x n + 1 2 - 2 x n + 1 x 1 + x n 2 = = n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + + (x n + 1 - x 1) 2 + (x n + 1) - x 2) 2 + . . . + (x n - 1 - x n) 2 > 0

Expresia cuprinsă între acolade va fi mai mare decât 0 (pe baza a ceea ce am presupus la pasul 2), iar restul termenilor va fi mai mare decât 0 deoarece toți sunt pătrate de numere. Am dovedit inegalitatea.

Răspuns: a și b găsite vor corespunde celei mai mici valori a funcției F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2, ceea ce înseamnă că sunt parametrii doriti ai metodei celor mai mici pătrate (LSM).

Dacă observați o greșeală în text, vă rugăm să o evidențiați și să apăsați Ctrl+Enter

Metoda celor mai mici pătrate (OLS, ing. Ordinary Least Squares, MCO)- o metodă matematică utilizată pentru rezolvarea diverselor probleme, bazată pe minimizarea sumei abaterilor pătrate ale unor funcții de la variabilele dorite. Poate fi folosit pentru a „rezolva” sisteme de ecuații supradeterminate (atunci când numărul de ecuații depășește numărul de necunoscute), pentru a găsi o soluție în cazul sistemelor de ecuații neliniare obișnuite (nu supradeterminate), pentru a aproxima valorile punctuale a unei anumite funcţii. MCO este una dintre metodele de bază de analiză de regresie pentru estimarea parametrilor necunoscuți ai modelelor de regresie din datele eșantionului.

YouTube enciclopedic

    1 / 5

    ✪ Metoda celor mai mici pătrate. Subiect

    ✪ Mitin I. V. - Prelucrarea rezultatelor fizice. experiment - metoda celor mai mici pătrate (Lectura 4)

    ✪ Cele mai mici pătrate, lecția 1/2. Funcție liniară

    ✪ Econometrie. Cursul 5. Metoda celor mai mici pătrate

    ✪ Metoda celor mai mici pătrate. Răspunsuri

    Subtitrări

Poveste

Până la începutul secolului al XIX-lea. oamenii de știință nu aveau anumite reguli pentru rezolvarea unui sistem de ecuații în care numărul de necunoscute este mai mic decât numărul de ecuații; Până atunci s-au folosit metode deosebite, în funcție de tipul ecuațiilor și de ingeniozitatea calculatoarelor și, prin urmare, calculatoare diferite, pornind de la aceleași date observaționale, au ajuns la concluzii diferite. Gauss (1795) este creditat cu prima aplicare a metodei, iar Legendre (1805) a descoperit-o și publicat-o în mod independent sub numele său modern (fr. Methode des moindres quarres). Laplace a conectat metoda cu teoria probabilităților, iar matematicianul american Adrain (1808) a considerat aplicațiile probabilistice ale acesteia. Metoda este răspândită și îmbunătățită prin cercetări ulterioare ale lui Encke, Bessel, Hansen și alții.

Esența metodei celor mai mici pătrate

Lăsa x (\displaystyle x)- trusa n (\displaystyle n) variabile necunoscute (parametri), f i (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- set de funcții din acest set de variabile. Problema este să alegi astfel de valori x (\displaystyle x) astfel încât valorile acestor funcții să fie cât mai apropiate de unele valori y i (\displaystyle y_(i)). În esență, vorbim despre „soluția” sistemului de ecuații supradeterminat f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1 , … , m (\displaystyle i=1,\ldots ,m)în sensul indicat, proximitatea maximă a părților din stânga și din dreapta ale sistemului. Esența LSM este de a alege ca „măsură de proximitate” suma abaterilor pătrate ale părților din stânga și din dreapta. | f i (x) − y i | (\displaystyle |f_(i)(x)-y_(i)|). Astfel, esența LSM poate fi exprimată astfel:

∑ i e i 2 = ∑ i (y i − f i (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\rightarrow \min _(x)).

Dacă sistemul de ecuații are o soluție, atunci minimul sumei pătratelor va fi egal cu zero și soluțiile exacte ale sistemului de ecuații pot fi găsite analitic sau, de exemplu, prin diverse metode de optimizare numerică. Dacă sistemul este supradeterminat, adică, în mod vag, numărul de ecuații independente este mai mare decât numărul de variabile necunoscute, atunci sistemul nu are o soluție exactă și metoda celor mai mici pătrate ne permite să găsim un vector „optim” x (\displaystyle x)în sensul proximităţii maxime a vectorilor y (\displaystyle y)și f (x) (\displaystyle f(x)) sau proximitatea maximă a vectorului de abatere e (\displaystyle e) la zero (proximitatea se înțelege în sensul distanței euclidiene).

Exemplu - sistem de ecuații liniare

În special, metoda celor mai mici pătrate poate fi folosită pentru a „rezolva” sistemul de ecuații liniare

A x = b (\displaystyle Ax=b),

Unde A (\displaystyle A) matrice de dimensiuni dreptunghiulare m × n , m > n (\displaystyle m\times n,m>n)(adică numărul de rânduri ale matricei A este mai mare decât numărul de variabile necesare).

Un astfel de sistem de ecuații, în general, nu are soluție. Prin urmare, acest sistem poate fi „rezolvat” doar în sensul alegerii unui astfel de vector x (\displaystyle x) pentru a minimiza „distanța” dintre vectori A x (\displaystyle Ax)și b (\displaystyle b). Pentru a face acest lucru, puteți aplica criteriul de minimizare a sumei diferențelor pătrate ale părților din stânga și din dreapta ale ecuațiilor sistemului, adică (A x - b) T (A x - b) → min (\displaystyle (Ax-b)^(T)(Ax-b)\rightarrow \min ). Este ușor de arătat că rezolvarea acestei probleme de minimizare duce la rezolvarea următorului sistem de ecuații

A T A x = A T b ⇒ x = (A T A) - 1 A T b (\displaystyle A^(T)Ax=A^(T)b\Rightarrow x=(A^(T)A)^(-1)A^ (T)b).

MCO în analiza de regresie (aproximarea datelor)

Să fie n (\displaystyle n) valorile unor variabile y (\displaystyle y)(acestea pot fi rezultatele observațiilor, experimentelor etc.) și variabilele corespunzătoare x (\displaystyle x). Provocarea este de a face relația între y (\displaystyle y)și x (\displaystyle x) aproximativă prin o funcție cunoscută până la niște parametri necunoscuți b (\displaystyle b), adică găsiți de fapt cele mai bune valori ale parametrilor b (\displaystyle b), aproximând la maxim valorile f (x, b) (\displaystyle f(x,b)) la valorile reale y (\displaystyle y). De fapt, aceasta se reduce la cazul „soluției” unui sistem supradeterminat de ecuații în raport cu b (\displaystyle b):

F (x t , b) = y t , t = 1 , … , n (\displaystyle f(x_(t),b)=y_(t),t=1,\ldots ,n).

În analiza de regresie, și în special în econometrie, sunt utilizate modele probabilistice ale relației dintre variabile.

Y t = f (x t , b) + ε t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

Unde ε t (\displaystyle \varepsilon _(t))- așa-zisul erori aleatorii modele.

În consecință, abaterile valorilor observate y (\displaystyle y) de la model f (x, b) (\displaystyle f(x,b)) deja asumat în modelul în sine. Esența LSM (obișnuită, clasică) este găsirea unor astfel de parametri b (\displaystyle b), la care suma abaterilor pătrate (erori, pentru modelele de regresie sunt adesea numite reziduuri de regresie) e t (\displaystyle e_(t)) va fi minim:

b ^ O L S = arg ⁡ min b R S S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS (b)),

Unde R S S (\displaystyle RSS)- Engleză. Suma reziduală a pătratelor este definită ca:

R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\sum _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

În cazul general, această problemă poate fi rezolvată prin metode numerice de optimizare (minimizare). În acest caz, se vorbește despre cele mai mici pătrate neliniare(NLS sau NLLS - ing. Cele mai mici pătrate neliniare). În multe cazuri, se poate obține o soluție analitică. Pentru a rezolva problema minimizării, este necesar să găsiți punctele staționare ale funcției R S S (b) (\displaystyle RSS(b)), diferențiându-l în raport cu parametrii necunoscuți b (\displaystyle b), echivalând derivatele cu zero și rezolvând sistemul de ecuații rezultat:

∑ t = 1 n (y t − f (x t , b)) ∂ f (x t , b) ∂ b = 0 (\displaystyle \sum _(t=1)^(n)(y_(t)-f(x_ (t),b))(\frac (\partial f(x_(t),b))(\partial b))=0).

LSM în cazul regresiei liniare

Fie dependența de regresie liniară:

y t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

Lăsa y este vectorul coloană de observații ale variabilei care se explică și X (\displaystyle X)- aceasta este (n × k) (\displaystyle ((n\times k)))- matricea de observații a factorilor (rânduri ale matricei - vectori de valori ale factorilor din această observație, pe coloane - vector de valori ale acestui factor în toate observațiile). Reprezentarea matricială a modelului liniar are forma:

y = Xb + ε (\displaystyle y=Xb+\varepsilon ).

Atunci vectorul estimărilor variabilei explicate și vectorul reziduurilor de regresie vor fi egale cu

y ^ = X b , e = y - y ^ = y - X b (\displaystyle (\hat (y))=Xb,\quad e=y-(\hat (y))=y-Xb).

în consecință, suma pătratelor reziduurilor de regresie va fi egală cu

R S S = e T e = (y - X b) T (y - X b) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

Diferențierea acestei funcție în raport cu vectorul parametru b (\displaystyle b)și echivalând derivatele cu zero, obținem un sistem de ecuații (sub formă de matrice):

(X T X) b = X T y (\displaystyle (X^(T)X)b=X^(T)y).

În forma matricei descifrate, acest sistem de ecuații arată astfel:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 3 … ∑ x t 2 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 3 … ∑ x t 2 x t k ∑ x t 3 … ∑ x t 3 x t k ⋮ ⋮ ⋮ ⋱ ⋮ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3 … ∑ x t k 2) (b 1 b 2 b 3 ⋮ b k) = (∑ x tk x∑ tdis 3 ⋮ b k) = (∑ x3 y∑ tdis ∑ t∑ tdis ∑ t∑ t∑ t∮ t (\begin(pmatrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ldots &\sum x_(t1)x_( tk)\\\sum x_(t2)x_(t1)&\sum x_(t2)^(2)&\sum x_(t2)x_(t3)&\ldots &\ sum x_(t2)x_(tk) \\\sum x_(t3)x_(t1)&\sum x_(t3)x_(t2)&\sum x_(t3)^(2)&\ldots &\sum x_ (t3)x_(tk)\\ \vdots &\vdots &\vdots &\ddots &\vdots \\\sum x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ ldots &\sum x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3 )\\\vdots \\b_( k)\\\end(pmatrix))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \sum x_(t3)y_(t) )\\\vdots \\\sum x_(tk)y_(t)\\\end(pmatrix))) unde toate sumele sunt preluate peste toate valorile admisibile t (\displaystyle t).

Dacă o constantă este inclusă în model (ca de obicei), atunci x t 1 = 1 (\displaystyle x_(t1)=1) pentru toți t (\displaystyle t), prin urmare, în colțul din stânga sus al matricei sistemului de ecuații se află numărul de observații n (\displaystyle n), iar în elementele rămase din primul rând și prima coloană - doar suma valorilor variabilelor: ∑ x t j (\displaystyle \sum x_(tj))și primul element din partea dreaptă a sistemului - ∑ y t (\displaystyle \sum y_(t)).

Rezolvarea acestui sistem de ecuații oferă formula generală pentru estimările celor mai mici pătrate pentru modelul liniar:

b ^ O L S = (X T X) - 1 X T y = (1 n X T X) - 1 1 n X T y = V x - 1 C x y (\displaystyle (\hat (b))_(OLS)=(X^(T) )X)^(-1)X^(T)y=\left((\frac (1)(n))X^(T)X\right)^(-1)(\frac (1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).

În scopuri analitice, ultima reprezentare a acestei formule se dovedește a fi utilă (în sistemul de ecuații când se împarte la n, în loc de sume apar mediile aritmetice). Dacă datele din modelul de regresie centrat, atunci în această reprezentare prima matrice are semnificația unei matrice de covarianță eșantion de factori, iar a doua este vectorul de covarianțe ale factorilor cu o variabilă dependentă. Dacă, în plus, datele sunt de asemenea normalizat la SKO (adică în cele din urmă standardizate), atunci prima matrice are semnificația matricei de corelație eșantion de factori, al doilea vector - vectorul de corelații de eșantion de factori cu variabila dependentă.

O proprietate importantă a estimărilor LLS pentru modele cu o constantă- linia regresiei construite trece prin centrul de greutate al datelor eșantionului, adică egalitatea este îndeplinită:

y ¯ = b 1 ^ + ∑ j = 2 k b ^ j x ¯ j (\displaystyle (\bar (y))=(\hat (b_(1)))+\sum _(j=2)^(k) (\hat (b))_(j)(\bar (x))_(j)).

În special, în cazul extrem, când singurul regresor este o constantă, constatăm că estimarea MCO a unui singur parametru (constanta însăși) este egală cu valoarea medie a variabilei care se explică. Adică, media aritmetică, cunoscută pentru proprietățile sale bune din legile numerelor mari, este și o estimare a celor mai mici pătrate - satisface criteriul pentru suma minimă a abaterilor pătrate de la aceasta.

Cele mai simple cazuri speciale

În cazul regresiei liniare pe perechi y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t)), când se estimează dependența liniară a unei variabile față de alta, formulele de calcul sunt simplificate (puteți face fără algebra matriceală). Sistemul de ecuații are forma:

(1 x ¯ x ¯ x 2 ¯) (a b) = (y ¯ x y ¯) (\displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2)))\\\end(pmatrix))(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline(xy))\\\end(pmatrix))).

De aici este ușor de găsit estimări pentru coeficienți:

( b ^ = Cov ⁡ (x , y) Var ⁡ (x) = x y ¯ − x ¯ y ¯ x 2 ¯ − x ¯ 2 , a ^ = y ¯ − b x ¯ . (\displaystyle (\begin(cases)) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline) (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2))),\\( \hat (a))=(\bar (y))-b(\bar (x)).\end(cases)))

În ciuda faptului că, în general, modelele cu o constantă sunt de preferat, în unele cazuri se știe din considerente teoretice că constanta a (\displaystyle a) ar trebui să fie egal cu zero. De exemplu, în fizică, relația dintre tensiune și curent are forma U = I ⋅ R (\displaystyle U=I\cdot R); măsurând tensiunea și curentul, este necesar să se estimeze rezistența. În acest caz, vorbim despre un model y = b x (\displaystyle y=bx). În acest caz, în loc de un sistem de ecuații, avem o singură ecuație

(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).

Prin urmare, formula de estimare a unui singur coeficient are forma

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t) )y_(t))(\sum _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) ))).

Cazul unui model polinomial

Dacă datele sunt ajustate printr-o funcție de regresie polinomială a unei variabile f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i)), apoi, grade percepând x i (\displaystyle x^(i)) ca factori independenţi pentru fiecare i (\displaystyle i) este posibilă estimarea parametrilor modelului pe baza formulei generale de estimare a parametrilor modelului liniar. Pentru aceasta, este suficient să se țină seama în formula generală de faptul că la o asemenea interpretare x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j))și x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). Prin urmare, ecuațiile matriceale în acest caz vor lua forma:

(n ∑ n x t ... ∑ n x t k ∑ n x t ∑ n x i 2 ... ∑ m x i k + 1 ⋮ ⋱ ⋮ ∑ n x t k ∑ n x t k + 1 ... ∑ n x t 2 k) [b 0 b 1 n y] =∑ 0 b 1 y ] ∑ n x t y t ⋮ n x t k y t ] . (\displaystyle (\begin(pmatrix)n&\sum\limits _(n)x_(t)&\ldots &\sum\limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\sum \limits _(n)x_(i)^(2)&\ldots &\sum \limits _(m)x_(i)^(k+1)\\\vdots & \vdots &\ddots &\vdots \\\sum \limits _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ suma \limits _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatrix)).)

Proprietățile statistice ale estimărilor MOL

În primul rând, observăm că pentru modelele liniare, estimările celor mai mici pătrate sunt estimări liniare, după cum rezultă din formula de mai sus. Pentru imparțialitatea estimărilor celor mai mici pătrate, este necesar și suficient să se îndeplinească cea mai importantă condiție a analizei de regresie: așteptarea matematică a unei erori aleatoare condiționată de factori trebuie să fie egală cu zero. Această condiție este îndeplinită, în special, dacă

  1. așteptarea matematică a erorilor aleatoare este zero și
  2. factorii și erorile aleatoare sunt valori aleatorie  independente.

A doua condiție – condiția factorilor exogeni – este fundamentală. Dacă această proprietate nu este satisfăcută, atunci putem presupune că aproape orice estimări vor fi extrem de nesatisfăcătoare: nici măcar nu vor fi consistente (adică chiar și o cantitate foarte mare de date nu permite obținerea de estimări calitative în acest caz). În cazul clasic, se face o presupunere mai puternică despre determinismul factorilor, în contrast cu o eroare aleatorie, ceea ce înseamnă automat că condiția exogenă este satisfăcută. În cazul general, pentru consistența estimărilor este suficientă satisfacerea condiției de exogeneitate împreună cu convergența matricei. V x (\displaystyle V_(x)) la o matrice nedegenerată pe măsură ce dimensiunea eșantionului crește la infinit.

Pentru ca, pe lângă consecvență și imparțialitate, estimările (obișnuite) ale celor mai mici pătrate să fie și eficiente (cele mai bune din clasa estimărilor liniare nepărtinitoare), trebuie îndeplinite proprietăți suplimentare ale unei erori aleatorii:

Aceste ipoteze pot fi formulate pentru matricea de covarianță a vectorului de erori aleatoare V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).

Un model liniar care satisface aceste condiții se numește clasic. Estimările MCO pentru regresia liniară clasică sunt estimări imparțiale, consistente și cele mai eficiente din clasa tuturor estimărilor nepărtinitoare liniare (în literatura engleză, abrevierea este uneori folosită albastru (Cel mai bun estimator liniar imparțial) este cea mai bună estimare liniară imparțială; în literatura internă, este mai des citată teorema Gauss - Markov). După cum este ușor de arătat, matricea de covarianță a vectorului de estimare a coeficienților va fi egală cu:

V (b ^ O L S) = σ 2 (X T X) - 1 (\displaystyle V((\hat (b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).

Eficiența înseamnă că această matrice de covarianță este „minimă” (orice combinație liniară de coeficienți, și în special coeficienții înșiși, au o varianță minimă), adică, în clasa estimărilor liniare nepărtinitoare, estimările MCO sunt cele mai bune. Elementele diagonale ale acestei matrice - varianțele estimărilor coeficienților - sunt parametri importanți ai calității estimărilor obținute. Cu toate acestea, nu este posibil să se calculeze matricea de covarianță deoarece varianța erorii aleatoare este necunoscută. Se poate dovedi că estimarea imparțială și consistentă (pentru modelul liniar clasic) a varianței erorilor aleatoare este valoarea:

S 2 = R S S / (n - k) (\displaystyle s^(2)=RSS/(n-k)).

Înlocuind această valoare în formula pentru matricea de covarianță, obținem o estimare a matricei de covarianță. Estimările rezultate sunt, de asemenea, imparțial și consecvente. De asemenea, este important ca estimarea varianței de eroare (și, prin urmare, variațiile coeficienților) și estimările parametrilor modelului să fie variabile aleatoare independente, ceea ce face posibilă obținerea de statistici de testare pentru testarea ipotezelor despre coeficienții modelului.

Trebuie remarcat faptul că, dacă ipotezele clasice nu sunt îndeplinite, estimările parametrilor celor mai mici pătrate nu sunt cele mai eficiente și, unde W (\displaystyle W) este o matrice de greutate definită pozitivă simetrică. Cele mai mici pătrate obișnuite este un caz special al acestei abordări, când matricea de ponderi este proporțională cu matricea de identitate. După cum se știe, pentru matrice (sau operatori) simetrice există o descompunere W = P T P (\displaystyle W=P^(T)P). Prin urmare, această funcționalitate poate fi reprezentată după cum urmează e T P T P e = (P e) T P e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)), adică acest funcțional poate fi reprezentat ca suma pătratelor unor „reziduuri” transformate. Astfel, putem distinge o clasă de metode ale celor mai mici pătrate - LS-methods (Least Squares).

Se dovedește (teorema lui Aitken) că pentru un model de regresie liniară generalizată (în care nu sunt impuse restricții asupra matricei de covarianță a erorilor aleatoare), cele mai eficiente (din clasa estimărilor liniare nepărtinitoare) sunt estimările așa-numitelor. MOL generalizat (OMNK, GLS - Cele mai mici pătrate generalizate)- Metoda LS cu o matrice de ponderi egală cu matricea de covarianță inversă a erorilor aleatoare: W = V ε - 1 (\displaystyle W=V_(\varepsilon )^(-1)).

Se poate arăta că formula pentru estimările GLS ale parametrilor modelului liniar are forma

B ^ G L S = (X T V - 1 X) - 1 X T V - 1 y (\displaystyle (\hat (b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y).

Matricea de covarianță a acestor estimări, respectiv, va fi egală cu

V (b ^ G L S) = (X T V - 1 X) - 1 (\displaystyle V((\hat (b))_(GLS))=(X^(T)V^(-1)X)^(- unu)).

De fapt, esența MCO constă într-o anumită transformare (liniară) (P) a datelor originale și aplicarea celor mai mici pătrate uzuale la datele transformate. Scopul acestei transformări este ca pentru datele transformate, erorile aleatoare să satisfacă deja ipotezele clasice.

Cele mai mici pătrate ponderate

În cazul unei matrice de ponderi diagonale (și, prin urmare, matricea de covarianță a erorilor aleatoare), avem așa-numitele cele mai mici pătrate ponderate (WLS - Weighted Least Squares). În acest caz, suma ponderată a pătratelor a reziduurilor modelului este minimizată, adică fiecare observație primește o „pondere” care este invers proporțională cu varianța erorii aleatoare din această observație: e T W mi = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ sigma _(t)^(2)))). De fapt, datele sunt transformate prin ponderarea observațiilor (împărțirea la o sumă proporțională cu abaterea standard presupusă a erorilor aleatoare), iar datelor ponderate se aplică cele mai mici pătrate normale.

ISBN 978-5-7749-0473-0.

  • Econometrie. Manual / Ed. Eliseeva I. I. - ed. a II-a. - M. : Finanţe şi statistică, 2006. - 576 p. - ISBN 5-279-02786-3.
  • Alexandrova N.V. Istoria termenilor, conceptelor, denumirilor matematice: o carte de referință de dicționar. - ed. a III-a - M. : LKI, 2008. - 248 p. - ISBN 978-5-382-00839-4. I.V. Mitin, Rusakov V.S. Analiza și prelucrarea datelor experimentale - ediția a V-a - 24p.
    • tutorial

    Introducere

    Eu sunt un programator. Am făcut cel mai mare salt din cariera mea când am învățat să spun: "Eu nu înțeleg nimic!" Acum nu mi-e rușine să-i spun luminatorului științei că el îmi ține o prelegere, că nu înțeleg despre ce îmi vorbește, luminatorul. Și este foarte greu. Da, este greu și jenant să recunoști că nu știi. Cui îi place să recunoască că nu știe elementele de bază ale ceva-acolo. În virtutea profesiei mele, trebuie să asist la un număr mare de prezentări și prelegeri, unde, mărturisesc, în marea majoritate a cazurilor îmi este somnoros, pentru că nu înțeleg nimic. Și nu înțeleg pentru că problema uriașă a situației actuale în știință constă în matematică. Se presupune că toți elevii sunt familiarizați cu absolut toate domeniile matematicii (ceea ce este absurd). Să recunoști că nu știi ce este un derivat (că acesta este puțin mai târziu) este păcat.

    Dar am învățat să spun că nu știu ce este înmulțirea. Da, nu știu ce este o subalgebră peste o algebră Lie. Da, nu știu de ce sunt necesare ecuații patratice în viață. Apropo, dacă ești sigur că știi, atunci avem despre ce să vorbim! Matematica este o serie de trucuri. Matematicienii încearcă să încurce și să intimideze publicul; unde nu există confuzie, nici reputație, nici autoritate. Da, este prestigios să vorbești într-un limbaj cel mai abstract posibil, ceea ce este un nonsens în sine.

    Știți ce este un derivat? Cel mai probabil îmi veți spune despre limita relației de diferență. În primul an de matematică la Universitatea de Stat din Sankt Petersburg, Viktor Petrovici Khavin mă definit derivată ca coeficient al primului termen al seriei Taylor al funcției la punctul (a fost o gimnastică separată pentru a determina seria Taylor fără derivate). Am râs mult timp de această definiție, până am înțeles în sfârșit despre ce este vorba. Derivata nu este altceva decât o măsură a cât de mult funcția pe care o diferențiem este similară cu funcția y=x, y=x^2, y=x^3.

    Acum am onoarea de a preda studenți care frică matematică. Dacă ți-e frică de matematică - suntem pe drum. De îndată ce încerci să citești ceva text și ți se pare că este prea complicat, atunci știi că este prost scris. Susțin că nu există o singură zonă a matematicii despre care să nu se poată vorbi despre „pe degete” fără a pierde acuratețea.

    Provocarea pentru viitorul apropiat: mi-am instruit studenții să înțeleagă ce este un controler liniar-quadratic. Nu fi timid, pierde trei minute din viața ta, urmărește linkul. Dacă nu înțelegi nimic, atunci suntem pe drum. Nici eu (matematician-programator profesionist) nu am inteles nimic. Și vă asigur că asta se poate rezolva „pe degete”. Momentan nu știu ce este, dar vă asigur că vom reuși să ne dăm seama.

    Așadar, prima prelegere pe care o voi ține studenților mei după ce vor veni în fugă la mine îngroziți cu cuvintele că controlerul liniar-quadratic este un bug teribil pe care nu îl vei stăpâni niciodată în viața ta este metodele celor mai mici pătrate. Puteți rezolva ecuații liniare? Dacă citiți acest text, atunci cel mai probabil nu.

    Deci, având în vedere două puncte (x0, y0), (x1, y1), de exemplu, (1,1) și (3,2), sarcina este de a găsi ecuația unei drepte care trece prin aceste două puncte:

    ilustrare

    Această linie dreaptă ar trebui să aibă o ecuație ca următoarea:

    Aici alfa și beta ne sunt necunoscute, dar două puncte ale acestei linii sunt cunoscute:

    Puteți scrie această ecuație sub formă de matrice:

    Aici ar trebui să facem o digresiune lirică: ce este o matrice? O matrice nu este altceva decât o matrice bidimensională. Acesta este un mod de stocare a datelor, nu ar trebui să i se mai acorde valori. Depinde de noi cum să interpretăm exact o anumită matrice. Periodic, o voi interpreta ca o mapare liniară, periodic ca o formă pătratică și uneori pur și simplu ca un set de vectori. Toate acestea vor fi clarificate în context.

    Să înlocuim matricele specifice cu reprezentarea lor simbolică:

    Apoi (alfa, beta) pot fi găsite cu ușurință:

    Mai precis pentru datele noastre anterioare:

    Ceea ce duce la următoarea ecuație a unei drepte care trece prin punctele (1,1) și (3,2):

    Bine, totul este clar aici. Și să găsim ecuația unei drepte care trece prin Trei puncte: (x0,y0), (x1,y1) și (x2,y2):

    Oh-oh-oh, dar avem trei ecuații pentru două necunoscute! Matematicianul standard va spune că nu există o soluție. Ce va spune programatorul? Și va rescrie mai întâi sistemul anterior de ecuații în următoarea formă:

    În cazul nostru, vectorii i, j, b sunt tridimensionali, prin urmare, (în cazul general) nu există o soluție pentru acest sistem. Orice vector (alfa\*i + beta\*j) se află în planul acoperit de vectorii (i, j). Dacă b nu aparține acestui plan, atunci nu există soluție (egalitatea în ecuație nu poate fi atinsă). Ce să fac? Să căutăm un compromis. Să notăm prin e(alfa, beta) cum exact nu am atins egalitatea:

    Și vom încerca să minimizăm această eroare:

    De ce un pătrat?

    Căutăm nu doar minimul normei, ci și minimul pătratului normei. De ce? Punctul minim în sine coincide, iar pătratul dă o funcție netedă (o funcție pătratică a argumentelor (alfa,beta)), în timp ce doar lungimea dă o funcție sub formă de con, nediferențiabilă la punctul minim. Brr. Square este mai convenabil.

    Evident, eroarea este minimizată atunci când vectorul e ortogonală cu planul acoperit de vectori iși j.

    Ilustrare

    Cu alte cuvinte: căutăm o dreaptă astfel încât suma pătratelor lungimii distanțelor de la toate punctele la această dreaptă să fie minimă:

    UPDATE: aici am un jamb, distanta pana la linie trebuie masurata vertical, nu proiectie ortografica. Acest comentator este corect.

    Ilustrare

    Cu cuvinte complet diferite (atenție, prost formalizate, dar ar trebui să fie clar pe degete): luăm toate liniile posibile între toate perechile de puncte și căutăm linia medie între toate:

    Ilustrare

    O altă explicație pe degete: atașăm un arc între toate punctele de date (aici avem trei) și linia pe care o căutăm, iar linia stării de echilibru este exact ceea ce căutăm.

    Forma cuadratică minimă

    Deci, având în vedere vectorul b iar planul acoperit de coloanele-vectori ai matricei A(în acest caz (x0,x1,x2) și (1,1,1)), căutăm un vector e cu un pătrat minim de lungime. Evident, minimul este realizabil doar pentru vector e, ortogonal cu planul acoperit de coloanele-vectori ai matricei A:

    Cu alte cuvinte, căutăm un vector x=(alfa, beta) astfel încât:

    Vă reamintesc că acest vector x=(alfa, beta) este minimul funcției pătratice ||e(alfa, beta)||^2:

    Aici este util să ne amintim că matricea poate fi interpretată la fel ca și forma pătratică, de exemplu, matricea de identitate ((1,0),(0,1)) poate fi interpretată ca o funcție a x^2 + y ^2:

    formă pătratică

    Toată această gimnastică este cunoscută sub numele de regresie liniară.

    Ecuația Laplace cu condiția la limită Dirichlet

    Acum, cea mai simplă problemă reală: există o anumită suprafață triangulată, este necesar să o neteziți. De exemplu, să încărcăm modelul feței mele:

    Commit-ul original este disponibil. Pentru a minimiza dependențele externe, am luat codul programului meu de redare software, deja pe Habré. Pentru a rezolva sistemul liniar, folosesc OpenNL , este un solutor grozav, dar este foarte greu de instalat: trebuie să copiați două fișiere (.h + .c) în folderul proiectului. Toată netezirea se face prin următorul cod:

    Pentru (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&face = fețe[i]; pentru (int j=0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

    Coordonatele X, Y și Z sunt separabile, le netezesc separat. Adică rezolv trei sisteme de ecuații liniare, fiecare cu același număr de variabile ca numărul de vârfuri din modelul meu. Primele n rânduri ale matricei A au doar un 1 pe rând, iar primele n rânduri ale vectorului b au coordonatele modelului original. Adică, fac legătura între noua poziție de vârf și vechea poziție de vârf - cele noi nu ar trebui să fie prea departe de cele vechi.

    Toate rândurile ulterioare ale matricei A (faces.size()*3 = numărul de muchii ale tuturor triunghiurilor din grilă) au o apariție de 1 și o apariție de -1, în timp ce vectorul b are componente zero opuse. Aceasta înseamnă că am pus un arc pe fiecare margine a rețelei noastre triunghiulare: toate marginile încearcă să obțină același vârf ca punctele lor de început și de sfârșit.

    Încă o dată: toate nodurile sunt variabile și nu se pot abate departe de poziția lor inițială, dar în același timp încearcă să devină asemănătoare între ele.

    Iată rezultatul:

    Totul ar fi bine, modelul este cu adevărat netezit, dar s-a îndepărtat de marginea inițială. Hai sa schimbam putin codul:

    Pentru (int i=0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

    În matricea noastră A, pentru vârfurile care sunt pe margine, nu adaug un rând din categoria v_i = verts[i][d], ci 1000*v_i = 1000*verts[i][d]. Ce se schimbă? Și asta schimbă forma noastră pătratică a erorii. Acum, o singură abatere de la partea de sus la margine va costa nu o unitate, ca înainte, ci 1000 * 1000 de unități. Adică am atârnat un arc mai puternic pe vârfurile extreme, soluția preferă să le întindă pe altele mai puternic. Iată rezultatul:

    Să dublăm puterea arcurilor dintre vârfuri:
    nlCoeficient(față[ j ], 2); nlCoeficient(față[(j+1)%3], -2);

    Este logic că suprafața a devenit mai netedă:

    Și acum chiar de o sută de ori mai puternic:

    Ce este asta? Imaginează-ți că am scufundat un inel de sârmă în apă cu săpun. Drept urmare, pelicula de săpun rezultată va încerca să aibă cea mai mică curbură posibil, atingând aceeași margine - inelul nostru de sârmă. Este exact ceea ce am obținut fixând chenarul și cerând o suprafață netedă în interior. Felicitări, tocmai am rezolvat ecuația Laplace cu condițiile la limită Dirichlet. Suna bine? Dar, de fapt, un singur sistem de ecuații liniare de rezolvat.

    Ecuația Poisson

    Să avem un alt nume grozav.

    Să presupunem că am o imagine ca aceasta:

    Toată lumea este bună, dar nu-mi place scaunul.

    Am tăiat poza în jumătate:



    Și voi alege un scaun cu mâinile mele:

    Apoi voi trage tot ce este alb în mască în partea stângă a imaginii și, în același timp, voi spune pe parcursul întregii imagini că diferența dintre doi pixeli vecini ar trebui să fie egală cu diferența dintre doi pixeli vecini ai imaginii. imagine dreapta:

    Pentru (int i=0; i

    Iată rezultatul:

    Codul și imaginile sunt disponibile

    Metoda celor mai mici pătrate

    Metoda celor mai mici pătrate ( MNK, OLS, Cele mai mici pătrate ordinare) - una dintre metodele de bază de analiză de regresie pentru estimarea parametrilor necunoscuți ai modelelor de regresie din datele eșantionului. Metoda se bazează pe minimizarea sumei pătratelor reziduurilor de regresie.

    Trebuie remarcat faptul că metoda celor mai mici pătrate în sine poate fi numită o metodă de rezolvare a unei probleme în orice domeniu dacă soluția constă din sau satisface un anumit criteriu de minimizare a sumei pătratelor unor funcții ale variabilelor necunoscute. Prin urmare, metoda celor mai mici pătrate poate fi folosită și pentru o reprezentare aproximativă (aproximare) a unei anumite funcții prin alte funcții (mai simple), atunci când se găsesc o mulțime de mărimi care satisfac ecuații sau restricții, al căror număr depășește numărul acestor mărimi. , etc.

    Esența MNC

    Să fie un model (parametric) de dependență probabilistică (regresie) între variabila (explicată). yși mulți factori (variabile explicative) X

    unde este vectorul parametrilor necunoscuți ai modelului

    - Eroare aleatoare de model.

    Să existe și eșantion de observații ale valorilor variabilelor indicate. Fie numărul de observație (). Apoi sunt valorile variabilelor din a-a observație. Apoi, pentru valorile date ale parametrilor b, este posibil să se calculeze valorile teoretice (modelului) ale variabilei explicate y:

    Valoarea reziduurilor depinde de valorile parametrilor b.

    Esența LSM (obișnuită, clasică) este de a găsi astfel de parametri b pentru care suma pătratelor reziduurilor (ing. Suma reziduală a pătratelor) va fi minimă:

    În cazul general, această problemă poate fi rezolvată prin metode numerice de optimizare (minimizare). În acest caz, se vorbește despre cele mai mici pătrate neliniare(NLS sau NLLS - engleză. Cele mai mici pătrate neliniare). În multe cazuri, se poate obține o soluție analitică. Pentru a rezolva problema de minimizare, este necesar să găsim punctele staționare ale funcției prin diferențierea acesteia față de parametrii necunoscuți b, echivalând derivatele la zero și rezolvând sistemul de ecuații rezultat:

    Dacă erorile aleatoare ale modelului sunt distribuite în mod normal, au aceeași varianță și nu sunt corelate între ele, estimările parametrilor celor mai mici pătrate sunt aceleași cu estimările metodei de probabilitate maximă (MLM).

    LSM în cazul unui model liniar

    Fie dependența de regresie liniară:

    Lăsa y- vector coloană de observații a variabilei explicate și - matrice de observații de factori (rânduri ale matricei - vectori de valori ale factorilor într-o observație dată, pe coloane - vector de valori ale unui anumit factor în toate observațiile) . Reprezentarea matricială a modelului liniar are forma:

    Atunci vectorul estimărilor variabilei explicate și vectorul reziduurilor de regresie vor fi egale cu

    în consecință, suma pătratelor reziduurilor de regresie va fi egală cu

    Diferențiând această funcție în raport cu vectorul parametru și echivalând derivatele la zero, obținem un sistem de ecuații (sub formă de matrice):

    .

    Rezolvarea acestui sistem de ecuații oferă formula generală pentru estimările celor mai mici pătrate pentru modelul liniar:

    În scopuri analitice, ultima reprezentare a acestei formule se dovedește a fi utilă. Dacă datele din modelul de regresie centrat, atunci în această reprezentare prima matrice are semnificația unei matrice de covarianță eșantion de factori, iar a doua este vectorul de covarianțe ale factorilor cu o variabilă dependentă. Dacă, în plus, datele sunt de asemenea normalizat la SKO (adică în cele din urmă standardizate), atunci prima matrice are semnificația matricei de corelație eșantion de factori, al doilea vector - vectorul de corelații de eșantion de factori cu variabila dependentă.

    O proprietate importantă a estimărilor LLS pentru modele cu o constantă- linia regresiei construite trece prin centrul de greutate al datelor eșantionului, adică egalitatea este îndeplinită:

    În special, în cazul extrem, când singurul regresor este o constantă, constatăm că estimarea MCO a unui singur parametru (constanta însăși) este egală cu valoarea medie a variabilei care se explică. Adică, media aritmetică, cunoscută pentru proprietățile sale bune din legile numerelor mari, este și o estimare a celor mai mici pătrate - satisface criteriul pentru suma minimă a abaterilor pătrate de la aceasta.

    Exemplu: regresie simplă (în perechi).

    În cazul regresiei liniare perechi, formulele de calcul sunt simplificate (puteți face fără algebra matriceală):

    Proprietățile estimărilor MOL

    În primul rând, observăm că pentru modelele liniare, estimările celor mai mici pătrate sunt estimări liniare, după cum rezultă din formula de mai sus. Pentru estimările MCO nepărtinitoare, este necesar și suficient să se îndeplinească cea mai importantă condiție a analizei de regresie: așteptarea matematică a unei erori aleatoare condiționată de factori trebuie să fie egală cu zero. Această condiție este îndeplinită, în special, dacă

    1. așteptarea matematică a erorilor aleatoare este zero și
    2. factorii și erorile aleatoare sunt variabile aleatoare independente.

    A doua condiție – condiția factorilor exogeni – este fundamentală. Dacă această proprietate nu este satisfăcută, atunci putem presupune că aproape orice estimări vor fi extrem de nesatisfăcătoare: nici măcar nu vor fi consistente (adică chiar și o cantitate foarte mare de date nu permite obținerea de estimări calitative în acest caz). În cazul clasic, se face o presupunere mai puternică despre determinismul factorilor, în contrast cu o eroare aleatorie, ceea ce înseamnă automat că condiția exogenă este satisfăcută. În cazul general, pentru consistența estimărilor, este suficient să se îndeplinească condiția de exogeneitate împreună cu convergența matricei către o matrice nesingulară cu o creștere a dimensiunii eșantionului la infinit.

    Pentru ca, pe lângă consecvență și imparțialitate, estimările (obișnuite) ale celor mai mici pătrate să fie și eficiente (cele mai bune din clasa estimărilor liniare nepărtinitoare), trebuie îndeplinite proprietăți suplimentare ale unei erori aleatorii:

    Aceste ipoteze pot fi formulate pentru matricea de covarianță a vectorului de eroare aleatorie

    Un model liniar care satisface aceste condiții se numește clasic. Estimările MCO pentru regresia liniară clasică sunt estimări imparțiale, consistente și cele mai eficiente din clasa tuturor estimărilor nepărtinitoare liniare (în literatura engleză, abrevierea este uneori folosită albastru (Cel mai bun estimator liniar nebazat) este cea mai bună estimare liniară imparțială; în literatura internă este mai des citată teorema Gauss-Markov). După cum este ușor de arătat, matricea de covarianță a vectorului de estimare a coeficienților va fi egală cu:

    Cele mai mici pătrate generalizate

    Metoda celor mai mici pătrate permite o generalizare largă. În loc de a minimiza suma pătratelor reziduurilor, se poate minimiza o formă pătratică definită pozitivă a vectorului rezidual, unde este o matrice de greutate definită pozitivă simetrică. Cele mai mici pătrate obișnuite este un caz special al acestei abordări, când matricea de ponderi este proporțională cu matricea de identitate. După cum se știe din teoria matricelor simetrice (sau operatorilor), există o descompunere pentru astfel de matrici. Prin urmare, funcționalitatea specificată poate fi reprezentată astfel, adică această funcțională poate fi reprezentată ca suma pătratelor unor „reziduuri” transformate. Astfel, putem distinge o clasă de metode ale celor mai mici pătrate - LS-methods (Least Squares).

    Se dovedește (teorema lui Aitken) că pentru un model de regresie liniară generalizată (în care nu sunt impuse restricții asupra matricei de covarianță a erorilor aleatoare), cele mai eficiente (din clasa estimărilor liniare nepărtinitoare) sunt estimările așa-numitelor. MOL generalizat (OMNK, GLS - Cele mai mici pătrate generalizate)- LS-metoda cu o matrice de ponderi egală cu matricea de covarianță inversă a erorilor aleatoare: .

    Se poate arăta că formula pentru estimările GLS ale parametrilor modelului liniar are forma

    Matricea de covarianță a acestor estimări, respectiv, va fi egală cu

    De fapt, esența MCO constă într-o anumită transformare (liniară) (P) a datelor originale și aplicarea celor mai mici pătrate uzuale la datele transformate. Scopul acestei transformări este ca pentru datele transformate, erorile aleatoare să satisfacă deja ipotezele clasice.

    Cele mai mici pătrate ponderate

    În cazul unei matrice de ponderi diagonale (și, prin urmare, matricea de covarianță a erorilor aleatoare), avem așa-numitele cele mai mici pătrate ponderate (WLS - Weighted Least Squares). În acest caz, suma ponderată a pătratelor a reziduurilor modelului este minimizată, adică fiecare observație primește o „pondere” invers proporțională cu varianța erorii aleatoare din această observație: . De fapt, datele sunt transformate prin ponderarea observațiilor (împărțirea la o sumă proporțională cu abaterea standard presupusă a erorilor aleatoare), iar datelor ponderate se aplică cele mai mici pătrate normale.

    Câteva cazuri speciale de aplicare a LSM în practică

    Aproximație liniară

    Luați în considerare cazul când, ca urmare a studierii dependenței unei anumite mărimi scalare de o anumită mărime scalară (Acesta poate fi, de exemplu, dependența tensiunii de puterea curentului: , unde este o valoare constantă, rezistența conductorului ), au fost măsurate aceste cantități, în urma cărora s-au obținut valorile și valorile corespunzătoare. Datele de măsurare trebuie înregistrate într-un tabel.

    Masa. Rezultatele măsurătorilor.

    Masura Nr.
    1
    2
    3
    4
    5
    6

    Întrebarea sună astfel: ce valoare a coeficientului poate fi aleasă pentru a descrie cel mai bine dependența? Conform celor mai mici pătrate, această valoare ar trebui să fie astfel încât suma abaterilor pătrate ale valorilor de la valori

    a fost minimă

    Suma abaterilor pătrate are un extremum - un minim, ceea ce ne permite să folosim această formulă. Să aflăm valoarea coeficientului din această formulă. Pentru a face acest lucru, îi transformăm partea stângă după cum urmează:

    Ultima formulă ne permite să găsim valoarea coeficientului , care a fost cerută în problemă.

    Poveste

    Până la începutul secolului al XIX-lea. oamenii de știință nu aveau anumite reguli pentru rezolvarea unui sistem de ecuații în care numărul de necunoscute este mai mic decât numărul de ecuații; Până atunci s-au folosit metode deosebite, în funcție de tipul ecuațiilor și de ingeniozitatea calculatoarelor și, prin urmare, calculatoare diferite, pornind de la aceleași date observaționale, au ajuns la concluzii diferite. Gauss (1795) este creditat cu prima aplicare a metodei, iar Legendre (1805) a descoperit-o și publicat-o în mod independent sub numele său modern (fr. Methode des moindres quarres ). Laplace a legat metoda de teoria probabilității, iar matematicianul american Adrain (1808) a considerat aplicațiile probabilistice ale acesteia. Metoda este răspândită și îmbunătățită prin cercetări ulterioare ale lui Encke, Bessel, Hansen și alții.

    Utilizarea alternativă a CMN-urilor

    Ideea metodei celor mai mici pătrate poate fi folosită și în alte cazuri care nu au legătură directă cu analiza de regresie. Faptul este că suma pătratelor este una dintre cele mai comune măsuri de proximitate pentru vectori (metrica euclidiană în spații cu dimensiuni finite).

    O aplicație este „rezolvarea” sistemelor de ecuații liniare în care numărul de ecuații este mai mare decât numărul de variabile

    unde matricea nu este pătrată, ci dreptunghiulară.

    Un astfel de sistem de ecuații, în cazul general, nu are soluție (dacă rangul este de fapt mai mare decât numărul de variabile). Prin urmare, acest sistem poate fi „rezolvat” doar în sensul alegerii unui astfel de vector pentru a minimiza „distanța” dintre vectori și . Pentru a face acest lucru, puteți aplica criteriul de minimizare a sumei diferențelor pătrate ale părților din stânga și din dreapta ecuațiilor sistemului, adică . Este ușor de arătat că rezolvarea acestei probleme de minimizare duce la rezolvarea următorului sistem de ecuații