Mga koepisyent mnk. Pinakamababang mga parisukat sa Excel

Ang pamamaraan ng hindi bababa sa mga parisukat (OLS, eng. Ordinary Least Squares, OLS) -- isang mathematical na pamamaraan na ginagamit upang malutas ang iba't ibang mga problema, batay sa pagliit ng kabuuan ng mga squared deviations ng ilang mga function mula sa nais na mga variable. Maaari itong magamit upang "malutas" ang mga overdetermined system ng mga equation (kapag ang bilang ng mga equation ay lumampas sa bilang ng mga hindi alam), upang makahanap ng solusyon sa kaso ng mga ordinaryong (hindi overdetermined) nonlinear system ng mga equation, sa tinatayang mga halaga ng punto sa pamamagitan ng ilang function. Ang OLS ay isa sa mga pangunahing pamamaraan ng pagsusuri ng regression para sa pagtantya ng hindi kilalang mga parameter ng mga modelo ng regression mula sa sample na data.

Ang kakanyahan ng paraan ng hindi bababa sa mga parisukat

Hayaan ang isang hanay ng mga hindi kilalang variable (parameter), maging isang hanay ng mga function mula sa hanay ng mga variable na ito. Ang gawain ay upang piliin ang mga naturang halaga ng x upang ang mga halaga ng mga function na ito ay mas malapit hangga't maaari sa ilang mga halaga. Sa esensya, pinag-uusapan natin ang tungkol sa "solusyon" ng isang overdetermined system ng mga equation sa ipinahiwatig na kahulugan ng maximum na pagkakalapit ng kaliwa at kanang bahagi ng system. Ang kakanyahan ng LSM ay ang piliin bilang isang "sukatan ng kalapitan" ang kabuuan ng mga squared deviations ng kaliwa at kanang bahagi - . Kaya, ang kakanyahan ng LSM ay maaaring ipahayag tulad ng sumusunod:

Kung ang sistema ng mga equation ay may solusyon, kung gayon ang pinakamaliit ng kabuuan ng mga parisukat ay magiging zero at ang eksaktong mga solusyon ng sistema ng mga equation ay matatagpuan sa analytically o, halimbawa, sa pamamagitan ng iba't ibang mga numerical optimization na pamamaraan. Kung ang sistema ay labis na natukoy, iyon ay, maluwag na pagsasalita, ang bilang ng mga independiyenteng equation ay mas malaki kaysa sa bilang ng mga hindi kilalang variable, kung gayon ang system ay walang eksaktong solusyon at ang hindi bababa sa mga parisukat na pamamaraan ay nagpapahintulot sa amin na makahanap ng ilang "pinakamainam" na vector sa ang kahulugan ng pinakamataas na kalapitan ng mga vector at o ang pinakamataas na kalapitan ng paglihis ng vector sa zero (kalapitan ay nauunawaan sa kahulugan ng Euclidean na distansya).

Halimbawa - sistema ng mga linear na equation

Sa partikular, ang paraan ng least squares ay maaaring gamitin upang "malutas" ang sistema ng mga linear equation

kung saan ang matrix ay hindi parisukat, ngunit hugis-parihaba ang laki (mas tiyak, ang ranggo ng matrix A ay mas malaki kaysa sa bilang ng mga kinakailangang variable).

Ang ganitong sistema ng mga equation, sa pangkalahatang kaso, ay walang solusyon. Samakatuwid, ang sistemang ito ay maaaring "malutas" lamang sa kahulugan ng pagpili ng tulad ng isang vector upang mabawasan ang "distansya" sa pagitan ng mga vector at. Upang gawin ito, maaari mong ilapat ang pamantayan para sa pagliit ng kabuuan ng mga parisukat na pagkakaiba ng kaliwa at kanang bahagi ng mga equation ng system, iyon ay. Madaling ipakita na ang solusyon ng problema sa minimization na ito ay humahantong sa solusyon ng sumusunod na sistema ng mga equation

Gamit ang pseudo-inversion operator, ang solusyon ay maaaring muling isulat tulad nito:

para saan ang pseudoinverse matrix.

Ang problemang ito ay maaari ding "malutas" gamit ang tinatawag na weighted LSM (tingnan sa ibaba), kapag ang iba't ibang equation ng system ay tumatanggap ng iba't ibang mga timbang mula sa teoretikal na pagsasaalang-alang.

Ang mahigpit na pagpapatunay at pagpapasiya ng mga limitasyon ng makabuluhang kakayahang magamit ng pamamaraan ay ibinigay ni A. A. Markov at A. N. Kolmogorov.

OLS sa regression analysis (data approximation)[baguhin | i-edit ang wiki text] Hayaang magkaroon ng mga halaga ng ilang variable (maaari itong resulta ng mga obserbasyon, eksperimento, atbp.) at kaukulang mga variable. Ang gawain ay upang tantiyahin ang kaugnayan sa pagitan at ng ilang function na kilala hanggang sa ilang hindi kilalang mga parameter, iyon ay, sa katunayan, upang mahanap ang pinakamahusay na mga halaga ng parameter na nagdadala ng mga halaga nang mas malapit hangga't maaari sa aktwal na mga halaga. Sa katunayan, ito ay bumagsak sa kaso ng "paglutas" ng isang overdetermined system ng mga equation na may kinalaman sa:

Sa pagsusuri ng regression, at partikular sa econometrics, ginagamit ang mga probabilistikong modelo ng ugnayan sa pagitan ng mga variable.

nasaan ang tinatawag na random model errors.

Alinsunod dito, ang mga paglihis ng mga naobserbahang halaga mula sa mga halaga ng modelo ay ipinapalagay na sa mismong modelo. Ang kakanyahan ng LSM (ordinaryo, klasikal) ay upang mahanap ang mga naturang parameter kung saan ang kabuuan ng mga squared deviations (mga error, para sa mga modelo ng regression ay madalas silang tinatawag na regression residual) ay magiging minimal:

nasaan ang English. Ang natitirang kabuuan ng mga parisukat ay tinukoy bilang:

Sa pangkalahatang kaso, ang problemang ito ay maaaring malutas sa pamamagitan ng mga numerical na pamamaraan ng optimization (minimization). Sa kasong ito, ang isa ay nagsasalita ng non-linear least squares (NLS o NLLS - Non-Linear Least Squares). Sa maraming mga kaso, maaaring makuha ang isang analytical na solusyon. Upang malutas ang problema sa pag-minimize, kinakailangan upang mahanap ang mga nakatigil na punto ng pag-andar sa pamamagitan ng pagkakaiba-iba nito na may paggalang sa hindi kilalang mga parameter, equating ang mga derivatives sa zero at paglutas ng nagresultang sistema ng mga equation:

OLS sa kaso ng linear regression[baguhin | i-edit ang wiki text]

Hayaang maging linear ang regression dependence:

Hayaang ang y ay isang column vector ng mga obserbasyon ng variable na ipinaliwanag, at isang matrix ng mga obserbasyon ng mga kadahilanan (ang mga hilera ng matrix ay mga vector ng mga halaga ng factor sa isang naibigay na obserbasyon, ang mga haligi ay isang vector ng mga halaga ng isang naibigay na salik sa lahat ng obserbasyon). Ang representasyon ng matrix ng linear na modelo ay may anyo:

Pagkatapos ang vector ng mga pagtatantya ng ipinaliwanag na variable at ang vector ng mga residual ng regression ay magiging katumbas ng

nang naaayon, ang kabuuan ng mga parisukat ng mga natitirang regression ay magiging katumbas ng

Ang pagkakaiba-iba ng function na ito na may paggalang sa vector ng parameter at equating ang mga derivatives sa zero, nakakakuha kami ng isang sistema ng mga equation (sa matrix form):

Sa deciphered matrix form, ganito ang hitsura ng sistemang ito ng mga equation:


kung saan kinukuha ang lahat ng sums sa lahat ng tinatanggap na halaga.

Kung ang isang pare-pareho ay kasama sa modelo (gaya ng dati), kung gayon para sa lahat, samakatuwid, sa itaas na kaliwang sulok ng matrix ng sistema ng mga equation ay ang bilang ng mga obserbasyon, at sa natitirang mga elemento ng unang hilera at unang haligi - ang kabuuan lamang ng mga halaga ng mga variable: at ang unang elemento ng kanang bahagi ng system -- .

Ang solusyon ng sistemang ito ng mga equation ay nagbibigay ng pangkalahatang formula para sa pinakamaliit na mga pagtatantya ng mga parisukat para sa linear na modelo:

Para sa mga layuning analitikal, ang huling representasyon ng formula na ito ay lumalabas na kapaki-pakinabang (sa sistema ng mga equation kapag hinati sa n, ang arithmetic na paraan ay lilitaw sa halip na mga kabuuan). Kung ang data ay nakasentro sa modelo ng regression, kung gayon sa representasyong ito ang unang matrix ay may kahulugan ng sample covariance matrix ng mga kadahilanan, at ang pangalawa ay ang factor covariance vector na may dependent variable. Kung, bilang karagdagan, ang data ay na-normalize din sa karaniwang paglihis (iyon ay, sa kalaunan ay na-standardize), kung gayon ang unang matrix ay may kahulugan ng isang sample na correlation matrix ng mga kadahilanan, ang pangalawang vector - ang vector ng sample na mga ugnayan ng mga kadahilanan na may isang dependent variable.

Ang isang mahalagang pag-aari ng mga pagtatantya ng LLS para sa mga modelo na may pare-pareho ay ang linya ng itinayong regression ay dumadaan sa gitna ng grabidad ng sample na data, iyon ay, ang pagkakapantay-pantay ay natutupad:

Sa partikular, sa matinding kaso, kapag ang nag-iisang regressor ay pare-pareho, nalaman namin na ang pagtatantya ng OLS ng isang parameter (ang constant mismo) ay katumbas ng ibig sabihin ng halaga ng variable na ipinaliwanag. Iyon ay, ang arithmetic mean, na kilala sa magagandang katangian nito mula sa mga batas ng malalaking numero, ay isa ring hindi bababa sa pagtatantya ng mga parisukat - natutugunan nito ang pamantayan para sa pinakamababang kabuuan ng mga squared deviations mula dito.

Ang pinakasimpleng mga espesyal na kaso[baguhin | i-edit ang wiki text]

Sa kaso ng ipinares na linear regression, kapag ang linear dependence ng isang variable sa isa pa ay tinantya, ang mga formula ng pagkalkula ay pinasimple (magagawa mo nang walang matrix algebra). Ang sistema ng mga equation ay may anyo:

Mula dito, madaling makahanap ng mga pagtatantya para sa mga coefficient:

Bagaman ang mga pare-parehong modelo ay karaniwang mas gusto, sa ilang mga kaso ay kilala mula sa teoretikal na pagsasaalang-alang na ang pare-pareho ay dapat na zero. Halimbawa, sa pisika, ang relasyon sa pagitan ng boltahe at kasalukuyang ay may anyo; pagsukat ng boltahe at kasalukuyang, kinakailangan upang tantyahin ang paglaban. Sa kasong ito, pinag-uusapan natin ang tungkol sa modelo. Sa kasong ito, sa halip na isang sistema ng mga equation, mayroon kaming isang solong equation

Samakatuwid, ang formula para sa pagtatantya ng isang solong koepisyent ay may anyo

Mga istatistikal na katangian ng mga pagtatantya ng OLS[baguhin | i-edit ang wiki text]

Una sa lahat, tandaan namin na para sa mga linear na modelo, ang hindi bababa sa mga pagtatantya ng mga parisukat ay mga linear na pagtatantya, tulad ng sumusunod mula sa formula sa itaas. Para sa mga walang kinikilingang pagtatantya ng OLS, ito ay kinakailangan at sapat upang matupad ang pinakamahalagang kondisyon ng pagsusuri ng regression: ang pag-asa sa matematika ng isang random na error na may kondisyon sa mga salik ay dapat na katumbas ng zero. Ang kundisyong ito, sa partikular, ay nasiyahan kung ang mathematical na inaasahan ng mga random na error ay katumbas ng zero, at ang mga kadahilanan at mga random na error ay independiyenteng random variable.

Ang unang kundisyon ay maaaring ituring na palaging nasiyahan para sa mga modelo na may pare-pareho, dahil ang pare-pareho ay tumatagal sa isang hindi-zero na pag-asa sa matematika ng mga error (samakatuwid, ang mga modelo na may pare-pareho ay karaniwang mas gusto). hindi bababa sa square regression covariance

Ang pangalawang kondisyon - ang kondisyon ng mga exogenous na kadahilanan - ay mahalaga. Kung hindi nasiyahan ang pag-aari na ito, maaari nating ipagpalagay na halos anumang mga pagtatantya ay magiging lubhang hindi kasiya-siya: hindi sila magiging pare-pareho (iyon ay, kahit na ang isang napakalaking halaga ng data ay hindi pinapayagan ang pagkuha ng mga pagtatantya ng husay sa kasong ito). Sa klasikal na kaso, ang isang mas malakas na palagay ay ginawa tungkol sa determinismo ng mga kadahilanan, sa kaibahan sa isang random na error, na awtomatikong nangangahulugan na ang exogenous na kondisyon ay nasiyahan. Sa pangkalahatang kaso, para sa pagkakapare-pareho ng mga pagtatantya, sapat na upang matupad ang kondisyon ng exogeneity kasama ang convergence ng matrix sa ilang di-singular na matrix na may pagtaas sa laki ng sample hanggang sa infinity.

Upang, bilang karagdagan sa pagkakapare-pareho at pagiging walang kinikilingan, ang (ordinaryo) na mga pagtatantya ng hindi bababa sa mga parisukat ay maging mahusay din (ang pinakamahusay sa klase ng mga linear na walang pinapanigan na pagtatantya), ang mga karagdagang katangian ng isang random na error ay dapat matugunan:

Patuloy (parehong) pagkakaiba-iba ng mga random na error sa lahat ng mga obserbasyon (walang heteroscedasticity):

Kakulangan ng ugnayan (autocorrelation) ng mga random na error sa iba't ibang mga obserbasyon sa kanilang mga sarili

Ang mga pagpapalagay na ito ay maaaring buuin para sa covariance matrix ng random error vector

Ang isang linear na modelo na nakakatugon sa mga kundisyong ito ay tinatawag na klasikal. Ang mga pagtatantya ng LLS para sa klasikal na linear regression ay walang pinapanigan, pare-pareho at pinakamabisang pagtatantya sa klase ng lahat ng linear na walang pinapanigan na pagtatantya (sa panitikang Ingles kung minsan ay ginagamit nila ang pagdadaglat na BLUE (Best Linear Unbiased Estimator) - ang pinakamahusay na linear na walang pinapanigan na pagtatantya; sa domestic literature, ang Gauss theorem ay mas madalas na ibinigay - Markov). Dahil madaling ipakita, ang covariance matrix ng coefficient estimates vector ay magiging katumbas ng:

Ang kahusayan ay nangangahulugan na ang covariance matrix na ito ay "minimal" (anumang linear na kumbinasyon ng mga coefficient, at lalo na ang mga coefficient mismo, ay may pinakamababang pagkakaiba), iyon ay, sa klase ng mga linear na walang pinapanigan na pagtatantya, ang mga pagtatantya ng OLS ay ang pinakamahusay. Ang mga elemento ng dayagonal ng matrix na ito, ang mga pagkakaiba-iba ng mga pagtatantya ng mga coefficient, ay mahalagang mga parameter ng kalidad ng nakuha na mga pagtatantya. Gayunpaman, hindi posibleng kalkulahin ang covariance matrix dahil hindi alam ang random error variance. Mapapatunayan na ang walang kinikilingan at pare-pareho (para sa klasikal na linear na modelo) na pagtatantya ng pagkakaiba-iba ng mga random na error ay ang halaga:

Ang pagpapalit ng halagang ito sa formula para sa covariance matrix, nakakakuha kami ng isang pagtatantya ng covariance matrix. Ang mga resultang pagtatantya ay walang kinikilingan at pare-pareho. Mahalaga rin na ang pagtatantya ng pagkakaiba-iba ng error (at samakatuwid ang mga pagkakaiba-iba ng mga koepisyent) at ang mga pagtatantya ng mga parameter ng modelo ay mga independiyenteng random na variable, na ginagawang posible na makakuha ng mga istatistika ng pagsubok para sa pagsubok ng mga hypotheses tungkol sa mga koepisyent ng modelo.

Dapat tandaan na kung ang mga klasikal na pagpapalagay ay hindi natutugunan, ang hindi bababa sa mga pagtatantya ng parameter ng mga parisukat ay hindi ang pinakamahusay na pagtatantya (nananatiling walang kinikilingan at pare-pareho). Gayunpaman, ang pagtatantya ng covariance matrix ay lumalala pa - ito ay nagiging bias at hindi naaayon. Nangangahulugan ito na ang mga istatistikal na konklusyon tungkol sa kalidad ng itinayong modelo sa kasong ito ay maaaring maging lubhang hindi maaasahan. Ang isang paraan upang malutas ang huling problema ay ang paggamit ng mga espesyal na pagtatantya ng covariance matrix, na pare-pareho sa ilalim ng mga paglabag sa mga klasikal na pagpapalagay (standard error sa White form at standard error sa Newey-West form). Ang isa pang diskarte ay ang paggamit ng tinatawag na generalized least squares.

Generalized least squares[baguhin | i-edit ang wiki text]

Pangunahing lathalain: Generalized least squares

Ang paraan ng hindi bababa sa mga parisukat ay nagbibigay-daan para sa isang malawak na paglalahat. Sa halip na bawasan ang kabuuan ng mga parisukat ng mga nalalabi, ang isang tao ay maaaring mabawasan ang ilang positibong tiyak na parisukat na anyo ng vector ng mga nalalabi, kung saan mayroong ilang simetriko na positibong tiyak na timbang matrix. Ang ordinaryong hindi bababa sa mga parisukat ay isang espesyal na kaso ng diskarteng ito, kapag ang weight matrix ay proporsyonal sa identity matrix. Tulad ng nalalaman mula sa teorya ng simetriko matrice (o mga operator), mayroong isang agnas para sa naturang mga matrice. Samakatuwid, ang functional na ito ay maaaring ilarawan bilang mga sumusunod

ibig sabihin, ang functional na ito ay maaaring katawanin bilang kabuuan ng mga parisukat ng ilang binagong "nalalabi". Kaya, maaari nating makilala ang isang klase ng mga pamamaraan ng hindi bababa sa mga parisukat - LS-methods (Least Squares).

Ito ay pinatunayan (Aitken's theorem) na para sa isang pangkalahatang linear regression na modelo (kung saan walang mga paghihigpit na ipinapataw sa covariance matrix ng mga random na error), ang pinaka-epektibo (sa klase ng mga linear na walang pinapanigan na pagtatantya) ay mga pagtatantya ng tinatawag. generalized least squares (GLS, GLS - Generalized Least Squares) - LS-paraan na may weight matrix na katumbas ng inverse covariance matrix ng mga random na error: .

Maaari itong ipakita na ang formula para sa mga pagtatantya ng GLS ng mga parameter ng linear na modelo ay may anyo

Ang covariance matrix ng mga pagtatantyang ito, ayon sa pagkakabanggit, ay magiging katumbas ng

Sa katunayan, ang kakanyahan ng OLS ay nakasalalay sa isang tiyak na (linear) na pagbabagong-anyo (P) ng orihinal na data at ang paggamit ng karaniwang hindi bababa sa mga parisukat sa binagong data. Ang layunin ng pagbabagong ito ay para sa binagong data, ang mga random na error ay nakakatugon na sa mga klasikal na pagpapalagay.

Natimbang na OLS[baguhin | i-edit ang wiki text]

Sa kaso ng isang diagonal na weight matrix (at samakatuwid ay ang covariance matrix ng mga random na error), mayroon kaming tinatawag na weighted least squares (WLS - Weighted Least Squares). Sa kasong ito, ang timbang na kabuuan ng mga parisukat ng mga nalalabi ng modelo ay pinaliit, iyon ay, ang bawat obserbasyon ay tumatanggap ng isang "timbang" na inversely proporsyonal sa pagkakaiba-iba ng random na error sa obserbasyon na ito:

Sa katunayan, ang data ay binago sa pamamagitan ng pagtimbang sa mga obserbasyon (paghahati sa isang halagang proporsyonal sa ipinapalagay na karaniwang paglihis ng mga random na error), at ang mga normal na hindi bababa sa mga parisukat ay inilalapat sa timbang na data.

Pagkatapos ng alignment, makakakuha tayo ng function ng sumusunod na form: g (x) = x + 1 3 + 1 .

Maaari naming tantiyahin ang data na ito sa isang linear na relasyon y = a x + b sa pamamagitan ng pagkalkula ng naaangkop na mga parameter. Para magawa ito, kakailanganin nating ilapat ang tinatawag na least squares method. Kakailanganin mo ring gumawa ng drawing para tingnan kung aling linya ang pinakamahusay na ihanay ang pang-eksperimentong data.

Yandex.RTB R-A-339285-1

Ano nga ba ang OLS (least squares method)

Ang pangunahing bagay na kailangan nating gawin ay ang paghahanap ng mga linear dependence coefficient kung saan ang halaga ng function ng dalawang variable F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 ang magiging pinakamaliit. . Sa madaling salita, para sa ilang mga halaga ng a at b, ang kabuuan ng mga squared deviations ng ipinakita na data mula sa nagreresultang tuwid na linya ay magkakaroon ng isang minimum na halaga. Ito ang kahulugan ng pamamaraang least squares. Ang kailangan lang nating gawin upang malutas ang halimbawa ay upang mahanap ang extremum ng function ng dalawang variable.

Paano makakuha ng mga formula para sa pagkalkula ng mga coefficient

Upang makakuha ng mga formula para sa pagkalkula ng mga koepisyent, kinakailangan na bumuo at lutasin ang isang sistema ng mga equation na may dalawang variable. Upang gawin ito, kinakalkula namin ang mga partial derivatives ng expression na F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 na may paggalang sa a at b at itinutumbas ang mga ito sa 0 .

δ F (a , b) δ a = 0 δ F (a , b) δ b = 0 ⇔ - 2 ∑ i = 1 n (y i - (a x i + b)) x i = 0 - 2 ∑ i = 1 n ( y i - (a x i + b)) = 0 ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + ∑ i = 1 n b = ∑ i = 1 n y i ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + n b = ∑ i = 1 n y i

Upang malutas ang isang sistema ng mga equation, maaari kang gumamit ng anumang mga pamamaraan, tulad ng pagpapalit o pamamaraan ng Cramer. Bilang resulta, dapat tayong makakuha ng mga formula na kinakalkula ang mga koepisyent gamit ang pinakamababang paraan ng mga parisukat.

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n x i n

Kinakalkula namin ang mga halaga ng mga variable kung saan ang function
Ang F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 ay kukuha ng pinakamababang halaga. Sa ikatlong talata, patutunayan natin kung bakit nagkaganyan.

Ito ang aplikasyon ng pinakamababang paraan ng mga parisukat sa pagsasanay. Ang kanyang formula, na ginagamit upang mahanap ang parameter a , ay kinabibilangan ng ∑ i = 1 n x i , ∑ i = 1 n y i , ∑ i = 1 n x i y i , ∑ i = 1 n x i 2 , at ang parameter
n - ito ay nagsasaad ng dami ng pang-eksperimentong data. Pinapayuhan ka naming kalkulahin ang bawat halaga nang hiwalay. Ang coefficient value b ay kinakalkula kaagad pagkatapos ng a .

Bumalik tayo sa orihinal na halimbawa.

Halimbawa 1

Narito mayroon kaming n katumbas ng lima. Upang gawing mas maginhawa upang kalkulahin ang mga kinakailangang halaga na kasama sa mga formula ng koepisyent, pinupunan namin ang talahanayan.

ako = 1 ako = 2 ako = 3 ako = 4 ako = 5 ∑ i = 1 5
x i 0 1 2 4 5 12
y i 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
x i y i 0 2 , 4 5 , 2 11 , 2 15 33 , 8
x i 2 0 1 4 16 25 46

Solusyon

Ang ikaapat na hilera ay naglalaman ng data na nakuha sa pamamagitan ng pagpaparami ng mga halaga mula sa pangalawang hilera ng mga halaga ng pangatlo para sa bawat indibidwal na i . Ang ikalimang linya ay naglalaman ng data mula sa pangalawang squared. Ang huling hanay ay nagpapakita ng mga kabuuan ng mga halaga ng mga indibidwal na hilera.

Gamitin natin ang paraan ng least squares para kalkulahin ang coefficients a at b na kailangan natin. Upang gawin ito, palitan ang nais na mga halaga mula sa huling hanay at kalkulahin ang mga kabuuan:

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n x i n 5 ⇒ a , - 12 12, 9 5 46 - 12 2 b = 12, 9 - a 12 5 ⇒ a ≈ 0, 165 b ≈ 2, 184

Nakuha namin na ang gustong tinatayang tuwid na linya ay magmumukhang y = 0 , 165 x + 2 , 184 . Ngayon kailangan nating tukuyin kung aling linya ang pinakamahusay na tinatantya ang data - g (x) = x + 1 3 + 1 o 0 , 165 x + 2 , 184 . Gumawa tayo ng pagtatantya gamit ang paraan ng least squares.

Upang kalkulahin ang error, kailangan nating hanapin ang mga kabuuan ng squared deviations ng data mula sa mga linya σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 at σ 2 = ∑ i = 1 n (y i - g (x i)) 2 , ang pinakamababang halaga ay tumutugma sa isang mas angkop na linya.

σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 = = ∑ i = 1 5 (y i - (0 , 165 x i + 2 , 184)) 2 ≈ 0 , 019 σ 2 = ∑ i = 1 n (y i - g (x i)) 2 = = ∑ i = 1 5 (y i - (x i + 1 3 + 1)) 2 ≈ 0 , 096

Sagot: mula noong σ 1< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
y = 0 , 165 x + 2 , 184 .

Ang paraan ng least squares ay malinaw na ipinapakita sa graphic na paglalarawan. Ang pulang linya ay nagmamarka ng tuwid na linya g (x) = x + 1 3 + 1, ang asul na linya ay nagmamarka ng y = 0, 165 x + 2, 184. Ang raw data ay minarkahan ng mga pink na tuldok.

Ipaliwanag natin kung bakit kailangan ang eksaktong mga pagtatantya ng ganitong uri.

Magagamit ang mga ito sa mga problemang nangangailangan ng pag-smoothing ng data, gayundin sa mga kung saan kailangang i-interpolated o extrapolated ang data. Halimbawa, sa problemang tinalakay sa itaas, makikita ng isa ang halaga ng naobserbahang dami y sa x = 3 o sa x = 6 . Nagtalaga kami ng isang hiwalay na artikulo sa gayong mga halimbawa.

Patunay ng pamamaraang LSM

Para makuha ng function ang pinakamababang halaga para sa kalkuladong a at b, kinakailangan na sa isang naibigay na punto ang matrix ng quadratic form ng differential ng function ng form F (a, b) = ∑ i = 1 n ( y i - (a x i + b)) 2 maging positibong tiyak. Ipakita natin sa iyo kung paano ito dapat magmukhang.

Halimbawa 2

Mayroon kaming second-order differential ng sumusunod na form:

d 2 F (a ; b) = δ 2 F (a ; b) δ a 2 d 2 a + 2 δ 2 F (a ; b) δ a δ b d a d b + δ 2 F (a ; b) δ b 2 d 2b

Solusyon

δ 2 F (a ; b) δ a 2 = δ δ F (a ; b) δ a δ a = = δ - 2 ∑ i = 1 n (y i - (a x i + b)) x i δ a = 2 ∑ i = 1 n (x i) 2 δ 2 F (a ; b) δ a δ b = δ δ F (a ; b) δ a δ b = = δ - 2 ∑ i = 1 n (y i - (a x i + b) ) x i δ b = 2 ∑ i = 1 n x i δ 2 F (a ; b) δ b 2 = δ δ F (a ; b) δ b δ b = δ - 2 ∑ i = 1 n (y i - (a x i + b)) δ b = 2 ∑ i = 1 n (1) = 2 n

Sa madaling salita, maaari itong isulat ng mga sumusunod: d 2 F (a ; b) = 2 ∑ i = 1 n (x i) 2 d 2 a + 2 2 ∑ x i i = 1 n d a d b + (2 n) d 2 b .

Nakakuha kami ng isang matrix ng quadratic form M = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n .

Sa kasong ito, ang mga halaga ng mga indibidwal na elemento ay hindi magbabago depende sa a at b. Siguradong positibo ba ang matrix na ito? Upang masagot ang tanong na ito, suriin natin kung ang mga angular na menor de edad nito ay positibo.

Kalkulahin ang unang ayos angular minor: 2 ∑ i = 1 n (x i) 2 > 0 . Dahil ang mga puntos na x i ay hindi nagtutugma, ang hindi pagkakapantay-pantay ay mahigpit. Isaisip namin ito sa mga karagdagang kalkulasyon.

Kinakalkula namin ang pangalawang-order na angular minor:

d e t (M) = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n = 4 n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2

Pagkatapos nito, magpatuloy tayo sa patunay ng hindi pagkakapantay-pantay n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 gamit ang mathematical induction.

  1. Suriin natin kung ang hindi pagkakapantay-pantay na ito ay wasto para sa arbitrary n . Kumuha tayo ng 2 at kalkulahin:

2 ∑ i = 1 2 (x i) 2 - ∑ i = 1 2 x i 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0

Nakuha namin ang tamang pagkakapantay-pantay (kung ang mga halaga x 1 at x 2 ay hindi magkatugma).

  1. Gawin natin ang pagpapalagay na ang hindi pagkakapantay-pantay na ito ay magiging totoo para sa n , i.e. n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 – totoo.
  2. Ngayon patunayan natin ang bisa para sa n + 1 , i.e. na (n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 > 0 kung n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 .

Kinakalkula namin:

(n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 = = (n + 1) ∑ i = 1 n (x i) 2 + x n + 1 2 - ∑ i = 1 n x i + x n + 1 2 = = n ∑ i = 1 n (x i) 2 + n x n + 1 2 + ∑ i = 1 n (x i) 2 + x n + 1 2 - - ∑ i = 1 n x i 2 + 2 x n + 1 ∑ i = 1 n x i + x n + 1 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + n x n + 1 2 - x n + 1 ∑ i = 1 n x i + ∑ i = 1 n (x i) 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + x n + 1 2 - 2 x n + 1 x 1 + x 1 2 + + x n + 1 2 - 2 x n + 1 x 2 + x 2 2 + . . . + x n + 1 2 - 2 x n + 1 x 1 + x n 2 = = n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + + (x n + 1 - x 1) 2 + (x n + 1) - x 2) 2 + . . . + (x n - 1 - x n) 2 > 0

Ang expression na nakapaloob sa mga kulot na brace ay magiging mas malaki sa 0 (batay sa kung ano ang ipinapalagay namin sa hakbang 2), at ang natitirang mga termino ay magiging mas malaki sa 0 dahil lahat sila ay mga parisukat ng mga numero. Napatunayan natin ang hindi pagkakapantay-pantay.

Sagot: ang nahanap na a at b ay tumutugma sa pinakamaliit na halaga ng function F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2, na nangangahulugan na ang mga ito ang kinakailangang mga parameter ng least squares method (LSM).

Kung may napansin kang pagkakamali sa text, mangyaring i-highlight ito at pindutin ang Ctrl+Enter

Paraan ng Least squares (OLS, eng. Ordinary Least Squares, OLS)- isang mathematical na pamamaraan na ginagamit upang malutas ang iba't ibang mga problema, batay sa pagliit ng kabuuan ng mga squared deviations ng ilang mga function mula sa nais na mga variable. Maaari itong magamit upang "malutas" ang mga overdetermined system ng mga equation (kapag ang bilang ng mga equation ay lumampas sa bilang ng mga hindi alam), upang makahanap ng solusyon sa kaso ng mga ordinaryong (hindi overdetermined) nonlinear system ng mga equation, upang tantiyahin ang mga halaga ng punto. ng ilang function. Ang OLS ay isa sa mga pangunahing pamamaraan ng pagsusuri ng regression para sa pagtantya ng hindi kilalang mga parameter ng mga modelo ng regression mula sa sample na data.

Encyclopedic YouTube

    1 / 5

    ✪ Paraan ng pinakamababang parisukat. Paksa

    ✪ Mitin I. V. - Pagproseso ng mga resulta ng pisikal. eksperimento - Paraan ng pinakamababang parisukat (Lektura 4)

    ✪ Pinakamaliit na mga parisukat, aralin 1/2. Linear function

    ✪ Econometrics. Lektura 5. Least squares method

    ✪ Paraan ng pinakamababang parisukat. Mga sagot

    Mga subtitle

Kwento

Hanggang sa simula ng siglo XIX. ang mga siyentipiko ay walang ilang mga patakaran para sa paglutas ng isang sistema ng mga equation kung saan ang bilang ng mga hindi alam ay mas mababa sa bilang ng mga equation; Hanggang sa oras na iyon, ang mga partikular na pamamaraan ay ginamit, depende sa uri ng mga equation at sa katalinuhan ng mga calculator, at samakatuwid ang iba't ibang mga calculator, simula sa parehong data ng pagmamasid, ay dumating sa iba't ibang mga konklusyon. Ang Gauss (1795) ay kinilala sa unang aplikasyon ng pamamaraan, at ang Legendre (1805) ay nakapag-iisa na natuklasan at nai-publish ito sa ilalim ng modernong pangalan nito (fr. Methode des moindres quarres). Ikinonekta ni Laplace ang pamamaraan sa teorya ng mga probabilidad, at isinasaalang-alang ng American mathematician na si Adrain (1808) ang mga probabilistikong aplikasyon nito. Ang pamamaraan ay laganap at pinahusay ng karagdagang pananaliksik nina Encke, Bessel, Hansen at iba pa.

Ang kakanyahan ng paraan ng hindi bababa sa mga parisukat

Hayaan x (\displaystyle x)- kit n (\displaystyle n) hindi kilalang mga variable (parameter), f i (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- set ng mga function mula sa set na ito ng mga variable. Ang problema ay ang pagpili ng gayong mga halaga x (\displaystyle x) upang ang mga halaga ng mga pag-andar na ito ay mas malapit hangga't maaari sa ilang mga halaga y i (\displaystyle y_(i)). Sa esensya, pinag-uusapan natin ang "solusyon" ng overdetermined system ng mga equation f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1 , … , m (\displaystyle i=1,\ldots ,m) sa ipinahiwatig na kahulugan, ang maximum na kalapitan ng kaliwa at kanang bahagi ng system. Ang kakanyahan ng LSM ay ang piliin bilang isang "sukatan ng kalapitan" ang kabuuan ng mga squared deviations ng kaliwa at kanang bahagi | f i (x) − y i | (\displaystyle |f_(i)(x)-y_(i)|). Kaya, ang kakanyahan ng LSM ay maaaring ipahayag tulad ng sumusunod:

∑ i e i 2 = ∑ i (y i − f i (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\rightarrow \min _(x)).

Kung ang sistema ng mga equation ay may solusyon, kung gayon ang pinakamaliit ng kabuuan ng mga parisukat ay magiging zero at ang eksaktong mga solusyon ng sistema ng mga equation ay matatagpuan sa analytically o, halimbawa, sa pamamagitan ng iba't ibang mga numerical optimization na pamamaraan. Kung ang sistema ay labis na natukoy, iyon ay, maluwag na pagsasalita, ang bilang ng mga independiyenteng equation ay mas malaki kaysa sa bilang ng mga hindi kilalang variable, kung gayon ang system ay walang eksaktong solusyon at ang hindi bababa sa mga parisukat na pamamaraan ay nagpapahintulot sa amin na makahanap ng ilang "pinakamainam" na vector x (\displaystyle x) sa kahulugan ng maximum na kalapitan ng mga vectors y (\displaystyle y) at f (x) (\displaystyle f(x)) o ang maximum na kalapitan ng deviation vector e (\displaystyle e) sa zero (naiintindihan ang proximity sa kahulugan ng Euclidean distance).

Halimbawa - sistema ng mga linear na equation

Sa partikular, ang paraan ng least squares ay maaaring gamitin upang "malutas" ang sistema ng mga linear equation

A x = b (\displaystyle Ax=b),

saan A (\displaystyle A) parihabang laki ng matrix m × n , m > n (\displaystyle m\times n,m>n)(ibig sabihin, ang bilang ng mga hilera ng matrix A ay mas malaki kaysa sa bilang ng mga kinakailangang variable).

Ang ganitong sistema ng mga equation sa pangkalahatan ay walang solusyon. Samakatuwid, ang sistemang ito ay maaaring "malutas" lamang sa kahulugan ng pagpili ng tulad ng isang vector x (\displaystyle x) upang mabawasan ang "distansya" sa pagitan ng mga vector A x (\displaystyle Ax) at b (\displaystyle b). Upang gawin ito, maaari mong ilapat ang pamantayan para sa pagliit ng kabuuan ng mga parisukat na pagkakaiba ng kaliwa at kanang bahagi ng mga equation ng system, iyon ay (A x − b) T (A x − b) → min (\displaystyle (Ax-b)^(T)(Ax-b)\rightarrow \min ). Madaling ipakita na ang solusyon ng problema sa minimization na ito ay humahantong sa solusyon ng sumusunod na sistema ng mga equation

A T A x = A T b ⇒ x = (AT A) − 1 A T b (\displaystyle A^(T)Ax=A^(T)b\Rightarrow x=(A^(T)A)^(-1)A^ (T)b).

OLS sa regression analysis (data approximation)

Hayaan na n (\displaystyle n) mga halaga ng ilang variable y (\displaystyle y)(maaaring ito ang mga resulta ng mga obserbasyon, eksperimento, atbp.) at ang mga kaukulang variable x (\displaystyle x). Ang hamon ay gawin ang relasyon sa pagitan y (\displaystyle y) at x (\displaystyle x) tinatayang sa pamamagitan ng ilang function na kilala hanggang sa ilang hindi kilalang parameter b (\displaystyle b), iyon ay, talagang mahanap ang pinakamahusay na mga halaga ng mga parameter b (\displaystyle b), pinakamataas na tinatantya ang mga halaga f (x , b) (\displaystyle f(x,b)) sa aktwal na mga halaga y (\displaystyle y). Sa katunayan, binabawasan nito ang kaso ng "solusyon" ng isang overdetermined system ng mga equation na may kinalaman sa b (\displaystyle b):

F (x t , b) = y t , t = 1 , … , n (\displaystyle f(x_(t),b)=y_(t),t=1,\ldots ,n).

Sa pagsusuri ng regression, at partikular sa econometrics, ginagamit ang mga probabilistikong modelo ng ugnayan sa pagitan ng mga variable.

Y t = f (x t , b) + ε t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

saan ε t (\displaystyle \varepsilon _(t))- tinatawag na mga random na error mga modelo.

Alinsunod dito, ang mga paglihis ng mga naobserbahang halaga y (\displaystyle y) mula sa modelo f (x , b) (\displaystyle f(x,b)) ipinapalagay na sa mismong modelo. Ang kakanyahan ng LSM (ordinaryo, klasikal) ay upang mahanap ang mga naturang parameter b (\displaystyle b), kung saan ang kabuuan ng mga squared deviation (mga error, para sa mga modelo ng regression ay madalas silang tinatawag na regression residual) e t (\displaystyle e_(t)) magiging minimal:

b ^ O L S = arg ⁡ min b R S S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS(b)),

saan R S S (\displaystyle RSS)- Ingles. Ang natitirang kabuuan ng mga parisukat ay tinukoy bilang:

R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\sum _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

Sa pangkalahatang kaso, ang problemang ito ay maaaring malutas sa pamamagitan ng mga numerical na pamamaraan ng optimization (minimization). Sa kasong ito, ang isa ay nagsasalita ng nonlinear least squares(NLS o NLLS - eng. Non-Linear Least Squares). Sa maraming mga kaso, maaaring makuha ang isang analytical na solusyon. Upang malutas ang problema sa pag-minimize, kinakailangan upang mahanap ang mga nakatigil na punto ng function R S S (b) (\displaystyle RSS(b)), pag-iiba nito nang may paggalang sa hindi kilalang mga parameter b (\displaystyle b), tinutumbasan ang mga derivative sa zero at nilulutas ang nagresultang sistema ng mga equation:

∑ t = 1 n (y t − f (x t , b)) ∂ f (x t , b) ∂ b = 0 (\displaystyle \sum _(t=1)^(n)(y_(t)-f(x_ (t),b))(\frac (\partial f(x_(t),b))(\partial b))=0).

LSM sa kaso ng linear regression

Hayaang maging linear ang regression dependence:

y t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

Hayaan y ay ang column vector ng mga obserbasyon ng variable na ipinapaliwanag, at X (\displaystyle X)- ito ay (n × k) (\displaystyle ((n\beses k)))- matrix ng mga obserbasyon ng mga kadahilanan (mga hilera ng matrix - mga vector ng mga halaga ng mga kadahilanan sa pagmamasid na ito, sa pamamagitan ng mga haligi - vector ng mga halaga ng kadahilanan na ito sa lahat ng mga obserbasyon). Ang matrix representasyon ng linear na modelo ay may anyo:

y = Xb + ε (\displaystyle y=Xb+\varepsilon ).

Pagkatapos ang vector ng mga pagtatantya ng ipinaliwanag na variable at ang vector ng mga residual ng regression ay magiging katumbas ng

y ^ = X b , e = y − y ^ = y − X b (\displaystyle (\hat (y))=Xb,\quad e=y-(\hat (y))=y-Xb).

nang naaayon, ang kabuuan ng mga parisukat ng mga natitirang regression ay magiging katumbas ng

R S S = e T e = (y − X b) T (y − X b) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

Pag-iiba ng function na ito kaugnay ng parameter vector b (\displaystyle b) at equating ang mga derivatives sa zero, nakakakuha kami ng isang sistema ng mga equation (sa matrix form):

(X T X) b = X T y (\displaystyle (X^(T)X)b=X^(T)y).

Sa deciphered matrix form, ganito ang hitsura ng sistemang ito ng mga equation:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 3 … ∑ x t 2 x t k 3 x t 3 x t 3 … ∑ t 3 x t k x ⋮ ⋮ ⋮ ⋮ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3 … ∑ x t k 2) (b 1 b 2 b 3 ⋮ b k) = (⑈ x y t ⋮ b k) = (⑈ x y t ∑ (\begin(pmatrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ldots &\sum x_(t1)x_( tk)\\\sum x_(t2)x_(t1)&\sum x_(t2)^(2)&\sum x_(t2)x_(t3)&\ldots &\ sum x_(t2)x_(tk) \\\sum x_(t3)x_(t1)&\sum x_(t3)x_(t2)&\sum x_(t3)^(2)&\ldots &\sum x_ (t3)x_(tk)\\ \vdots &\vdots &\vdots &\ddots &\vdots \\\sum x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ ldots &\sum x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3 )\\\vdots \\b_( k)\\\end(pmatrix))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \sum x_(t3)y_(t )\\\vdots \\\sum x_(tk)y_(t)\\\end(pmatrix))) kung saan kinukuha ang lahat ng sums sa lahat ng tinatanggap na halaga t (\displaystyle t).

Kung ang isang pare-pareho ay kasama sa modelo (gaya ng dati), kung gayon x t 1 = 1 (\displaystyle x_(t1)=1) para sa lahat t (\displaystyle t), samakatuwid, sa itaas na kaliwang sulok ng matrix ng sistema ng mga equation ay ang bilang ng mga obserbasyon n (\displaystyle n), at sa natitirang mga elemento ng unang hilera at unang haligi - ang kabuuan lamang ng mga halaga ng mga variable: ∑ x t j (\displaystyle \sum x_(tj)) at ang unang elemento ng kanang bahagi ng system - ∑ y t (\displaystyle \sum y_(t)).

Ang solusyon ng sistemang ito ng mga equation ay nagbibigay ng pangkalahatang formula para sa pinakamaliit na mga pagtatantya ng mga parisukat para sa linear na modelo:

b ^ O L S = (X T X) − 1 X T y = (1 n X T X) − 1 1 n X T y = V x − 1 C x y (\displaystyle (\hat (b))_(OLS)=(X^(T )X)^(-1)X^(T)y=\kaliwa((\frac (1)(n))X^(T)X\kanan)^(-1)(\frac (1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).

Para sa mga layuning analitikal, ang huling representasyon ng formula na ito ay lumalabas na kapaki-pakinabang (sa sistema ng mga equation kapag hinati sa n, ang arithmetic na paraan ay lilitaw sa halip na mga kabuuan). Kung ang data sa regression model nakasentro, pagkatapos sa representasyong ito ang unang matrix ay may kahulugan ng sample na covariance matrix ng mga salik, at ang pangalawa ay ang vector ng covariances ng mga salik na may dependent variable. Kung, bilang karagdagan, ang data ay din na-normalize sa SKO (iyon ay, sa huli standardized), pagkatapos ay ang unang matrix ay may kahulugan ng sample correlation matrix ng mga kadahilanan, ang pangalawang vector - ang vector ng sample correlations ng mga kadahilanan na may dependent variable.

Isang mahalagang katangian ng mga pagtatantya ng LLS para sa mga modelo na may pare-pareho- ang linya ng itinayong regression ay dumadaan sa gitna ng grabidad ng sample na data, iyon ay, ang pagkakapantay-pantay ay natutupad:

y ¯ = b 1 ^ + ∑ j = 2 k b ^ j x ¯ j (\displaystyle (\bar (y))=(\hat (b_(1)))+\sum _(j=2)^(k) (\hat (b))_(j)(\bar (x))_(j)).

Sa partikular, sa matinding kaso, kapag ang nag-iisang regressor ay pare-pareho, nalaman namin na ang pagtatantya ng OLS ng isang parameter (ang constant mismo) ay katumbas ng ibig sabihin ng halaga ng variable na ipinaliwanag. Iyon ay, ang arithmetic mean, na kilala sa magagandang katangian nito mula sa mga batas ng malalaking numero, ay isa ring hindi bababa sa pagtatantya ng mga parisukat - natutugunan nito ang pamantayan para sa pinakamababang kabuuan ng mga squared deviations mula dito.

Ang pinakasimpleng mga espesyal na kaso

Sa kaso ng pairwise linear regression y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t)), kapag ang linear dependence ng isang variable sa isa pa ay tinatantya, ang mga formula ng pagkalkula ay pinasimple (magagawa mo nang walang matrix algebra). Ang sistema ng mga equation ay may anyo:

(1 x ¯ x ¯ x 2 ¯) (a b) = (y ¯ x y ¯) (\displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2)))\\\end(pmatrix))(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline(xy))\\\end(pmatrix))).

Mula dito, madaling makahanap ng mga pagtatantya para sa mga coefficient:

( b ^ = Cov ⁡ (x , y) Var ⁡ (x) = x y ¯ − x ¯ y ¯ x 2 ¯ − x ¯ 2 , a ^ = y ¯ − b x ¯ . (\displaystyle (\begin(cases)) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2))),\\( \hat (a))=(\bar (y))-b(\bar (x)).\end(cases)))

Sa kabila ng katotohanan na, sa pangkalahatan, ang mga modelo na may pare-pareho ay mas kanais-nais, sa ilang mga kaso ay kilala mula sa teoretikal na pagsasaalang-alang na ang pare-pareho. a (\displaystyle a) dapat katumbas ng zero. Halimbawa, sa pisika, ang relasyon sa pagitan ng boltahe at kasalukuyang ay may anyo U = I ⋅ R (\displaystyle U=I\cdot R); pagsukat ng boltahe at kasalukuyang, kinakailangan upang tantyahin ang paglaban. Sa kasong ito, pinag-uusapan natin ang tungkol sa isang modelo y = b x (\displaystyle y=bx). Sa kasong ito, sa halip na isang sistema ng mga equation, mayroon kaming isang solong equation

(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).

Samakatuwid, ang formula para sa pagtatantya ng isang solong koepisyent ay may anyo

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t )y_(t))(\sum _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) ))).

Ang kaso ng isang polynomial na modelo

Kung ang data ay nilagyan ng polynomial regression function ng isang variable f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i)), pagkatapos, perceiving degrees x i (\displaystyle x^(i)) bilang mga independiyenteng salik para sa bawat isa ako (\displaystyle i) posibleng tantiyahin ang mga parameter ng modelo batay sa pangkalahatang formula para sa pagtantya ng mga parameter ng linear na modelo. Upang gawin ito, sapat na upang isaalang-alang sa pangkalahatang pormula na may ganoong interpretasyon x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j)) at x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). Samakatuwid, ang matrix equation sa kasong ito ay kukuha ng anyo:

(n ∑ n x t ... ∑ n x t k ∑ n x t ∑ n x i 2 ... ∑ m x i k + 1 ⋮ tugma ⋮ ∑ n x t k ∑ n x t k + 1 ... ∑ n x t 2 k) [b 0 b 1 ⋮ ∑ n x t y t ⋮ n x t k y t ] . (\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\sum \limits _(n)x_(i)^(2)&\ldots &\sum \limits _(m)x_(i)^(k+1)\\\vdots & \vdots &\ddots &\vdots \\\sum \limits _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ kabuuan \limits _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatrix)).)

Mga Statistical Properties ng OLS Estimates

Una sa lahat, tandaan namin na para sa mga linear na modelo, ang hindi bababa sa mga pagtatantya ng mga parisukat ay mga linear na pagtatantya, tulad ng sumusunod mula sa formula sa itaas. Para sa pagiging walang kinikilingan ng mga pagtatantya ng OLS, ito ay kinakailangan at sapat upang matupad ang pinakamahalagang kondisyon ng pagsusuri ng regression: ang pag-asa sa matematika ng isang random na error na may kondisyon sa mga salik ay dapat na katumbas ng zero. Ang kundisyong ito ay nasiyahan, sa partikular, kung

  1. ang mathematical na inaasahan ng mga random na error ay zero, at
  2. Ang mga kadahilanan at mga random na error ay independyente random mga halaga.

Ang pangalawang kondisyon - ang kondisyon ng mga exogenous na kadahilanan - ay mahalaga. Kung hindi nasiyahan ang pag-aari na ito, maaari nating ipagpalagay na halos anumang mga pagtatantya ay magiging lubhang hindi kasiya-siya: hindi sila magiging pare-pareho (iyon ay, kahit na ang isang napakalaking halaga ng data ay hindi pinapayagan ang pagkuha ng mga pagtatantya ng husay sa kasong ito). Sa klasikal na kaso, ang isang mas malakas na palagay ay ginawa tungkol sa determinismo ng mga kadahilanan, sa kaibahan sa isang random na error, na awtomatikong nangangahulugan na ang exogenous na kondisyon ay nasiyahan. Sa pangkalahatang kaso, para sa pagkakapare-pareho ng mga pagtatantya, sapat na upang matugunan ang kondisyon ng exogeneity kasama ang convergence ng matrix V x (\displaystyle V_(x)) sa ilang di-degenerate na matrix habang ang laki ng sample ay tumataas hanggang sa infinity.

Upang, bilang karagdagan sa pagkakapare-pareho at walang kinikilingan, ang (ordinaryo) na mga pagtatantya ng hindi bababa sa mga parisukat ay maging epektibo din (ang pinakamahusay sa klase ng mga linear na walang pinapanigan na pagtatantya), ang mga karagdagang katangian ng isang random na error ay dapat matugunan:

Ang mga pagpapalagay na ito ay maaaring buuin para sa covariance matrix ng vector ng mga random na error V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).

Ang isang linear na modelo na nakakatugon sa mga kundisyong ito ay tinatawag klasiko. Ang mga pagtatantya ng OLS para sa klasikal na linear regression ay walang kinikilingan, pare-pareho at pinakamahusay na pagtatantya sa klase ng lahat ng linear na walang pinapanigan na pagtatantya (sa English literature, ang pagdadaglat ay minsang ginagamit bughaw (Pinakamahusay na Linear Unbiased Estimator) ay ang pinakamahusay na linear na walang pinapanigan na pagtatantya; sa lokal na panitikan, ang Gauss - Markov theorem ay mas madalas na binabanggit). Dahil madaling ipakita, ang covariance matrix ng coefficient estimates vector ay magiging katumbas ng:

V (b ^ O L S) = σ 2 (X T X) − 1 (\displaystyle V((\hat (b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).

Ang kahusayan ay nangangahulugan na ang covariance matrix na ito ay "minimal" (anumang linear na kumbinasyon ng mga coefficient, at lalo na ang mga coefficient mismo, ay may pinakamababang pagkakaiba), iyon ay, sa klase ng mga linear na walang pinapanigan na pagtatantya, ang mga pagtatantya ng OLS ay ang pinakamahusay. Ang mga elemento ng dayagonal ng matrix na ito - ang mga pagkakaiba-iba ng mga pagtatantya ng mga coefficient - ay mahalagang mga parameter ng kalidad ng nakuha na mga pagtatantya. Gayunpaman, hindi posibleng kalkulahin ang covariance matrix dahil hindi alam ang random error variance. Mapapatunayan na ang walang kinikilingan at pare-pareho (para sa klasikal na linear na modelo) na pagtatantya ng pagkakaiba-iba ng mga random na error ay ang halaga:

S 2 = R S S / (n − k) (\displaystyle s^(2)=RSS/(n-k)).

Ang pagpapalit ng halagang ito sa formula para sa covariance matrix, nakakakuha kami ng isang pagtatantya ng covariance matrix. Ang mga resultang pagtatantya ay walang kinikilingan at pare-pareho. Mahalaga rin na ang pagtatantya ng pagkakaiba-iba ng error (at samakatuwid ang mga pagkakaiba-iba ng mga koepisyent) at ang mga pagtatantya ng mga parameter ng modelo ay mga independiyenteng random na variable, na ginagawang posible na makakuha ng mga istatistika ng pagsubok para sa pagsubok ng mga hypotheses tungkol sa mga koepisyent ng modelo.

Dapat pansinin na kung ang mga klasikal na pagpapalagay ay hindi natutugunan, ang hindi bababa sa mga pagtatantya ng parameter ng mga parisukat ay hindi ang pinaka mahusay at, kung saan W (\displaystyle W) ay ilang simetriko positibong tiyak na weight matrix. Ang ordinaryong hindi bababa sa mga parisukat ay isang espesyal na kaso ng diskarteng ito, kapag ang weight matrix ay proporsyonal sa identity matrix. Tulad ng nalalaman, para sa simetriko matrice (o mga operator) mayroong isang agnas W = P T P (\displaystyle W=P^(T)P). Samakatuwid, ang functional na ito ay maaaring ilarawan bilang mga sumusunod e T P T P e = (P e) T P e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)), ibig sabihin, ang functional na ito ay maaaring katawanin bilang kabuuan ng mga parisukat ng ilang binagong "mga nalalabi". Kaya, maaari nating makilala ang isang klase ng mga pamamaraan ng hindi bababa sa mga parisukat - LS-methods (Least Squares).

Ito ay pinatunayan (Aitken's theorem) na para sa isang pangkalahatang linear regression na modelo (kung saan walang mga paghihigpit na ipinapataw sa covariance matrix ng mga random na error), ang pinaka-epektibo (sa klase ng mga linear na walang pinapanigan na pagtatantya) ay mga pagtatantya ng tinatawag. pangkalahatang OLS (OMNK, GLS - Generalized Least Squares)- LS-method na may weight matrix na katumbas ng inverse covariance matrix ng mga random na error: W = V ε − 1 (\displaystyle W=V_(\varepsilon )^(-1)).

Maaari itong ipakita na ang formula para sa mga pagtatantya ng GLS ng mga parameter ng linear na modelo ay may anyo

B ^ G L S = (X T V − 1 X) − 1 X T V − 1 y (\displaystyle (\hat (b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y).

Ang covariance matrix ng mga pagtatantyang ito, ayon sa pagkakabanggit, ay magiging katumbas ng

V (b ^ G L S) = (X T V − 1 X) − 1 (\displaystyle V((\hat (b))_(GLS))=(X^(T)V^(-1)X)^(- isa)).

Sa katunayan, ang kakanyahan ng OLS ay nakasalalay sa isang tiyak na (linear) na pagbabagong-anyo (P) ng orihinal na data at ang paggamit ng karaniwang hindi bababa sa mga parisukat sa binagong data. Ang layunin ng pagbabagong ito ay para sa binagong data, ang mga random na error ay nakakatugon na sa mga klasikal na pagpapalagay.

Natimbang na mga parisukat

Sa kaso ng isang diagonal na weight matrix (at samakatuwid ay ang covariance matrix ng mga random na error), mayroon kaming tinatawag na weighted least squares (WLS - Weighted Least Squares). Sa kasong ito, ang timbang na kabuuan ng mga parisukat ng mga nalalabi ng modelo ay pinaliit, iyon ay, ang bawat obserbasyon ay tumatanggap ng isang "timbang" na inversely proporsyonal sa pagkakaiba-iba ng random na error sa obserbasyon na ito: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ sigma _(t)^(2)))). Sa katunayan, ang data ay binago sa pamamagitan ng pagtimbang sa mga obserbasyon (paghahati sa isang halagang proporsyonal sa ipinapalagay na karaniwang paglihis ng mga random na error), at ang mga normal na hindi bababa sa mga parisukat ay inilalapat sa timbang na data.

ISBN 978-5-7749-0473-0.

  • Econometrics. Teksbuk / Ed. Eliseeva I. I. - 2nd ed. - M. : Pananalapi at istatistika, 2006. - 576 p. - ISBN 5-279-02786-3.
  • Alexandrova N.V. Kasaysayan ng mga termino sa matematika, konsepto, pagtatalaga: isang aklat na sanggunian sa diksyunaryo. - Ika-3 ed. - M. : LKI, 2008. - 248 p. - ISBN 978-5-382-00839-4. I.V. Mitin, Rusakov V.S. Pagsusuri at pagproseso ng pang-eksperimentong data - 5th edition - 24p.
    • pagtuturo

    Panimula

    Ako ay isang computer programmer. Ginawa ko ang pinakamalaking hakbang sa aking karera noong natutunan kong sabihin: "Wala akong maintindihan!" Ngayon hindi ako nahihiyang sabihin sa luminary ng agham na binibigyan niya ako ng lecture, na hindi ko maintindihan kung ano ang pinag-uusapan sa akin nito, ang luminary. At napakahirap. Oo, mahirap at nakakahiyang aminin na hindi mo alam. Sino ang gustong umamin na hindi niya alam ang mga pangunahing kaalaman ng isang bagay-doon. Dahil sa aking propesyon, kailangan kong dumalo sa isang malaking bilang ng mga pagtatanghal at mga lektura, kung saan, aminado ako, sa karamihan ng mga kaso nakakaramdam ako ng antok, dahil wala akong naiintindihan. At hindi ko maintindihan dahil ang malaking problema ng kasalukuyang sitwasyon sa agham ay nasa matematika. Ipinapalagay nito na ang lahat ng mga mag-aaral ay pamilyar sa ganap na lahat ng mga lugar ng matematika (na walang katotohanan). Ang aminin na hindi mo alam kung ano ang isang derivative (na ito ay isang maliit na mamaya) ay isang kahihiyan.

    Pero natutunan kong sabihin na hindi ko alam kung ano ang multiplication. Oo, hindi ko alam kung ano ang subalgebra sa isang Lie algebra. Oo, hindi ko alam kung bakit kailangan ang mga quadratic equation sa buhay. Oo nga pala, kung sigurado ka na alam mo, may pag-uusapan tayo! Ang matematika ay isang serye ng mga trick. Sinisikap ng mga mathematician na lituhin at takutin ang publiko; kung saan walang kalituhan, walang reputasyon, walang awtoridad. Oo, ito ay prestihiyoso na magsalita sa pinaka-abstract na wika na posible, na kung saan ay ganap na walang kapararakan sa sarili nito.

    Alam mo ba kung ano ang derivative? Malamang na sasabihin mo sa akin ang tungkol sa limitasyon ng ugnayan ng pagkakaiba. Sa unang taon ng matematika sa St. Petersburg State University, Viktor Petrovich Khavin sa akin tinukoy derivative bilang koepisyent ng unang termino ng Taylor series ng function sa punto (ito ay isang hiwalay na himnastiko upang matukoy ang Taylor series na walang derivatives). Matagal akong natawa sa depinisyon na ito, hanggang sa huli kong naintindihan kung tungkol saan ito. Ang derivative ay hindi hihigit sa isang sukatan lamang kung gaano kapareho ang function na ating pinagkaiba sa function na y=x, y=x^2, y=x^3.

    Ako ngayon ay may karangalan ng pagtuturo sa mga mag-aaral na takot matematika. Kung natatakot ka sa matematika - papunta na kami. Sa sandaling subukan mong magbasa ng ilang teksto at sa tingin mo ito ay sobrang kumplikado, pagkatapos ay alamin na ito ay hindi maganda ang pagkakasulat. Pinagtatalunan ko na walang isang solong lugar ng matematika na hindi masasabi tungkol sa "sa mga daliri" nang hindi nawawala ang katumpakan.

    Ang hamon para sa malapit na hinaharap: Inutusan ko ang aking mga estudyante na maunawaan kung ano ang linear-quadratic controller. Huwag kang mahiya, sayangin ang tatlong minuto ng iyong buhay, sundan ang link. Kung hindi mo maintindihan ang anumang bagay, pagkatapos ay nasa daan na kami. Ako (isang propesyonal na mathematician-programmer) ay wala ring naintindihan. At tinitiyak ko sa iyo, maaari itong ayusin "sa mga daliri." Sa ngayon ay hindi ko alam kung ano ito, ngunit tinitiyak ko sa iyo na malalaman natin ito.

    Kaya, ang unang lecture na ibibigay ko sa aking mga mag-aaral pagkatapos nilang tumakbo sa akin na may takot na may mga salitang ang linear-quadratic controller ay isang kakila-kilabot na bug na hinding-hindi mo madadaanan sa iyong buhay ay mga pamamaraan ng least squares. Kaya mo bang lutasin ang mga linear equation? Kung binabasa mo ang tekstong ito, malamang na hindi.

    Kaya, dahil sa dalawang puntos (x0, y0), (x1, y1), halimbawa, (1,1) at (3,2), ang gawain ay hanapin ang equation ng isang tuwid na linya na dumadaan sa dalawang puntong ito:

    paglalarawan

    Ang tuwid na linyang ito ay dapat magkaroon ng equation tulad ng sumusunod:

    Dito hindi alam sa amin ang alpha at beta, ngunit alam ang dalawang punto ng linyang ito:

    Maaari mong isulat ang equation na ito sa matrix form:

    Dito dapat tayong gumawa ng lyrical digression: ano ang matrix? Ang matrix ay walang iba kundi isang two-dimensional array. Ito ay isang paraan ng pag-iimbak ng data, wala nang mga halaga ang dapat ibigay dito. Nasa sa atin kung paano eksaktong i-interpret ang isang tiyak na matrix. Paminsan-minsan, bibigyang-kahulugan ko ito bilang isang linear na pagmamapa, pana-panahon bilang isang parisukat na anyo, at kung minsan bilang isang set lamang ng mga vector. Ang lahat ng ito ay lilinawin sa konteksto.

    Palitan natin ang mga partikular na matrice ng kanilang simbolikong representasyon:

    Pagkatapos (alpha, beta) ay madaling mahanap:

    Mas partikular para sa aming nakaraang data:

    Na humahantong sa sumusunod na equation ng isang tuwid na linya na dumadaan sa mga puntos (1,1) at (3,2):

    Okay, malinaw na ang lahat dito. At hanapin natin ang equation ng isang tuwid na linya na dumadaan tatlo puntos: (x0,y0), (x1,y1) at (x2,y2):

    Oh-oh-oh, ngunit mayroon kaming tatlong equation para sa dalawang hindi alam! Sasabihin ng karaniwang mathematician na walang solusyon. Ano ang sasabihin ng programmer? At muli niyang isusulat ang nakaraang sistema ng mga equation sa sumusunod na anyo:

    Sa aming kaso, ang mga vectors i, j, b ay tatlong-dimensional, samakatuwid, (sa pangkalahatang kaso) walang solusyon sa sistemang ito. Ang anumang vector (alpha\*i + beta\*j) ay nasa eroplanong pinalawak ng mga vectors (i, j). Kung ang b ay hindi kabilang sa eroplanong ito, kung gayon walang solusyon (ang pagkakapantay-pantay sa equation ay hindi makakamit). Anong gagawin? Maghanap tayo ng kompromiso. Tukuyin natin ng e(alpha, beta) kung paano eksaktong hindi namin nakamit ang pagkakapantay-pantay:

    At susubukan naming bawasan ang error na ito:

    Bakit parisukat?

    Kami ay naghahanap hindi lamang para sa minimum ng pamantayan, ngunit para sa pinakamababang parisukat ng pamantayan. Bakit? Ang pinakamababang punto mismo ay nagtutugma, at ang parisukat ay nagbibigay ng isang maayos na pag-andar (isang parisukat na pag-andar ng mga argumento (alpha,beta)), habang ang haba lamang ay nagbibigay ng isang function sa anyo ng isang kono, na hindi nakikilala sa pinakamababang punto. Brr. Ang parisukat ay mas maginhawa.

    Malinaw, ang error ay minimize kapag ang vector e orthogonal sa eroplanong pinalawak ng mga vectors i at j.

    Ilustrasyon

    Sa madaling salita: naghahanap kami ng isang linya na ang kabuuan ng mga parisukat na haba ng mga distansya mula sa lahat ng mga punto hanggang sa linyang ito ay minimal:

    I-UPDATE: dito mayroon akong hamba, ang distansya sa linya ay dapat na sukatin nang patayo, hindi orthographic projection. Tama ang commenter na ito.

    Ilustrasyon

    Sa ganap na magkakaibang mga salita (maingat, hindi gaanong pormal, ngunit dapat itong malinaw sa mga daliri): kinukuha namin ang lahat ng posibleng linya sa pagitan ng lahat ng mga pares ng mga punto at hinahanap ang average na linya sa pagitan ng lahat:

    Ilustrasyon

    Ang isa pang paliwanag sa mga daliri: nag-attach kami ng isang spring sa pagitan ng lahat ng mga punto ng data (narito mayroon kaming tatlo) at ang linya na hinahanap namin, at ang linya ng estado ng balanse ay eksakto kung ano ang hinahanap namin.

    Quadratic na anyo minimum

    Kaya, ibinigay ang vector b at ang eroplanong pinalawak ng mga column-vector ng matrix A(sa kasong ito (x0,x1,x2) at (1,1,1)), naghahanap kami ng isang vector e na may pinakamababang parisukat na haba. Malinaw, ang minimum ay makakamit lamang para sa vector e, orthogonal sa eroplano na pinalawak ng mga column-vector ng matrix A:

    Sa madaling salita, naghahanap kami ng isang vector x=(alpha, beta) tulad ng:

    Ipinaaalala ko sa iyo na ang vector na ito na x=(alpha, beta) ay ang minimum ng quadratic function ||e(alpha, beta)||^2:

    Dito kapaki-pakinabang na tandaan na ang matrix ay maaaring bigyang-kahulugan pati na rin ang parisukat na anyo, halimbawa, ang identity matrix ((1,0),(0,1)) ay maaaring bigyang-kahulugan bilang isang function ng x^2 + y ^2:

    parisukat na anyo

    Ang lahat ng gymnastics na ito ay kilala bilang linear regression.

    Laplace equation na may Dirichlet boundary condition

    Ngayon ang pinakasimpleng tunay na problema: mayroong isang tiyak na triangulated na ibabaw, ito ay kinakailangan upang pakinisin ito. Halimbawa, i-load natin ang modelo ng aking mukha:

    Available ang orihinal na commit. Upang mabawasan ang mga panlabas na dependency, kinuha ko ang code ng aking software renderer, na nasa Habré na. Upang malutas ang linear system, ginagamit ko ang OpenNL , ito ay isang mahusay na solver, ngunit napakahirap i-install: kailangan mong kopyahin ang dalawang file (.h + .c) sa iyong folder ng proyekto. Ang lahat ng smoothing ay ginagawa sa pamamagitan ng sumusunod na code:

    Para sa (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&face = mukha[i]; para sa (int j=0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

    Ang mga coordinate ng X, Y at Z ay mapaghihiwalay, hinihiwalay ko ang mga ito. Iyon ay, nilulutas ko ang tatlong sistema ng mga linear na equation, bawat isa ay may parehong bilang ng mga variable bilang ang bilang ng mga vertex sa aking modelo. Ang unang n row ng matrix A ay may isang 1 lang bawat row, at ang unang n row ng vector b ay may orihinal na mga coordinate ng modelo. Iyon ay, spring-tie ko sa pagitan ng bagong posisyon ng vertex at ng lumang posisyon ng vertex - ang mga bago ay hindi dapat masyadong malayo sa mga luma.

    Ang lahat ng kasunod na row ng matrix A (faces.size()*3 = ang bilang ng mga gilid ng lahat ng triangles sa grid) ay may isang paglitaw ng 1 at isang paglitaw ng -1, habang ang vector b ay may zero na bahagi sa tapat. Nangangahulugan ito na naglalagay ako ng spring sa bawat gilid ng aming triangular mesh: sinusubukan ng lahat ng mga gilid na makuha ang parehong vertex bilang kanilang mga panimulang punto at pagtatapos.

    Muli: ang lahat ng mga vertex ay mga variable, at hindi sila maaaring lumihis nang malayo sa kanilang orihinal na posisyon, ngunit sa parehong oras sinusubukan nilang maging katulad sa bawat isa.

    Narito ang resulta:

    Magiging maayos ang lahat, ang modelo ay talagang pinakinis, ngunit lumayo ito sa orihinal nitong gilid. Baguhin natin ng kaunti ang code:

    Para sa (int i=0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

    Sa aming matrix A, para sa mga vertices na nasa gilid, hindi ako nagdaragdag ng isang row mula sa kategoryang v_i = verts[i][d], ngunit 1000*v_i = 1000*verts[i][d]. Ano ang binabago nito? At binabago nito ang aming quadratic form ng error. Ngayon ang isang solong paglihis mula sa tuktok sa gilid ay nagkakahalaga ng hindi isang yunit, tulad ng dati, ngunit 1000 * 1000 na mga yunit. Iyon ay, nag-hang kami ng isang mas malakas na spring sa matinding vertices, mas pinipili ng solusyon na iunat ang iba nang mas malakas. Narito ang resulta:

    Doblehin natin ang lakas ng mga bukal sa pagitan ng mga vertex:
    nlCoefficient(mukha[j], 2); nlCoefficient(mukha[(j+1)%3], -2);

    Ito ay lohikal na ang ibabaw ay naging mas makinis:

    At ngayon kahit isang daang beses na mas malakas:

    Ano ito? Isipin na nagsawsaw tayo ng wire ring sa tubig na may sabon. Bilang resulta, susubukan ng magreresultang soap film na magkaroon ng pinakamababang curvature hangga't maaari, na humahawak sa parehong hangganan - ang aming wire ring. Ito ay eksakto kung ano ang nakuha namin sa pamamagitan ng pag-aayos ng hangganan at paghingi ng isang makinis na ibabaw sa loob. Binabati kita, nalutas na natin ang Laplace equation na may mga kundisyon sa hangganan ng Dirichlet. Mukhang cool? Ngunit sa katunayan, isang sistema lamang ng mga linear na equation upang malutas.

    Poisson equation

    Magkaroon tayo ng isa pang cool na pangalan.

    Sabihin nating mayroon akong larawang tulad nito:

    Lahat ay mabuti, ngunit hindi ko gusto ang upuan.

    Pinutol ko ang larawan sa kalahati:



    At pipili ako ng upuan gamit ang aking mga kamay:

    Pagkatapos ay i-drag ko ang lahat ng puti sa maskara sa kaliwang bahagi ng larawan, at sa parehong oras ay sasabihin ko sa buong larawan na ang pagkakaiba sa pagitan ng dalawang magkalapit na mga pixel ay dapat na katumbas ng pagkakaiba sa pagitan ng dalawang magkalapit na mga pixel ng kanang larawan:

    Para sa (int i=0; i

    Narito ang resulta:

    Available ang code at mga larawan

    Pinakamababang parisukat na pamamaraan

    Pinakamababang parisukat na pamamaraan ( MNK, OLS, Ordinary Least Squares) - isa sa mga pangunahing pamamaraan ng pagsusuri ng regression para sa pagtantya ng hindi kilalang mga parameter ng mga modelo ng regression mula sa sample na data. Ang pamamaraan ay batay sa pagliit ng kabuuan ng mga parisukat ng mga natitirang regression.

    Dapat pansinin na ang pinakamaliit na pamamaraan ng mga parisukat mismo ay maaaring tawaging isang paraan para sa paglutas ng isang problema sa anumang lugar kung ang solusyon ay binubuo o nakakatugon sa isang tiyak na pamantayan para sa pagliit ng kabuuan ng mga parisukat ng ilang mga pag-andar ng hindi kilalang mga variable. Samakatuwid, ang paraan ng least squares ay maaari ding gamitin para sa isang tinatayang representasyon (approximation) ng isang naibigay na function ng iba pang (mas simple) na function, kapag nakahanap ng set ng mga quantity na nakakatugon sa mga equation o restrictions, ang bilang nito ay lumampas sa bilang ng mga quantity na ito. , atbp.

    Ang kakanyahan ng MNC

    Hayaan ang ilang (parametric) na modelo ng probabilistic (regression) dependence sa pagitan ng (ipinaliwanag) na variable y at maraming mga kadahilanan (nagpapaliwanag na mga variable) x

    nasaan ang vector ng hindi kilalang mga parameter ng modelo

    - Random na error sa modelo.

    Hayaang magkaroon din ng mga sample na obserbasyon ng mga halaga ng ipinahiwatig na mga variable. Hayaan ang observation number (). Pagkatapos ay ang mga halaga ng mga variable sa -th obserbasyon. Pagkatapos, para sa mga ibinigay na halaga ng mga parameter b, posibleng kalkulahin ang teoretikal (modelo) na mga halaga ng ipinaliwanag na variable y:

    Ang halaga ng mga nalalabi ay nakasalalay sa mga halaga ng mga parameter b.

    Ang kakanyahan ng LSM (ordinaryo, klasikal) ay upang mahanap ang mga naturang parameter b kung saan ang kabuuan ng mga parisukat ng mga nalalabi (eng. Natirang kabuuan ng mga parisukat) ay magiging minimal:

    Sa pangkalahatang kaso, ang problemang ito ay maaaring malutas sa pamamagitan ng mga numerical na pamamaraan ng optimization (minimization). Sa kasong ito, ang isa ay nagsasalita ng nonlinear least squares(NLS o NLLS - Ingles. Non Linear Least Squares). Sa maraming mga kaso, maaaring makuha ang isang analytical na solusyon. Upang malutas ang problema sa pag-minimize, kinakailangan upang mahanap ang mga nakatigil na punto ng function sa pamamagitan ng pagkakaiba-iba nito na may paggalang sa hindi kilalang mga parameter b, equating ang mga derivatives sa zero, at paglutas ng nagresultang sistema ng mga equation:

    Kung ang mga random na error ng modelo ay karaniwang ipinamamahagi, may parehong pagkakaiba, at hindi nauugnay sa isa't isa, ang pinakamaliit na mga pagtatantya ng parameter ng mga parisukat ay pareho sa mga pagtatantya ng maximum likelihood method (MLM).

    LSM sa kaso ng isang linear na modelo

    Hayaang maging linear ang regression dependence:

    Hayaan y- column vector ng mga obserbasyon ng ipinaliwanag na variable, at - matrix ng mga obserbasyon ng kadahilanan (mga hilera ng matrix - mga vector ng mga halaga ng kadahilanan sa isang naibigay na obserbasyon, sa pamamagitan ng mga haligi - vector ng mga halaga ng isang naibigay na kadahilanan sa lahat ng mga obserbasyon). Ang representasyon ng matrix ng linear na modelo ay may anyo:

    Pagkatapos ang vector ng mga pagtatantya ng ipinaliwanag na variable at ang vector ng mga residual ng regression ay magiging katumbas ng

    nang naaayon, ang kabuuan ng mga parisukat ng mga natitirang regression ay magiging katumbas ng

    Ang pagkakaiba-iba ng function na ito na may paggalang sa vector ng parameter at equating ang mga derivatives sa zero, nakakakuha kami ng isang sistema ng mga equation (sa matrix form):

    .

    Ang solusyon ng sistemang ito ng mga equation ay nagbibigay ng pangkalahatang formula para sa pinakamaliit na mga pagtatantya ng mga parisukat para sa linear na modelo:

    Para sa mga layuning analitikal, lumalabas na kapaki-pakinabang ang huling representasyon ng formula na ito. Kung ang data sa regression model nakasentro, pagkatapos sa representasyong ito ang unang matrix ay may kahulugan ng sample na covariance matrix ng mga salik, at ang pangalawa ay ang vector ng covariances ng mga salik na may dependent variable. Kung, bilang karagdagan, ang data ay din na-normalize sa SKO (iyon ay, sa huli standardized), pagkatapos ay ang unang matrix ay may kahulugan ng sample correlation matrix ng mga kadahilanan, ang pangalawang vector - ang vector ng sample correlations ng mga kadahilanan na may dependent variable.

    Isang mahalagang katangian ng mga pagtatantya ng LLS para sa mga modelo na may pare-pareho- ang linya ng itinayong regression ay dumadaan sa gitna ng grabidad ng sample na data, iyon ay, ang pagkakapantay-pantay ay natutupad:

    Sa partikular, sa matinding kaso, kapag ang nag-iisang regressor ay pare-pareho, nalaman namin na ang pagtatantya ng OLS ng isang parameter (ang constant mismo) ay katumbas ng ibig sabihin ng halaga ng variable na ipinaliwanag. Iyon ay, ang arithmetic mean, na kilala sa magagandang katangian nito mula sa mga batas ng malalaking numero, ay isa ring hindi bababa sa pagtatantya ng mga parisukat - natutugunan nito ang pamantayan para sa pinakamababang kabuuan ng mga squared deviations mula dito.

    Halimbawa: simple (pairwise) regression

    Sa kaso ng ipinares na linear regression, ang mga formula ng pagkalkula ay pinasimple (magagawa mo nang walang matrix algebra):

    Mga katangian ng mga pagtatantya ng OLS

    Una sa lahat, tandaan namin na para sa mga linear na modelo, ang hindi bababa sa mga pagtatantya ng mga parisukat ay mga linear na pagtatantya, tulad ng sumusunod mula sa formula sa itaas. Para sa walang pinapanigan na mga pagtatantya ng OLS, ito ay kinakailangan at sapat upang matupad ang pinakamahalagang kondisyon ng pagsusuri ng regression: ang matematikal na inaasahan ng isang random na error na may kondisyon sa mga salik ay dapat na katumbas ng zero. Ang kundisyong ito ay nasiyahan, sa partikular, kung

    1. ang mathematical na inaasahan ng mga random na error ay zero, at
    2. Ang mga kadahilanan at mga random na error ay independiyenteng random na mga variable.

    Ang pangalawang kondisyon - ang kondisyon ng mga exogenous na kadahilanan - ay mahalaga. Kung hindi nasiyahan ang pag-aari na ito, maaari nating ipagpalagay na halos anumang mga pagtatantya ay magiging lubhang hindi kasiya-siya: hindi sila magiging pare-pareho (iyon ay, kahit na ang isang napakalaking halaga ng data ay hindi pinapayagan ang pagkuha ng mga pagtatantya ng husay sa kasong ito). Sa klasikal na kaso, ang isang mas malakas na palagay ay ginawa tungkol sa determinismo ng mga kadahilanan, sa kaibahan sa isang random na error, na awtomatikong nangangahulugan na ang exogenous na kondisyon ay nasiyahan. Sa pangkalahatang kaso, para sa pagkakapare-pareho ng mga pagtatantya, sapat na upang matupad ang kondisyon ng exogeneity kasama ang convergence ng matrix sa ilang di-singular na matrix na may pagtaas sa laki ng sample hanggang sa infinity.

    Upang, bilang karagdagan sa pagkakapare-pareho at walang kinikilingan, ang (ordinaryo) na mga pagtatantya ng hindi bababa sa mga parisukat ay maging epektibo din (ang pinakamahusay sa klase ng mga linear na walang pinapanigan na pagtatantya), ang mga karagdagang katangian ng isang random na error ay dapat matugunan:

    Ang mga pagpapalagay na ito ay maaaring buuin para sa covariance matrix ng random error vector

    Ang isang linear na modelo na nakakatugon sa mga kundisyong ito ay tinatawag klasiko. Ang mga pagtatantya ng OLS para sa klasikal na linear regression ay walang kinikilingan, pare-pareho at pinakamahusay na pagtatantya sa klase ng lahat ng linear na walang pinapanigan na pagtatantya (sa English literature, ang pagdadaglat ay minsang ginagamit bughaw (Pinakamahusay na Linear Unbaised Estimator) ay ang pinakamahusay na linear na walang pinapanigan na pagtatantya; sa lokal na panitikan, ang Gauss-Markov theorem ay mas madalas na binanggit). Dahil madaling ipakita, ang covariance matrix ng coefficient estimates vector ay magiging katumbas ng:

    Pangkalahatan hindi bababa sa mga parisukat

    Ang paraan ng hindi bababa sa mga parisukat ay nagbibigay-daan para sa isang malawak na paglalahat. Sa halip na bawasan ang kabuuan ng mga parisukat ng mga nalalabi, ang isang tao ay maaaring mabawasan ang ilang positibong tiyak na parisukat na anyo ng natitirang vector , kung saan mayroong ilang simetriko positibong tiyak na timbang matrix. Ang ordinaryong hindi bababa sa mga parisukat ay isang espesyal na kaso ng diskarteng ito, kapag ang weight matrix ay proporsyonal sa identity matrix. Tulad ng nalalaman mula sa teorya ng simetriko matrice (o mga operator), mayroong isang agnas para sa naturang mga matrice. Samakatuwid, ang tinukoy na functional ay maaaring katawanin bilang mga sumusunod, iyon ay, ang functional na ito ay maaaring kinakatawan bilang ang kabuuan ng mga parisukat ng ilang binagong "mga nalalabi". Kaya, maaari nating makilala ang isang klase ng mga pamamaraan ng hindi bababa sa mga parisukat - LS-methods (Least Squares).

    Ito ay pinatunayan (Aitken's theorem) na para sa isang pangkalahatang linear regression na modelo (kung saan walang mga paghihigpit na ipinapataw sa covariance matrix ng mga random na error), ang pinaka-epektibo (sa klase ng mga linear na walang pinapanigan na pagtatantya) ay mga pagtatantya ng tinatawag. pangkalahatang OLS (OMNK, GLS - Generalized Least Squares)- LS-paraan na may weight matrix na katumbas ng inverse covariance matrix ng mga random na error: .

    Maaari itong ipakita na ang formula para sa mga pagtatantya ng GLS ng mga parameter ng linear na modelo ay may anyo

    Ang covariance matrix ng mga pagtatantyang ito, ayon sa pagkakabanggit, ay magiging katumbas ng

    Sa katunayan, ang kakanyahan ng OLS ay nakasalalay sa isang tiyak na (linear) na pagbabagong-anyo (P) ng orihinal na data at ang paggamit ng karaniwang hindi bababa sa mga parisukat sa binagong data. Ang layunin ng pagbabagong ito ay para sa binagong data, ang mga random na error ay nakakatugon na sa mga klasikal na pagpapalagay.

    Natimbang na mga parisukat

    Sa kaso ng isang diagonal na weight matrix (at samakatuwid ay ang covariance matrix ng mga random na error), mayroon kaming tinatawag na weighted least squares (WLS - Weighted Least Squares). Sa kasong ito, ang timbang na kabuuan ng mga parisukat ng mga nalalabi ng modelo ay pinaliit, iyon ay, ang bawat obserbasyon ay tumatanggap ng isang "timbang" na inversely proportional sa pagkakaiba-iba ng random na error sa obserbasyon na ito: . Sa katunayan, ang data ay binago sa pamamagitan ng pagtimbang sa mga obserbasyon (paghahati sa isang halagang proporsyonal sa ipinapalagay na karaniwang paglihis ng mga random na error), at ang mga normal na hindi bababa sa mga parisukat ay inilalapat sa timbang na data.

    Ang ilang mga espesyal na kaso ng aplikasyon ng LSM sa pagsasanay

    Linear Approximation

    Isaalang-alang ang kaso kung, bilang isang resulta ng pag-aaral ng pag-asa ng isang tiyak na dami ng scalar sa isang tiyak na dami ng scalar (Ito ay maaaring, halimbawa, ang pag-asa ng boltahe sa kasalukuyang lakas: , kung saan ay isang pare-pareho ang halaga, ang paglaban ng konduktor ), ang mga dami na ito ay sinusukat, bilang isang resulta kung saan ang mga halaga at nakuha ang kanilang kaukulang mga halaga. Ang data ng pagsukat ay dapat na naitala sa isang talahanayan.

    mesa. Mga resulta ng pagsukat.

    Pagsukat Blg.
    1
    2
    3
    4
    5
    6

    Ang tanong ay parang ganito: anong halaga ng koepisyent ang mapipili upang pinakamahusay na mailarawan ang pagtitiwala ? Ayon sa hindi bababa sa mga parisukat, ang halagang ito ay dapat na ang kabuuan ng mga parisukat na paglihis ng mga halaga mula sa mga halaga

    ay minimal

    Ang kabuuan ng mga squared deviations ay may isang extremum - isang minimum, na nagpapahintulot sa amin na gamitin ang formula na ito. Hanapin natin ang halaga ng koepisyent mula sa formula na ito. Upang gawin ito, binabago namin ang kaliwang bahagi nito tulad ng sumusunod:

    Ang huling formula ay nagbibigay-daan sa amin upang mahanap ang halaga ng coefficient , na kinakailangan sa problema.

    Kwento

    Hanggang sa simula ng siglo XIX. ang mga siyentipiko ay walang ilang mga patakaran para sa paglutas ng isang sistema ng mga equation kung saan ang bilang ng mga hindi alam ay mas mababa sa bilang ng mga equation; Hanggang sa oras na iyon, ang mga partikular na pamamaraan ay ginamit, depende sa uri ng mga equation at sa katalinuhan ng mga calculator, at samakatuwid ang iba't ibang mga calculator, simula sa parehong data ng pagmamasid, ay dumating sa iba't ibang mga konklusyon. Ang Gauss (1795) ay kinilala sa unang aplikasyon ng pamamaraan, at ang Legendre (1805) ay nakapag-iisa na natuklasan at nai-publish ito sa ilalim ng modernong pangalan nito (fr. Methode des moindres quarres ). Iniugnay ni Laplace ang pamamaraan sa teorya ng posibilidad, at ang American mathematician na si Adrain (1808) ay isinasaalang-alang ang probabilistikong aplikasyon nito. Ang pamamaraan ay laganap at pinahusay ng karagdagang pananaliksik nina Encke, Bessel, Hansen at iba pa.

    Alternatibong paggamit ng mga MNC

    Ang ideya ng paraan ng least squares ay maaari ding gamitin sa ibang mga kaso na hindi direktang nauugnay sa regression analysis. Ang katotohanan ay ang kabuuan ng mga parisukat ay isa sa mga pinakakaraniwang proximity measure para sa mga vectors (ang Euclidean metric sa finite-dimensional spaces).

    Ang isang aplikasyon ay "paglutas" ng mga sistema ng mga linear na equation kung saan ang bilang ng mga equation ay mas malaki kaysa sa bilang ng mga variable.

    kung saan ang matrix ay hindi parisukat, ngunit hugis-parihaba.

    Ang ganitong sistema ng mga equation, sa pangkalahatang kaso, ay walang solusyon (kung ang ranggo ay talagang mas malaki kaysa sa bilang ng mga variable). Samakatuwid, ang sistemang ito ay maaaring "malutas" lamang sa kahulugan ng pagpili ng tulad ng isang vector upang mabawasan ang "distansya" sa pagitan ng mga vector at . Upang gawin ito, maaari mong ilapat ang pamantayan para sa pagliit ng kabuuan ng mga parisukat na pagkakaiba ng kaliwa at kanang bahagi ng mga equation ng system, iyon ay, . Madaling ipakita na ang solusyon ng problema sa minimization na ito ay humahantong sa solusyon ng sumusunod na sistema ng mga equation