Ang pinakamababang paraan ng mga parisukat ay ginagamit para sa. Pagsusuri ng linear pairwise regression

Tinatantya namin ang function sa pamamagitan ng polynomial ng 2nd degree. Upang gawin ito, kinakalkula namin ang mga coefficient ng normal na sistema ng mga equation:

, ,

Bumuo tayo ng isang normal na sistema ng hindi bababa sa mga parisukat, na may anyo:

Ang solusyon ng system ay madaling mahanap:, , .

Kaya, ang polynomial ng 2nd degree ay matatagpuan: .

Teoretikal na sanggunian

Bumalik sa pahina<Введение в вычислительную математику. Примеры>

Halimbawa 2. Paghahanap ng pinakamainam na antas ng isang polynomial.

Bumalik sa pahina<Введение в вычислительную математику. Примеры>

Halimbawa 3. Derivation ng isang normal na sistema ng mga equation para sa paghahanap ng mga parameter ng isang empirical dependence.

Kumuha tayo ng isang sistema ng mga equation para sa pagtukoy ng mga coefficient at function , na nagsasagawa ng root-mean-square approximation ng ibinigay na function na may kinalaman sa mga puntos. Bumuo ng isang function at isulat ang kinakailangang extremum na kondisyon para dito:

Pagkatapos ang normal na sistema ay kukuha ng anyo:

Nakakuha kami ng isang linear na sistema ng mga equation para sa hindi kilalang mga parameter at, na madaling malutas.

Teoretikal na sanggunian

Bumalik sa pahina<Введение в вычислительную математику. Примеры>

Halimbawa.

Pang-eksperimentong data sa mga halaga ng mga variable X at sa ay ibinigay sa talahanayan.

Bilang resulta ng kanilang pagkakahanay, ang pag-andar

Gamit hindi bababa sa parisukat na pamamaraan, tantiyahin ang mga data na ito na may linear na dependence y=ax+b(hanapin ang mga pagpipilian a at b). Alamin kung alin sa dalawang linya ang mas mahusay (sa kahulugan ng pinakamaliit na paraan ng mga parisukat) ang nakahanay sa pang-eksperimentong data. Gumawa ng isang guhit.

Ang kakanyahan ng pamamaraan ng hindi bababa sa mga parisukat (LSM).

Ang problema ay upang mahanap ang mga linear dependence coefficients kung saan ang function ng dalawang variable a at bkumukuha ng pinakamaliit na halaga. Ibig sabihin, ibinigay ang data a at b ang kabuuan ng mga squared deviations ng pang-eksperimentong data mula sa natagpuang tuwid na linya ang magiging pinakamaliit. Ito ang buong punto ng pamamaraan ng least squares.

Kaya, ang solusyon ng halimbawa ay nabawasan sa paghahanap ng extremum ng isang function ng dalawang variable.

Derivation ng mga formula para sa paghahanap ng mga coefficient.

Ang isang sistema ng dalawang equation na may dalawang hindi alam ay pinagsama-sama at nalulutas. Paghahanap ng mga partial derivatives ng mga function sa pamamagitan ng mga variable a at b, itinutumbas namin ang mga derivatives na ito sa zero.

Nalulutas namin ang nagresultang sistema ng mga equation sa pamamagitan ng anumang pamamaraan (halimbawa paraan ng pagpapalit o Cramer's method) at kumuha ng mga formula para sa paghahanap ng mga coefficient gamit ang least squares method (LSM).

Gamit ang data a at b function kumukuha ng pinakamaliit na halaga. Ang patunay ng katotohanang ito ay ibinigay sa ibaba sa teksto sa dulo ng pahina.

Iyan ang buong paraan ng hindi bababa sa mga parisukat. Formula para sa paghahanap ng parameter a naglalaman ng mga kabuuan , , , at parameter n ay ang dami ng pang-eksperimentong data. Ang mga halaga ng mga kabuuan na ito ay inirerekomenda na kalkulahin nang hiwalay.

Coefficient b natagpuan pagkatapos ng pagkalkula a.

Oras na para alalahanin ang orihinal na halimbawa.

Desisyon.

Sa ating halimbawa n=5. Pinupuno namin ang talahanayan para sa kaginhawaan ng pagkalkula ng mga halaga na kasama sa mga formula ng mga kinakailangang coefficient.

Ang mga halaga sa ika-apat na hilera ng talahanayan ay nakuha sa pamamagitan ng pagpaparami ng mga halaga ng ika-2 hilera sa mga halaga ng ika-3 hilera para sa bawat numero i.

Ang mga halaga sa ikalimang hilera ng talahanayan ay nakuha sa pamamagitan ng pag-square ng mga halaga ng ika-2 hilera para sa bawat numero i.

Ang mga halaga ng huling hanay ng talahanayan ay ang mga kabuuan ng mga halaga sa mga hilera.

Ginagamit namin ang mga formula ng pinakamaliit na paraan ng mga parisukat upang mahanap ang mga coefficient a at b. Pinapalitan namin sa kanila ang kaukulang mga halaga mula sa huling hanay ng talahanayan:

Kaya naman, y=0.165x+2.184 ay ang nais na tinatayang tuwid na linya.

Ito ay nananatiling alamin kung alin sa mga linya y=0.165x+2.184 o mas mahusay na tinatantya ang orihinal na data, ibig sabihin, gumawa ng pagtatantya gamit ang pamamaraan ng least squares.

Pagtatantya ng error ng paraan ng hindi bababa sa mga parisukat.

Upang gawin ito, kailangan mong kalkulahin ang mga kabuuan ng mga squared deviations ng orihinal na data mula sa mga linyang ito at , ang isang mas maliit na halaga ay tumutugma sa isang linya na mas mahusay na tinatantya ang orihinal na data sa mga tuntunin ng pinakamaliit na paraan ng mga parisukat.

Since , tapos yung linya y=0.165x+2.184 mas mahusay na tinatantya ang orihinal na data.

Graphic na paglalarawan ng least squares method (LSM).

Ang lahat ay mukhang mahusay sa mga chart. Ang pulang linya ay ang nahanap na linya y=0.165x+2.184, ang asul na linya ay , ang mga pink na tuldok ay ang orihinal na data.

Para saan ito, para saan ang lahat ng mga pagtatantya na ito?

Personal kong ginagamit upang malutas ang mga problema sa smoothing ng data, mga problema sa interpolation at extrapolation (sa orihinal na halimbawa, maaari kang hilingin na hanapin ang halaga ng naobserbahang halaga y sa x=3 o kailan x=6 ayon sa pamamaraan ng MNC). Ngunit pag-uusapan natin ang higit pa tungkol dito sa ibang seksyon ng site.

Ibabaw ng Pahina

Patunay.

Kaya't kapag natagpuan a at b Kinukuha ng function ang pinakamaliit na halaga, kinakailangan na sa puntong ito ang matrix ng quadratic form ng second-order differential para sa function ay tiyak na positibo. Ipakita natin.

Ang second order differential ay may anyo:

I.e

Samakatuwid, ang matrix ng quadratic form ay may anyo

at ang mga halaga ng mga elemento ay hindi nakasalalay sa a at b.

Ipakita natin na ang matrix ay positibong tiyak. Nangangailangan ito na ang anggulo ng mga menor de edad ay positibo.

Angular minor ng unang order . Ang hindi pagkakapantay-pantay ay mahigpit, dahil ang mga punto ay hindi nag-tutugma. Ito ay ipahiwatig sa mga sumusunod.

Angular minor ng pangalawang order

Patunayan natin yan paraan ng mathematical induction.

Konklusyon: nahanap na mga halaga a at b tumutugma sa pinakamaliit na halaga ng function , samakatuwid, ay ang nais na mga parameter para sa paraan ng least squares.

Naiintindihan mo ba?
Mag-order ng Solusyon

Ibabaw ng Pahina

Pagbuo ng pagtataya gamit ang least squares method. Halimbawa ng solusyon sa problema

Extrapolation — ito ay isang paraan ng siyentipikong pananaliksik, na batay sa pagpapakalat ng nakaraan at kasalukuyang mga uso, mga pattern, mga relasyon sa hinaharap na pag-unlad ng bagay ng pagtataya. Kasama sa mga pamamaraan ng extrapolation moving average method, exponential smoothing method, least squares method.

Kakanyahan paraan ng least squares ay binubuo sa pagliit ng kabuuan ng mga square deviations sa pagitan ng naobserbahan at nakalkulang mga halaga. Ang mga kinakalkula na halaga ay matatagpuan ayon sa napiling equation - ang regression equation. Ang mas maliit na distansya sa pagitan ng mga aktwal na halaga at ang mga kinakalkula, mas tumpak ang pagtataya batay sa equation ng regression.

Ang teoretikal na pagsusuri ng kakanyahan ng kababalaghan sa ilalim ng pag-aaral, ang pagbabago kung saan ipinapakita ng isang serye ng oras, ay nagsisilbing batayan para sa pagpili ng isang curve. Ang mga pagsasaalang-alang tungkol sa likas na katangian ng paglago ng mga antas ng serye ay kung minsan ay isinasaalang-alang. Kaya, kung ang paglaki ng output ay inaasahan sa isang pag-unlad ng aritmetika, pagkatapos ay ang pag-smoothing ay ginaganap sa isang tuwid na linya. Kung lumalabas na ang paglago ay exponential, pagkatapos ay dapat gawin ang smoothing ayon sa exponential function.

Ang gumaganang formula ng paraan ng hindi bababa sa mga parisukat : Y t+1 = a*X + b, kung saan ang t + 1 ay ang panahon ng pagtataya; Уt+1 – hinulaang tagapagpahiwatig; a at b ay mga coefficient; Ang X ay simbolo ng oras.

Ang mga coefficient a at b ay kinakalkula ayon sa mga sumusunod na formula:

kung saan, Uf - ang aktwal na mga halaga ng serye ng mga dinamika; n ay ang bilang ng mga antas sa serye ng oras;

Ang pagpapakinis ng time series sa pamamagitan ng least squares na pamamaraan ay nagsisilbing ipakita ang mga pattern ng pag-unlad ng phenomenon na pinag-aaralan. Sa analytic na pagpapahayag ng isang trend, ang oras ay itinuturing bilang isang independiyenteng variable, at ang mga antas ng serye ay gumaganap bilang isang function ng independent variable na ito.

Ang pag-unlad ng isang kababalaghan ay hindi nakasalalay sa kung gaano karaming taon ang lumipas mula noong simula, ngunit sa kung anong mga kadahilanan ang nakaimpluwensya sa pag-unlad nito, sa anong direksyon at kung anong intensity. Mula dito ay malinaw na ang pag-unlad ng isang kababalaghan sa oras ay lumilitaw bilang isang resulta ng pagkilos ng mga salik na ito.

Ang tamang pagtatakda ng uri ng curve, ang uri ng analytical na pagdepende sa oras ay isa sa pinakamahirap na gawain ng pre-predictive analysis. .

Ang pagpili ng uri ng function na naglalarawan sa trend, ang mga parameter na kung saan ay tinutukoy ng hindi bababa sa mga parisukat na pamamaraan, ay sa karamihan ng mga kaso empirical, sa pamamagitan ng pagbuo ng isang bilang ng mga function at paghahambing ng mga ito sa bawat isa sa mga tuntunin ng halaga ng ugat. -mean-square error, na kinakalkula ng formula:

kung saan ang Uf - ang aktwal na mga halaga ng serye ng mga dinamika; Ur – kinakalkula (pinakinis) na mga halaga ng serye ng oras; n ay ang bilang ng mga antas sa serye ng oras; ang p ay ang bilang ng mga parameter na tinukoy sa mga formula na naglalarawan sa trend (development trend).

Mga disadvantages ng least squares method :

  • kapag sinusubukang ilarawan ang economic phenomenon sa ilalim ng pag-aaral gamit ang isang mathematical equation, ang forecast ay magiging tumpak sa maikling panahon at ang regression equation ay dapat na muling kalkulahin kapag may bagong impormasyon;
  • ang pagiging kumplikado ng pagpili ng equation ng regression, na nalulusaw gamit ang karaniwang mga programa sa computer.

Isang halimbawa ng paggamit ng paraan ng least squares upang bumuo ng forecast

Gawain . May mga datos na nagpapakita ng antas ng kawalan ng trabaho sa rehiyon, %

  • Bumuo ng pagtataya ng rate ng kawalan ng trabaho sa rehiyon para sa mga buwan ng Nobyembre, Disyembre, Enero, gamit ang mga pamamaraan: moving average, exponential smoothing, least squares.
  • Kalkulahin ang mga error sa mga resultang pagtataya gamit ang bawat pamamaraan.
  • Ihambing ang mga resulta na nakuha, gumawa ng mga konklusyon.

Pinakamababang mga parisukat na solusyon

Para sa solusyon, bubuo kami ng isang talahanayan kung saan gagawin namin ang mga kinakailangang kalkulasyon:

ε = 28.63/10 = 2.86% katumpakan ng hula mataas.

Konklusyon : Paghahambing ng mga resultang nakuha sa mga kalkulasyon moving average na paraan , exponential smoothing at ang hindi bababa sa mga parisukat na paraan, maaari nating sabihin na ang average na kamag-anak na error sa mga kalkulasyon sa pamamagitan ng exponential smoothing method ay nasa loob ng 20-50%. Nangangahulugan ito na ang katumpakan ng hula sa kasong ito ay kasiya-siya lamang.

Sa una at ikatlong mga kaso, ang katumpakan ng pagtataya ay mataas, dahil ang average na kamag-anak na error ay mas mababa sa 10%. Ngunit ang moving average na paraan ay naging posible upang makakuha ng mas maaasahang mga resulta (forecast para sa Nobyembre - 1.52%, forecast para sa Disyembre - 1.53%, forecast para sa Enero - 1.49%), dahil ang average na kamag-anak na error kapag ginagamit ang pamamaraang ito ay ang pinakamaliit - 1 ,labintatlo%.

Pinakamababang parisukat na pamamaraan

Iba pang mga kaugnay na artikulo:

Listahan ng mga mapagkukunang ginamit

  1. Mga rekomendasyong pang-agham at pamamaraan sa mga isyu ng pag-diagnose ng mga panganib sa lipunan at pagtataya ng mga hamon, pagbabanta at mga kahihinatnan sa lipunan. Russian State Social University. Moscow. 2010;
  2. Vladimirova L.P. Pagtataya at pagpaplano sa mga kondisyon ng pamilihan: Proc. allowance. M .: Publishing House "Dashkov and Co", 2001;
  3. Novikova N.V., Pozdeeva O.G. Pagtataya sa Pambansang Ekonomiya: Gabay sa Edukasyon at Pamamaraan. Yekaterinburg: Publishing House Ural. estado ekonomiya unibersidad, 2007;
  4. Slutskin L.N. MBA na kurso sa pagtataya ng negosyo. Moscow: Alpina Business Books, 2006.

Programa ng MNE

Ipasok ang data

Data at Approximation y = a + b x

i- bilang ng pang-eksperimentong punto;
x i- ang halaga ng nakapirming parameter sa punto i;
y i- ang halaga ng sinusukat na parameter sa punto i;
ω i- pagsukat ng timbang sa punto i;
y i, calc.- ang pagkakaiba sa pagitan ng sinusukat na halaga at ang halaga na kinakalkula mula sa regression y sa punto i;
S x i (x i)- pagtatantya ng error x i kapag nagsusukat y sa punto i.

Data at Approximation y = kx

i x i y i ω i y i, calc. Δy i S x i (x i)

Mag-click sa tsart

User manual para sa online na programa ng MNC.

Sa field ng data, ilagay sa bawat hiwalay na linya ang mga halaga ng `x` at `y` sa isang pang-eksperimentong punto. Ang mga halaga ay dapat paghiwalayin ng whitespace (espasyo o tab).

Ang pangatlong value ay maaaring ang point weight ng `w`. Kung ang bigat ng punto ay hindi tinukoy, kung gayon ito ay katumbas ng isa. Sa napakaraming kaso, ang mga bigat ng mga pang-eksperimentong punto ay hindi alam o hindi kinakalkula; lahat ng pang-eksperimentong data ay itinuturing na katumbas. Minsan ang mga timbang sa pinag-aralan na hanay ng mga halaga ay tiyak na hindi katumbas at maaari pang kalkulahin ayon sa teorya. Halimbawa, sa spectrophotometry, ang mga timbang ay maaaring kalkulahin gamit ang mga simpleng pormula, bagama't karaniwang napapabayaan ito ng lahat upang mabawasan ang mga gastos sa paggawa.

Maaaring i-paste ang data sa clipboard mula sa isang office suite spreadsheet, gaya ng Excel mula sa Microsoft Office o Calc mula sa Open Office. Upang gawin ito, sa spreadsheet, piliin ang hanay ng data na kokopyahin, kopyahin sa clipboard, at i-paste ang data sa field ng data sa page na ito.

Upang makalkula sa pamamagitan ng paraan ng least squares, hindi bababa sa dalawang puntos ang kinakailangan upang matukoy ang dalawang coefficient `b` - ang padaplis ng anggulo ng pagkahilig ng tuwid na linya at `a` - ang halaga na pinutol ng tuwid na linya sa `y ` axis.

Upang matantya ang error ng kinakalkula na mga coefficient ng regression, kinakailangan upang itakda ang bilang ng mga pang-eksperimentong puntos sa higit sa dalawa.

Paraan ng least squares (LSM).

Kung mas malaki ang bilang ng mga pang-eksperimentong punto, mas tumpak ang istatistikal na pagtatantya ng mga koepisyent (dahil sa pagbaba sa koepisyent ng Mag-aaral) at mas malapit ang pagtatantya sa pagtatantya ng pangkalahatang sample.

Ang pagkuha ng mga halaga sa bawat pang-eksperimentong punto ay madalas na nauugnay sa mga makabuluhang gastos sa paggawa, samakatuwid, ang isang kompromiso na bilang ng mga eksperimento ay madalas na isinasagawa, na nagbibigay ng isang natutunaw na pagtatantya at hindi humantong sa labis na mga gastos sa paggawa. Bilang isang patakaran, ang bilang ng mga pang-eksperimentong punto para sa isang linear na hindi bababa sa mga parisukat na pagdepende na may dalawang coefficient ay pinili sa rehiyon na 5-7 puntos.

Isang Maikling Teorya ng Least Squares para sa Linear Dependence

Ipagpalagay na mayroon kaming isang set ng pang-eksperimentong data sa anyo ng mga pares ng mga halaga [`y_i`, `x_i`], kung saan ang `i` ay ang bilang ng isang pang-eksperimentong pagsukat mula 1 hanggang `n`; `y_i` - ang halaga ng sinusukat na halaga sa puntong `i`; `x_i` - ang halaga ng parameter na itinakda namin sa puntong `i`.

Ang isang halimbawa ay ang pagpapatakbo ng batas ng Ohm. Sa pamamagitan ng pagbabago ng boltahe (potensyal na pagkakaiba) sa pagitan ng mga seksyon ng electrical circuit, sinusukat namin ang dami ng kasalukuyang dumadaan sa seksyong ito. Ang pisika ay nagbibigay sa atin ng pag-asa na natagpuan sa eksperimentong paraan:

`I=U/R`,
kung saan `I` - kasalukuyang lakas; `R` - paglaban; `U` - boltahe.

Sa kasong ito, ang `y_i` ay ang sinusukat na kasalukuyang halaga, at ang `x_i` ay ang halaga ng boltahe.

Bilang isa pang halimbawa, isaalang-alang ang pagsipsip ng liwanag ng isang solusyon ng isang sangkap sa solusyon. Binibigyan tayo ng Chemistry ng formula:

`A = εl C`,
kung saan ang `A` ay ang optical density ng solusyon; `ε` - solute transmittance; `l` - haba ng landas kapag dumaan ang liwanag sa isang cuvette na may solusyon; Ang `C` ay ang konsentrasyon ng solute.

Sa kasong ito, ang `y_i` ay ang sinusukat na optical density `A`, at ang `x_i` ay ang konsentrasyon ng substance na itinakda namin.

Isasaalang-alang namin ang kaso kapag ang relatibong error sa pagtatakda ng `x_i` ay mas mababa kaysa sa relatibong error sa pagsukat ng `y_i`. Ipagpalagay din namin na ang lahat ng nasusukat na halaga ng `y_i` ay random at normal na ipinamamahagi, ibig sabihin. sumunod sa normal na batas sa pamamahagi.

Sa kaso ng isang linear dependence ng `y` sa `x`, maaari naming isulat ang theoretical dependence:
`y = a + bx`.

Mula sa isang geometric na punto ng view, ang coefficient `b` ay tumutukoy sa tangent ng line slope sa `x` axis, at ang coefficient `a` - ang halaga ng `y` sa punto ng intersection ng linya na may ` y` axis (na may `x = 0`).

Paghahanap ng mga parameter ng linya ng regression.

Sa isang eksperimento, ang mga sinusukat na halaga ng `y_i` ay hindi maaaring nasa linyang teoretikal dahil sa mga error sa pagsukat, na palaging likas sa totoong buhay. Samakatuwid, ang isang linear na equation ay dapat na kinakatawan ng isang sistema ng mga equation:
`y_i = a + b x_i + ε_i` (1),
kung saan ang `ε_i` ay ang hindi kilalang error sa pagsukat ng `y` sa `i`th experiment.

Ang pag-asa (1) ay tinatawag din regression, ibig sabihin. ang pag-asa ng dalawang dami sa isa't isa na may istatistikal na kahalagahan.

Ang gawain ng pagpapanumbalik ng dependence ay upang mahanap ang mga coefficients `a` at `b` mula sa mga eksperimentong punto [`y_i`, `x_i`].

Upang mahanap ang mga coefficient na `a` at `b` ay karaniwang ginagamit hindi bababa sa parisukat na pamamaraan(MNK). Ito ay isang espesyal na kaso ng prinsipyo ng maximum na posibilidad.

Isulat muli natin ang (1) bilang `ε_i = y_i - a - b x_i`.

Pagkatapos ang kabuuan ng mga squared error ay magiging
`Φ = kabuuan_(i=1)^(n) ε_i^2 = kabuuan_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

Ang prinsipyo ng paraan ng least squares ay ang pag-minimize ng sum (2) na may paggalang sa mga parameter na `a` at `b`.

Ang pinakamababa ay naabot kapag ang mga partial derivatives ng kabuuan (2) na may kinalaman sa mga coefficient na `a` at `b` ay katumbas ng zero:
`frac(partial Φ)(partial a) = frac(partial sum_(i=1)^(n) (y_i - a - b x_i)^2)(partial a) = 0`
`frac(partial Φ)(partial b) = frac(partial sum_(i=1)^(n) (y_i - a - b x_i)^2)(partial b) = 0`

Ang pagpapalawak ng mga derivatives, nakakakuha kami ng isang sistema ng dalawang equation na may dalawang hindi alam:
`sum_(i=1)^(n) (2a + 2bx_i - 2y_i) = sum_(i=1)^(n) (a + bx_i - y_i) = 0`
`sum_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = sum_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`

Binuksan namin ang mga bracket at inililipat ang mga kabuuan na independiyente sa nais na mga coefficient sa kabilang kalahati, nakakakuha kami ng isang sistema ng mga linear na equation:
`sum_(i=1)^(n) y_i = a n + b sum_(i=1)^(n) bx_i`
`sum_(i=1)^(n) x_iy_i = isang sum_(i=1)^(n) x_i + b sum_(i=1)^(n) x_i^2`

Ang paglutas ng nagresultang sistema, nakahanap kami ng mga formula para sa mga coefficient na `a` at `b`:

`a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 - sum_(i=1)^(n) x_i sum_(i=1)^(n ) x_iy_i) (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.1)

`b = frac(n sum_(i=1)^(n) x_iy_i - sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^ (n) x_i^2 - (sum_(i=1)^(n) x_i)^2)` (3.2)

Ang mga formula na ito ay may mga solusyon kapag `n > 1` (ang linya ay maaaring iguhit gamit ang hindi bababa sa 2 puntos) at kapag ang determinant na `D = n sum_(i=1)^(n) x_i^2 — (sum_(i= 1) )^(n) x_i)^2 != 0`, ibig sabihin. kapag ang mga `x_i` na puntos sa eksperimento ay naiiba (ibig sabihin, kapag ang linya ay hindi patayo).

Pagtatantya ng mga error sa coefficients ng regression line

Para sa isang mas tumpak na pagtatantya ng error sa pagkalkula ng mga coefficient na `a` at `b`, isang malaking bilang ng mga pang-eksperimentong punto ay kanais-nais. Kapag `n = 2`, imposibleng matantya ang error ng coefficients, dahil ang tinatayang linya ay kakaibang dadaan sa dalawang punto.

Ang error ng random variable na `V` ay tinutukoy batas ng akumulasyon ng pagkakamali
`S_V^2 = sum_(i=1)^p (frac(partial f)(partial z_i))^2 S_(z_i)^2`,
kung saan ang `p` ay ang bilang ng mga parameter ng `z_i` na may error na `S_(z_i)` na nakakaapekto sa error na `S_V`;
Ang `f` ay isang dependency function ng `V` sa `z_i`.

Isulat natin ang batas ng akumulasyon ng mga pagkakamali para sa pagkakamali ng mga coefficient na `a` at `b`
`S_a^2 = sum_(i=1)^(n)(frac(partial a)(partial y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(partial a )(partial x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(partial a)(partial y_i))^2 `,
`S_b^2 = sum_(i=1)^(n)(frac(partial b)(partial y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(partial b )(partial x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(partial b)(partial y_i))^2 `,
kasi `S_(x_i)^2 = 0` (nauna kaming gumawa ng reserbasyon na ang error ng `x` ay bale-wala).

`S_y^2 = S_(y_i)^2` - ang error (variance, squared standard deviation) sa `y` na dimensyon, kung ipagpalagay na ang error ay pare-pareho para sa lahat ng `y` value.

Ang pagpapalit ng mga formula para sa pagkalkula ng `a` at `b` sa mga resultang expression, nakukuha namin

`S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 - x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2) sum_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i - sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

Sa karamihan ng mga totoong eksperimento, ang halaga ng `Sy` ay hindi sinusukat. Upang gawin ito, kinakailangan na magsagawa ng ilang magkakatulad na sukat (mga eksperimento) sa isa o ilang mga punto ng plano, na nagpapataas ng oras (at posibleng gastos) ng eksperimento. Samakatuwid, karaniwang ipinapalagay na ang paglihis ng `y` mula sa linya ng regression ay maaaring ituring na random. Ang variance estimate `y` sa kasong ito ay kinakalkula ng formula.

`S_y^2 = S_(y, pahinga)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

Lumilitaw ang divisor na `n-2` dahil binawasan namin ang bilang ng mga degree ng kalayaan dahil sa pagkalkula ng dalawang coefficient para sa parehong sample ng pang-eksperimentong data.

Ang pagtatantya na ito ay tinatawag ding natitirang variance na nauugnay sa linya ng regression `S_(y, rest)^2`.

Ang pagtatasa ng kahalagahan ng mga coefficient ay isinasagawa ayon sa pamantayan ng Mag-aaral

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

Kung ang nakalkulang pamantayan `t_a`, `t_b` ay mas mababa sa pamantayan ng talahanayan `t(P, n-2)`, kung gayon ay ituturing na ang kaukulang coefficient ay hindi gaanong naiiba sa zero na may ibinigay na probabilidad na `P`.

Upang masuri ang kalidad ng paglalarawan ng isang linear na relasyon, maaari mong ihambing ang `S_(y, rest)^2` at `S_(bar y)` na nauugnay sa mean gamit ang Fisher criterion.

`S_(bar y) = frac(sum_(i=1)^n (y_i - bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i - (sum_(i=) 1)^n y_i) /n)^2) (n-1)` - sample na pagtatantya ng variance ng `y` na nauugnay sa mean.

Upang suriin ang pagiging epektibo ng equation ng regression para sa paglalarawan ng dependence, kinakalkula ang Fisher coefficient
`F = S_(bar y) / S_(y, pahinga)^2`,
na kung saan ay inihambing sa tabular Fisher coefficient `F(p, n-1, n-2)`.

Kung `F > F(P, n-1, n-2)`, ang pagkakaiba sa pagitan ng paglalarawan ng dependence `y = f(x)` gamit ang regression equation at ang paglalarawan gamit ang mean ay itinuturing na makabuluhang istatistika na may posibilidad `P`. Yung. inilalarawan ng regression ang dependence na mas mahusay kaysa sa pagkalat ng `y` sa paligid ng mean.

Mag-click sa tsart
upang magdagdag ng mga halaga sa talahanayan

Pinakamababang parisukat na pamamaraan. Ang paraan ng hindi bababa sa mga parisukat ay nangangahulugan ng pagpapasiya ng hindi kilalang mga parameter a, b, c, ang tinatanggap na functional dependence

Ang paraan ng hindi bababa sa mga parisukat ay nangangahulugan ng pagpapasiya ng hindi kilalang mga parameter a, b, c,... tinatanggap na functional dependence

y = f(x,a,b,c,…),

na magbibigay ng minimum ng mean square (variance) ng error

, (24)

kung saan x i , y i - set ng mga pares ng mga numero na nakuha mula sa eksperimento.

Dahil ang kundisyon para sa extremum ng isang function ng ilang variable ay ang kundisyon na ang mga partial derivatives nito ay katumbas ng zero, kung gayon ang mga parameter a, b, c,... ay tinutukoy mula sa sistema ng mga equation:

; ; ; … (25)

Dapat tandaan na ang paraan ng hindi bababa sa mga parisukat ay ginagamit upang pumili ng mga parameter pagkatapos ng anyo ng function y = f(x) tinukoy.

Kung mula sa mga teoretikal na pagsasaalang-alang imposibleng gumawa ng anumang mga konklusyon tungkol sa kung ano ang dapat na empirikal na pormula, kung gayon ang isa ay kailangang magabayan ng mga visual na representasyon, pangunahin ang isang graphical na representasyon ng naobserbahang data.

Sa pagsasagawa, kadalasang limitado sa mga sumusunod na uri ng pag-andar:

1) linear ;

2) parisukat a .

Pinakamababang parisukat na pamamaraan

Sa huling aralin ng paksa, makikilala natin ang pinakatanyag na aplikasyon FNP, na nakakahanap ng pinakamalawak na aplikasyon sa iba't ibang larangan ng agham at kasanayan. Ito ay maaaring pisika, kimika, biology, ekonomiya, sosyolohiya, sikolohiya at iba pa at iba pa. Sa pamamagitan ng kalooban ng kapalaran, madalas kong kailangang harapin ang ekonomiya, at samakatuwid ngayon ay mag-aayos ako para sa iyo ng isang tiket sa isang kamangha-manghang bansa na tinatawag na Econometrics=) … Paanong ayaw mo niyan?! Napakaganda doon - kailangan mo lang magdesisyon! …Ngunit ang malamang na gusto mo ay matutunan kung paano lutasin ang mga problema hindi bababa sa mga parisukat. At lalo na ang masigasig na mga mambabasa ay matututong lutasin ang mga ito hindi lamang nang tumpak, ngunit napakabilis din ;-) Ngunit una pangkalahatang pahayag ng problema+ kaugnay na halimbawa:

Hayaang pag-aralan ang mga indicator sa ilang subject area na may quantitative expression. Kasabay nito, mayroong bawat dahilan upang maniwala na ang tagapagpahiwatig ay nakasalalay sa tagapagpahiwatig. Ang pagpapalagay na ito ay maaaring parehong siyentipikong hypothesis at batay sa elementarya na sentido komun. Iwanan natin ang agham, gayunpaman, at tuklasin ang higit pang mga lugar na kasiya-siya - ibig sabihin, mga grocery store. Ipahiwatig sa pamamagitan ng:

– retail space ng isang grocery store, sq.m.,
- taunang turnover ng isang grocery store, milyong rubles.

Malinaw na mas malaki ang lugar ng tindahan, mas malaki ang turnover nito sa karamihan ng mga kaso.

Ipagpalagay na pagkatapos magsagawa ng mga obserbasyon / mga eksperimento / mga kalkulasyon / pagsasayaw gamit ang isang tamburin, mayroon kami sa aming pagtatapon ng numerical data:

Sa mga grocery store, sa palagay ko ang lahat ay malinaw: - ito ang lugar ng 1st store, - ang taunang turnover nito, - ang lugar ng 2nd store, - ang taunang turnover nito, atbp. Sa pamamagitan ng paraan, hindi kinakailangan na magkaroon ng access sa mga classified na materyales - ang isang medyo tumpak na pagtatasa ng turnover ay maaaring makuha gamit ang mga istatistika ng matematika. Gayunpaman, huwag magambala, ang kurso ng komersyal na espiya ay binabayaran na =)

Ang data ng tabular ay maaari ding isulat sa anyo ng mga puntos at ilarawan sa karaniwang paraan para sa atin. Sistema ng Cartesian .

Sagutin natin ang isang mahalagang tanong: ilang puntos ang kailangan para sa isang qualitative study?

Ang mas malaki, mas mabuti. Ang minimum na tinatanggap na set ay binubuo ng 5-6 puntos. Bilang karagdagan, na may maliit na halaga ng data, hindi dapat isama ang mga "abnormal" na resulta sa sample. Kaya, halimbawa, ang isang maliit na elite na tindahan ay maaaring makatulong sa mga order ng magnitude higit pa sa "kanilang mga kasamahan", at sa gayon ay distorting ang pangkalahatang pattern na kailangang matagpuan!



Kung ito ay medyo simple, kailangan nating pumili ng isang function, iskedyul na pumasa nang mas malapit hangga't maaari sa mga puntos . Ang ganitong function ay tinatawag tinatantiya (approximation - approximation) o teoretikal na pag-andar . Sa pangkalahatan, dito agad lumilitaw ang isang halatang "nagpapanggap" - isang polynomial na may mataas na antas, ang graph kung saan dumadaan sa LAHAT ng mga puntos. Ngunit ang pagpipiliang ito ay kumplikado, at kadalasan ay hindi tama. (dahil ang tsart ay "hangin" sa lahat ng oras at hindi maganda ang sumasalamin sa pangunahing trend).

Kaya, ang nais na pag-andar ay dapat na sapat na simple at sa parehong oras ay sumasalamin sa pag-asa nang sapat. Tulad ng maaari mong hulaan, ang isa sa mga pamamaraan para sa paghahanap ng mga naturang function ay tinatawag hindi bababa sa mga parisukat. Una, suriin natin ang kakanyahan nito sa pangkalahatang paraan. Hayaan ang ilang function na humigit-kumulang sa pang-eksperimentong data:


Paano suriin ang katumpakan ng pagtatantya na ito? Kalkulahin din natin ang mga pagkakaiba (mga deviation) sa pagitan ng mga pang-eksperimentong at functional na halaga (pinag-aaralan namin ang pagguhit). Ang unang naiisip na pumasok sa isip ay ang tantiyahin kung gaano kalaki ang kabuuan, ngunit ang problema ay ang mga pagkakaiba ay maaaring negatibo. (Halimbawa, ) at ang mga paglihis bilang resulta ng naturang pagsusuma ay magkakansela sa isa't isa. Samakatuwid, bilang isang pagtatantya ng katumpakan ng pagtatantya, iminumungkahi nito ang sarili nitong kunin ang kabuuan mga module mga paglihis:

o sa nakatiklop na anyo: (para sa mga hindi nakakaalam: ay ang sum icon, at - auxiliary variable - "counter", na kumukuha ng mga halaga mula 1 hanggang ) .

Tinatantiya ang mga pang-eksperimentong punto na may iba't ibang mga pag-andar, makakakuha tayo ng iba't ibang mga halaga, at malinaw kung saan mas mababa ang kabuuan na ito - mas tumpak ang pagpapaandar na iyon.

Ang ganitong paraan ay umiiral at tinatawag hindi bababa sa modulus na pamamaraan. Gayunpaman, sa pagsasagawa ito ay naging mas laganap. hindi bababa sa parisukat na pamamaraan, kung saan ang mga posibleng negatibong halaga ay inalis hindi ng modulus, ngunit sa pamamagitan ng pag-squaring ng mga deviations:



, pagkatapos kung saan ang mga pagsisikap ay nakadirekta sa pagpili ng naturang function na ang kabuuan ng mga squared deviations ay kasing liit hangga't maaari. Sa totoo lang, kaya ang pangalan ng pamamaraan.

At ngayon bumalik kami sa isa pang mahalagang punto: tulad ng nabanggit sa itaas, ang napiling function ay dapat na medyo simple - ngunit mayroon ding maraming mga naturang pag-andar: linear , hyperbolic , exponential , logarithmic , parisukat atbp. At, siyempre, dito gusto ko agad na "bawasan ang larangan ng aktibidad." Anong klase ng mga function ang pipiliin para sa pananaliksik? Primitive ngunit epektibong pamamaraan:

- Ang pinakamadaling paraan upang gumuhit ng mga puntos sa pagguhit at pag-aralan ang kanilang lokasyon. Kung sila ay nasa isang tuwid na linya, dapat mong hanapin straight line equation na may pinakamainam na halaga at . Sa madaling salita, ang gawain ay upang mahanap ang GANITONG mga coefficient - upang ang kabuuan ng mga squared deviations ay ang pinakamaliit.

Kung ang mga punto ay matatagpuan, halimbawa, kasama hyperbole, pagkatapos ay malinaw na ang linear function ay magbibigay ng hindi magandang approximation. Sa kasong ito, hinahanap namin ang pinaka "kanais-nais" na mga coefficient para sa hyperbola equation - ang mga nagbibigay ng pinakamababang kabuuan ng mga parisukat .

Ngayon pansinin na sa parehong mga kaso ang pinag-uusapan natin mga function ng dalawang variable, na ang mga argumento ay naghanap ng mga opsyon sa dependency:

At sa esensya, kailangan nating lutasin ang isang karaniwang problema - upang mahanap minimum ng isang function ng dalawang variable.

Alalahanin ang aming halimbawa: ipagpalagay na ang mga punto ng "shop" ay malamang na matatagpuan sa isang tuwid na linya at mayroong lahat ng dahilan upang maniwala sa presensya linear dependence turnover mula sa lugar ng kalakalan. Hanapin natin ang MGA GANITONG coefficient na "a" at "be" upang ang kabuuan ng mga squared deviations ay ang pinakamaliit. Lahat gaya ng dati - una mga partial derivatives ng 1st order. Ayon kay tuntunin ng linearity maaari kang mag-iba sa ilalim mismo ng icon ng kabuuan:

Kung nais mong gamitin ang impormasyong ito para sa isang sanaysay o coursework, ako ay lubos na nagpapasalamat para sa link sa listahan ng mga mapagkukunan, hindi ka makakahanap ng ganoong detalyadong mga kalkulasyon kahit saan:

Gumawa tayo ng isang karaniwang sistema:

Binabawasan namin ang bawat equation ng "dalawa" at, bilang karagdagan, "paghiwa-hiwalayin" ang mga kabuuan:

Tandaan : nakapag-iisa na pag-aralan kung bakit maaaring alisin ang "a" at "be" sa icon ng kabuuan. Sa pamamagitan ng paraan, pormal na ito ay maaaring gawin sa kabuuan

Isulat muli natin ang system sa isang "inilapat" na form:

pagkatapos kung saan ang algorithm para sa paglutas ng aming problema ay nagsisimulang iguguhit:

Alam ba natin ang mga coordinate ng mga puntos? Alam namin. Sums mahahanap natin? Madali. Binubuo namin ang pinakasimpleng sistema ng dalawang linear na equation na may dalawang hindi alam("a" at "beh"). Niresolba namin ang sistema, halimbawa, Pamamaraan ni Cramer, na nagreresulta sa isang nakatigil na punto . Sinusuri sapat na kondisyon para sa isang extremum, maaari naming i-verify na sa puntong ito ang function tumpak na umabot pinakamababa. Ang pag-verify ay nauugnay sa mga karagdagang kalkulasyon at samakatuwid ay iiwan namin ito sa likod ng mga eksena. (kung kinakailangan, ang nawawalang frame ay maaaring tingnandito ) . Ginagawa namin ang pangwakas na konklusyon:

Function ang pinakamahusay na paraan (hindi bababa sa kumpara sa anumang iba pang linear function) pinalalapit ang mga pang-eksperimentong punto . Sa halos pagsasalita, ang graph nito ay pumasa nang mas malapit hangga't maaari sa mga puntong ito. Sa tradisyon econometrics ang resultang approximating function ay tinatawag din ipinares na linear regression equation .

Ang problemang isinasaalang-alang ay may malaking praktikal na kahalagahan. Sa sitwasyon sa ating halimbawa, ang equation nagbibigay-daan sa iyo upang mahulaan kung anong uri ng turnover ("yig") ay nasa tindahan na may isa o ibang halaga ng lugar ng pagbebenta (isa o ibang kahulugan ng "x"). Oo, ang magreresultang hula ay magiging isang hula lamang, ngunit sa maraming mga kaso ito ay magiging tumpak.

Susuriin ko lamang ang isang problema sa "tunay" na mga numero, dahil walang mga paghihirap dito - lahat ng mga kalkulasyon ay nasa antas ng kurikulum ng paaralan sa mga baitang 7-8. Sa 95 porsiyento ng mga kaso, hihilingin sa iyo na maghanap lamang ng isang linear na function, ngunit sa pinakadulo ng artikulo ay ipapakita ko na hindi na mahirap hanapin ang mga equation para sa pinakamainam na hyperbola, exponent, at ilang iba pang mga function.

Sa katunayan, nananatili itong ipamahagi ang mga ipinangakong goodies - upang matutunan mo kung paano malutas ang mga naturang halimbawa hindi lamang tumpak, ngunit mabilis din. Maingat naming pinag-aaralan ang pamantayan:

Gawain

Bilang resulta ng pag-aaral ng ugnayan sa pagitan ng dalawang tagapagpahiwatig, ang mga sumusunod na pares ng mga numero ay nakuha:

Gamit ang paraan ng least squares, hanapin ang linear function na pinakamahusay na tinatantya ang empirical (nakaranas) datos. Gumawa ng isang guhit kung saan, sa isang Cartesian rectangular coordinate system, mag-plot ng mga pang-eksperimentong punto at isang graph ng approximating function. . Hanapin ang kabuuan ng mga squared deviations sa pagitan ng empirical at theoretical na mga halaga. Alamin kung ang function ay mas mahusay (sa mga tuntunin ng paraan ng least squares) tinatayang mga pang-eksperimentong punto.

Tandaan na ang mga "x" na halaga ay mga likas na halaga, at ito ay may katangian na makabuluhang kahulugan, na tatalakayin ko sa ibang pagkakataon; ngunit sila, siyempre, ay maaaring maging fractional. Bilang karagdagan, depende sa nilalaman ng isang partikular na gawain, ang parehong "X" at "G" na mga halaga ay maaaring ganap o bahagyang negatibo. Buweno, binigyan kami ng isang "walang mukha" na gawain, at sinimulan namin ito desisyon:

Nahanap namin ang mga coefficient ng pinakamainam na function bilang isang solusyon sa system:

Para sa mga layunin ng isang mas compact na notation, ang "counter" na variable ay maaaring tanggalin, dahil ito ay malinaw na na ang pagsusuma ay isinasagawa mula 1 hanggang .

Ito ay mas maginhawa upang kalkulahin ang mga kinakailangang halaga sa isang tabular form:


Maaaring isagawa ang mga kalkulasyon sa isang microcalculator, ngunit mas mahusay na gumamit ng Excel - parehong mas mabilis at walang mga error; manood ng maikling video:

Kaya, nakukuha namin ang sumusunod sistema:

Dito maaari mong i-multiply ang pangalawang equation sa 3 at ibawas ang 2nd mula sa 1st equation term sa pamamagitan ng term. Ngunit ito ay swerte - sa pagsasagawa, ang mga sistema ay madalas na hindi likas na matalino, at sa mga ganitong kaso nakakatipid ito Pamamaraan ni Cramer:
, kaya ang system ay may natatanging solusyon.

Suriin natin. Naiintindihan ko na ayaw ko, ngunit bakit laktawan ang mga pagkakamali kung saan talagang hindi mo makaligtaan ang mga ito? Palitan ang nahanap na solusyon sa kaliwang bahagi ng bawat equation ng system:

Ang mga tamang bahagi ng kaukulang mga equation ay nakuha, na nangangahulugan na ang sistema ay nalutas nang tama.

Kaya, ang gustong approximating function: – mula sa lahat ng linear function Ang pang-eksperimentong data ay pinakamahusay na tinatantya nito.

Unlike tuwid dependence ng turnover ng tindahan sa lugar nito, ang nahanap na dependence ay reverse (prinsipyo "mas marami - mas kaunti"), at ang katotohanang ito ay agad na inihayag ng negatibo angular coefficient. Function nagpapaalam sa amin na sa pagtaas ng isang tiyak na tagapagpahiwatig ng 1 yunit, ang halaga ng umaasa na tagapagpahiwatig ay bumababa karaniwan ng 0.65 units. Tulad ng sinasabi nila, mas mataas ang presyo ng bakwit, mas mababa ang ibinebenta.

Upang i-plot ang approximating function, makikita namin ang dalawa sa mga value nito:

at isagawa ang pagguhit:

Ang itinayong linya ay tinatawag linya ng trend (ibig sabihin, isang linear trend line, ibig sabihin, sa pangkalahatang kaso, ang isang trend ay hindi nangangahulugang isang tuwid na linya). Ang bawat isa ay pamilyar sa pananalitang "maging nasa trend", at sa palagay ko ang terminong ito ay hindi nangangailangan ng karagdagang mga komento.

Kalkulahin ang kabuuan ng mga squared deviations sa pagitan ng empirical at theoretical values. Sa geometriko, ito ang kabuuan ng mga parisukat ng mga haba ng mga segment na "pulang-pula". (dalawa sa mga ito ay napakaliit na hindi mo makita ang mga ito).

Ibuod natin ang mga kalkulasyon sa isang talahanayan:


Maaari silang muling maisagawa nang manu-mano, kung sakaling magbibigay ako ng isang halimbawa para sa unang punto:

ngunit mas mahusay na gawin ang alam nang paraan:

Ulitin natin: ano ang kahulugan ng resulta? Mula sa lahat ng linear function function ang exponent ay ang pinakamaliit, iyon ay, ito ang pinakamahusay na approximation sa pamilya nito. At dito, sa pamamagitan ng paraan, ang huling tanong ng problema ay hindi sinasadya: paano kung ang iminungkahing exponential function mas mabuti bang tantiyahin ang mga pang-eksperimentong punto?

Hanapin natin ang katumbas na kabuuan ng mga squared deviations - upang makilala ang mga ito, itatalaga ko ang mga ito sa titik na "epsilon". Ang pamamaraan ay eksaktong pareho:


At muli para sa bawat pagkalkula ng sunog para sa 1st point:

Sa Excel, ginagamit namin ang karaniwang function EXP (Matatagpuan ang syntax sa Excel Help).

Konklusyon: , kaya tinatantya ng exponential function ang mga pang-eksperimentong puntos na mas malala kaysa sa tuwid na linya .

Ngunit dapat tandaan dito na ang "mas malala" ay hindi pa ibig sabihin, ano ang mali. Ngayon ay gumawa ako ng graph ng exponential function na ito - at pumasa din ito malapit sa mga puntos - kaya't kung walang analytical na pag-aaral ay mahirap sabihin kung aling function ang mas tumpak.

Nakumpleto nito ang solusyon, at bumalik ako sa tanong ng mga natural na halaga ng argumento. Sa iba't ibang pag-aaral, bilang panuntunan, pang-ekonomiya o sosyolohikal, mga buwan, taon o iba pang pantay na agwat ng oras ay binibilang ng natural na "X". Isaalang-alang, halimbawa, ang sumusunod na problema:

Mayroon kaming sumusunod na data sa retail turnover ng tindahan para sa unang kalahati ng taon:

Gamit ang straight line analytical alignment, hanapin ang dami ng benta para sa Hulyo.

Oo, walang problema: binibilang namin ang mga buwan 1, 2, 3, 4, 5, 6 at ginagamit ang karaniwang algorithm, bilang isang resulta kung saan nakakakuha kami ng isang equation - ang tanging bagay pagdating sa oras ay karaniwang ang titik na "te ” (bagaman hindi ito kritikal). Ang resultang equation ay nagpapakita na sa unang kalahati ng taon, ang turnover ay tumaas ng average na CU 27.74. kada buwan. Kumuha ng forecast para sa Hulyo (buwan #7): e.u.

At katulad na mga gawain - ang kadiliman ay madilim. Ang mga nais ay maaaring gumamit ng karagdagang serbisyo, katulad ng aking Excel calculator (demo na bersyon), na malulutas ang problema halos kaagad! Ang gumaganang bersyon ng programa ay magagamit sa kapalit o para sa simbolikong pagbabayad.

Sa pagtatapos ng aralin, isang maikling impormasyon tungkol sa paghahanap ng mga dependency ng ilang iba pang mga uri. Sa totoo lang, walang espesyal na sasabihin, dahil ang pangunahing diskarte at solusyon algorithm ay nananatiling pareho.

Ipagpalagay natin na ang lokasyon ng mga eksperimentong punto ay kahawig ng isang hyperbola. Pagkatapos, upang mahanap ang mga coefficient ng pinakamahusay na hyperbola, kailangan mong hanapin ang minimum ng function - ang mga nais ay maaaring magsagawa ng mga detalyadong kalkulasyon at pumunta sa isang katulad na sistema:

Mula sa isang pormal na teknikal na punto ng view, ito ay nakuha mula sa "linear" na sistema (markahan natin ito ng asterisk) pinapalitan ang "x" ng . Well, ang dami kalkulahin, pagkatapos nito sa pinakamainam na coefficients "a" at "be" nasa kamay.

Kung mayroong bawat dahilan upang maniwala na ang mga puntos ay nakaayos sa isang logarithmic curve, pagkatapos ay upang maghanap para sa pinakamainam na mga halaga at hanapin ang minimum ng function . Sa pormal, sa system (*) ay dapat palitan ng:

Kapag nagkalkula sa Excel, gamitin ang function LN. Inaamin ko na hindi magiging mahirap para sa akin na lumikha ng mga calculator para sa bawat isa sa mga kaso na isinasaalang-alang, ngunit mas mabuti pa rin kung ikaw mismo ang "mag-program" ng mga kalkulasyon. Mga video tutorial upang makatulong.

Sa exponential dependence, ang sitwasyon ay bahagyang mas kumplikado. Upang bawasan ang bagay sa linear case, kinukuha namin ang logarithm ng function at paggamit mga katangian ng logarithm:

Ngayon, ang paghahambing ng nakuha na function sa linear function , dumating kami sa konklusyon na sa system (*) ay dapat mapalitan ng , at - ng . Para sa kaginhawahan, tinutukoy namin ang:

Mangyaring tandaan na ang sistema ay nalutas na may paggalang sa at , at samakatuwid, pagkatapos mahanap ang mga ugat, hindi mo dapat kalimutang hanapin ang koepisyent mismo.

Upang tantiyahin ang mga pang-eksperimentong punto pinakamainam na parabola , dapat matagpuan minimum ng isang function ng tatlong variable . Pagkatapos magsagawa ng mga karaniwang aksyon, nakukuha namin ang sumusunod na "gumagana" sistema:

Oo, siyempre, mayroong higit pang mga halaga dito, ngunit walang mga paghihirap sa lahat kapag ginagamit ang iyong paboritong application. At sa wakas, sasabihin ko sa iyo kung paano mabilis na suriin gamit ang Excel at bumuo ng nais na linya ng trend: lumikha ng isang scatter chart, piliin ang alinman sa mga punto gamit ang mouse at i-right click piliin ang opsyon "Magdagdag ng trendline". Susunod, piliin ang uri ng tsart at sa tab "Mga Pagpipilian" buhayin ang opsyon "Ipakita ang equation sa chart". OK

Gaya ng dati, gusto kong tapusin ang artikulo sa ilang magagandang parirala, at halos i-type ko ang "Maging trend!". Ngunit sa paglipas ng panahon ay nagbago ang isip niya. At hindi dahil ito ay formulaic. I don't know how anyone, but I don't want to follow the promoted American and especially European trend at all =) Samakatuwid, nais ko ang bawat isa sa inyo na manatili sa inyong sariling linya!

http://www.grandars.ru/student/vysshaya-matematika/metod-naimenshih-kvadratov.html

Ang pamamaraan ng hindi bababa sa mga parisukat ay isa sa mga pinaka-karaniwan at pinaka-binuo dahil sa nito pagiging simple at kahusayan ng mga pamamaraan para sa pagtantya ng mga parameter ng mga linear econometric na modelo. Kasabay nito, ang ilang pag-iingat ay dapat sundin kapag ginagamit ito, dahil ang mga modelo na binuo gamit ito ay maaaring hindi nakakatugon sa isang bilang ng mga kinakailangan para sa kalidad ng kanilang mga parameter at, bilang isang resulta, hindi "mahusay" na sumasalamin sa mga pattern ng pag-unlad ng proseso.

Isaalang-alang natin ang pamamaraan para sa pagtatantya ng mga parameter ng isang linear econometric model gamit ang least squares method nang mas detalyado. Ang ganitong modelo sa pangkalahatang anyo ay maaaring katawanin ng equation (1.2):

y t = a 0 + a 1 x 1t +...+ a n x nt + ε t .

Ang paunang data kapag tinatantya ang mga parameter a 0 , a 1 ,..., a n ay ang vector ng mga halaga ng dependent variable y= (y 1 , y 2 , ... , y T)" at ang matrix ng mga halaga ng mga independiyenteng variable

kung saan ang unang column, na binubuo ng mga, ay tumutugma sa koepisyent ng modelo .

Ang pamamaraan ng hindi bababa sa mga parisukat ay nakuha ang pangalan nito batay sa pangunahing prinsipyo na ang mga pagtatantya ng parameter na nakuha sa batayan nito ay dapat matugunan: ang kabuuan ng mga parisukat ng error sa modelo ay dapat na minimal.

Mga halimbawa ng paglutas ng mga problema sa pamamaraang least squares

Halimbawa 2.1. Ang negosyo ng kalakalan ay may isang network na binubuo ng 12 mga tindahan, ang impormasyon sa mga aktibidad na kung saan ay ipinakita sa Talahanayan. 2.1.

Nais malaman ng pamamahala ng kumpanya kung paano nakadepende ang laki ng taunang turnover sa retail space ng tindahan.

Talahanayan 2.1

Numero ng tindahan Taunang turnover, milyong rubles Lugar ng kalakalan, libong m 2
19,76 0,24
38,09 0,31
40,95 0,55
41,08 0,48
56,29 0,78
68,51 0,98
75,01 0,94
89,05 1,21
91,13 1,29
91,26 1,12
99,84 1,29
108,55 1,49

Pinakamababang mga parisukat na solusyon. Italaga natin - ang taunang turnover ng -th store, milyong rubles; - lugar ng pagbebenta ng ika-store, thousand m 2.

Fig.2.1. Scatterplot para sa Halimbawa 2.1

Upang matukoy ang anyo ng functional na relasyon sa pagitan ng mga variable at bumuo ng isang scatterplot (Larawan 2.1).

Batay sa scatter diagram, maaari nating tapusin na ang taunang turnover ay positibong nakadepende sa lugar ng pagbebenta (ibig sabihin, tataas ang y sa paglago ng ). Ang pinaka-angkop na paraan ng functional na koneksyon ay linear.

Ang impormasyon para sa karagdagang mga kalkulasyon ay ipinakita sa Talahanayan. 2.2. Gamit ang paraan ng least squares, tinatantya namin ang mga parameter ng linear one-factor econometric model

Talahanayan 2.2

t y t x 1t y t 2 x1t2 x 1t y t
19,76 0,24 390,4576 0,0576 4,7424
38,09 0,31 1450,8481 0,0961 11,8079
40,95 0,55 1676,9025 0,3025 22,5225
41,08 0,48 1687,5664 0,2304 19,7184
56,29 0,78 3168,5641 0,6084 43,9062
68,51 0,98 4693,6201 0,9604 67,1398
75,01 0,94 5626,5001 0,8836 70,5094
89,05 1,21 7929,9025 1,4641 107,7505
91,13 1,29 8304,6769 1,6641 117,5577
91,26 1,12 8328,3876 1,2544 102,2112
99,84 1,29 9968,0256 1,6641 128,7936
108,55 1,49 11783,1025 2,2201 161,7395
S 819,52 10,68 65008,554 11,4058 858,3991
Ang karaniwan 68,29 0,89

kaya,

Samakatuwid, na may pagtaas sa lugar ng pangangalakal ng 1 libong m 2, ang iba pang mga bagay ay pantay, ang average na taunang turnover ay tumataas ng 67.8871 milyong rubles.

Halimbawa 2.2. Napansin ng pamamahala ng negosyo na ang taunang turnover ay nakasalalay hindi lamang sa lugar ng pagbebenta ng tindahan (tingnan ang halimbawa 2.1), kundi pati na rin sa average na bilang ng mga bisita. Ang nauugnay na impormasyon ay ipinakita sa talahanayan. 2.3.

Talahanayan 2.3

Desisyon. Tukuyin - ang average na bilang ng mga bisita sa ika na tindahan bawat araw, libong tao.

Upang matukoy ang anyo ng functional na relasyon sa pagitan ng mga variable at bumuo ng isang scatterplot (Larawan 2.2).

Batay sa scatter diagram, maaari nating tapusin na ang taunang turnover ay positibong nauugnay sa average na bilang ng mga bisita bawat araw (ibig sabihin, tataas ang y sa paglago ng ). Ang anyo ng functional dependence ay linear.

kanin. 2.2. Scatterplot halimbawa 2.2

Talahanayan 2.4

t x 2t x 2t 2 yt x 2t x 1t x 2t
8,25 68,0625 163,02 1,98
10,24 104,8575 390,0416 3,1744
9,31 86,6761 381,2445 5,1205
11,01 121,2201 452,2908 5,2848
8,54 72,9316 480,7166 6,6612
7,51 56,4001 514,5101 7,3598
12,36 152,7696 927,1236 11,6184
10,81 116,8561 962,6305 13,0801
9,89 97,8121 901,2757 12,7581
13,72 188,2384 1252,0872 15,3664
12,27 150,5529 1225,0368 15,8283
13,92 193,7664 1511,016 20,7408
S 127,83 1410,44 9160,9934 118,9728
Katamtaman 10,65

Sa pangkalahatan, kinakailangan upang matukoy ang mga parameter ng two-factor econometric model

y t \u003d a 0 + a 1 x 1t + a 2 x 2t + ε t

Ang impormasyong kinakailangan para sa karagdagang mga kalkulasyon ay ipinakita sa Talahanayan. 2.4.

Tantyahin natin ang mga parameter ng isang linear na two-factor econometric model gamit ang least squares method.

kaya,

Ang pagsusuri ng koepisyent = 61.6583 ay nagpapakita na, ang lahat ng iba pang mga bagay ay pantay, na may pagtaas sa lugar ng pagbebenta ng 1 libong m 2, ang taunang paglilipat ay tataas ng isang average na 61.6583 milyong rubles.

Ang pagtatantya ng koepisyent = 2.2748 ay nagpapakita na, ang iba pang mga bagay ay pantay, na may pagtaas sa average na bilang ng mga bisita sa bawat 1 libong tao. bawat araw, ang taunang turnover ay tataas ng average na 2.2748 milyong rubles.

Halimbawa 2.3. Gamit ang impormasyong ipinakita sa talahanayan. 2.2 at 2.4, tantyahin ang parameter ng isang single-factor econometric model

kung saan ang nakasentro na halaga ng taunang turnover ng -th store, milyong rubles; - nakasentro na halaga ng average na pang-araw-araw na bilang ng mga bisita sa t-th store, libong tao. (tingnan ang mga halimbawa 2.1-2.2).

Desisyon. Ang karagdagang impormasyon na kinakailangan para sa mga kalkulasyon ay ipinakita sa Talahanayan. 2.5.

Talahanayan 2.5

-48,53 -2,40 5,7720 116,6013
-30,20 -0,41 0,1702 12,4589
-27,34 -1,34 1,8023 36,7084
-27,21 0,36 0,1278 -9,7288
-12,00 -2,11 4,4627 25,3570
0,22 -3,14 9,8753 -0,6809
6,72 1,71 2,9156 11,4687
20,76 0,16 0,0348 3,2992
22,84 -0,76 0,5814 -17,413
22,97 3,07 9,4096 70,4503
31,55 1,62 2,6163 51,0267
40,26 3,27 10,6766 131,5387
Sum 48,4344 431,0566

Gamit ang formula (2.35), nakukuha natin

kaya,

http://www.cleverstudents.ru/articles/mnk.html

Halimbawa.

Pang-eksperimentong data sa mga halaga ng mga variable X at sa ay ibinigay sa talahanayan.

Bilang resulta ng kanilang pagkakahanay, ang pag-andar

Gamit hindi bababa sa parisukat na pamamaraan, tantiyahin ang mga data na ito na may linear na dependence y=ax+b(hanapin ang mga pagpipilian a at b). Alamin kung alin sa dalawang linya ang mas mahusay (sa kahulugan ng pinakamaliit na paraan ng mga parisukat) ang nakahanay sa pang-eksperimentong data. Gumawa ng isang guhit.

Desisyon.

Sa ating halimbawa n=5. Pinupuno namin ang talahanayan para sa kaginhawaan ng pagkalkula ng mga halaga na kasama sa mga formula ng mga kinakailangang coefficient.

Ang mga halaga sa ika-apat na hilera ng talahanayan ay nakuha sa pamamagitan ng pagpaparami ng mga halaga ng ika-2 hilera sa mga halaga ng ika-3 hilera para sa bawat numero i.

Ang mga halaga sa ikalimang hilera ng talahanayan ay nakuha sa pamamagitan ng pag-square ng mga halaga ng ika-2 hilera para sa bawat numero i.

Ang mga halaga ng huling hanay ng talahanayan ay ang mga kabuuan ng mga halaga sa mga hilera.

Ginagamit namin ang mga formula ng pinakamaliit na paraan ng mga parisukat upang mahanap ang mga coefficient a at b. Pinapalitan namin sa kanila ang kaukulang mga halaga mula sa huling hanay ng talahanayan:

Kaya naman, y=0.165x+2.184 ay ang nais na tinatayang tuwid na linya.

Ito ay nananatiling alamin kung alin sa mga linya y=0.165x+2.184 o mas mahusay na tinatantya ang orihinal na data, ibig sabihin, gumawa ng pagtatantya gamit ang pamamaraan ng least squares.

Patunay.

Kaya't kapag natagpuan a at b Kinukuha ng function ang pinakamaliit na halaga, kinakailangan na sa puntong ito ang matrix ng quadratic form ng second-order differential para sa function ay tiyak na positibo. Ipakita natin.

Ang second order differential ay may anyo:

I.e

Samakatuwid, ang matrix ng quadratic form ay may anyo

at ang mga halaga ng mga elemento ay hindi nakasalalay sa a at b.

Ipakita natin na ang matrix ay positibong tiyak. Nangangailangan ito na ang anggulo ng mga menor de edad ay positibo.

Angular minor ng unang order . Ang hindi pagkakapantay-pantay ay mahigpit, dahil ang mga puntos

  • panimulang aralin libre;
  • Ang isang malaking bilang ng mga nakaranasang guro (katutubo at nagsasalita ng Ruso);
  • Ang mga kurso ay HINDI para sa isang tiyak na panahon (buwan, anim na buwan, taon), ngunit para sa isang tiyak na bilang ng mga aralin (5, 10, 20, 50);
  • Higit sa 10,000 nasiyahang mga customer.
  • Ang halaga ng isang aralin sa isang guro na nagsasalita ng Ruso - mula sa 600 rubles, na may katutubong nagsasalita - mula sa 1500 rubles

Ang kakanyahan ng pamamaraan ng hindi bababa sa mga parisukat ay sa paghahanap ng mga parameter ng trend model na pinakamahusay na naglalarawan sa development trend ng anumang random na phenomenon sa oras o espasyo (ang trend ay isang linya na nagpapakilala sa trend ng development na ito). Ang gawain ng least squares method (OLS) ay ang maghanap hindi lamang ng ilang trend model, ngunit upang mahanap ang pinakamahusay o pinakamainam na modelo. Ang modelong ito ay magiging pinakamainam kung ang kabuuan ng mga parisukat na paglihis sa pagitan ng naobserbahang aktwal na mga halaga at ang kaukulang kinakalkula na mga halaga ng trend ay minimal (pinakamaliit):

kung saan ang standard deviation sa pagitan ng naobserbahang aktwal na halaga

at ang katumbas na kinakalkulang halaga ng trend,

Ang aktwal (naobserbahan) na halaga ng kababalaghan na pinag-aaralan,

Tinantyang halaga ng trend model,

Ang bilang ng mga obserbasyon ng hindi pangkaraniwang bagay na pinag-aaralan.

Ang MNC ay bihirang gamitin sa sarili nitong. Bilang isang patakaran, kadalasan ito ay ginagamit lamang bilang isang kinakailangang pamamaraan sa pag-aaral ng ugnayan. Dapat tandaan na ang batayan ng impormasyon ng LSM ay maaari lamang maging isang maaasahang serye ng istatistika, at ang bilang ng mga obserbasyon ay hindi dapat mas mababa sa 4, kung hindi, ang mga pamamaraan ng pagpapakinis ng LSM ay maaaring mawala ang kanilang sentido komun.

Ang toolkit ng OLS ay binabawasan sa mga sumusunod na pamamaraan:

Unang pamamaraan. Lumalabas kung may anumang ugali na baguhin ang nagreresultang katangian kapag nagbago ang napiling kadahilanan-argument, o sa madaling salita, kung mayroong koneksyon sa pagitan ng " sa "at" X ».

Pangalawang pamamaraan. Tinutukoy kung aling linya (trajectory) ang pinakamahusay na makapaglalarawan o mailalarawan ang kalakaran na ito.

Pangatlong pamamaraan.

Halimbawa. Ipagpalagay na mayroon kaming impormasyon sa average na ani ng sunflower para sa sakahan na pinag-aaralan (Talahanayan 9.1).

Talahanayan 9.1

Numero ng pagmamasid

Produktibo, c/ha

Dahil ang antas ng teknolohiya sa paggawa ng sunflower sa ating bansa ay hindi gaanong nagbago sa nakalipas na 10 taon, nangangahulugan ito na, malamang, ang pagbabagu-bago sa ani sa nasuri na panahon ay lubos na nakasalalay sa mga pagbabago sa panahon at klima. Totoo ba?

Unang pamamaraan ng MNC. Sinusuri ang hypothesis tungkol sa pagkakaroon ng trend sa pagbabago sa ani ng sunflower depende sa mga pagbabago sa lagay ng panahon at klima sa nasuri na 10 taon.

Sa halimbawang ito, para sa " y » ipinapayong kunin ang ani ng mirasol, at para sa « x » ay ang bilang ng naobserbahang taon sa nasuri na panahon. Pagsubok sa hypothesis tungkol sa pagkakaroon ng anumang kaugnayan sa pagitan ng " x "at" y » ay maaaring gawin sa dalawang paraan: mano-mano at sa tulong ng mga programa sa computer. Siyempre, sa pagkakaroon ng teknolohiya ng computer, ang problemang ito ay nalutas sa pamamagitan ng kanyang sarili. Ngunit, upang mas maunawaan ang mga tool ng OLS, ipinapayong subukan ang hypothesis tungkol sa pagkakaroon ng isang relasyon sa pagitan ng " x "at" y » mano-mano, kapag panulat at ordinaryong calculator lamang ang nasa kamay. Sa ganitong mga kaso, ang hypothesis ng pagkakaroon ng isang trend ay pinakamahusay na sinusuri nang biswal sa pamamagitan ng lokasyon ng graphic na imahe ng nasuri na serye ng oras - ang patlang ng ugnayan:

Ang patlang ng ugnayan sa aming halimbawa ay matatagpuan sa paligid ng isang mabagal na pagtaas ng linya. Ito mismo ay nagpapahiwatig ng pagkakaroon ng isang tiyak na kalakaran sa pagbabago sa ani ng mirasol. Imposibleng magsalita tungkol sa pagkakaroon ng anumang trend lamang kapag ang field ng ugnayan ay mukhang isang bilog, isang bilog, isang mahigpit na patayo o mahigpit na pahalang na ulap, o binubuo ng mga random na nakakalat na mga punto. Sa lahat ng iba pang mga kaso, kinakailangan upang kumpirmahin ang hypothesis ng pagkakaroon ng isang relasyon sa pagitan ng " x "at" y at magpatuloy sa pananaliksik.

Pangalawang pamamaraan ng MNC. Tinutukoy kung aling linya (trajectory) ang pinakamahusay na makapaglalarawan o mailalarawan ang trend sa mga pagbabago sa ani ng sunflower para sa nasuri na panahon.

Sa pagkakaroon ng teknolohiya ng computer, awtomatikong nangyayari ang pagpili ng pinakamainam na kalakaran. Sa "manual" na pagproseso, ang pagpili ng pinakamainam na pag-andar ay isinasagawa, bilang panuntunan, sa isang visual na paraan - sa pamamagitan ng lokasyon ng patlang ng ugnayan. Iyon ay, ayon sa uri ng tsart, ang equation ng linya ay pinili, na pinaka-angkop sa empirical trend (sa aktwal na tilapon).

Tulad ng alam mo, sa kalikasan mayroong isang malaking iba't ibang mga functional dependencies, kaya napakahirap na biswal na pag-aralan kahit isang maliit na bahagi ng mga ito. Sa kabutihang palad, sa totoong kasanayan sa ekonomiya, karamihan sa mga relasyon ay maaaring tumpak na inilarawan alinman sa pamamagitan ng isang parabola, o isang hyperbola, o isang tuwid na linya. Sa pagsasaalang-alang na ito, gamit ang "manu-manong" na opsyon para sa pagpili ng pinakamahusay na function, maaari mong limitahan ang iyong sarili sa tatlong modelong ito lamang.

Hyperbola:

Parabola ng pangalawang order: :

Madaling makita na sa aming halimbawa, ang trend sa mga pagbabago sa ani ng sunflower sa nasuri na 10 taon ay pinakamahusay na nailalarawan sa pamamagitan ng isang tuwid na linya, kaya ang regression equation ay magiging isang straight line equation.

Pangatlong pamamaraan. Ang mga parameter ng equation ng regression na nagpapakilala sa linyang ito ay kinakalkula, o sa madaling salita, tinutukoy ang isang analytical formula na naglalarawan sa pinakamahusay na modelo ng trend.

Ang paghahanap ng mga halaga ng mga parameter ng equation ng regression, sa aming kaso, ang mga parameter at , ay ang core ng LSM. Ang prosesong ito ay binabawasan sa paglutas ng isang sistema ng mga normal na equation.

(9.2)

Ang sistemang ito ng mga equation ay medyo madaling malutas sa pamamagitan ng Gauss method. Alalahanin na bilang isang resulta ng solusyon, sa aming halimbawa, ang mga halaga ng mga parameter at natagpuan. Kaya, ang nahanap na equation ng regression ay magkakaroon ng sumusunod na anyo:

Pagpili ng uri ng regression function, i.e. ang uri ng itinuturing na modelo ng pag-asa ng Y sa X (o X sa Y), halimbawa, isang linear na modelo y x \u003d a + bx, kinakailangan upang matukoy ang mga tiyak na halaga ng mga coefficient ng modelo.

Para sa iba't ibang mga halaga ng a at b, posible na bumuo ng isang walang katapusang bilang ng mga dependency ng form na y x =a+bx, ibig sabihin, mayroong isang walang katapusang bilang ng mga linya sa coordinate plane, ngunit kailangan namin ng isang dependence na tumutugma sa mga naobserbahang halaga sa pinakamahusay na paraan. Kaya, ang problema ay nabawasan sa pagpili ng pinakamahusay na mga coefficient.

Naghahanap kami ng isang linear na function a + bx, batay lamang sa isang tiyak na bilang ng magagamit na mga obserbasyon. Upang mahanap ang function na may pinakaangkop sa mga naobserbahang halaga, ginagamit namin ang paraan ng least squares.

Ipahiwatig: Y i - ang halaga na kinakalkula ng equation Y i =a+bx i . y i - sinusukat na halaga, ε i =y i -Y i - pagkakaiba sa pagitan ng sinusukat at kinakalkula na mga halaga, ε i =y i -a-bx i .

Ang pamamaraan ng hindi bababa sa mga parisukat ay nangangailangan na ang ε i , ang pagkakaiba sa pagitan ng sinusukat y i at ang mga halaga ng Y i na kinakalkula mula sa equation, ay minimal. Samakatuwid, nakita namin ang mga coefficient a at b upang ang kabuuan ng mga squared deviations ng mga naobserbahang halaga mula sa mga halaga sa tuwid na linya ng regression ay ang pinakamaliit:

Ang pagsisiyasat sa function na ito ng mga argumento a at sa tulong ng mga derivatives sa isang extremum, maaari nating patunayan na ang function ay tumatagal ng isang minimum na halaga kung ang mga coefficient a at b ay mga solusyon ng system:

(2)

Kung hahatiin natin ang magkabilang panig ng normal na equation sa n, makukuha natin ang:

Kung ganoon (3)

Kunin , mula dito, pinapalitan ang halaga ng a sa unang equation, nakukuha natin:

Sa kasong ito, ang b ay tinatawag na regression coefficient; a ay tinatawag na libreng miyembro ng regression equation at kinakalkula ng formula:

Ang resultang tuwid na linya ay isang pagtatantya para sa theoretical regression line. Meron kami:

Kaya, ay isang linear regression equation.

Ang regression ay maaaring direkta (b>0) at kabaligtaran (b Halimbawa 1. Ang mga resulta ng pagsukat ng mga halaga ng X at Y ay ibinibigay sa talahanayan:

x i -2 0 1 2 4
y i 0.5 1 1.5 2 3

Ipagpalagay na mayroong isang linear na relasyon sa pagitan ng X at Y y=a+bx, tukuyin ang mga coefficient a at b gamit ang least squares method.

Desisyon. Dito n=5
x i =-2+0+1+2+4=5;
x i 2 =4+0+1+4+16=25
x i y i =-2 0.5+0 1+1 1.5+2 2+4 3=16.5
y i =0.5+1+1.5+2+3=8

at ang normal na sistema (2) ay may anyo

Ang paglutas ng sistemang ito, makukuha natin ang: b=0.425, a=1.175. Samakatuwid y=1.175+0.425x.

Halimbawa 2. Mayroong sample ng 10 obserbasyon ng economic indicators (X) at (Y).

x i 180 172 173 169 175 170 179 170 167 174
y i 186 180 176 171 182 166 182 172 169 177

Kinakailangang maghanap ng sample regression equation Y sa X. Bumuo ng sample regression line Y sa X.

Desisyon. 1. Pagbukud-bukurin natin ang data ayon sa mga halaga x i at y i . Kumuha kami ng bagong talahanayan:

x i 167 169 170 170 172 173 174 175 179 180
y i 169 171 166 172 180 176 177 182 182 186

Upang pasimplehin ang mga kalkulasyon, bubuo kami ng talahanayan ng pagkalkula kung saan ilalagay namin ang mga kinakailangang halaga ng numero.

x i y i x i 2 x i y i
167 169 27889 28223
169 171 28561 28899
170 166 28900 28220
170 172 28900 29240
172 180 29584 30960
173 176 29929 30448
174 177 30276 30798
175 182 30625 31850
179 182 32041 32578
180 186 32400 33480
∑x i =1729 ∑y i =1761 ∑x i 2 299105 ∑x i y i =304696
x=172.9 y=176.1 x i 2 =29910.5 xy=30469.6

Ayon sa formula (4), kinakalkula namin ang coefficient ng regression

at sa pamamagitan ng formula (5)

Kaya, ang sample na equation ng regression ay mukhang y=-59.34+1.3804x.
I-plot natin ang mga puntos (x i ; y i) sa coordinate plane at markahan ang regression line.


Fig 4

Ipinapakita ng Figure 4 kung paano matatagpuan ang mga naobserbahang halaga na nauugnay sa linya ng regression. Upang matantya ayon sa numero ang mga paglihis ng y i mula sa Y i , kung saan ang y i ay sinusunod na mga halaga, at ang Y i ay mga halaga na tinutukoy ng regression, gagawa kami ng isang talahanayan:

x i y i Y i Y i -y i
167 169 168.055 -0.945
169 171 170.778 -0.222
170 166 172.140 6.140
170 172 172.140 0.140
172 180 174.863 -5.137
173 176 176.225 0.225
174 177 177.587 0.587
175 182 178.949 -3.051
179 182 184.395 2.395
180 186 185.757 -0.243

Ang mga halaga ng Y i ay kinakalkula ayon sa equation ng regression.

Ang kapansin-pansing paglihis ng ilang naobserbahang mga halaga mula sa linya ng regression ay ipinaliwanag ng maliit na bilang ng mga obserbasyon. Kapag pinag-aaralan ang antas ng linear dependence ng Y sa X, ang bilang ng mga obserbasyon ay isinasaalang-alang. Ang lakas ng pag-asa ay tinutukoy ng halaga ng koepisyent ng ugnayan.

Halimbawa.

Pang-eksperimentong data sa mga halaga ng mga variable X at sa ay ibinigay sa talahanayan.

Bilang resulta ng kanilang pagkakahanay, ang pag-andar

Gamit hindi bababa sa parisukat na pamamaraan, tantiyahin ang mga data na ito na may linear na dependence y=ax+b(hanapin ang mga pagpipilian a at b). Alamin kung alin sa dalawang linya ang mas mahusay (sa kahulugan ng pinakamaliit na paraan ng mga parisukat) ang nakahanay sa pang-eksperimentong data. Gumawa ng isang guhit.

Ang kakanyahan ng pamamaraan ng hindi bababa sa mga parisukat (LSM).

Ang problema ay upang mahanap ang mga linear dependence coefficients kung saan ang function ng dalawang variable a at b kumukuha ng pinakamaliit na halaga. Ibig sabihin, ibinigay ang data a at b ang kabuuan ng mga squared deviations ng pang-eksperimentong data mula sa natagpuang tuwid na linya ang magiging pinakamaliit. Ito ang buong punto ng pamamaraan ng least squares.

Kaya, ang solusyon ng halimbawa ay nabawasan sa paghahanap ng extremum ng isang function ng dalawang variable.

Derivation ng mga formula para sa paghahanap ng mga coefficient.

Ang isang sistema ng dalawang equation na may dalawang hindi alam ay pinagsama-sama at nalulutas. Paghahanap ng mga partial derivatives ng isang function na may kinalaman sa mga variable a at b, itinutumbas namin ang mga derivatives na ito sa zero.

Nalulutas namin ang nagresultang sistema ng mga equation sa pamamagitan ng anumang pamamaraan (halimbawa paraan ng pagpapalit o ) at kumuha ng mga formula para sa paghahanap ng mga coefficient gamit ang least squares method (LSM).

Gamit ang data a at b function kumukuha ng pinakamaliit na halaga. Ang patunay ng katotohanang ito ay ibinigay.

Iyan ang buong paraan ng hindi bababa sa mga parisukat. Formula para sa paghahanap ng parameter a naglalaman ng mga kabuuan , , , at parameter n- dami ng pang-eksperimentong data. Ang mga halaga ng mga kabuuan na ito ay inirerekomenda na kalkulahin nang hiwalay. Coefficient b natagpuan pagkatapos ng pagkalkula a.

Oras na para alalahanin ang orihinal na halimbawa.

Desisyon.

Sa ating halimbawa n=5. Pinupuno namin ang talahanayan para sa kaginhawaan ng pagkalkula ng mga halaga na kasama sa mga formula ng mga kinakailangang coefficient.

Ang mga halaga sa ika-apat na hilera ng talahanayan ay nakuha sa pamamagitan ng pagpaparami ng mga halaga ng ika-2 hilera sa mga halaga ng ika-3 hilera para sa bawat numero i.

Ang mga halaga sa ikalimang hilera ng talahanayan ay nakuha sa pamamagitan ng pag-square ng mga halaga ng ika-2 hilera para sa bawat numero i.

Ang mga halaga ng huling hanay ng talahanayan ay ang mga kabuuan ng mga halaga sa mga hilera.

Ginagamit namin ang mga formula ng pinakamaliit na paraan ng mga parisukat upang mahanap ang mga coefficient a at b. Pinapalitan namin sa kanila ang kaukulang mga halaga mula sa huling hanay ng talahanayan:

Kaya naman, y=0.165x+2.184 ay ang nais na tinatayang tuwid na linya.

Ito ay nananatiling alamin kung alin sa mga linya y=0.165x+2.184 o mas mahusay na tinatantya ang orihinal na data, ibig sabihin, gumawa ng pagtatantya gamit ang pamamaraan ng least squares.

Pagtatantya ng error ng paraan ng hindi bababa sa mga parisukat.

Upang gawin ito, kailangan mong kalkulahin ang mga kabuuan ng mga squared deviations ng orihinal na data mula sa mga linyang ito at , ang isang mas maliit na halaga ay tumutugma sa isang linya na mas mahusay na tinatantya ang orihinal na data sa mga tuntunin ng pinakamaliit na paraan ng mga parisukat.

Since , tapos yung linya y=0.165x+2.184 mas mahusay na tinatantya ang orihinal na data.

Graphic na paglalarawan ng least squares method (LSM).

Ang lahat ay mukhang mahusay sa mga chart. Ang pulang linya ay ang nahanap na linya y=0.165x+2.184, ang asul na linya ay , ang mga pink na tuldok ay ang orihinal na data.

Para saan ito, para saan ang lahat ng mga pagtatantya na ito?

Personal kong ginagamit upang malutas ang mga problema sa smoothing ng data, mga problema sa interpolation at extrapolation (sa orihinal na halimbawa, maaari kang hilingin na hanapin ang halaga ng naobserbahang halaga y sa x=3 o kailan x=6 ayon sa pamamaraan ng MNC). Ngunit pag-uusapan natin ang higit pa tungkol dito sa ibang seksyon ng site.

Patunay.

Kaya't kapag natagpuan a at b Kinukuha ng function ang pinakamaliit na halaga, kinakailangan na sa puntong ito ang matrix ng quadratic form ng second-order differential para sa function ay tiyak na positibo. Ipakita natin.

Ang second order differential ay may anyo:

I.e

Samakatuwid, ang matrix ng quadratic form ay may anyo

at ang mga halaga ng mga elemento ay hindi nakasalalay sa a at b.

Ipakita natin na ang matrix ay positibong tiyak. Nangangailangan ito na ang anggulo ng mga menor de edad ay positibo.

Angular minor ng unang order . Ang hindi pagkakapantay-pantay ay mahigpit, dahil ang mga punto ay hindi nag-tutugma. Ito ay ipahiwatig sa mga sumusunod.

Angular minor ng pangalawang order

Patunayan natin yan sa pamamagitan ng paraan ng mathematical induction .

Konklusyon: nahanap na mga halaga a at b tumutugma sa pinakamaliit na halaga ng function , samakatuwid, ay ang nais na mga parameter para sa paraan ng least squares.