O método dos mínimos quadrados é usado para. Análise de regressão linear de pares

Aproximamos a função por um polinômio de 2º grau. Para fazer isso, calculamos os coeficientes do sistema normal de equações:

, ,

Vamos compor um sistema normal de mínimos quadrados, que tem a forma:

A solução do sistema é fácil de encontrar:, , .

Assim, encontra-se o polinômio de 2º grau: .

Bases teóricas

Voltar para a página<Введение в вычислительную математику. Примеры>

Exemplo 2. Encontrar o grau ótimo de um polinômio.

Voltar para a página<Введение в вычислительную математику. Примеры>

Exemplo 3. Derivação de um sistema normal de equações para encontrar os parâmetros de uma dependência empírica.

Vamos derivar um sistema de equações para determinar os coeficientes e funções , que executa a aproximação quadrática média da função dada em relação aos pontos. Compor uma função e escreva a condição extrema necessária para isso:

Então o sistema normal terá a forma:

Obtivemos um sistema linear de equações para parâmetros desconhecidos e que é facilmente resolvido.

Bases teóricas

Voltar para a página<Введение в вычислительную математику. Примеры>

Exemplo.

Dados experimentais sobre os valores das variáveis X e no são dados na tabela.

Como resultado de seu alinhamento, a função

Usando método dos mínimos quadrados, aproxime esses dados com uma dependência linear y=ax+b(encontrar opções uma e b). Descubra qual das duas linhas é melhor (no sentido do método dos mínimos quadrados) alinha os dados experimentais. Faça um desenho.

A essência do método dos mínimos quadrados (LSM).

O problema é encontrar os coeficientes de dependência linear para os quais a função de duas variáveis uma e bassume o menor valor. Ou seja, dados os dados uma e b a soma dos desvios quadrados dos dados experimentais da linha reta encontrada será a menor. Este é o ponto principal do método dos mínimos quadrados.

Assim, a solução do exemplo é reduzida a encontrar o extremo de uma função de duas variáveis.

Derivação de fórmulas para encontrar coeficientes.

Um sistema de duas equações com duas incógnitas é compilado e resolvido. Encontrando derivadas parciais de funções por variáveis uma e b, igualamos essas derivadas a zero.

Resolvemos o sistema de equações resultante por qualquer método (por exemplo método de substituição ou o método de Cramer) e obter fórmulas para encontrar coeficientes usando o método dos mínimos quadrados (LSM).

Com dados uma e b função assume o menor valor. A comprovação desse fato é apresentada a seguir no texto ao final da página.

Esse é todo o método dos mínimos quadrados. Fórmula para encontrar o parâmetro uma contém as somas , , , e o parâmetro né a quantidade de dados experimentais. Recomenda-se que os valores dessas somas sejam calculados separadamente.

Coeficiente b encontrado após o cálculo uma.

É hora de lembrar o exemplo original.

Solução.

Em nosso exemplo n=5. Preenchemos a tabela para a conveniência de calcular os valores incluídos nas fórmulas dos coeficientes necessários.

Os valores da quarta linha da tabela são obtidos multiplicando os valores da 2ª linha pelos valores da 3ª linha para cada número eu.

Os valores da quinta linha da tabela são obtidos elevando ao quadrado os valores da 2ª linha para cada número eu.

Os valores da última coluna da tabela são as somas dos valores nas linhas.

Usamos as fórmulas do método dos mínimos quadrados para encontrar os coeficientes uma e b. Substituímos neles os valores correspondentes da última coluna da tabela:

Consequentemente, y=0,165x+2,184é a linha reta de aproximação desejada.

Resta saber qual das linhas y=0,165x+2,184 ou aproxima melhor os dados originais, ou seja, para fazer uma estimativa usando o método dos mínimos quadrados.

Estimativa do erro do método dos mínimos quadrados.

Para fazer isso, você precisa calcular as somas dos desvios quadrados dos dados originais dessas linhas e , um valor menor corresponde a uma linha que melhor se aproxima dos dados originais em termos do método dos mínimos quadrados.

Desde , então a linha y=0,165x+2,184 aproxima melhor os dados originais.

Ilustração gráfica do método dos mínimos quadrados (LSM).

Tudo parece ótimo nas paradas. A linha vermelha é a linha encontrada y=0,165x+2,184, a linha azul é , os pontos rosa são os dados originais.

Para que serve, para que servem todas essas aproximações?

Eu pessoalmente uso para resolver problemas de suavização de dados, problemas de interpolação e extrapolação (no exemplo original, você pode ser solicitado a encontrar o valor do valor observado y no x=3 ou quando x=6 de acordo com o método MNC). Mas falaremos mais sobre isso posteriormente em outra seção do site.

Topo da página

Prova.

Para que quando encontrado uma e b função assume o menor valor, é necessário que neste ponto a matriz da forma quadrática do diferencial de segunda ordem para a função foi definido positivo. Vamos mostrar.

O diferencial de segunda ordem tem a forma:

Aquilo é

Portanto, a matriz da forma quadrática tem a forma

e os valores dos elementos não dependem uma e b.

Vamos mostrar que a matriz é definida positiva. Isso requer que os menores dos ângulos sejam positivos.

Menor angular de primeira ordem . A desigualdade é estrita, pois os pontos não coincidem. Isso ficará implícito no que segue.

Angular menor de segunda ordem

Vamos provar isso método de indução matemática.

Conclusão: valores encontrados uma e b corresponde ao menor valor da função , portanto, são os parâmetros desejados para o método dos mínimos quadrados.

Já entendeu?
Encomende uma solução

Topo da página

Desenvolvimento de uma previsão usando o método dos mínimos quadrados. Exemplo de solução de problema

Extrapolação - este é um método de pesquisa científica, que se baseia na divulgação de tendências, padrões e relações passadas e presentes com o desenvolvimento futuro do objeto de previsão. Os métodos de extrapolação incluem método da média móvel, método de suavização exponencial, método dos mínimos quadrados.

Essência método dos mínimos quadrados consiste em minimizar a soma dos desvios quadrados entre os valores observados e calculados. Os valores calculados são encontrados de acordo com a equação selecionada - a equação de regressão. Quanto menor a distância entre os valores reais e os calculados, mais precisa será a previsão com base na equação de regressão.

A análise teórica da essência do fenômeno em estudo, cuja mudança é apresentada por uma série temporal, serve de base para a escolha de uma curva. Considerações sobre a natureza do crescimento dos níveis da série são algumas vezes levadas em conta. Assim, se o crescimento da produção é esperado em progressão aritmética, a suavização é realizada em linha reta. Se o crescimento for exponencial, a suavização deve ser feita de acordo com a função exponencial.

A fórmula de trabalho do método dos mínimos quadrados : Y t+1 = a*X + b, onde t + 1 é o período de previsão; Уt+1 – indicador previsto; aeb são coeficientes; X é um símbolo do tempo.

Os coeficientes a e b são calculados de acordo com as seguintes fórmulas:

onde, Uf - os valores reais da série de dinâmicas; n é o número de níveis na série temporal;

A suavização de séries temporais pelo método dos mínimos quadrados serve para refletir os padrões de desenvolvimento do fenômeno em estudo. Na expressão analítica de uma tendência, o tempo é considerado uma variável independente, e os níveis da série atuam em função dessa variável independente.

O desenvolvimento de um fenômeno não depende de quantos anos se passaram desde o ponto de partida, mas de quais fatores influenciaram seu desenvolvimento, em que direção e com que intensidade. Disso fica claro que o desenvolvimento de um fenômeno no tempo aparece como resultado da ação desses fatores.

Definindo corretamente o tipo de curva, o tipo de dependência analítica do tempo é uma das tarefas mais difíceis da análise pré-preditiva. .

A escolha do tipo de função que descreve a tendência, cujos parâmetros são determinados pelo método dos mínimos quadrados, é na maioria dos casos empírico, construindo um número de funções e comparando-as entre si em termos do valor da raiz - erro quadrático médio, calculado pela fórmula:

onde Uf - os valores reais da série de dinâmicas; Ur – valores calculados (suavizados) da série temporal; n é o número de níveis na série temporal; p é o número de parâmetros definidos nas fórmulas que descrevem a tendência (tendência de desenvolvimento).

Desvantagens do método dos mínimos quadrados :

  • ao tentar descrever o fenômeno econômico em estudo usando uma equação matemática, a previsão será precisa para um curto período de tempo e a equação de regressão deve ser recalculada à medida que novas informações forem disponibilizadas;
  • a complexidade da seleção da equação de regressão, que pode ser resolvida usando programas de computador padrão.

Um exemplo de uso do método dos mínimos quadrados para desenvolver uma previsão

Uma tarefa . Existem dados que caracterizam o nível de desemprego na região, %

  • Construa uma previsão da taxa de desemprego na região para os meses de novembro, dezembro, janeiro, utilizando os métodos: média móvel, suavização exponencial, mínimos quadrados.
  • Calcule os erros nas previsões resultantes usando cada método.
  • Compare os resultados obtidos, tire conclusões.

Solução de mínimos quadrados

Para a solução, compilaremos uma tabela na qual faremos os cálculos necessários:

ε = 28,63/10 = 2,86% precisão da previsão Alto.

Conclusão : Comparando os resultados obtidos nos cálculos método de média móvel , suavização exponencial e o método dos mínimos quadrados, podemos dizer que o erro relativo médio nos cálculos pelo método de suavização exponencial fica entre 20-50%. Isso significa que a precisão da previsão neste caso é apenas satisfatória.

No primeiro e terceiro casos, a precisão da previsão é alta, pois o erro relativo médio é inferior a 10%. Mas o método da média móvel permitiu obter resultados mais confiáveis ​​(previsão para novembro - 1,52%, previsão para dezembro - 1,53%, previsão para janeiro - 1,49%), pois o erro relativo médio ao usar esse método é o menor - 1 ,13%.

Método dos mínimos quadrados

Outros artigos relacionados:

Lista de fontes usadas

  1. Recomendações científicas e metodológicas sobre as questões de diagnóstico de riscos sociais e previsão de desafios, ameaças e consequências sociais. Universidade Social Estatal Russa. Moscou. 2010;
  2. Vladimirova L.P. Previsão e planejamento em condições de mercado: Proc. mesada. M.: Editora "Dashkov and Co", 2001;
  3. Novikova N.V., Pozdeeva O.G. Previsão da Economia Nacional: Guia Pedagógico e Metodológico. Ecaterimburgo: Editora Ural. Estado economia universidade, 2007;
  4. Slutskin L.N. Curso de MBA em Previsão de Negócios. Moscou: Alpina Business Books, 2006.

Programa MNE

Inserir dados

Dados e Aproximação y = a + b x

eu- número do ponto experimental;
XI- o valor do parâmetro fixo no ponto eu;
eu- o valor do parâmetro medido no ponto eu;
ωi- peso de medição no ponto eu;
yi, calc.- a diferença entre o valor medido e o valor calculado a partir da regressão y no ponto eu;
S x i (x i)- estimativa de erro XI ao medir y no ponto eu.

Dados e Aproximação y = kx

eu XI eu ωi yi, calc. Δy i S x i (x i)

Clique no gráfico

Manual do usuário para o programa online MNC.

No campo de dados, insira em cada linha separada os valores de `x` e `y` em um ponto experimental. Os valores devem ser separados por espaço em branco (espaço ou tabulação).

O terceiro valor pode ser o peso do ponto de `w`. Se o peso do ponto não for especificado, ele será igual a um. Na esmagadora maioria dos casos, os pesos dos pontos experimentais são desconhecidos ou não calculados; todos os dados experimentais são considerados equivalentes. Às vezes, os pesos no intervalo de valores estudados definitivamente não são equivalentes e podem até ser calculados teoricamente. Por exemplo, na espectrofotometria, os pesos podem ser calculados usando fórmulas simples, embora basicamente todo mundo negligencie isso para reduzir os custos de mão de obra.

Os dados podem ser colados na área de transferência de uma planilha de pacote de escritório, como Excel do Microsoft Office ou Calc do Open Office. Para fazer isso, na planilha, selecione o intervalo de dados a ser copiado, copie para a área de transferência e cole os dados no campo de dados desta página.

Para calcular pelo método dos mínimos quadrados, são necessários pelo menos dois pontos para determinar dois coeficientes `b` - a tangente do ângulo de inclinação da linha reta e `a` - o valor cortado pela linha reta no `y ` eixo.

Para estimar o erro dos coeficientes de regressão calculados, é necessário definir o número de pontos experimentais para mais de dois.

Método dos mínimos quadrados (LSM).

Quanto maior o número de pontos experimentais, mais precisa é a estimativa estatística dos coeficientes (devido à diminuição do coeficiente de Student) e mais próxima a estimativa da estimativa da amostra geral.

A obtenção de valores em cada ponto experimental geralmente está associada a custos de mão de obra significativos, portanto, muitas vezes é realizado um número de experimentos comprometido, o que fornece uma estimativa digerível e não leva a custos de mão de obra excessivos. Como regra, o número de pontos experimentais para uma dependência linear de mínimos quadrados com dois coeficientes é escolhido na região de 5-7 pontos.

Uma Breve Teoria dos Mínimos Quadrados para a Dependência Linear

Suponha que tenhamos um conjunto de dados experimentais na forma de pares de valores [`y_i`, `x_i`], onde `i` é o número de uma medida experimental de 1 a `n`; `y_i` - o valor do valor medido no ponto `i`; `x_i` - o valor do parâmetro que definimos no ponto `i`.

Um exemplo é a operação da lei de Ohm. Ao alterar a tensão (diferença de potencial) entre as seções do circuito elétrico, medimos a quantidade de corrente que passa por essa seção. A física nos dá a dependência encontrada experimentalmente:

`I=U/R`,
onde `I` - força atual; `R` - resistência; `U` - tensão.

Neste caso, `y_i` é o valor medido da corrente e `x_i` é o valor da tensão.

Como outro exemplo, considere a absorção de luz por uma solução de uma substância em solução. A química nos dá a fórmula:

`A = εl C`,
onde `A` é a densidade óptica da solução; `ε` - transmitância do soluto; `l` - comprimento do caminho quando a luz passa por uma cubeta com uma solução; `C` é a concentração do soluto.

Neste caso, `y_i` é a densidade óptica medida `A` e `x_i` é a concentração da substância que definimos.

Consideraremos o caso em que o erro relativo na configuração de `x_i` é muito menor do que o erro relativo na medição de `y_i`. Também assumiremos que todos os valores medidos de `y_i` são aleatórios e normalmente distribuídos, ou seja, obedecer a lei da distribuição normal.

No caso de uma dependência linear de `y` em `x`, podemos escrever a dependência teórica:
`y = a + bx`.

Do ponto de vista geométrico, o coeficiente `b` denota a tangente do ângulo de inclinação da linha ao eixo `x`, e o coeficiente `a` - o valor de `y` no ponto de interseção do eixo linha com o eixo `y` (para `x = 0`).

Encontrando os parâmetros da linha de regressão.

Em um experimento, os valores medidos de `y_i` não podem estar exatamente na linha teórica devido a erros de medição, que são sempre inerentes à vida real. Portanto, uma equação linear deve ser representada por um sistema de equações:
`y_i = a + b x_i + ε_i` (1),
onde `ε_i` é o erro de medição desconhecido de `y` no `i`th experimento.

A dependência (1) também é chamada regressão, ou seja a dependência das duas quantidades entre si com significância estatística.

A tarefa de restaurar a dependência é encontrar os coeficientes `a` e `b` dos pontos experimentais [`y_i`, `x_i`].

Para encontrar os coeficientes `a` e `b` é geralmente usado método dos mínimos quadrados(MNK). É um caso especial do princípio da máxima verossimilhança.

Vamos reescrever (1) como `ε_i = y_i - a - b x_i`.

Então a soma dos erros ao quadrado será
`Φ = soma_(i=1)^(n) ε_i^2 = soma_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

O princípio do método dos mínimos quadrados é minimizar a soma (2) em relação aos parâmetros `a` e `b`.

O mínimo é alcançado quando as derivadas parciais da soma (2) em relação aos coeficientes `a` e `b` são iguais a zero:
`frac(parcial Φ)(parcial a) = frac(parcial soma_(i=1)^(n) (y_i - a - b x_i)^2)(parcial a) = 0`
`frac(parcial Φ)(parcial b) = frac(parcial soma_(i=1)^(n) (y_i - a - b x_i)^2)(parcial b) = 0`

Expandindo as derivadas, obtemos um sistema de duas equações com duas incógnitas:
`soma_(i=1)^(n) (2a + 2bx_i - 2y_i) = soma_(i=1)^(n) (a + bx_i - y_i) = 0`
`soma_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = soma_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`

Abrimos os colchetes e transferimos as somas independentes dos coeficientes desejados para a outra metade, obtemos um sistema de equações lineares:
`soma_(i=1)^(n) y_i = a n + b soma_(i=1)^(n) bx_i`
`soma_(i=1)^(n) x_iy_i = a soma_(i=1)^(n) x_i + b soma_(i=1)^(n) x_i^2`

Resolvendo o sistema resultante, encontramos fórmulas para os coeficientes `a` e `b`:

`a = frac(soma_(i=1)^(n) y_i soma_(i=1)^(n) x_i^2 - soma_(i=1)^(n) x_i soma_(i=1)^(n ) x_iy_i) (n soma_(i=1)^(n) x_i^2 — (soma_(i=1)^(n) x_i)^2)` (3.1)

`b = frac(n soma_(i=1)^(n) x_iy_i - soma_(i=1)^(n) x_i soma_(i=1)^(n) y_i) (n soma_(i=1)^ (n) x_i^2 - (soma_(i=1)^(n) x_i)^2)` (3.2)

Essas fórmulas têm soluções quando `n > 1` (a linha pode ser desenhada usando pelo menos 2 pontos) e quando o determinante `D = n soma_(i=1)^(n) x_i^2 — (sum_(i= 1 )^(n) x_i)^2 != 0`, ou seja quando os pontos `x_i` no experimento são diferentes (ou seja, quando a linha não é vertical).

Estimativa de erros nos coeficientes da linha de regressão

Para uma estimativa mais precisa do erro no cálculo dos coeficientes `a` e `b`, um grande número de pontos experimentais é desejável. Quando `n = 2`, é impossível estimar o erro dos coeficientes, porque a linha de aproximação passará exclusivamente por dois pontos.

O erro da variável aleatória `V` é determinado lei de acumulação de erros
`S_V^2 = soma_(i=1)^p (frac(parcial f)(parcial z_i))^2 S_(z_i)^2`,
onde `p` é o número de parâmetros `z_i` com erro `S_(z_i)` que afetam o erro `S_V`;
`f` é uma função de dependência de `V` em `z_i`.

Vamos escrever a lei de acumulação de erros para o erro dos coeficientes `a` e `b`
`S_a^2 = soma_(i=1)^(n)(frac(parcial a)(parcial y_i))^2 S_(y_i)^2 + soma_(i=1)^(n)(frac(parcial a )(x_i parcial))^2 S_(x_i)^2 = S_y^2 soma_(i=1)^(n)(frac(a parcial)(y_i parcial))^2 `,
`S_b^2 = soma_(i=1)^(n)(frac(parcial b)(parcial y_i))^2 S_(y_i)^2 + soma_(i=1)^(n)(frac(parcial b )(x_i parcial))^2 S_(x_i)^2 = S_y^2 soma_(i=1)^(n)(frac(b parcial)(y_i parcial))^2 `,
Porque `S_(x_i)^2 = 0` (nós anteriormente fizemos uma reserva de que o erro de `x` é insignificante).

`S_y^2 = S_(y_i)^2` - o erro (variância, desvio padrão quadrado) na dimensão `y`, assumindo que o erro é uniforme para todos os valores `y`.

Substituindo as fórmulas para calcular `a` e `b` nas expressões resultantes, obtemos

`S_a^2 = S_y^2 frac(soma_(i=1)^(n) (soma_(i=1)^(n) x_i^2 - x_i soma_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n soma_(i=1)^(n) x_i^2 - (soma_(i=1)^(n) x_i)^2) soma_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(soma_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(soma_(i=1)^(n) (n x_i - soma_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n soma_(i=1)^(n) x_i^2 - (soma_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

Na maioria dos experimentos reais, o valor de `Sy` não é medido. Para isso, é necessário realizar várias medições paralelas (experimentos) em um ou vários pontos do plano, o que aumenta o tempo (e possivelmente o custo) do experimento. Portanto, geralmente assume-se que o desvio de `y` da linha de regressão pode ser considerado aleatório. A estimativa de variância `y` neste caso é calculada pela fórmula.

`S_y^2 = S_(y, resto)^2 = frac(soma_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

O divisor `n-2` aparece porque reduzimos o número de graus de liberdade devido ao cálculo de dois coeficientes para a mesma amostra de dados experimentais.

Essa estimativa também é chamada de variância residual relativa à linha de regressão `S_(y, rest)^2`.

A avaliação da significância dos coeficientes é realizada de acordo com o critério do Aluno

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

Se os critérios calculados `t_a`, `t_b` forem menores que os critérios da tabela `t(P, n-2)`, então considera-se que o coeficiente correspondente não é significativamente diferente de zero com uma dada probabilidade `P`.

Para avaliar a qualidade da descrição de uma relação linear, você pode comparar `S_(y, rest)^2` e `S_(bar y)` em relação à média usando o critério de Fisher.

`S_(bar y) = frac(soma_(i=1)^n (y_i - barra y)^2) (n-1) = frac(soma_(i=1)^n (y_i - (soma_(i=) 1)^n y_i) /n)^2) (n-1)` - estimativa amostral da variância de `y` em relação à média.

Para avaliar a eficácia da equação de regressão para descrever a dependência, o coeficiente de Fisher é calculado
`F = S_(bar y) / S_(y, rest)^2`,
que é comparado com o coeficiente tabular de Fisher `F(p, n-1, n-2)`.

Se `F > F(P, n-1, n-2)`, a diferença entre a descrição da dependência `y = f(x)` usando a equação de regressão e a descrição usando a média é considerada estatisticamente significativa com probabilidade `P`. Aqueles. a regressão descreve a dependência melhor do que a dispersão de `y` em torno da média.

Clique no gráfico
para adicionar valores à tabela

Método dos mínimos quadrados. O método dos mínimos quadrados significa a determinação de parâmetros desconhecidos a, b, c, a dependência funcional aceita

O método dos mínimos quadrados significa a determinação de parâmetros desconhecidos a, b, c,… dependência funcional aceita

y = f(x,a,b,c,…),

que forneceria um mínimo do quadrado médio (variância) do erro

, (24)

onde x i , y i - conjunto de pares de números obtidos do experimento.

Como a condição para o extremo de uma função de várias variáveis ​​é a condição de que suas derivadas parciais sejam iguais a zero, então os parâmetros a, b, c,… são determinados a partir do sistema de equações:

; ; ; … (25)

Deve ser lembrado que o método dos mínimos quadrados é usado para selecionar parâmetros após a forma da função y = f(x) definiram.

Se a partir de considerações teóricas é impossível tirar qualquer conclusão sobre qual deve ser a fórmula empírica, então deve-se guiar por representações visuais, principalmente uma representação gráfica dos dados observados.

Na prática, na maioria das vezes limitado aos seguintes tipos de funções:

1) linear ;

2) quadrático a.

Método dos mínimos quadrados

Na lição final do tópico, conheceremos o aplicativo mais famoso FNP, que encontra a mais ampla aplicação em vários campos da ciência e da prática. Pode ser física, química, biologia, economia, sociologia, psicologia e assim por diante. Pela vontade do destino, muitas vezes tenho que lidar com a economia e, portanto, hoje vou providenciar para você uma passagem para um país incrível chamado Econometria=) … Como você não quer isso?! É muito bom lá - você só precisa decidir! …Mas o que você provavelmente quer é aprender a resolver problemas mínimos quadrados. E leitores especialmente diligentes aprenderão a resolvê-los não apenas com precisão, mas também MUITO RÁPIDO ;-) Mas primeiro enunciado geral do problema+ exemplo relacionado:

Que sejam estudados indicadores em alguma área temática que tenham uma expressão quantitativa. Ao mesmo tempo, há todas as razões para acreditar que o indicador depende do indicador. Essa suposição pode ser tanto uma hipótese científica quanto baseada no senso comum elementar. Vamos deixar a ciência de lado, no entanto, e explorar áreas mais apetitosas - ou seja, mercearias. Denote por:

– espaço de varejo de uma mercearia, m²,
- volume de negócios anual de uma mercearia, milhões de rublos.

É bastante claro que quanto maior a área da loja, maior o seu volume de negócios na maioria dos casos.

Suponha que após realizar observações/experimentos/cálculos/dançar com um pandeiro, tenhamos à nossa disposição dados numéricos:

Com mercearias, acho que tudo está claro: - esta é a área da 1ª loja, - seu faturamento anual, - a área da 2ª loja, - seu faturamento anual, etc. A propósito, não é necessário ter acesso a materiais classificados - uma avaliação bastante precisa do volume de negócios pode ser obtida usando estatística matemática. Porém, não se distraia, o curso de espionagem comercial já está pago =)

Os dados tabulares também podem ser escritos na forma de pontos e representados da maneira usual para nós. sistema cartesiano .

Vamos responder a uma pergunta importante: quantos pontos são necessários para um estudo qualitativo?

Quanto maior melhor. O conjunto mínimo admissível consiste em 5-6 pontos. Além disso, com uma pequena quantidade de dados, resultados “anormais” não devem ser incluídos na amostra. Assim, por exemplo, uma pequena loja de elite pode ajudar ordens de grandeza mais do que “seus colegas”, distorcendo assim o padrão geral que precisa ser encontrado!



Se for bem simples, precisamos escolher uma função, cronograma que passa o mais próximo possível dos pontos . Tal função é chamada aproximando (aproximação - aproximação) ou função teórica . De um modo geral, aqui aparece imediatamente um "pretender" óbvio - um polinômio de alto grau, cujo gráfico passa por TODOS os pontos. Mas esta opção é complicada e muitas vezes simplesmente incorreta. (porque o gráfico vai “enrolar” o tempo todo e refletir mal a tendência principal).

Assim, a função desejada deve ser suficientemente simples e ao mesmo tempo refletir adequadamente a dependência. Como você pode imaginar, um dos métodos para encontrar essas funções é chamado mínimos quadrados. Primeiramente, vamos analisar sua essência de forma geral. Deixe alguma função aproximar os dados experimentais:


Como avaliar a precisão dessa aproximação? Vamos também calcular as diferenças (desvios) entre os valores experimentais e funcionais (estudamos o desenho). O primeiro pensamento que vem à mente é estimar quão grande é a soma, mas o problema é que as diferenças podem ser negativas. (por exemplo, ) e os desvios resultantes de tal soma se cancelarão mutuamente. Portanto, como estimativa da precisão da aproximação, sugere-se tomar a soma módulos desvios:

ou em forma dobrada: (para quem não conhece: é o ícone de soma, e - variável auxiliar - "contador", que recebe valores de 1 a ) .

Aproximando os pontos experimentais com funções diferentes, obteremos valores diferentes, e é óbvio onde essa soma é menor - essa função é mais precisa.

Tal método existe e é chamado método de módulo mínimo. No entanto, na prática, tornou-se muito mais difundido. método dos mínimos quadrados, em que possíveis valores negativos são eliminados não pelo módulo, mas pelo quadrado dos desvios:



, após o que os esforços são direcionados para a seleção de tal função que a soma dos desvios quadrados foi o menor possível. Na verdade, daí o nome do método.

E agora voltamos a outro ponto importante: como observado acima, a função selecionada deve ser bastante simples - mas também existem muitas dessas funções: linear , hiperbólico , exponencial , logarítmico , quadrático etc. E, claro, aqui eu gostaria imediatamente de "reduzir o campo de atividade". Que classe de funções escolher para pesquisa? Técnica primitiva, mas eficaz:

- A maneira mais fácil de tirar pontos no desenho e analisar sua localização. Se eles tendem a ser em linha reta, você deve procurar equação de linha reta com valores ótimos e . Em outras palavras, a tarefa é encontrar TAIS coeficientes - de modo que a soma dos desvios quadrados seja a menor.

Se os pontos estiverem localizados, por exemplo, ao longo hipérbole, então fica claro que a função linear dará uma aproximação pobre. Neste caso, estamos procurando os coeficientes mais “favoráveis” para a equação da hipérbole - aqueles que dão a soma mínima dos quadrados .

Agora observe que em ambos os casos estamos falando de funções de duas variáveis, cujos argumentos são opções de dependência pesquisadas:

E, em essência, precisamos resolver um problema padrão - encontrar mínimo de uma função de duas variáveis.

Lembre-se do nosso exemplo: suponha que os pontos de "loja" tendam a estar localizados em uma linha reta e há todos os motivos para acreditar na presença dependência linear volume de negócios da área comercial. Vamos encontrar TAIS coeficientes "a" e "be" para que a soma dos desvios quadrados foi o menor. Tudo como de costume - primeiro derivadas parciais de 1ª ordem. De acordo com regra de linearidade você pode diferenciar logo abaixo do ícone de soma:

Se você quiser usar essas informações para um ensaio ou curso, ficarei muito grato pelo link na lista de fontes, você não encontrará cálculos tão detalhados em nenhum lugar:

Vamos fazer um sistema padrão:

Reduzimos cada equação por um “dois” e, além disso, “separamos” as somas:

Observação : analise independentemente por que "a" e "be" podem ser retirados do ícone de soma. A propósito, formalmente isso pode ser feito com a soma

Vamos reescrever o sistema em uma forma "aplicada":

após o qual o algoritmo para resolver nosso problema começa a ser desenhado:

Conhecemos as coordenadas dos pontos? Nós sabemos. Somas podemos encontrar? Facilmente. Nós compomos o mais simples sistema de duas equações lineares com duas incógnitas("a" e "beh"). Resolvemos o sistema, por exemplo, Método de Cramer, resultando em um ponto estacionário . Verificando condição suficiente para um extremo, podemos verificar que neste ponto a função atinge precisamente mínimo. A verificação está associada a cálculos adicionais e, portanto, a deixaremos nos bastidores. (se necessário, o quadro ausente pode ser visualizadoaqui ) . Tiramos a conclusão final:

Função a melhor maneira (pelo menos em comparação com qualquer outra função linear) aproxima pontos experimentais . Grosso modo, seu gráfico passa o mais próximo possível desses pontos. Na tradição econometria a função de aproximação resultante também é chamada equação de regressão linear pareada .

O problema em consideração é de grande importância prática. Na situação do nosso exemplo, a equação permite prever que tipo de rotatividade ("yig") estará na loja com um ou outro valor da área de venda (um ou outro significado de "x"). Sim, a previsão resultante será apenas uma previsão, mas em muitos casos será bastante precisa.

Analisarei apenas um problema com números "reais", pois não há dificuldades - todos os cálculos estão no nível do currículo escolar nas séries 7-8. Em 95% dos casos, você será solicitado a encontrar apenas uma função linear, mas no final do artigo mostrarei que não é mais difícil encontrar as equações para a hipérbole ótima, expoente e algumas outras funções.

Na verdade, resta distribuir os brindes prometidos - para que você aprenda a resolver esses exemplos não apenas com precisão, mas também rapidamente. Estudamos cuidadosamente o padrão:

Uma tarefa

Como resultado do estudo da relação entre dois indicadores, foram obtidos os seguintes pares de números:

Usando o método dos mínimos quadrados, encontre a função linear que melhor se aproxima da (com experiência) dados. Faça um desenho no qual, em um sistema de coordenadas retangulares cartesianas, trace pontos experimentais e um gráfico da função de aproximação . Encontre a soma dos desvios quadrados entre os valores empíricos e teóricos. Descubra se a função é melhor (em termos do método dos mínimos quadrados) pontos experimentais aproximados.

Observe que os valores "x" são valores naturais, e isso tem um significado significativo característico, sobre o qual falarei um pouco mais adiante; mas eles, é claro, podem ser fracionários. Além disso, dependendo do conteúdo de uma determinada tarefa, os valores "X" e "G" podem ser total ou parcialmente negativos. Bem, nos foi dada uma tarefa “sem rosto”, e começamos solução:

Encontramos os coeficientes da função ótima como uma solução para o sistema:

Para fins de notação mais compacta, a variável “contador” pode ser omitida, pois já fica claro que a somatória é feita de 1 a .

É mais conveniente calcular os valores necessários em forma de tabela:


Os cálculos podem ser realizados em uma microcalculadora, mas é muito melhor usar o Excel - mais rápido e sem erros; assista a um pequeno vídeo:

Assim, obtemos o seguinte sistema:

Aqui você pode multiplicar a segunda equação por 3 e subtrair a 2ª da 1ª equação termo por termo. Mas isso é sorte - na prática, os sistemas geralmente não são dotados e, nesses casos, economiza Método de Cramer:
, então o sistema tem uma solução única.

Vamos fazer uma verificação. Eu entendo que não quero, mas por que pular erros onde você absolutamente não pode perdê-los? Substitua a solução encontrada no lado esquerdo de cada equação do sistema:

As partes certas das equações correspondentes são obtidas, o que significa que o sistema é resolvido corretamente.

Assim, a função de aproximação desejada: – de todas as funções lineares os dados experimentais são mais bem aproximados por ele.

Diferente direto dependência do faturamento da loja em sua área, a dependência encontrada é marcha ré (princípio "quanto mais - menos"), e este fato é imediatamente revelado pela negativa coeficiente angular. Função nos informa que com um aumento em um determinado indicador em 1 unidade, o valor do indicador dependente diminui média por 0,65 unidades. Como se costuma dizer, quanto maior o preço do trigo mourisco, menos vendido.

Para plotar a função de aproximação, encontramos dois de seus valores:

e execute o desenho:

A linha construída é chamada linha de tendência (ou seja, uma linha de tendência linear, ou seja, no caso geral, uma tendência não é necessariamente uma linha reta). Todos estão familiarizados com a expressão "estar na moda", e acho que esse termo dispensa comentários adicionais.

Calcular a soma dos desvios quadrados entre valores empíricos e teóricos. Geometricamente, esta é a soma dos quadrados dos comprimentos dos segmentos "carmesim" (dois dos quais são tão pequenos que você nem consegue vê-los).

Vamos resumir os cálculos em uma tabela:


Eles podem novamente ser realizados manualmente, caso eu dê um exemplo para o 1º ponto:

mas é muito mais eficiente fazer da forma já conhecida:

Vamos repetir: qual o significado do resultado? A partir de todas as funções lineares função o expoente é o menor, ou seja, é a melhor aproximação em sua família. E aqui, a propósito, a questão final do problema não é acidental: e se a função exponencial proposta será melhor aproximar os pontos experimentais?

Vamos encontrar a soma correspondente dos desvios quadrados - para distingui-los, vou designá-los com a letra "épsilon". A técnica é exatamente a mesma:


E novamente para cada cálculo de incêndio para o 1º ponto:

No Excel, usamos a função padrão EXP (A sintaxe pode ser encontrada na Ajuda do Excel).

Conclusão: , então a função exponencial aproxima os pontos experimentais pior do que a linha reta .

Mas deve-se notar aqui que "pior" é ainda não significa, o que está errado. Agora eu construí um gráfico dessa função exponencial - e ela também passa perto dos pontos - tanto que sem um estudo analítico é difícil dizer qual função é mais precisa.

Isso completa a solução, e volto à questão dos valores naturais do argumento. Em vários estudos, via de regra, econômicos ou sociológicos, meses, anos ou outros intervalos de tempo iguais são numerados com "X" natural. Considere, por exemplo, o seguinte problema:

Temos os seguintes dados sobre o faturamento do varejo da loja no primeiro semestre do ano:

Usando o alinhamento analítico em linha reta, encontre o volume de vendas para julho.

Sim, não há problema: numeramos os meses 1, 2, 3, 4, 5, 6 e usamos o algoritmo usual, como resultado do qual obtemos uma equação - a única coisa quando se trata de tempo geralmente é a letra “te ” (embora não seja crítico). A equação resultante mostra que, no primeiro semestre do ano, o faturamento aumentou em média 27,74 UM. por mês. Obter uma previsão para julho (mês nº 7): UE.

E tarefas semelhantes - a escuridão é escura. Quem desejar pode recorrer a um serviço adicional, nomeadamente o meu calculadora Excel (versão demo), que o resolve o problema quase instantaneamente! A versão de trabalho do programa está disponível em troca ou para pagamento simbólico.

No final da lição, uma breve informação sobre como encontrar dependências de alguns outros tipos. Na verdade, não há nada de especial para contar, já que a abordagem fundamental e o algoritmo de solução permanecem os mesmos.

Suponhamos que a localização dos pontos experimentais se assemelhe a uma hipérbole. Então, para encontrar os coeficientes da melhor hipérbole, você precisa encontrar o mínimo da função - quem desejar pode realizar cálculos detalhados e chegar a um sistema semelhante:

Do ponto de vista técnico formal, é obtido a partir do sistema "linear" (vamos marcar com um asterisco) substituindo "x" por . Bem, as quantidades calcular, após o que para os coeficientes ótimos "a" e "be" à mão.

Se houver todas as razões para acreditar que os pontos estão dispostos ao longo de uma curva logarítmica, em seguida, para procurar os valores ideais e encontrar o mínimo da função . Formalmente, no sistema (*) deve ser substituído por:

Ao calcular no Excel, use a função LN. Confesso que não será difícil para mim criar calculadoras para cada um dos casos em consideração, mas ainda será melhor se você mesmo "programar" os cálculos. Tutoriais em vídeo para ajudar.

Com dependência exponencial, a situação é um pouco mais complicada. Para reduzir a questão ao caso linear, tomamos o logaritmo da função e usamos propriedades do logaritmo:

Agora, comparando a função obtida com a função linear , chegamos à conclusão que no sistema (*) deve ser substituído por , e - por . Por conveniência, denotamos:

Observe que o sistema é resolvido em relação a e , e, portanto, depois de encontrar as raízes, você não deve esquecer de encontrar o próprio coeficiente.

Para aproximar pontos experimentais parábola ótima , deve ser encontrado mínimo de uma função de três variáveis . Depois de executar ações padrão, obtemos o seguinte "funcionamento" sistema:

Sim, claro, há mais quantias aqui, mas não há dificuldades ao usar seu aplicativo favorito. E, finalmente, vou dizer-lhe como verificar rapidamente usando o Excel e construir a linha de tendência desejada: crie um gráfico de dispersão, selecione qualquer um dos pontos com o mouse e clique com o botão direito para selecionar a opção "Adicionar linha de tendência". Em seguida, selecione o tipo de gráfico e na guia "Opções" ativar a opção "Mostrar equação no gráfico". OK

Como sempre, quero terminar o artigo com uma frase bonita, e quase digitei “Be in trend!”. Mas com o tempo ele mudou de ideia. E não porque é estereotipado. Não sei como ninguém, mas não quero seguir a tendência americana e principalmente europeia =) Portanto, desejo que cada um de vocês mantenha sua própria linha!

http://www.grandars.ru/student/vysshaya-matematika/metod-naimenshih-kvadratov.html

O método dos mínimos quadrados é um dos mais comuns e mais desenvolvidos devido à sua simplicidade e eficiência de métodos de estimação de parâmetros de modelos econométricos lineares. Ao mesmo tempo, alguns cuidados devem ser observados ao utilizá-lo, pois os modelos construídos com ele podem não atender a uma série de requisitos de qualidade de seus parâmetros e, consequentemente, não refletir “bem” os padrões de desenvolvimento do processo.

Consideremos mais detalhadamente o procedimento para estimar os parâmetros de um modelo econométrico linear usando o método dos mínimos quadrados. Tal modelo em forma geral pode ser representado pela equação (1.2):

y t = a 0 + a 1 x 1t +...+ a n x nt + ε t .

Os dados iniciais ao estimar os parâmetros a 0 , a 1 ,..., a n é o vetor de valores da variável dependente y= (y 1 , y 2 , ... , y T)" e a matriz de valores das variáveis ​​independentes

em que a primeira coluna, composta por unidades, corresponde ao coeficiente do modelo .

O método dos mínimos quadrados recebeu esse nome baseado no princípio básico de que as estimativas de parâmetros obtidas com base nele devem satisfazer: a soma dos quadrados do erro do modelo deve ser mínima.

Exemplos de resolução de problemas pelo método dos mínimos quadrados

Exemplo 2.1. A empresa comercial possui uma rede composta por 12 lojas, cujas informações sobre as atividades são apresentadas na Tabela. 2.1.

A direção da empresa gostaria de saber como o tamanho do faturamento anual depende do espaço de varejo da loja.

Tabela 2.1

Número da loja Volume de negócios anual, milhões de rublos Área de comércio, mil m 2
19,76 0,24
38,09 0,31
40,95 0,55
41,08 0,48
56,29 0,78
68,51 0,98
75,01 0,94
89,05 1,21
91,13 1,29
91,26 1,12
99,84 1,29
108,55 1,49

Solução de mínimos quadrados. Vamos designar - o volume de negócios anual da loja -th, milhões de rublos; - área de venda da ª loja, mil m2.

Fig.2.1. Gráfico de dispersão para o Exemplo 2.1

Determinar a forma da relação funcional entre as variáveis ​​e construir um gráfico de dispersão (Fig. 2.1).

Com base no diagrama de dispersão, podemos concluir que o faturamento anual é positivamente dependente da área de venda (ou seja, y aumentará com o crescimento de ). A forma mais adequada de conexão funcional é linear.

Informações para cálculos adicionais são apresentadas na Tabela. 2.2. Usando o método dos mínimos quadrados, estimamos os parâmetros do modelo econométrico linear de um fator

Tabela 2.2

t y t x 1t y t 2 x1t2 x 1t y t
19,76 0,24 390,4576 0,0576 4,7424
38,09 0,31 1450,8481 0,0961 11,8079
40,95 0,55 1676,9025 0,3025 22,5225
41,08 0,48 1687,5664 0,2304 19,7184
56,29 0,78 3168,5641 0,6084 43,9062
68,51 0,98 4693,6201 0,9604 67,1398
75,01 0,94 5626,5001 0,8836 70,5094
89,05 1,21 7929,9025 1,4641 107,7505
91,13 1,29 8304,6769 1,6641 117,5577
91,26 1,12 8328,3876 1,2544 102,2112
99,84 1,29 9968,0256 1,6641 128,7936
108,55 1,49 11783,1025 2,2201 161,7395
S 819,52 10,68 65008,554 11,4058 858,3991
Média 68,29 0,89

Nesse caminho,

Portanto, com um aumento na área de comércio em 1 mil m 2, tudo o mais constante, o faturamento médio anual aumenta em 67,8871 milhões de rublos.

Exemplo 2.2. A gestão da empresa percebeu que o volume de negócios anual depende não só da área de vendas da loja (ver exemplo 2.1), mas também do número médio de visitantes. As informações relevantes são apresentadas na tabela. 2.3.

Tabela 2.3

Solução. Denote - o número médio de visitantes da ª loja por dia, mil pessoas.

Determinar a forma da relação funcional entre as variáveis ​​e construir um gráfico de dispersão (Fig. 2.2).

Com base no diagrama de dispersão, podemos concluir que o faturamento anual está positivamente relacionado ao número médio de visitantes por dia (ou seja, y aumentará com o crescimento de ). A forma de dependência funcional é linear.

Arroz. 2.2. Gráfico de dispersão por exemplo 2.2

Tabela 2.4

t x 2t x 2t 2 yt x 2t x 1t x 2t
8,25 68,0625 163,02 1,98
10,24 104,8575 390,0416 3,1744
9,31 86,6761 381,2445 5,1205
11,01 121,2201 452,2908 5,2848
8,54 72,9316 480,7166 6,6612
7,51 56,4001 514,5101 7,3598
12,36 152,7696 927,1236 11,6184
10,81 116,8561 962,6305 13,0801
9,89 97,8121 901,2757 12,7581
13,72 188,2384 1252,0872 15,3664
12,27 150,5529 1225,0368 15,8283
13,92 193,7664 1511,016 20,7408
S 127,83 1410,44 9160,9934 118,9728
Média 10,65

Em geral, é necessário determinar os parâmetros do modelo econométrico de dois fatores

y t \u003d a 0 + a 1 x 1t + a 2 x 2t + ε t

As informações necessárias para cálculos adicionais são apresentadas na Tabela. 2.4.

Vamos estimar os parâmetros de um modelo econométrico linear de dois fatores usando o método dos mínimos quadrados.

Nesse caminho,

A avaliação do coeficiente = 61,6583 mostra que, tudo o mais constante, com um aumento na área de vendas em 1 mil m 2, o faturamento anual aumentará em média 61,6583 milhões de rublos.

A estimativa do coeficiente = 2,2748 mostra isso, tudo o mais constante, com aumento do número médio de visitantes por 1 mil pessoas. por dia, o volume de negócios anual aumentará em média 2,2748 milhões de rublos.

Exemplo 2.3. Usando as informações apresentadas na tabela. 2.2 e 2.4, estimar o parâmetro de um modelo econométrico de fator único

onde é o valor centralizado do faturamento anual da -th loja, milhões de rublos; - valor centrado do número médio diário de visitantes da t-ésima loja, mil pessoas. (ver exemplos 2.1-2.2).

Solução. As informações adicionais necessárias para os cálculos são apresentadas na Tabela. 2.5.

Tabela 2.5

-48,53 -2,40 5,7720 116,6013
-30,20 -0,41 0,1702 12,4589
-27,34 -1,34 1,8023 36,7084
-27,21 0,36 0,1278 -9,7288
-12,00 -2,11 4,4627 25,3570
0,22 -3,14 9,8753 -0,6809
6,72 1,71 2,9156 11,4687
20,76 0,16 0,0348 3,2992
22,84 -0,76 0,5814 -17,413
22,97 3,07 9,4096 70,4503
31,55 1,62 2,6163 51,0267
40,26 3,27 10,6766 131,5387
Soma 48,4344 431,0566

Usando a fórmula (2.35), obtemos

Nesse caminho,

http://www.cleverstudents.ru/articles/mnk.html

Exemplo.

Dados experimentais sobre os valores das variáveis X e no são dados na tabela.

Como resultado de seu alinhamento, a função

Usando método dos mínimos quadrados, aproxime esses dados com uma dependência linear y=ax+b(encontrar opções uma e b). Descubra qual das duas linhas é melhor (no sentido do método dos mínimos quadrados) alinha os dados experimentais. Faça um desenho.

Solução.

Em nosso exemplo n=5. Preenchemos a tabela para a conveniência de calcular os valores incluídos nas fórmulas dos coeficientes necessários.

Os valores da quarta linha da tabela são obtidos multiplicando os valores da 2ª linha pelos valores da 3ª linha para cada número eu.

Os valores da quinta linha da tabela são obtidos elevando ao quadrado os valores da 2ª linha para cada número eu.

Os valores da última coluna da tabela são as somas dos valores nas linhas.

Usamos as fórmulas do método dos mínimos quadrados para encontrar os coeficientes uma e b. Substituímos neles os valores correspondentes da última coluna da tabela:

Consequentemente, y=0,165x+2,184é a linha reta de aproximação desejada.

Resta saber qual das linhas y=0,165x+2,184 ou aproxima melhor os dados originais, ou seja, para fazer uma estimativa usando o método dos mínimos quadrados.

Prova.

Para que quando encontrado uma e b função assume o menor valor, é necessário que neste ponto a matriz da forma quadrática do diferencial de segunda ordem para a função foi definido positivo. Vamos mostrar.

O diferencial de segunda ordem tem a forma:

Aquilo é

Portanto, a matriz da forma quadrática tem a forma

e os valores dos elementos não dependem uma e b.

Vamos mostrar que a matriz é definida positiva. Isso requer que os menores dos ângulos sejam positivos.

Menor angular de primeira ordem . A desigualdade é estrita, pois os pontos

  • aula introdutória é grátis;
  • Um grande número de professores experientes (nativos e de língua russa);
  • Cursos NÃO por um período específico (mês, seis meses, ano), mas por um número específico de aulas (5, 10, 20, 50);
  • Mais de 10.000 clientes satisfeitos.
  • O custo de uma aula com um professor de língua russa - de 600 rublos, com um falante nativo - a partir de 1500 rublos

A essência do método dos mínimos quadrados é em encontrar os parâmetros do modelo de tendência que melhor descreve a tendência de desenvolvimento de qualquer fenômeno aleatório no tempo ou no espaço (uma tendência é uma linha que caracteriza a tendência desse desenvolvimento). A tarefa do método dos mínimos quadrados (OLS) é encontrar não apenas algum modelo de tendência, mas encontrar o melhor ou o modelo ideal. Este modelo será ideal se a soma dos desvios quadrados entre os valores reais observados e os valores de tendência calculados correspondentes for mínimo (menor):

onde é o desvio padrão entre o valor real observado

e o valor de tendência calculado correspondente,

O valor real (observado) do fenômeno em estudo,

Valor estimado do modelo de tendência,

O número de observações do fenômeno em estudo.

O MNC raramente é usado sozinho. Como regra, na maioria das vezes é usado apenas como uma técnica necessária em estudos de correlação. Deve-se lembrar que a base de informações do LSM só pode ser uma série estatística confiável, e o número de observações não deve ser inferior a 4, caso contrário, os procedimentos de suavização do LSM podem perder o bom senso.

O kit de ferramentas OLS é reduzido aos seguintes procedimentos:

Primeiro procedimento. Acontece se há alguma tendência de alterar o atributo resultante quando o argumento do fator selecionado muda, ou em outras palavras, se há uma conexão entre " no " e " X ».

Segundo procedimento. Determina-se qual linha (trajetória) é mais capaz de descrever ou caracterizar essa tendência.

Terceiro procedimento.

Exemplo. Suponha que tenhamos informações sobre o rendimento médio de girassol para a fazenda em estudo (Tabela 9.1).

Tabela 9.1

Número de observação

Produtividade, c/ha

Como o nível de tecnologia na produção de girassol em nosso país não mudou muito nos últimos 10 anos, isso significa que, muito provavelmente, as oscilações da produtividade no período analisado dependeram muito das oscilações do clima e das condições climáticas. É verdade?

Primeiro procedimento MNC. A hipótese sobre a existência de uma tendência na mudança da produtividade do girassol em função das mudanças nas condições climáticas e climáticas ao longo dos 10 anos analisados ​​está sendo testada.

Neste exemplo, para " y » é aconselhável tirar o rendimento do girassol, e para « x » é o número do ano observado no período analisado. Testando a hipótese sobre a existência de qualquer relação entre " x " e " y » pode ser feito de duas maneiras: manualmente e com a ajuda de programas de computador. Claro que, com a disponibilidade da tecnologia informática, este problema é resolvido por si só. Mas, para entender melhor o kit de ferramentas OLS, é aconselhável testar a hipótese sobre a existência de uma relação entre " x " e " y » manualmente, quando apenas uma caneta e uma calculadora comum estão à mão. Nesses casos, a hipótese da existência de uma tendência é melhor verificada visualmente pela localização da imagem gráfica da série temporal analisada - o campo de correlação:

O campo de correlação em nosso exemplo está localizado em torno de uma linha que aumenta lentamente. Isso por si só indica a existência de uma certa tendência na mudança na produtividade do girassol. É impossível falar sobre a presença de qualquer tendência apenas quando o campo de correlação se parece com um círculo, um círculo, uma nuvem estritamente vertical ou estritamente horizontal, ou consiste em pontos dispersos aleatoriamente. Em todos os outros casos, é necessário confirmar a hipótese da existência de uma relação entre " x " e " y e continuar a investigação.

Segundo procedimento MNC. Determina-se qual linha (trajetória) é mais capaz de descrever ou caracterizar a tendência das mudanças na produtividade do girassol no período analisado.

Com a disponibilidade de tecnologia de computador, a seleção da tendência ideal ocorre automaticamente. Com o processamento "manual", a escolha da função ideal é realizada, via de regra, de maneira visual - pela localização do campo de correlação. Ou seja, de acordo com o tipo de gráfico, seleciona-se a equação da linha que melhor se adapta à tendência empírica (à trajetória real).

Como você sabe, na natureza há uma enorme variedade de dependências funcionais, por isso é extremamente difícil analisar visualmente mesmo uma pequena parte delas. Felizmente, na prática econômica real, a maioria das relações pode ser descrita com precisão por uma parábola, uma hipérbole ou uma linha reta. Nesse sentido, com a opção "manual" para selecionar a melhor função, você pode se limitar apenas a esses três modelos.

Hipérbole:

Parábola de segunda ordem: :

É fácil ver que, em nosso exemplo, a tendência das mudanças na produção de girassol ao longo dos 10 anos analisados ​​é melhor caracterizada por uma linha reta, então a equação de regressão será uma equação de linha reta.

Terceiro procedimento. Calculam-se os parâmetros da equação de regressão que caracteriza esta linha, ou seja, determina-se uma fórmula analítica que descreve o melhor modelo de tendência.

Encontrar os valores dos parâmetros da equação de regressão, no nosso caso, os parâmetros e , é o núcleo do LSM. Este processo é reduzido a resolver um sistema de equações normais.

(9.2)

Este sistema de equações é facilmente resolvido pelo método de Gauss. Lembre-se que como resultado da solução, em nosso exemplo, os valores dos parâmetros e são encontrados. Assim, a equação de regressão encontrada terá a seguinte forma:

Escolhendo o tipo de função de regressão, ou seja, o tipo de modelo considerado da dependência de Y em X (ou X em Y), por exemplo, um modelo linear y x \u003d a + bx, é necessário determinar os valores específicos dos coeficientes do modelo.

Para valores diferentes de a e b, é possível construir um número infinito de dependências da forma y x = a + bx, ou seja, há um número infinito de linhas no plano coordenado, mas precisamos de tal dependência que corresponde aos valores observados da melhor maneira. Assim, o problema se reduz à seleção dos melhores coeficientes.

Estamos procurando uma função linear a + bx, baseada apenas em um certo número de observações disponíveis. Para encontrar a função com melhor ajuste aos valores observados, usamos o método dos mínimos quadrados.

Denote: Y i - o valor calculado pela equação Y i =a+bx i . y i - valor medido, ε i =y i -Y i - diferença entre os valores medidos e calculados, ε i =y i -a-bx i .

O método dos mínimos quadrados exige que ε i , a diferença entre o y i medido e os valores de Y i calculados a partir da equação, seja mínimo. Portanto, encontramos os coeficientes a e b para que a soma dos desvios quadrados dos valores observados dos valores na linha de regressão reta seja a menor:

Investigando esta função de argumentos a e com a ajuda de derivadas a um extremo, podemos provar que a função assume um valor mínimo se os coeficientes a e b forem soluções do sistema:

(2)

Se dividirmos ambos os lados das equações normais por n, obtemos:

Dado que (3)

Pegue , a partir daqui, substituindo o valor de a na primeira equação, temos:

Nesse caso, b é chamado de coeficiente de regressão; a é chamado de membro livre da equação de regressão e é calculado pela fórmula:

A linha reta resultante é uma estimativa para a linha de regressão teórica. Nós temos:

Então, é uma equação de regressão linear.

A regressão pode ser direta (b>0) e inversa (b Exemplo 1. Os resultados da medição dos valores de X e Y são dados na tabela:

XI -2 0 1 2 4
eu 0.5 1 1.5 2 3

Assumindo que existe uma relação linear entre X e Y y=a+bx, determine os coeficientes aeb usando o método dos mínimos quadrados.

Solução. Aqui n=5
x i =-2+0+1+2+4=5;
x i 2 =4+0+1+4+16=25
x i y i =-2 0,5+0 1+1 1,5+2 2+4 3=16,5
yi =0,5+1+1,5+2+3=8

e o sistema normal (2) tem a forma

Resolvendo este sistema, obtemos: b=0,425, a=1,175. Portanto y=1,175+0,425x.

Exemplo 2. Há uma amostra de 10 observações de indicadores econômicos (X) e (Y).

XI 180 172 173 169 175 170 179 170 167 174
eu 186 180 176 171 182 166 182 172 169 177

É necessário encontrar uma equação de regressão de amostra Y em X. Construir uma linha de regressão de amostra Y em X.

Solução. 1. Vamos ordenar os dados por valores x i e y i . Obtemos uma nova tabela:

XI 167 169 170 170 172 173 174 175 179 180
eu 169 171 166 172 180 176 177 182 182 186

Para simplificar os cálculos, compilaremos uma tabela de cálculo na qual inseriremos os valores numéricos necessários.

XI eu x e 2 x eu eu
167 169 27889 28223
169 171 28561 28899
170 166 28900 28220
170 172 28900 29240
172 180 29584 30960
173 176 29929 30448
174 177 30276 30798
175 182 30625 31850
179 182 32041 32578
180 186 32400 33480
∑xi = 1729 ∑yi = 1761 ∑x i 2 299105 ∑ x i y i = 304696
x=172,9 y=176,1 x i 2 = 29910,5 xy=30469,6

De acordo com a fórmula (4), calculamos o coeficiente de regressão

e pela fórmula (5)

Assim, a equação de regressão amostral se parece com y=-59,34+1,3804x.
Vamos plotar os pontos (x i ; y i) no plano de coordenadas e marcar a linha de regressão.


Figura 4

A Figura 4 mostra como os valores observados estão localizados em relação à linha de regressão. Para estimar numericamente os desvios de y i de Y i , onde y i são valores observados, e Y i são valores determinados por regressão, faremos uma tabela:

XI eu S eu Yi-yi
167 169 168.055 -0.945
169 171 170.778 -0.222
170 166 172.140 6.140
170 172 172.140 0.140
172 180 174.863 -5.137
173 176 176.225 0.225
174 177 177.587 0.587
175 182 178.949 -3.051
179 182 184.395 2.395
180 186 185.757 -0.243

Os valores de Y i são calculados de acordo com a equação de regressão.

O desvio perceptível de alguns valores observados da linha de regressão é explicado pelo pequeno número de observações. Ao estudar o grau de dependência linear de Y em X, o número de observações é levado em consideração. A força da dependência é determinada pelo valor do coeficiente de correlação.

Exemplo.

Dados experimentais sobre os valores das variáveis X e no são dados na tabela.

Como resultado de seu alinhamento, a função

Usando método dos mínimos quadrados, aproxime esses dados com uma dependência linear y=ax+b(encontrar opções uma e b). Descubra qual das duas linhas é melhor (no sentido do método dos mínimos quadrados) alinha os dados experimentais. Faça um desenho.

A essência do método dos mínimos quadrados (LSM).

O problema é encontrar os coeficientes de dependência linear para os quais a função de duas variáveis uma e b assume o menor valor. Ou seja, dados os dados uma e b a soma dos desvios quadrados dos dados experimentais da linha reta encontrada será a menor. Este é o ponto principal do método dos mínimos quadrados.

Assim, a solução do exemplo é reduzida a encontrar o extremo de uma função de duas variáveis.

Derivação de fórmulas para encontrar coeficientes.

Um sistema de duas equações com duas incógnitas é compilado e resolvido. Encontrando derivadas parciais de uma função em relação a variáveis uma e b, igualamos essas derivadas a zero.

Resolvemos o sistema de equações resultante por qualquer método (por exemplo método de substituição ou ) e obter fórmulas para encontrar coeficientes usando o método dos mínimos quadrados (LSM).

Com dados uma e b função assume o menor valor. A prova deste fato está dada.

Esse é todo o método dos mínimos quadrados. Fórmula para encontrar o parâmetro uma contém as somas , , , e o parâmetro n- quantidade de dados experimentais. Recomenda-se que os valores dessas somas sejam calculados separadamente. Coeficiente b encontrado após o cálculo uma.

É hora de lembrar o exemplo original.

Solução.

Em nosso exemplo n=5. Preenchemos a tabela para a conveniência de calcular os valores incluídos nas fórmulas dos coeficientes necessários.

Os valores da quarta linha da tabela são obtidos multiplicando os valores da 2ª linha pelos valores da 3ª linha para cada número eu.

Os valores da quinta linha da tabela são obtidos elevando ao quadrado os valores da 2ª linha para cada número eu.

Os valores da última coluna da tabela são as somas dos valores nas linhas.

Usamos as fórmulas do método dos mínimos quadrados para encontrar os coeficientes uma e b. Substituímos neles os valores correspondentes da última coluna da tabela:

Consequentemente, y=0,165x+2,184é a linha reta de aproximação desejada.

Resta saber qual das linhas y=0,165x+2,184 ou aproxima melhor os dados originais, ou seja, para fazer uma estimativa usando o método dos mínimos quadrados.

Estimativa do erro do método dos mínimos quadrados.

Para fazer isso, você precisa calcular as somas dos desvios quadrados dos dados originais dessas linhas e , um valor menor corresponde a uma linha que melhor se aproxima dos dados originais em termos do método dos mínimos quadrados.

Desde , então a linha y=0,165x+2,184 aproxima melhor os dados originais.

Ilustração gráfica do método dos mínimos quadrados (LSM).

Tudo parece ótimo nas paradas. A linha vermelha é a linha encontrada y=0,165x+2,184, a linha azul é , os pontos rosa são os dados originais.

Para que serve, para que servem todas essas aproximações?

Eu pessoalmente uso para resolver problemas de suavização de dados, problemas de interpolação e extrapolação (no exemplo original, você pode ser solicitado a encontrar o valor do valor observado y no x=3 ou quando x=6 de acordo com o método MNC). Mas falaremos mais sobre isso posteriormente em outra seção do site.

Prova.

Para que quando encontrado uma e b função assume o menor valor, é necessário que neste ponto a matriz da forma quadrática do diferencial de segunda ordem para a função foi definido positivo. Vamos mostrar.

O diferencial de segunda ordem tem a forma:

Aquilo é

Portanto, a matriz da forma quadrática tem a forma

e os valores dos elementos não dependem uma e b.

Vamos mostrar que a matriz é definida positiva. Isso requer que os menores dos ângulos sejam positivos.

Menor angular de primeira ordem . A desigualdade é estrita, pois os pontos não coincidem. Isso ficará implícito no que segue.

Angular menor de segunda ordem

Vamos provar isso pelo método de indução matemática.

Conclusão: valores encontrados uma e b corresponde ao menor valor da função , portanto, são os parâmetros desejados para o método dos mínimos quadrados.