Coeficientes mnk. Mínimos quadrados no Excel

O método dos mínimos quadrados (OLS, eng. Mínimos Quadrados Ordinários, OLS) -- um método matemático usado para resolver vários problemas, baseado na minimização da soma dos desvios quadrados de algumas funções das variáveis ​​desejadas. Ele pode ser usado para "resolver" sistemas de equações sobredeterminados (quando o número de equações excede o número de incógnitas), para encontrar uma solução no caso de sistemas de equações não lineares comuns (não sobredeterminados), para aproximar valores de pontos por alguma função. OLS é um dos métodos básicos de análise de regressão para estimar parâmetros desconhecidos de modelos de regressão a partir de dados de amostra.

A essência do método dos mínimos quadrados

Seja um conjunto de variáveis ​​desconhecidas (parâmetros), seja um conjunto de funções desse conjunto de variáveis. A tarefa é selecionar tais valores de x para que os valores dessas funções fiquem o mais próximo possível de alguns valores. Em essência, estamos falando sobre a "solução" de um sistema de equações sobredeterminado no sentido indicado da máxima proximidade das partes esquerda e direita do sistema. A essência do LSM é escolher como "medida de proximidade" a soma dos desvios quadrados das partes esquerda e direita - . Assim, a essência do LSM pode ser expressa da seguinte forma:

Se o sistema de equações tiver uma solução, então o mínimo da soma dos quadrados será igual a zero e as soluções exatas do sistema de equações podem ser encontradas analiticamente ou, por exemplo, por vários métodos de otimização numérica. Se o sistema é sobredeterminado, ou seja, falando livremente, o número de equações independentes é maior que o número de variáveis ​​desconhecidas, então o sistema não tem uma solução exata e o método dos mínimos quadrados permite encontrar algum vetor “ótimo” no sentido da máxima proximidade dos vetores e ou da máxima proximidade do vetor de desvio a zero (proximidade entendida no sentido de distância euclidiana).

Exemplo - sistema de equações lineares

Em particular, o método dos mínimos quadrados pode ser usado para "resolver" o sistema de equações lineares

onde a matriz não é quadrada, mas retangular (mais precisamente, o posto da matriz A é maior que o número de variáveis ​​necessárias).

Tal sistema de equações, no caso geral, não tem solução. Portanto, este sistema pode ser "resolvido" apenas no sentido de escolher tal vetor de forma a minimizar a "distância" entre os vetores e. Para fazer isso, você pode aplicar o critério para minimizar a soma das diferenças quadradas das partes esquerda e direita das equações do sistema, ou seja. É fácil mostrar que a solução deste problema de minimização leva à solução do seguinte sistema de equações

Usando o operador de pseudo-inversão, a solução pode ser reescrita assim:

onde é a matriz pseudoinversa de.

Este problema também pode ser “resolvido” usando o chamado LSM ponderado (veja abaixo), quando diferentes equações do sistema recebem pesos diferentes de considerações teóricas.

A fundamentação estrita e a determinação dos limites da aplicabilidade significativa do método foram dadas por A. A. Markov e A. N. Kolmogorov.

OLS em análise de regressão (aproximação de dados)[editar | editar texto wiki] Que haja valores de alguma variável (pode ser os resultados de observações, experimentos, etc.) e variáveis ​​correspondentes. A tarefa é aproximar a relação entre e por alguma função conhecida até alguns parâmetros desconhecidos, ou seja, de fato, encontrar os melhores valores de parâmetros que aproximem os valores o mais possível dos valores reais. Na verdade, isso se resume ao caso de "resolver" um sistema de equações sobredeterminado em relação a:

Na análise de regressão, e em particular na econometria, são utilizados modelos probabilísticos da relação entre as variáveis.

onde estão os chamados erros aleatórios do modelo.

Assim, os desvios dos valores observados dos valores do modelo já são assumidos no próprio modelo. A essência do LSM (ordinário, clássico) é encontrar tais parâmetros sob os quais a soma dos desvios quadrados (erros, para modelos de regressão eles são frequentemente chamados de resíduos de regressão) será mínima:

onde está o inglês. A soma residual dos quadrados é definida como:

No caso geral, este problema pode ser resolvido por métodos numéricos de otimização (minimização). Neste caso, fala-se de mínimos quadrados não lineares (NLS ou NLLS - Non-Linear Least Squares). Em muitos casos, uma solução analítica pode ser obtida. Para resolver o problema de minimização, é necessário encontrar os pontos estacionários da função diferenciando-a em relação a parâmetros desconhecidos, igualando as derivadas a zero e resolvendo o sistema de equações resultante:

OLS no caso de regressão linear[editar | editar texto wiki]

Seja a dependência da regressão linear:

Seja y um vetor coluna de observações da variável que está sendo explicada, e seja uma matriz de observações de fatores (linhas da matriz são vetores de valores de fatores em uma dada observação, colunas são vetores de valores de uma dada fator em todas as observações). A representação matricial do modelo linear tem a forma:

Então o vetor de estimativas da variável explicada e o vetor de resíduos de regressão serão iguais a

consequentemente, a soma dos quadrados dos resíduos da regressão será igual a

Diferenciando esta função em relação ao vetor de parâmetros e igualando as derivadas a zero, obtemos um sistema de equações (em forma de matriz):

Na forma de matriz decifrada, esse sistema de equações se parece com isso:


onde todas as somas são tomadas sobre todos os valores admissíveis.

Se uma constante for incluída no modelo (como de costume), então para todos, portanto, no canto superior esquerdo da matriz do sistema de equações está o número de observações e nos elementos restantes da primeira linha e primeira coluna - apenas a soma dos valores das variáveis: e o primeiro elemento do lado direito do sistema -- .

A solução deste sistema de equações dá a fórmula geral para as estimativas de mínimos quadrados para o modelo linear:

Para fins analíticos, a última representação desta fórmula acaba por ser útil (no sistema de equações quando dividido por n, aparecem médias aritméticas em vez de somas). Se os dados estão centrados no modelo de regressão, então nesta representação a primeira matriz tem o significado da matriz de covariância amostral de fatores, e a segunda é o vetor de covariância fatorial com a variável dependente. Se, além disso, os dados também forem normalizados para o RMS (ou seja, eventualmente padronizados), então a primeira matriz tem o significado da matriz de correlação de fatores de amostra, o segundo vetor - o vetor de correlações de fatores de amostra com os fatores dependentes variável.

Uma propriedade importante das estimativas LLS para modelos com uma constante é que a linha da regressão construída passa pelo centro de gravidade dos dados amostrais, ou seja, a igualdade é satisfeita:

Em particular, no caso extremo, quando o único regressor é uma constante, verificamos que a estimativa OLS de um único parâmetro (a própria constante) é igual ao valor médio da variável explicada. Ou seja, a média aritmética, conhecida por suas boas propriedades das leis dos grandes números, também é uma estimativa de mínimos quadrados - ela satisfaz o critério da soma mínima dos desvios quadrados dela.

Os casos especiais mais simples[editar | editar texto wiki]

No caso da regressão linear pareada, quando a dependência linear de uma variável em relação a outra é estimada, as fórmulas de cálculo são simplificadas (você pode prescindir da álgebra matricial). O sistema de equações tem a forma:

A partir daqui é fácil encontrar estimativas para os coeficientes:

Embora os modelos constantes sejam geralmente preferíveis, em alguns casos é conhecido a partir de considerações teóricas que a constante deve ser zero. Por exemplo, na física, a relação entre tensão e corrente tem a forma; medir tensão e corrente, é necessário estimar a resistência. Neste caso, estamos falando do modelo. Neste caso, em vez de um sistema de equações, temos uma única equação

Portanto, a fórmula para estimar um único coeficiente tem a forma

Propriedades estatísticas das estimativas OLS[editar | editar texto wiki]

Em primeiro lugar, notamos que, para modelos lineares, as estimativas de mínimos quadrados são estimativas lineares, conforme segue a fórmula acima. Para estimativas OLS não tendenciosas, é necessário e suficiente cumprir a condição mais importante da análise de regressão: a expectativa matemática de um erro aleatório condicional aos fatores deve ser igual a zero. Esta condição, em particular, é satisfeita se a expectativa matemática de erros aleatórios for igual a zero, e os fatores e erros aleatórios forem variáveis ​​aleatórias independentes.

A primeira condição pode ser considerada sempre satisfeita para modelos com uma constante, uma vez que a constante assume uma expectativa matemática de erros diferente de zero (portanto, modelos com uma constante são geralmente preferíveis). covariância de regressão dos mínimos quadrados

A segunda condição - a condição dos fatores exógenos - é fundamental. Se essa propriedade não for satisfeita, podemos supor que quase todas as estimativas serão extremamente insatisfatórias: elas nem serão consistentes (ou seja, mesmo uma quantidade muito grande de dados não permite obter estimativas qualitativas nesse caso). No caso clássico, é feita uma suposição mais forte sobre o determinismo dos fatores, em contraste com um erro aleatório, que automaticamente significa que a condição exógena é satisfeita. No caso geral, para a consistência das estimativas, basta preencher a condição de exogeneidade juntamente com a convergência da matriz para alguma matriz não singular com aumento do tamanho da amostra ao infinito.

Para que, além de consistência e imparcialidade, as estimativas (comuns) de mínimos quadrados também sejam eficientes (as melhores na classe de estimativas lineares não tendenciosas), propriedades adicionais de um erro aleatório devem ser satisfeitas:

Variação constante (mesma) de erros aleatórios em todas as observações (sem heterocedasticidade):

Falta de correlação (autocorrelação) de erros aleatórios em diferentes observações entre si

Essas suposições podem ser formuladas para a matriz de covariância do vetor de erro aleatório

Um modelo linear que satisfaça essas condições é chamado de clássico. As estimativas LLS para regressão linear clássica são imparciais, consistentes e as estimativas mais eficientes na classe de todas as estimativas lineares imparciais (na literatura inglesa às vezes usam a abreviatura BLUE (Best Linear Unbiased Estimator) - a melhor estimativa linear imparcial; na literatura nacional , o teorema de Gauss é mais frequentemente dado - Markov). Como é fácil mostrar, a matriz de covariância do vetor de estimativas de coeficientes será igual a:

Eficiência significa que essa matriz de covariância é "mínima" (qualquer combinação linear de coeficientes, e em particular os próprios coeficientes, tem uma variância mínima), ou seja, na classe de estimativas lineares não enviesadas, as estimativas OLS são as melhores. Os elementos diagonais desta matriz, as variâncias das estimativas dos coeficientes, são parâmetros importantes da qualidade das estimativas obtidas. No entanto, não é possível calcular a matriz de covariância porque a variância do erro aleatório é desconhecida. Pode-se provar que a estimativa imparcial e consistente (para o modelo linear clássico) da variância dos erros aleatórios é o valor:

Substituindo esse valor na fórmula da matriz de covariância, obtemos uma estimativa da matriz de covariância. As estimativas resultantes também são imparciais e consistentes. Também é importante que a estimativa da variância do erro (e, portanto, das variâncias dos coeficientes) e as estimativas dos parâmetros do modelo sejam variáveis ​​aleatórias independentes, o que possibilita obter estatísticas de teste para testar hipóteses sobre os coeficientes do modelo.

Deve-se notar que, se as premissas clássicas não forem atendidas, as estimativas dos parâmetros dos mínimos quadrados não são as estimativas mais eficientes (permanecendo imparciais e consistentes). No entanto, a estimativa da matriz de covariância piora ainda mais - torna-se tendenciosa e inconsistente. Isso significa que as conclusões estatísticas sobre a qualidade do modelo construído neste caso podem ser extremamente pouco confiáveis. Uma maneira de resolver o último problema é usar estimativas especiais da matriz de covariância, que são consistentes sob violações das suposições clássicas (erros padrão na forma de White e erros padrão na forma de Newey-West). Outra abordagem é usar os chamados mínimos quadrados generalizados.

Mínimos quadrados generalizados[editar | editar texto wiki]

Ver artigo principal: mínimos quadrados generalizados

O método dos mínimos quadrados permite uma ampla generalização. Em vez de minimizar a soma dos quadrados dos resíduos, pode-se minimizar alguma forma quadrática positiva-definida do vetor de resíduos, onde é uma matriz de pesos positiva-definida simétrica. Mínimos quadrados ordinários é um caso especial dessa abordagem, quando a matriz de pesos é proporcional à matriz identidade. Como se sabe da teoria das matrizes simétricas (ou operadores), existe uma decomposição para tais matrizes. Portanto, este funcional pode ser representado da seguinte forma

ou seja, este funcional pode ser representado como a soma dos quadrados de alguns "resíduos" transformados. Assim, podemos distinguir uma classe de métodos de mínimos quadrados - métodos LS (Least Squares).

Está provado (teorema de Aitken) que para um modelo de regressão linear generalizado (no qual não são impostas restrições à matriz de covariância de erros aleatórios), os mais eficazes (na classe de estimativas lineares não enviesadas) são as estimativas das chamadas. mínimos quadrados generalizados (GLS, GLS - Generalized Least Squares) - método LS com uma matriz de pesos igual à matriz de covariância inversa de erros aleatórios: .

Pode ser mostrado que a fórmula para as estimativas GLS dos parâmetros do modelo linear tem a forma

A matriz de covariância dessas estimativas, respectivamente, será igual a

De fato, a essência do OLS está em uma certa transformação (linear) (P) dos dados originais e na aplicação dos mínimos quadrados usuais aos dados transformados. O objetivo dessa transformação é que, para os dados transformados, os erros aleatórios já satisfaçam as suposições clássicas.

OLS ponderado[editar | editar texto wiki]

No caso de uma matriz de peso diagonal (e, portanto, a matriz de covariância de erros aleatórios), temos os chamados mínimos quadrados ponderados (WLS - Weighted Least Squares). Nesse caso, a soma dos quadrados ponderada dos resíduos do modelo é minimizada, ou seja, cada observação recebe um “peso” que é inversamente proporcional à variância do erro aleatório nesta observação:

De fato, os dados são transformados ponderando as observações (dividindo por um valor proporcional ao desvio padrão assumido dos erros aleatórios), e os mínimos quadrados normais são aplicados aos dados ponderados.

Após o alinhamento, obtemos uma função da seguinte forma: g (x) = x + 1 3 + 1 .

Podemos aproximar esses dados com uma relação linear y = a x + b calculando os parâmetros apropriados. Para fazer isso, precisaremos aplicar o chamado método dos mínimos quadrados. Você também precisará fazer um desenho para verificar qual linha alinhará melhor os dados experimentais.

Yandex.RTB R-A-339285-1

O que exatamente é OLS (método dos mínimos quadrados)

A principal coisa que precisamos fazer é encontrar tais coeficientes de dependência linear em que o valor da função de duas variáveis ​​F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 será o menor. Em outras palavras, para determinados valores de a e b, a soma dos quadrados dos desvios dos dados apresentados da reta resultante terá um valor mínimo. Este é o significado do método dos mínimos quadrados. Tudo o que precisamos fazer para resolver o exemplo é encontrar o extremo da função de duas variáveis.

Como derivar fórmulas para calcular coeficientes

Para derivar fórmulas de cálculo dos coeficientes, é necessário compor e resolver um sistema de equações com duas variáveis. Para fazer isso, calculamos as derivadas parciais da expressão F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 em relação a aeb e as igualamos a 0 .

δ F (a , b) δ a = 0 δ F (a , b) δ b = 0 ⇔ - 2 ∑ i = 1 n (y i - (a x i + b)) x i = 0 - 2 ∑ i = 1 n ( y i - (a x i + b)) = 0 ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + ∑ i = 1 n b = ∑ i = 1 n y i ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + n b = ∑ i = 1 n y i

Para resolver um sistema de equações, você pode usar qualquer método, como substituição ou método de Cramer. Como resultado, devemos obter fórmulas que calculam os coeficientes usando o método dos mínimos quadrados.

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n x i n

Calculamos os valores das variáveis ​​para as quais a função
F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 terá o valor mínimo. No terceiro parágrafo, vamos provar porque é assim.

Esta é a aplicação do método dos mínimos quadrados na prática. Sua fórmula, que é usada para encontrar o parâmetro a , inclui ∑ i = 1 n x i , ∑ i = 1 n y i , ∑ i = 1 n x i y i , ∑ i = 1 n x i 2 , e o parâmetro
n - denota a quantidade de dados experimentais. Aconselhamos que calcule cada valor separadamente. O valor do coeficiente b é calculado imediatamente após a .

Voltemos ao exemplo original.

Exemplo 1

Aqui temos n igual a cinco. Para facilitar o cálculo dos valores necessários incluídos nas fórmulas dos coeficientes, preenchemos a tabela.

eu = 1 eu = 2 eu = 3 eu = 4 eu = 5 ∑ i = 1 5
XI 0 1 2 4 5 12
eu 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
x eu eu 0 2 , 4 5 , 2 11 , 2 15 33 , 8
x e 2 0 1 4 16 25 46

Solução

A quarta linha contém os dados obtidos multiplicando os valores da segunda linha pelos valores da terceira para cada indivíduo i. A quinta linha contém os dados do segundo quadrado. A última coluna mostra as somas dos valores das linhas individuais.

Vamos usar o método dos mínimos quadrados para calcular os coeficientes aeb que precisamos. Para isso, substitua os valores desejados da última coluna e calcule as somas:

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n x i n ⇒ a = 5 33, 8 - 12 12, 9 5 46 - 12 2 b = 12, 9 - a 12 5 ⇒ a ≈ 0, 165 b ≈ 2, 184

Temos que a linha reta de aproximação desejada será y = 0 , 165 x + 2 , 184 . Agora precisamos determinar qual linha irá aproximar melhor os dados - g (x) = x + 1 3 + 1 ou 0 , 165 x + 2 , 184 . Vamos fazer uma estimativa usando o método dos mínimos quadrados.

Para calcular o erro, precisamos encontrar as somas dos desvios quadrados dos dados das linhas σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 e σ 2 = ∑ i = 1 n (y i - g (x i)) 2 , o valor mínimo corresponderá a uma linha mais adequada.

σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 = = ∑ i = 1 5 (y i - (0 , 165 x i + 2 , 184)) 2 ≈ 0 , 019 σ 2 = ∑ i = 1 n (y i - g (x i)) 2 = = ∑ i = 1 5 (y i - (x i + 1 3 + 1)) 2 ≈ 0 , 096

Responda: desde σ 1< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
y = 0, 165 x + 2, 184.

O método dos mínimos quadrados é claramente mostrado na ilustração gráfica. A linha vermelha marca a linha reta g (x) = x + 1 3 + 1, a linha azul marca y = 0, 165 x + 2, 184. Os dados brutos são marcados com pontos rosa.

Vamos explicar por que exatamente são necessárias aproximações desse tipo.

Eles podem ser usados ​​em problemas que exigem suavização de dados, bem como naqueles em que os dados precisam ser interpolados ou extrapolados. Por exemplo, no problema discutido acima, pode-se encontrar o valor da quantidade observada y em x = 3 ou em x = 6 . Dedicamos um artigo separado a esses exemplos.

Prova do método LSM

Para que a função tome o valor mínimo quando a e b são calculados, é necessário que em um dado ponto a matriz da forma quadrática da diferencial da função da forma F(a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 seja positivo definido. Vamos mostrar como deve ser.

Exemplo 2

Temos um diferencial de segunda ordem da seguinte forma:

d 2 F (a ; b) = δ 2 F (a ; b) δ a 2 d 2 a + 2 δ 2 F (a ; b) δ a δ b d a d b + δ 2 F (a ; b) δ b 2 d 2b

Solução

δ 2 F (a ; b) δ a 2 = δ δ F (a ; b) δ a δ a = = δ - 2 ∑ i = 1 n (y i - (a x i + b)) x i δ a = 2 ∑ i = 1 n (x i) 2 δ 2 F (a ; b) δ a δ b = δ δ F (a ; b) δ a δ b = = δ - 2 ∑ i = 1 n (y i - (a x i + b) ) x i δ b = 2 ∑ i = 1 n x i δ 2 F (a ; b) δ b 2 = δ δ F (a ; b) δ b δ b = δ - 2 ∑ i = 1 n (y i - (a x i + b)) δ b = 2 ∑ i = 1 n (1) = 2 n

Em outras palavras, pode ser escrito da seguinte forma: d 2 F (a ; b) = 2 ∑ i = 1 n (x i) 2 d 2 a + 2 2 ∑ x i i = 1 n d a d b + (2 n) d 2 b .

Obtivemos uma matriz de forma quadrática M = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n .

Nesse caso, os valores dos elementos individuais não serão alterados dependendo de a e b . Essa matriz é positiva definida? Para responder a esta pergunta, vamos verificar se seus menores angulares são positivos.

Calcule o menor angular de primeira ordem: 2 ∑ i = 1 n (x i) 2 > 0 . Como os pontos x i não coincidem, a desigualdade é estrita. Vamos manter isso em mente em cálculos posteriores.

Calculamos o menor angular de segunda ordem:

d e t (M) = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n = 4 n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2

Em seguida, procedemos à prova da desigualdade n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 por indução matemática.

  1. Vamos verificar se esta desigualdade é válida para n arbitrário. Vamos pegar 2 e calcular:

2 ∑ i = 1 2 (x i) 2 - ∑ i = 1 2 x i 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0

Obtivemos a igualdade correta (se os valores x 1 e x 2 não corresponderem).

  1. Vamos supor que essa desigualdade será verdadeira para n , ou seja. n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 – verdadeiro.
  2. Agora vamos provar a validade para n + 1 , ou seja. que (n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 > 0 se n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 .

Calculamos:

(n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 = = (n + 1) ∑ i = 1 n (x i) 2 + x n + 1 2 - ∑ i = 1 n x i + x n + 1 2 = = n ∑ i = 1 n (x i) 2 + n x n + 1 2 + ∑ i = 1 n (x i) 2 + x n + 1 2 - - ∑ i = 1 n x i 2 + 2 x n + 1 ∑ i = 1 n x i + x n + 1 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + n x n + 1 2 - x n + 1 ∑ i = 1 n x i + ∑ i = 1 n (x i) 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + x n + 1 2 - 2 x n + 1 x 1 + x 1 2 + + x n + 1 2 - 2 x n + 1 x 2 + x 2 2 + . . . + x n + 1 2 - 2 x n + 1 x 1 + x n 2 = = n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + + (x n + 1 - x 1) 2 + (x n + 1 - x 2) 2 + . . . + (x n - 1 - x n) 2 > 0

A expressão entre chaves será maior que 0 (com base no que presumimos na etapa 2), e o restante dos termos será maior que 0 porque são todos quadrados de números. Provamos a desigualdade.

Responda: os a e b encontrados corresponderão ao menor valor da função F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2, o que significa que eles são os parâmetros necessários do método dos mínimos quadrados (LSM).

Se você notar um erro no texto, destaque-o e pressione Ctrl+Enter

Método dos mínimos quadrados (OLS, eng. Mínimos quadrados ordinários, OLS)- um método matemático usado para resolver vários problemas, baseado na minimização da soma dos desvios quadrados de algumas funções das variáveis ​​desejadas. Ele pode ser usado para "resolver" sistemas de equações sobredeterminados (quando o número de equações excede o número de incógnitas), para encontrar uma solução no caso de sistemas de equações não lineares comuns (não sobredeterminados), para aproximar os valores pontuais de uma determinada função. OLS é um dos métodos básicos de análise de regressão para estimar parâmetros desconhecidos de modelos de regressão a partir de dados de amostra.

YouTube enciclopédico

    1 / 5

    ✪ Método dos mínimos quadrados. Tema

    ✪ Mitin I. V. - Processamento dos resultados do exame físico. experimento - Método dos mínimos quadrados (Aula 4)

    ✪ Mínimos quadrados, lição 1/2. Função linear

    ✪ Econometria. Aula 5. Método dos mínimos quadrados

    ✪ Método dos mínimos quadrados. Respostas

    Legendas

História

Até o início do século XIX. os cientistas não tinham certas regras para resolver um sistema de equações em que o número de incógnitas é menor que o número de equações; Até então, métodos particulares eram usados, dependendo do tipo de equações e da engenhosidade das calculadoras, e, portanto, diferentes calculadoras, partindo dos mesmos dados observacionais, chegavam a conclusões diferentes. Gauss (1795) é creditado com a primeira aplicação do método, e Legendre (1805) independentemente descobriu e publicou sob seu nome moderno (fr. Methode des moindres quarres). Laplace conectou o método com a teoria das probabilidades, e o matemático americano Adrain (1808) considerou suas aplicações probabilísticas. O método é difundido e melhorado por mais pesquisas de Encke, Bessel, Hansen e outros.

A essência do método dos mínimos quadrados

Deixar x (\displaystyle x)- conjunto n (\displaystyle n) variáveis ​​desconhecidas (parâmetros), f i (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- conjunto de funções deste conjunto de variáveis. O problema é escolher tais valores x (\displaystyle x) para que os valores dessas funções sejam o mais próximo possível de alguns valores y i (\displaystyle y_(i)). Em essência, estamos falando sobre a “solução” do sistema de equações sobredeterminado f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1 , … , m (\displaystyle i=1,\ldots ,m) no sentido indicado, a proximidade máxima das partes esquerda e direita do sistema. A essência do LSM é escolher como "medida de proximidade" a soma dos desvios quadrados das partes esquerda e direita | f i (x) − y i | (\displaystyle |f_(i)(x)-y_(i)|). Assim, a essência do LSM pode ser expressa da seguinte forma:

∑ i e i 2 = ∑ i (y i − f i (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\rightarrow \min _(x)).

Se o sistema de equações tiver uma solução, então o mínimo da soma dos quadrados será igual a zero e as soluções exatas do sistema de equações podem ser encontradas analiticamente ou, por exemplo, por vários métodos de otimização numérica. Se o sistema é sobredeterminado, ou seja, falando livremente, o número de equações independentes é maior que o número de variáveis ​​desconhecidas, então o sistema não tem uma solução exata e o método dos mínimos quadrados nos permite encontrar algum vetor "ótimo" x (\displaystyle x) no sentido da máxima proximidade dos vetores y (\displaystyle y) e f (x) (\displaystyle f(x)) ou a proximidade máxima do vetor de desvio e (\displaystyle e) a zero (a proximidade é entendida no sentido de distância euclidiana).

Exemplo - sistema de equações lineares

Em particular, o método dos mínimos quadrados pode ser usado para "resolver" o sistema de equações lineares

A x = b (\displaystyle Ax=b),

Onde A (\estilo de exibição A) matriz de tamanho retangular m × n , m > n (\displaystyle m\times n,m>n)(ou seja, o número de linhas da matriz A é maior que o número de variáveis ​​necessárias).

Tal sistema de equações geralmente não tem solução. Portanto, este sistema pode ser "resolvido" apenas no sentido de escolher tal vetor x (\displaystyle x) para minimizar a "distância" entre vetores A x (\displaystyle Ax) e b (\displaystyle b). Para fazer isso, você pode aplicar o critério para minimizar a soma das diferenças quadradas das partes esquerda e direita das equações do sistema, que é (A x − b) T (A x − b) → min (\displaystyle (Ax-b)^(T)(Ax-b)\rightarrow \min ). É fácil mostrar que a solução deste problema de minimização leva à solução do seguinte sistema de equações

A T A x = A T b ⇒ x = (A T A) − 1 A T b (\displaystyle A^(T)Ax=A^(T)b\Rightarrow x=(A^(T)A)^(-1)A^ (Tb).

OLS em análise de regressão (aproximação de dados)

Deixe estar n (\displaystyle n) valores de alguma variável y (\displaystyle y)(estes podem ser os resultados de observações, experimentos, etc.) e as variáveis ​​correspondentes x (\displaystyle x). O desafio é fazer a relação entre y (\displaystyle y) e x (\displaystyle x) aproximado por alguma função conhecida até alguns parâmetros desconhecidos b (\displaystyle b), ou seja, realmente encontrar os melhores valores dos parâmetros b (\displaystyle b), aproximando ao máximo os valores f (x , b) (\displaystyle f(x,b)) para valores reais y (\displaystyle y). De fato, isso se reduz ao caso de "solução" de um sistema de equações sobredeterminado em relação a b (\displaystyle b):

F (x t , b) = y t , t = 1 , … , n (\displaystyle f(x_(t),b)=y_(t),t=1,\ldots ,n).

Na análise de regressão, e em particular na econometria, são utilizados modelos probabilísticos da relação entre as variáveis.

Y t = f (x t , b) + ε t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

Onde ε t (\displaystyle \varepsilon _(t))- assim chamado erros aleatórios modelos.

Assim, os desvios dos valores observados y (\displaystyle y) do modelo f (x , b) (\displaystyle f(x,b)) já assumido no próprio modelo. A essência do LSM (comum, clássico) é encontrar tais parâmetros b (\displaystyle b), em que a soma dos desvios quadrados (erros, para modelos de regressão são frequentemente chamados de resíduos de regressão) e t (\displaystyle e_(t)) será mínimo:

b ^ O L S = arg ⁡ min b R S S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS(b)),

Onde R S S (\displaystyle RSS)- Inglês. A soma residual dos quadrados é definida como:

R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\soma _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

No caso geral, este problema pode ser resolvido por métodos numéricos de otimização (minimização). Neste caso, fala-se de mínimos quadrados não lineares(NLS ou NLLS - eng. Mínimos quadrados não lineares). Em muitos casos, uma solução analítica pode ser obtida. Para resolver o problema de minimização, é necessário encontrar os pontos estacionários da função R S S (b) (\displaystyle RSS(b)), diferenciando-o em relação a parâmetros desconhecidos b (\displaystyle b), igualando as derivadas a zero e resolvendo o sistema de equações resultante:

∑ t = 1 n (y t − f (x t , b)) ∂ f (x t , b) ∂ b = 0 (\displaystyle \sum _(t=1)^(n)(y_(t)-f(x_) (t),b))(\frac (\partial f(x_(t),b))(\partial b))=0).

LSM no caso de regressão linear

Seja a dependência da regressão linear:

y t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

Deixar yé o vetor coluna de observações da variável que está sendo explicada, e X (\displaystyle X)- isto é (n × k) (\displaystyle ((n\vezes k)))- matriz de observações de fatores (linhas da matriz - vetores de valores de fatores em uma determinada observação, por colunas - vetor de valores de um determinado fator em todas as observações). A representação matricial do modelo linear tem a forma:

y = Xb + ε (\displaystyle y=Xb+\varepsilon ).

Então o vetor de estimativas da variável explicada e o vetor de resíduos de regressão serão iguais a

y ^ = X b , e = y − y ^ = y − X b (\displaystyle (\hat (y))=Xb,\quad e=y-(\hat (y))=y-Xb).

consequentemente, a soma dos quadrados dos resíduos da regressão será igual a

R S S = e T e = (y − X b) T (y − X b) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

Diferenciando esta função em relação ao vetor de parâmetros b (\displaystyle b) e igualando as derivadas a zero, obtemos um sistema de equações (em forma de matriz):

(X T X) b = X T y (\displaystyle (X^(T)X)b=X^(T)y).

Na forma de matriz decifrada, esse sistema de equações se parece com isso:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 3 … ∑ x t 2 x t k ∑ x t 3 x t 1 ∑ x t 1 ∑ x t 1 ∑ k ∑ x t 3 x t 1 ∑ ∑ x t 3 x t k ⋮ ⋮ ⋮ ∑ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3… ∑ x t k 2) (b 1 b 2 b 3 ⋮ b k) = (∑ x t 1 y x t ∑ 3 y t ∑ x t k y t), (\ drama (\begin(pmatrix)\soma x_(t1)^(2)&\sum x_(t1)x_(t2)&\soma x_(t1)x_(t3)&\ldots &\sum x_(t1)x_( tk)\\\soma x_(t2)x_(t1)&\soma x_(t2)^(2)&\soma x_(t2)x_(t3)&\ldots &\ soma x_(t2)x_(tk) \\\soma x_(t3)x_(t1)&\soma x_(t3)x_(t2)&\soma x_(t3)^(2)&\ldots &\soma x_ (t3)x_(tk)\\ \vdots &\vdots &\vdots &\ddots &\vdots \\\soma x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ ldots &\sum x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3 )\\\vdots \\b_( k)\\\end(pmatrix))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \sum x_(t3)y_(t) )\\\vdots \\\soma x_(tk)y_(t)\\\end(pmatrix))) onde todas as somas são tomadas sobre todos os valores admissíveis t (\displaystyle t).

Se uma constante for incluída no modelo (como de costume), então x t 1 = 1 (\displaystyle x_(t1)=1) para todos t (\displaystyle t), portanto, no canto superior esquerdo da matriz do sistema de equações está o número de observações n (\displaystyle n), e nos demais elementos da primeira linha e primeira coluna - apenas a soma dos valores das variáveis: ∑ x t j (\displaystyle \sum x_(tj)) e o primeiro elemento do lado direito do sistema - ∑ y t (\displaystyle \sum y_(t)).

A solução deste sistema de equações dá a fórmula geral para as estimativas de mínimos quadrados para o modelo linear:

b ^ O L S = (X T X) − 1 X T y = (1 n X T X) − 1 1 n X T y = V x − 1 C x y (\displaystyle (\hat (b))_(OLS)=(X^(T) )X)^(-1)X^(T)y=\left((\frac (1)(n))X^(T)X\right)^(-1)(\frac (1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).

Para fins analíticos, a última representação desta fórmula acaba por ser útil (no sistema de equações quando dividido por n, aparecem médias aritméticas em vez de somas). Se os dados no modelo de regressão centrado, então nesta representação a primeira matriz tem o significado da matriz de covariâncias amostral de fatores, e a segunda é o vetor de covariâncias de fatores com variável dependente. Se, além disso, os dados também forem normalizado no SKO (ou seja, em última análise, padronizado), então a primeira matriz tem o significado da matriz de correlação amostral de fatores, o segundo vetor - o vetor de correlações amostrais de fatores com a variável dependente.

Uma propriedade importante das estimativas LLS para modelos com uma constante- a linha da regressão construída passa pelo centro de gravidade dos dados da amostra, ou seja, a igualdade é cumprida:

y ¯ = b 1 ^ + ∑ j = 2 k b ^ j x ¯ j (\displaystyle (\bar (y))=(\hat (b_(1)))+\sum _(j=2)^(k) (\hat (b))_(j)(\bar (x))_(j)).

Em particular, no caso extremo, quando o único regressor é uma constante, verificamos que a estimativa OLS de um único parâmetro (a própria constante) é igual ao valor médio da variável explicada. Ou seja, a média aritmética, conhecida por suas boas propriedades das leis dos grandes números, também é uma estimativa de mínimos quadrados - ela satisfaz o critério da soma mínima dos desvios quadrados dela.

Os casos especiais mais simples

No caso de regressão linear aos pares y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t)), quando a dependência linear de uma variável em outra é estimada, as fórmulas de cálculo são simplificadas (você pode prescindir da álgebra matricial). O sistema de equações tem a forma:

(1 x ¯ x ¯ x 2 ¯) (a b) = (y ¯ x y ¯) (\displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2)))\\\end(pmatrix))(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline(xy))\\\end(pmatrix))).

A partir daqui é fácil encontrar estimativas para os coeficientes:

( b ^ = Cov ⁡ (x , y) Var ⁡ (x) = x y ¯ − x ¯ y ¯ x 2 ¯ − x ¯ 2 , a ^ = y ¯ − b x ¯ . (\displaystyle (\begin(cases) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline) (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2))),\\( \hat (a))=(\bar (y))-b(\bar (x)).\end(cases)))

Apesar do fato de que, em geral, os modelos com uma constante são preferíveis, em alguns casos sabe-se a partir de considerações teóricas que a constante a (\displaystyle a) deve ser igual a zero. Por exemplo, na física, a relação entre tensão e corrente tem a forma U = I ⋅ R (\displaystyle U=I\cdot R); medir tensão e corrente, é necessário estimar a resistência. Neste caso, estamos falando de um modelo y = b x (\displaystyle y=bx). Neste caso, em vez de um sistema de equações, temos uma única equação

(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).

Portanto, a fórmula para estimar um único coeficiente tem a forma

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t) )y_(t))(\sum _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2))) ))).

O caso de um modelo polinomial

Se os dados forem ajustados por uma função de regressão polinomial de uma variável f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i)), então, percebendo graus x i (\displaystyle x^(i)) como fatores independentes para cada i (\displaystyle i)é possível estimar os parâmetros do modelo com base na fórmula geral de estimação dos parâmetros do modelo linear. Para isso, basta levar em conta na fórmula geral que com tal interpretação x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j)) e x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). Portanto, as equações matriciais neste caso terão a forma:

(n ∑ n x t ... ∑ n x t k ∑ n x t ∑ n x i 2 ... ∑ m x i k + 1 ⋮ ⋱ ⋮ ∑ ∑ n x t k ∑ n x t k + 1 ... ∑ n x t 2 k) [b 0 b 1 ⋮ b k] = [∑ 0 b 1 ⋮ b k] n y t ∑ n x t y t ⋮ n x t k y t ] . (\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\soma \limits _(n)x_(i)^(2)&\ldots &\soma \limits _(m)x_(i)^(k+1)\\\vdots & \vdots &\ddots &\vdots \\\sum \limits _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ soma \limits _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatrix)).)

Propriedades estatísticas das estimativas de OLS

Em primeiro lugar, notamos que, para modelos lineares, as estimativas de mínimos quadrados são estimativas lineares, conforme segue a fórmula acima. Para a imparcialidade das estimativas de mínimos quadrados, é necessário e suficiente cumprir a condição mais importante da análise de regressão: a expectativa matemática de um erro aleatório condicional aos fatores deve ser igual a zero. Esta condição é satisfeita, em particular, se

  1. a expectativa matemática de erros aleatórios é zero, e
  2. fatores e erros aleatórios são valores independentes aleatórios .

A segunda condição - a condição dos fatores exógenos - é fundamental. Se essa propriedade não for satisfeita, podemos supor que quase todas as estimativas serão extremamente insatisfatórias: elas nem serão consistentes (ou seja, mesmo uma quantidade muito grande de dados não permite obter estimativas qualitativas nesse caso). No caso clássico, é feita uma suposição mais forte sobre o determinismo dos fatores, em contraste com um erro aleatório, que automaticamente significa que a condição exógena é satisfeita. No caso geral, para a consistência das estimativas, é suficiente satisfazer a condição de exogeneidade juntamente com a convergência da matriz V x (\displaystyle V_(x)) a alguma matriz não degenerada à medida que o tamanho da amostra aumenta até o infinito.

Para que, além de consistência e imparcialidade, as estimativas dos mínimos quadrados (usuais) também sejam eficazes (as melhores na classe de estimativas lineares não tendenciosas), é necessário preencher propriedades adicionais de um erro aleatório:

Essas suposições podem ser formuladas para a matriz de covariância  do vetor de erros aleatórios V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).

Um modelo linear que satisfaça essas condições é chamado clássico. As estimativas OLS para a regressão linear clássica são estimativas imparciais, consistentes e mais eficientes na classe de todas as estimativas lineares imparciais (na literatura inglesa, a abreviatura às vezes é usada azul (Melhor estimador linear imparcial) é a melhor estimativa linear imparcial; na literatura nacional, o teorema de Gauss - Markov é mais frequentemente citado). Como é fácil mostrar, a matriz de covariância do vetor de estimativas de coeficientes será igual a:

V (b ^ O L S) = σ 2 (X T X) − 1 (\displaystyle V((\hat (b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).

Eficiência significa que essa matriz de covariância é "mínima" (qualquer combinação linear de coeficientes, e em particular os próprios coeficientes, tem uma variância mínima), ou seja, na classe de estimativas lineares não enviesadas, as estimativas OLS são as melhores. Os elementos diagonais desta matriz - as variâncias das estimativas dos coeficientes - são parâmetros importantes da qualidade das estimativas obtidas. No entanto, não é possível calcular a matriz de covariância porque a variância do erro aleatório é desconhecida. Pode-se provar que a estimativa imparcial e consistente (para o modelo linear clássico) da variância dos erros aleatórios é o valor:

S 2 = R S S / (n − k) (\displaystyle s^(2)=RSS/(n-k)).

Substituindo esse valor na fórmula da matriz de covariância, obtemos uma estimativa da matriz de covariância. As estimativas resultantes também são imparciais e consistentes. Também é importante que a estimativa da variância do erro (e, portanto, das variâncias dos coeficientes) e as estimativas dos parâmetros do modelo sejam variáveis ​​aleatórias independentes, o que possibilita obter estatísticas de teste para testar hipóteses sobre os coeficientes do modelo.

Deve-se notar que se as premissas clássicas não forem atendidas, as estimativas dos parâmetros de mínimos quadrados não são as mais eficientes e, onde W (\displaystyle W)é uma matriz de peso definida positiva simétrica. Mínimos quadrados ordinários é um caso especial dessa abordagem, quando a matriz de pesos é proporcional à matriz identidade. Como se sabe, para matrizes simétricas (ou operadores) há uma decomposição W = P T P (\estilo de exibição W=P^(T)P). Portanto, este funcional pode ser representado da seguinte forma e T P T P e = (P e) T P e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)), ou seja, este funcional pode ser representado como a soma dos quadrados de alguns "resíduos" transformados. Assim, podemos distinguir uma classe de métodos de mínimos quadrados - métodos LS (Least Squares).

Está provado (teorema de Aitken) que para um modelo de regressão linear generalizado (no qual não são impostas restrições à matriz de covariância de erros aleatórios), os mais eficazes (na classe de estimativas lineares não enviesadas) são as estimativas das chamadas. OLS generalizado (OMNK, GLS - Mínimos Quadrados Generalizados)- Método LS com uma matriz de peso igual à matriz de covariância inversa de erros aleatórios: W = V ε − 1 (\displaystyle W=V_(\varepsilon )^(-1)).

Pode ser mostrado que a fórmula para as estimativas GLS dos parâmetros do modelo linear tem a forma

B ^ G L S = (X T V − 1 X) − 1 X T V − 1 y (\displaystyle (\hat (b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y).

A matriz de covariância dessas estimativas, respectivamente, será igual a

V (b ^ G L S) = (X T V − 1 X) − 1 (\displaystyle V((\hat (b))_(GLS))=(X^(T)V^(-1)X)^(- 1)).

De fato, a essência do OLS está em uma certa transformação (linear) (P) dos dados originais e na aplicação dos mínimos quadrados usuais aos dados transformados. O objetivo dessa transformação é que, para os dados transformados, os erros aleatórios já satisfaçam as suposições clássicas.

Mínimos quadrados ponderados

No caso de uma matriz de peso diagonal (e, portanto, a matriz de covariância de erros aleatórios), temos os chamados mínimos quadrados ponderados (WLS - Weighted Least Squares). Nesse caso, a soma dos quadrados ponderada dos resíduos do modelo é minimizada, ou seja, cada observação recebe um “peso” que é inversamente proporcional à variância do erro aleatório nesta observação: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ sigma _(t)^(2)))). De fato, os dados são transformados ponderando as observações (dividindo por um valor proporcional ao desvio padrão assumido dos erros aleatórios), e os mínimos quadrados normais são aplicados aos dados ponderados.

ISBN 978-5-7749-0473-0.

  • Econometria. Livro didático / Ed. Eliseeva I.I. - 2ª ed. - M. : Finanças e estatísticas, 2006. - 576 p. - ISBN 5-279-02786-3.
  • Alexandrova N. V. História de termos matemáticos, conceitos, designações: um livro de referência de dicionário. - 3ª ed. - M. : LKI, 2008. - 248 p. - ISBN 978-5-382-00839-4. I.V. Mitin, Rusakov V.S. Análise e tratamento de dados experimentais - 5ª edição - 24p.
    • tutorial

    Introdução

    Eu sou um programador de computador. Dei o maior salto na minha carreira quando aprendi a dizer: "Eu não entendo nada!" Agora não tenho vergonha de dizer ao luminar da ciência que ele está me dando uma palestra, que não entendo do que ele, o luminar, está falando comigo. E é muito difícil. Sim, é difícil e embaraçoso admitir que você não sabe. Quem gosta de admitir que não sabe o básico de alguma coisa aí. Em virtude da minha profissão, tenho que assistir a um grande número de apresentações e palestras, onde, confesso, na grande maioria das vezes sinto sono, porque não entendo nada. E eu não entendo porque o grande problema da situação atual da ciência está na matemática. Assume-se que todos os alunos estão familiarizados com absolutamente todas as áreas da matemática (o que é um absurdo). Admitir que você não sabe o que é uma derivada (que isso é um pouco mais tarde) é uma pena.

    Mas aprendi a dizer que não sei o que é multiplicação. Sim, eu não sei o que é uma subálgebra sobre uma álgebra de Lie. Sim, eu não sei por que as equações quadráticas são necessárias na vida. A propósito, se você tem certeza que sabe, então temos algo para conversar! A matemática é uma série de truques. Os matemáticos tentam confundir e intimidar o público; onde não há confusão, nem reputação, nem autoridade. Sim, é prestigioso falar na linguagem mais abstrata possível, o que é um completo absurdo em si.

    Você sabe o que é um derivado? Muito provavelmente você vai me falar sobre o limite da relação de diferença. No primeiro ano de matemática na Universidade Estadual de São Petersburgo, Viktor Petrovich Khavin me definiram derivada como o coeficiente do primeiro termo da série de Taylor da função no ponto (foi uma ginástica separada para determinar a série de Taylor sem derivadas). Eu ri dessa definição por um longo tempo, até que finalmente entendi do que se tratava. A derivada nada mais é do que apenas uma medida de quanto a função que estamos diferenciando é semelhante à função y=x, y=x^2, y=x^3.

    Agora tenho a honra de dar aulas para alunos que temer matemática. Se você tem medo de matemática - estamos no caminho. Assim que você tentar ler algum texto e lhe parecer que é muito complicado, saiba que está mal escrito. Defendo que não há uma única área da matemática que não possa ser falada "nos dedos" sem perder a precisão.

    O desafio para o futuro próximo: instruí meus alunos a entender o que é um controlador linear-quadrático. Não seja tímido, desperdice três minutos da sua vida, siga o link. Se você não entender nada, então estamos a caminho. Eu (um matemático-programador profissional) também não entendia nada. E asseguro-lhe, isso pode ser resolvido "nos dedos". No momento não sei o que é, mas garanto que conseguiremos descobrir.

    Então, a primeira palestra que vou dar aos meus alunos depois que eles vierem correndo até mim horrorizados com as palavras de que o controlador linear-quadrático é um bug terrível que você nunca dominará em sua vida é métodos de mínimos quadrados. Você consegue resolver equações lineares? Se você está lendo este texto, provavelmente não.

    Assim, dados dois pontos (x0, y0), (x1, y1), por exemplo, (1,1) e (3,2), a tarefa é encontrar a equação de uma reta que passa por esses dois pontos:

    ilustração

    Esta linha reta deve ter uma equação como a seguinte:

    Aqui alfa e beta são desconhecidos para nós, mas dois pontos desta linha são conhecidos:

    Você pode escrever esta equação na forma de matriz:

    Aqui devemos fazer uma digressão lírica: o que é uma matriz? Uma matriz nada mais é que um array bidimensional. Esta é uma forma de armazenar dados, não se deve atribuir mais valores a ele. Cabe a nós como exatamente interpretar uma determinada matriz. Periodicamente, vou interpretá-lo como um mapeamento linear, periodicamente como uma forma quadrática e, às vezes, simplesmente como um conjunto de vetores. Tudo isso será esclarecido no contexto.

    Vamos substituir matrizes específicas por sua representação simbólica:

    Então (alfa, beta) pode ser facilmente encontrado:

    Mais especificamente para nossos dados anteriores:

    O que leva à seguinte equação de uma linha reta que passa pelos pontos (1,1) e (3,2):

    Ok, tudo está claro aqui. E vamos encontrar a equação de uma linha reta que passa por três pontos: (x0,y0), (x1,y1) e (x2,y2):

    Oh-oh-oh, mas temos três equações para duas incógnitas! O matemático padrão dirá que não há solução. O que o programador vai dizer? E ele primeiro reescreverá o sistema de equações anterior na seguinte forma:

    No nosso caso, os vetores i, j, b são tridimensionais, portanto, (no caso geral) não há solução para este sistema. Qualquer vetor (alfa\*i + beta\*j) está no plano gerado pelos vetores (i, j). Se b não pertence a este plano, então não há solução (a igualdade na equação não pode ser alcançada). O que fazer? Vamos procurar um compromisso. Vamos denotar por e(alfa, beta) como exatamente não alcançamos a igualdade:

    E vamos tentar minimizar esse erro:

    Por que um quadrado?

    Estamos procurando não apenas o mínimo da norma, mas o mínimo do quadrado da norma. Por quê? O próprio ponto mínimo coincide, e o quadrado dá uma função suave (uma função quadrática dos argumentos (alfa,beta)), enquanto apenas o comprimento dá uma função na forma de um cone, não diferenciável no ponto mínimo. Brr. Square é mais conveniente.

    Obviamente, o erro é minimizado quando o vetor e ortogonal ao plano gerado pelos vetores eu e j.

    Ilustração

    Em outras palavras: estamos procurando uma linha tal que a soma dos quadrados dos comprimentos das distâncias de todos os pontos a essa linha seja mínima:

    ATUALIZAÇÃO: aqui eu tenho um batente, a distância até a linha deve ser medida na vertical, não na projeção ortográfica. Este comentarista está correto.

    Ilustração

    Em palavras completamente diferentes (com cuidado, mal formalizadas, mas deve ficar claro nos dedos): pegamos todas as linhas possíveis entre todos os pares de pontos e procuramos a linha média entre todos:

    Ilustração

    Outra explicação sobre os dedos: colocamos uma mola entre todos os pontos de dados (aqui temos três) e a linha que estamos procurando, e a linha do estado de equilíbrio é exatamente o que estamos procurando.

    Forma quadrática mínima

    Então, dado o vetor b e o plano gerado pelos vetores-colunas da matriz UMA(neste caso (x0,x1,x2) e (1,1,1)), estamos procurando um vetor e com um quadrado mínimo de comprimento. Obviamente, o mínimo é alcançável apenas para o vetor e, ortogonal ao plano gerado pelos vetores-colunas da matriz UMA:

    Em outras palavras, estamos procurando um vetor x=(alfa, beta) tal que:

    Lembro que esse vetor x=(alpha, beta) é o mínimo da função quadrática ||e(alpha, beta)||^2:

    Aqui é útil lembrar que a matriz pode ser interpretada assim como a forma quadrática, por exemplo, a matriz identidade ((1,0),(0,1)) pode ser interpretada como uma função de x^2 + y ^2:

    forma quadrática

    Toda essa ginástica é conhecida como regressão linear.

    Equação de Laplace com condição de contorno de Dirichlet

    Agora o problema real mais simples: existe uma certa superfície triangulada, é necessário alisá-la. Por exemplo, vamos carregar meu modelo de rosto:

    O commit original está disponível. Para minimizar dependências externas, peguei o código do meu renderizador de software, já no Habré. Para resolver o sistema linear, eu uso o OpenNL , é um ótimo solucionador, mas é muito difícil de instalar: você precisa copiar dois arquivos (.h + .c) para a pasta do seu projeto. Todo o alisamento é feito pelo seguinte código:

    Para (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&face = faces[i]; para (int j=0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

    As coordenadas X, Y e Z são separáveis, eu as aliso separadamente. Ou seja, resolvo três sistemas de equações lineares, cada um com o mesmo número de variáveis ​​que o número de vértices no meu modelo. As primeiras n linhas da matriz A têm apenas um 1 por linha, e as primeiras n linhas do vetor b têm as coordenadas do modelo original. Ou seja, eu amarro a nova posição do vértice e a antiga posição do vértice - os novos não devem estar muito longe dos antigos.

    Todas as linhas subsequentes da matriz A (faces.size()*3 = o número de arestas de todos os triângulos na grade) têm uma ocorrência de 1 e uma ocorrência de -1, enquanto o vetor b tem zero componentes opostos. Isso significa que eu coloco uma mola em cada aresta da nossa malha triangular: todas as arestas tentam obter o mesmo vértice que seus pontos inicial e final.

    Mais uma vez: todos os vértices são variáveis ​​e não podem se afastar muito de sua posição original, mas ao mesmo tempo tentam se tornar semelhantes entre si.

    Aqui está o resultado:

    Tudo ficaria bem, o modelo é realmente suavizado, mas se afastou de sua borda original. Vamos alterar um pouco o código:

    Para (int i=0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

    Em nossa matriz A, para os vértices que estão na borda, não adiciono uma linha da categoria v_i = verts[i][d], mas 1000*v_i = 1000*verts[i][d]. O que isso muda? E isso muda nossa forma quadrática do erro. Agora, um único desvio do topo na borda custará não uma unidade, como antes, mas 1.000 * 1.000 unidades. Ou seja, penduramos uma mola mais forte nos vértices extremos, a solução prefere esticar outras com mais força. Aqui está o resultado:

    Vamos dobrar a força das molas entre os vértices:
    nlCoeficiente(face[j], 2); nlCoeficiente(face[(j+1)%3], -2);

    É lógico que a superfície ficou mais lisa:

    E agora ainda cem vezes mais forte:

    O que é isso? Imagine que mergulhamos um anel de arame em água com sabão. Como resultado, o filme de sabão resultante tentará ter a menor curvatura possível, tocando a mesma borda - nosso anel de arame. Isso é exatamente o que conseguimos ao fixar a borda e pedir uma superfície lisa no interior. Parabéns, acabamos de resolver a equação de Laplace com condições de contorno de Dirichlet. Parece legal? Mas, na verdade, apenas um sistema de equações lineares para resolver.

    equação de Poisson

    Vamos ter outro nome legal.

    Digamos que eu tenha uma imagem assim:

    Todo mundo é bom, mas eu não gosto da cadeira.

    Cortei a foto ao meio:



    E vou selecionar uma cadeira com as mãos:

    Em seguida, vou arrastar tudo o que estiver branco na máscara para o lado esquerdo da imagem, e ao mesmo tempo direi ao longo de toda a imagem que a diferença entre dois pixels vizinhos deve ser igual à diferença entre dois pixels vizinhos do imagem certa:

    Para (int i=0; i

    Aqui está o resultado:

    Código e imagens estão disponíveis

    Método dos mínimos quadrados

    Método dos mínimos quadrados ( MNK, OLS, Mínimos Quadrados Ordinários) - um dos métodos básicos de análise de regressão para estimar parâmetros desconhecidos de modelos de regressão a partir de dados amostrais. O método baseia-se na minimização da soma dos quadrados dos resíduos da regressão.

    Deve-se notar que o próprio método dos mínimos quadrados pode ser chamado de método para resolver um problema em qualquer área, se a solução consiste ou satisfaz um determinado critério para minimizar a soma dos quadrados de algumas funções das variáveis ​​desconhecidas. Portanto, o método dos mínimos quadrados também pode ser usado para uma representação aproximada (aproximação) de uma determinada função por outras funções (mais simples), ao encontrar um conjunto de quantidades que satisfaçam equações ou restrições, cujo número excede o número dessas quantidades , etc

    A essência da MN

    Deixe algum modelo (paramétrico) de dependência probabilística (regressão) entre a variável (explicada) y e muitos fatores (variáveis ​​explicativas) x

    onde é o vetor de parâmetros de modelo desconhecidos

    - Erro de modelo aleatório.

    Que haja também observações amostrais dos valores das variáveis ​​indicadas. Let Ser o número de observação (). Então estão os valores das variáveis ​​na -th observação. Então, para determinados valores dos parâmetros b, é possível calcular os valores teóricos (modelo) da variável explicada y:

    O valor dos resíduos depende dos valores dos parâmetros b.

    A essência do LSM (comum, clássico) é encontrar tais parâmetros b para os quais a soma dos quadrados dos resíduos (eng. Soma Residual de Quadrados) será mínimo:

    No caso geral, este problema pode ser resolvido por métodos numéricos de otimização (minimização). Neste caso, fala-se de mínimos quadrados não lineares(NLS ou NLLS - inglês. Mínimos Quadrados Não Lineares). Em muitos casos, uma solução analítica pode ser obtida. Para resolver o problema de minimização, é necessário encontrar os pontos estacionários da função diferenciando-a em relação aos parâmetros desconhecidos b, igualando as derivadas a zero e resolvendo o sistema de equações resultante:

    Se os erros aleatórios do modelo são normalmente distribuídos, têm a mesma variância e não estão correlacionados entre si, as estimativas dos parâmetros de mínimos quadrados são as mesmas que as estimativas do método de máxima verossimilhança (MLM).

    LSM no caso de um modelo linear

    Seja a dependência da regressão linear:

    Deixar y- vetor coluna de observações da variável explicada, e - matriz de observações de fatores (linhas da matriz - vetores de valores de fatores em uma determinada observação, por colunas - vetor de valores de um determinado fator em todas as observações) . A representação matricial do modelo linear tem a forma:

    Então o vetor de estimativas da variável explicada e o vetor de resíduos de regressão serão iguais a

    consequentemente, a soma dos quadrados dos resíduos da regressão será igual a

    Diferenciando esta função em relação ao vetor de parâmetros e igualando as derivadas a zero, obtemos um sistema de equações (em forma de matriz):

    .

    A solução deste sistema de equações dá a fórmula geral para as estimativas de mínimos quadrados para o modelo linear:

    Para fins analíticos, a última representação dessa fórmula acaba sendo útil. Se os dados no modelo de regressão centrado, então nesta representação a primeira matriz tem o significado da matriz de covariâncias amostral de fatores, e a segunda é o vetor de covariâncias de fatores com variável dependente. Se, além disso, os dados também forem normalizado no SKO (ou seja, em última análise, padronizado), então a primeira matriz tem o significado da matriz de correlação amostral de fatores, o segundo vetor - o vetor de correlações amostrais de fatores com a variável dependente.

    Uma propriedade importante das estimativas LLS para modelos com uma constante- a linha da regressão construída passa pelo centro de gravidade dos dados da amostra, ou seja, a igualdade é cumprida:

    Em particular, no caso extremo, quando o único regressor é uma constante, verificamos que a estimativa OLS de um único parâmetro (a própria constante) é igual ao valor médio da variável explicada. Ou seja, a média aritmética, conhecida por suas boas propriedades das leis dos grandes números, também é uma estimativa de mínimos quadrados - ela satisfaz o critério da soma mínima dos desvios quadrados dela.

    Exemplo: regressão simples (em pares)

    No caso de regressão linear pareada, as fórmulas de cálculo são simplificadas (você pode prescindir da álgebra matricial):

    Propriedades das estimativas OLS

    Em primeiro lugar, notamos que, para modelos lineares, as estimativas de mínimos quadrados são estimativas lineares, conforme segue a fórmula acima. Para estimativas OLS imparciais, é necessário e suficiente cumprir a condição mais importante da análise de regressão: a expectativa matemática de um erro aleatório condicional aos fatores deve ser igual a zero. Esta condição é satisfeita, em particular, se

    1. a expectativa matemática de erros aleatórios é zero, e
    2. fatores e erros aleatórios são variáveis ​​aleatórias independentes.

    A segunda condição - a condição dos fatores exógenos - é fundamental. Se essa propriedade não for satisfeita, podemos supor que quase todas as estimativas serão extremamente insatisfatórias: elas nem serão consistentes (ou seja, mesmo uma quantidade muito grande de dados não permite obter estimativas qualitativas nesse caso). No caso clássico, é feita uma suposição mais forte sobre o determinismo dos fatores, em contraste com um erro aleatório, que automaticamente significa que a condição exógena é satisfeita. No caso geral, para a consistência das estimativas, basta preencher a condição de exogeneidade juntamente com a convergência da matriz para alguma matriz não singular com aumento do tamanho da amostra ao infinito.

    Para que, além de consistência e imparcialidade, as estimativas dos mínimos quadrados (usuais) também sejam eficazes (as melhores na classe de estimativas lineares não tendenciosas), é necessário preencher propriedades adicionais de um erro aleatório:

    Essas suposições podem ser formuladas para a matriz de covariância do vetor de erro aleatório

    Um modelo linear que satisfaça essas condições é chamado clássico. As estimativas OLS para a regressão linear clássica são estimativas imparciais, consistentes e mais eficientes na classe de todas as estimativas lineares imparciais (na literatura inglesa, a abreviatura às vezes é usada azul (Melhor estimador linear não baseado) é a melhor estimativa linear imparcial; na literatura nacional, o teorema de Gauss-Markov é mais frequentemente citado). Como é fácil mostrar, a matriz de covariância do vetor de estimativas de coeficientes será igual a:

    Mínimos quadrados generalizados

    O método dos mínimos quadrados permite uma ampla generalização. Em vez de minimizar a soma dos quadrados dos resíduos, pode-se minimizar alguma forma quadrática definida positiva do vetor residual , onde é uma matriz de peso definida positiva simétrica. Mínimos quadrados ordinários é um caso especial dessa abordagem, quando a matriz de pesos é proporcional à matriz identidade. Como se sabe da teoria das matrizes simétricas (ou operadores), existe uma decomposição para tais matrizes. Portanto, o funcional especificado pode ser representado da seguinte forma, ou seja, este funcional pode ser representado como a soma dos quadrados de alguns "resíduos" transformados. Assim, podemos distinguir uma classe de métodos de mínimos quadrados - métodos LS (Least Squares).

    Está provado (teorema de Aitken) que para um modelo de regressão linear generalizado (no qual não são impostas restrições à matriz de covariância de erros aleatórios), os mais eficazes (na classe de estimativas lineares não enviesadas) são as estimativas das chamadas. OLS generalizado (OMNK, GLS - Mínimos Quadrados Generalizados)- Método LS com uma matriz de pesos igual à matriz de covariância inversa de erros aleatórios: .

    Pode ser mostrado que a fórmula para as estimativas GLS dos parâmetros do modelo linear tem a forma

    A matriz de covariância dessas estimativas, respectivamente, será igual a

    De fato, a essência do OLS está em uma certa transformação (linear) (P) dos dados originais e na aplicação dos mínimos quadrados usuais aos dados transformados. O objetivo dessa transformação é que, para os dados transformados, os erros aleatórios já satisfaçam as suposições clássicas.

    Mínimos quadrados ponderados

    No caso de uma matriz de peso diagonal (e, portanto, a matriz de covariância de erros aleatórios), temos os chamados mínimos quadrados ponderados (WLS - Weighted Least Squares). Nesse caso, a soma dos quadrados ponderada dos resíduos do modelo é minimizada, ou seja, cada observação recebe um "peso" que é inversamente proporcional à variância do erro aleatório nesta observação: . De fato, os dados são transformados ponderando as observações (dividindo por um valor proporcional ao desvio padrão assumido dos erros aleatórios), e os mínimos quadrados normais são aplicados aos dados ponderados.

    Alguns casos especiais de aplicação do LSM na prática

    Aproximação linear

    Considere o caso em que, como resultado do estudo da dependência de uma certa quantidade escalar em uma certa quantidade escalar (isso pode ser, por exemplo, a dependência da tensão na intensidade da corrente: , onde é um valor constante, a resistência do condutor ), essas quantidades foram medidas, como resultado da banda os valores e seus valores correspondentes. Os dados de medição devem ser registrados em uma tabela.

    Mesa. Resultados de medição.

    Nº de medição
    1
    2
    3
    4
    5
    6

    A questão soa assim: qual valor do coeficiente pode ser escolhido para melhor descrever a dependência? De acordo com os mínimos quadrados, esse valor deve ser tal que a soma dos desvios quadrados dos valores dos valores

    foi mínimo

    A soma dos desvios quadrados tem um extremo - um mínimo, o que nos permite usar esta fórmula. Vamos encontrar o valor do coeficiente desta fórmula. Para fazer isso, transformamos seu lado esquerdo da seguinte forma:

    A última fórmula permite encontrar o valor do coeficiente , que foi requerido no problema.

    História

    Até o início do século XIX. os cientistas não tinham certas regras para resolver um sistema de equações em que o número de incógnitas é menor que o número de equações; Até então, métodos particulares eram usados, dependendo do tipo de equações e da engenhosidade das calculadoras, e, portanto, diferentes calculadoras, partindo dos mesmos dados observacionais, chegavam a conclusões diferentes. Gauss (1795) é creditado com a primeira aplicação do método, e Legendre (1805) independentemente descobriu e publicou sob seu nome moderno (fr. Methode des moindres quarres ). Laplace relacionou o método com a teoria da probabilidade, e o matemático americano Adrain (1808) considerou suas aplicações probabilísticas. O método é difundido e melhorado por mais pesquisas de Encke, Bessel, Hansen e outros.

    Uso alternativo de multinacionais

    A ideia do método dos mínimos quadrados também pode ser usada em outros casos não diretamente relacionados à análise de regressão. O fato é que a soma dos quadrados é uma das medidas de proximidade mais comuns para vetores (a métrica euclidiana em espaços de dimensão finita).

    Uma aplicação é "resolver" sistemas de equações lineares em que o número de equações é maior que o número de variáveis

    onde a matriz não é quadrada, mas retangular.

    Tal sistema de equações, no caso geral, não tem solução (se o posto for realmente maior que o número de variáveis). Portanto, este sistema pode ser "resolvido" apenas no sentido de escolher tal vetor para minimizar a "distância" entre os vetores e . Para fazer isso, você pode aplicar o critério para minimizar a soma das diferenças quadradas das partes esquerda e direita das equações do sistema, ou seja, . É fácil mostrar que a solução deste problema de minimização leva à solução do seguinte sistema de equações