Análise multivariada de variância.

O uso de estatísticas nesta nota será mostrado com um exemplo transversal. Digamos que você seja um gerente de produção da Perfect Parachute. Os pára-quedas são feitos de fibras sintéticas fornecidas por quatro fornecedores diferentes. Uma das principais características de um paraquedas é a sua força. Você precisa garantir que todas as fibras fornecidas tenham a mesma resistência. Para responder a essa pergunta, é necessário projetar um experimento no qual seja medida a resistência de pára-quedas tecidos de fibras sintéticas de diferentes fornecedores. As informações obtidas durante este experimento determinarão qual fornecedor fornecerá os pára-quedas mais duráveis.

Muitas aplicações estão relacionadas a experimentos nos quais vários grupos ou níveis de um fator são considerados. Alguns fatores, como a temperatura de queima da cerâmica, podem ter vários níveis numéricos (ou seja, 300°, 350°, 400° e 450°). Outros fatores, como a localização das mercadorias em um supermercado, podem ter níveis categóricos (por exemplo, primeiro fornecedor, segundo fornecedor, terceiro fornecedor, quarto fornecedor). Experimentos de fator único em que as unidades experimentais são alocadas aleatoriamente a grupos ou níveis de fatores são chamados de totalmente aleatórios.

UsoF-critérios para avaliar as diferenças entre várias expectativas matemáticas

Se as medições numéricas de um fator em grupos forem contínuas e algumas condições adicionais forem atendidas, a análise de variância (ANOVA - A análise o f Va riência). A análise de variância usando delineamentos totalmente aleatórios é chamada de ANOVA de uma via. De certa forma, o termo análise de variância é enganoso porque compara as diferenças entre os valores médios dos grupos, não entre as variâncias. No entanto, a comparação das expectativas matemáticas é realizada precisamente com base na análise da variação dos dados. No procedimento ANOVA, a variação total dos resultados das medidas é dividida em intergrupo e intragrupo (Fig. 1). A variação intragrupo é explicada pelo erro experimental, enquanto a variação intergrupo é explicada pelos efeitos das condições experimentais. Símbolo com indica o número de grupos.

Arroz. 1. Separação de Variação em um Experimento Totalmente Randomizado

Baixar nota em ou formato, exemplos em formato

Vamos fingir que com grupos são extraídos de populações independentes que têm uma distribuição normal e a mesma variância. A hipótese nula é que as expectativas matemáticas das populações são as mesmas: H 0: μ 1 = μ 2 = ... = μ s. A hipótese alternativa afirma que nem todas as expectativas matemáticas são as mesmas: H 1: nem todos os μj são iguais j= 1, 2, …, s).

Na fig. A Figura 2 apresenta a hipótese nula verdadeira sobre as expectativas matemáticas dos cinco grupos comparados, desde que as populações gerais tenham distribuição normal e a mesma variância. As cinco populações associadas a diferentes níveis de fatores são idênticas. Portanto, eles se sobrepõem, tendo a mesma expectativa matemática, variação e forma.

Arroz. 2. Cinco populações têm a mesma expectativa matemática: µ 1 = µ 2 = µ 3 = µ 4 = µ 5

Por outro lado, suponha que, de fato, a hipótese nula seja falsa, e o quarto nível tenha a maior expectativa matemática, o primeiro nível tenha uma expectativa matemática um pouco menor e os níveis restantes tenham as mesmas expectativas matemáticas ainda menores (Fig. 3). Observe que, com exceção do valor médio, todas as cinco populações são idênticas (ou seja, têm a mesma variabilidade e forma).

Arroz. 3. O efeito das condições experimentais é observado: µ 4 > µ 1 > µ 2 = µ 3 = µ 5

Ao testar a hipótese de igualdade de expectativas matemáticas de várias populações gerais, a variação total é dividida em duas partes: variação intergrupo, devido a diferenças entre grupos, e variação intragrupo, devido a diferenças entre elementos pertencentes ao mesmo grupo. A variação total é expressa como a soma total dos quadrados (SST - soma dos quadrados total). Como a hipótese nula é que a expectativa de todos com os grupos são iguais entre si, a variação total é igual à soma dos quadrados das diferenças entre as observações individuais e a média total (média das médias) calculada para todas as amostras. Variação completa:

Onde - média geral, Xij - eu-e assistir em j-º grupo ou nível, nj- número de observações em j-º grupo, n- número total de observações em todos os grupos (ou seja, n = n 1 + nº 2 + … + nc), com- número de grupos ou níveis estudados.

Variação intergrupo, geralmente chamado de soma dos quadrados entre os grupos (SSA), é igual à soma das diferenças quadradas entre a média amostral de cada grupo j e média geral multiplicado pelo volume do grupo correspondente nj:

Onde com- o número de grupos ou níveis estudados, nj- número de observações em j-º grupo, j- quer dizer j-º grupo, - média geral.

Variação intragrupo, geralmente chamada de soma dos quadrados dentro dos grupos (SSW), é igual à soma das diferenças quadradas entre os elementos de cada grupo e a média amostral desse grupo j:

Onde Xeu j - eu-ésimo elemento j-º grupo, j- quer dizer j-º grupo.

Porque eles são comparados com níveis de fator, a soma dos quadrados intergrupo tem s - 1 graus de liberdade. Cada um de com níveis tem nj – 1 graus de liberdade, então a soma dos quadrados intragrupo tem n- com graus de liberdade e

Além disso, a soma total dos quadrados tem n – 1 graus de liberdade, uma vez que cada observação Xeu j em comparação com a média geral calculada sobre todos os n observações. Se cada uma dessas somas for dividida pelo número correspondente de graus de liberdade, surgirão três tipos de dispersão: intergrupo(média quadrada entre - MSA), intragrupo(quadrado médio dentro - MSW) e completo(média quadrática total - MST):

Apesar do fato de que o objetivo principal da análise de variância é comparar as expectativas matemáticas com grupos para revelar o efeito das condições experimentais, seu nome se deve ao fato de que a principal ferramenta é a análise de variâncias de vários tipos. Se a hipótese nula for verdadeira, e entre os valores esperados com grupos não há diferenças significativas, todas as três variâncias - MSA, MSW e MST - são estimativas de variância σ2 inerentes aos dados analisados. Então, para testar a hipótese nula H 0: μ 1 = μ 2 = ... = μ s e hipótese alternativa H 1: nem todos os μj são iguais j = 1, 2, …, com), é necessário calcular as estatísticas F-critério, que é a razão de duas variâncias, MSA e MSW. teste F-estatísticas em análise de variância univariada

Estatisticas F-critério obedece F- distribuição com s - 1 graus de liberdade no numerador MSA e n - com graus de liberdade no denominador RSU. Para um dado nível de significância α, a hipótese nula é rejeitada se o valor calculado F Fvocê inerente F- distribuição com s - 1 n - com graus de liberdade no denominador. Assim, como mostrado na fig. 4, a regra de decisão é formulada da seguinte forma: hipótese nula H 0 rejeitado se F > Fvocê; caso contrário, não é rejeitado.

Arroz. 4. Área crítica de análise de variância ao testar uma hipótese H 0

Se a hipótese nula H 0é verdade, calculado F-a estatística é próxima de 1, pois seu numerador e denominador são estimativas do mesmo valor - a variância σ 2 inerente aos dados analisados. Se a hipótese nula H 0é falso (e há uma diferença significativa entre os valores esperados de diferentes grupos), calculado F-estatística será muito maior que um, pois seu numerador, MSA, além da variabilidade natural dos dados, estima o efeito das condições experimentais ou a diferença entre grupos, enquanto o denominador MSW estima apenas a variabilidade natural dos dados. Assim, o procedimento ANOVA é Fé um teste em que, a um dado nível de significância α, a hipótese nula é rejeitada se o valor calculado F- as estatísticas são maiores que o valor crítico superior Fvocê inerente F- distribuição com s - 1 graus de liberdade no numerador e n - com graus de liberdade no denominador, como mostrado na Fig. 4.

Para ilustrar a análise de variância unidirecional, voltemos ao cenário descrito no início da nota. O objetivo do experimento é determinar se pára-quedas tecidos de fibras sintéticas obtidas de diferentes fornecedores têm a mesma resistência. Cada grupo tem cinco pára-quedas tecidos. Os grupos são divididos por fornecedor - Fornecedor 1, Fornecedor 2, Fornecedor 3 e Fornecedor 4. A resistência dos pára-quedas é medida usando um dispositivo especial que testa o tecido para rasgar em ambos os lados. A força necessária para quebrar um pára-quedas é medida em uma escala especial. Quanto maior a força de ruptura, mais forte o pára-quedas. Excel permite análise F-Estatísticas com um clique. Percorra o cardápio DadosAnálise de dados e selecione a linha Análise de variância unidirecional, preencha a janela aberta (Fig. 5). Os resultados do experimento (força da lacuna), algumas estatísticas descritivas e os resultados da análise de variância unidirecional são mostrados nas Figs. 6.

Arroz. 5. Janela Pacote de análise de ANOVA unidirecional sobressair

Arroz. Fig. 6. Indicadores de resistência de paraquedas tecidos de fibras sintéticas obtidos de diferentes fornecedores, estatísticas descritivas e resultados de análise de variância unidirecional

Uma análise da Figura 6 mostra que existe alguma diferença entre as médias amostrais. A resistência média das fibras obtidas do primeiro fornecedor é 19,52, do segundo - 24,26, do terceiro - 22,84 e do quarto - 21,16. Essa diferença é estatisticamente significativa? A distribuição da força de ruptura é mostrada no diagrama de dispersão (Fig. 7). Isso mostra claramente as diferenças tanto entre os grupos quanto dentro deles. Se o volume de cada grupo fosse maior, eles poderiam ser analisados ​​usando um gráfico de caule e folha, um gráfico de caixa ou um gráfico de distribuição normal.

Arroz. 7. Diagrama de distribuição de força de pára-quedas tecidos de fibras sintéticas obtidos de quatro fornecedores

A hipótese nula afirma que não há diferenças significativas entre os valores médios de força: H 0: µ 1 = µ 2 = µ 3 = µ 4. Uma hipótese alternativa é que exista pelo menos um fornecedor cuja resistência média da fibra seja diferente dos demais: H 1: nem todos os μj são iguais ( j = 1, 2, …, com).

Média Geral (Ver Figura 6) = MÉDIA(D12:D15) = 21,945; para determinar, você também pode calcular a média de todos os 20 números originais: \u003d MÉDIA (A3: D7). Os valores de variação são calculados Pacote de análise e são refletidos na tabela Análise de variação(ver Fig. 6): SSA = 63,286, SSW = 97,504, SST = 160,790 (ver coluna SS mesas Análise de variação figura 6). As médias são calculadas dividindo essas somas de quadrados pelo número apropriado de graus de liberdade. Na medida em que com= 4, e n= 20, obtemos os seguintes valores dos graus de liberdade; para SSA: s - 1= 3; para SSW: n–c= 16; para SST: n - 1= 19 (ver coluna df). Assim: MSA = SSA / ( c - 1)= 21,095; MSW=SSW/( n–c) = 6,094; MST = SST / ( n - 1) = 8,463 (ver coluna EM). F-estatísticas = MSA / MSW = 3,462 (ver coluna F).

Valor crítico superior Fvocê, característico para F-distribuição, é determinada pela fórmula = F. OBR (0,95; 3; 16) = 3,239. Parâmetros da função =F.OBR(): α = 0,05, o numerador tem três graus de liberdade e o denominador é 16. Assim, o valor calculado F-estatística igual a 3,462 excede o valor crítico superior Fvocê= 3,239, a hipótese nula é rejeitada (Fig. 8).

Arroz. 8. Região crítica de análise de variância a um nível de significância de 0,05 se o numerador tiver três graus de liberdade e o denominador for -16

R-valor, ou seja a probabilidade de que sob uma hipótese nula verdadeira F- estatísticas não inferiores a 3,46, igual a 0,041 ou 4,1% (ver coluna valor p mesas Análise de variação figura 6). Como esse valor não ultrapassa o nível de significância α = 5%, a hipótese nula é rejeitada. Além disso, R-valor indica que a probabilidade de encontrar tal ou grande diferença entre as expectativas matemáticas das populações em geral, desde que sejam realmente as mesmas, é de 4,1%.

Então. Há uma diferença entre as quatro médias amostrais. A hipótese nula foi que todas as expectativas matemáticas das quatro populações são iguais. Sob essas condições, uma medida da variabilidade total (ou seja, variação total de SST) da força de todos os pára-quedas é calculada somando as diferenças quadradas entre cada observação Xij e média geral . Em seguida, a variação total foi dividida em dois componentes (ver Fig. 1). O primeiro componente foi a variação intergrupo em SSA, e o segundo foi a variação intragrupo em SSW.

O que explica a variabilidade dos dados? Em outras palavras, por que todas as observações não são iguais? Uma razão é que diferentes empresas fornecem fibras com diferentes resistências. Isso explica em parte porque os grupos têm valores esperados diferentes: quanto mais forte o efeito das condições experimentais, maior a diferença entre os valores médios dos grupos. Outra razão para a variabilidade dos dados é a variabilidade natural de qualquer processo, neste caso a produção de pára-quedas. Mesmo que todas as fibras fossem compradas do mesmo fornecedor, sua resistência não seria a mesma, todas as outras coisas sendo iguais. Como esse efeito aparece em cada um dos grupos, é chamado de variação dentro do grupo.

As diferenças entre as médias amostrais são chamadas de variação intergrupos do SSA. Parte da variação intragrupo, como já mencionado, é explicada pelo fato de os dados pertencerem a grupos diferentes. No entanto, mesmo que os grupos fossem exatamente iguais (ou seja, a hipótese nula seria verdadeira), ainda haveria variação intergrupos. A razão para isso está na variabilidade natural do processo de fabricação de pára-quedas. Como as amostras são diferentes, suas médias amostrais diferem umas das outras. Portanto, se a hipótese nula for verdadeira, tanto a variabilidade entre grupos quanto dentro do grupo são estimativas da variabilidade populacional. Se a hipótese nula for falsa, a hipótese entre grupos será maior. É esse fato que fundamenta F-critérios para comparar as diferenças entre as expectativas matemáticas de vários grupos.

Após realizar a ANOVA unidirecional e encontrar diferenças significativas entre as empresas, permanece desconhecido qual fornecedor é significativamente diferente dos demais. Sabemos apenas que as expectativas matemáticas das populações não são iguais. Em outras palavras, pelo menos uma das expectativas matemáticas difere significativamente das demais. Para determinar qual provedor é diferente dos outros, você pode usar Procedimento de Tukey, que usa comparação em pares entre provedores. Este procedimento foi desenvolvido por John Tukey. Posteriormente, ele e C. Cramer modificaram independentemente esse procedimento para situações em que os tamanhos das amostras diferem entre si.

Comparação múltipla: procedimento de Tukey-Kramer

Em nosso cenário, a análise de variância unidirecional foi usada para comparar a força dos pára-quedas. Tendo encontrado diferenças significativas entre as expectativas matemáticas dos quatro grupos, é necessário determinar quais grupos diferem entre si. Embora existam várias maneiras de resolver esse problema, descreveremos apenas o procedimento de comparação múltipla de Tukey-Kramer. Este método é um exemplo de procedimentos de comparação post hoc, uma vez que a hipótese a ser testada é formulada após a análise dos dados. O procedimento de Tukey-Kramer permite comparar simultaneamente todos os pares de grupos. Na primeira fase, as diferenças são calculadas Xj – Xj, Onde j ≠j, entre as expectativas matemáticas s(s - 1)/2 grupos. Período crítico O procedimento de Tukey-Kramer é calculado pela fórmula:

Onde Q U- o valor crítico superior da distribuição do intervalo estudantil, que tem com graus de liberdade no numerador e n - com graus de liberdade no denominador.

Se os tamanhos das amostras não forem os mesmos, o intervalo crítico é calculado para cada par de expectativas matemáticas separadamente. Na última fase, cada s(s - 1)/2 pares de expectativas matemáticas é comparado com o intervalo crítico correspondente. Os elementos de um par são considerados significativamente diferentes se o módulo da diferença | Xj – Xj| entre eles excede o intervalo crítico.

Apliquemos o procedimento de Tukey-Cramer ao problema da resistência dos pára-quedas. Como a empresa de pára-quedas possui quatro fornecedores, 4(4 – 1)/2 = 6 pares de fornecedores devem ser testados (Figura 9).

Arroz. 9. Comparações de pares de médias de amostra

Como todos os grupos têm o mesmo volume (ou seja, todos nj = nj), é suficiente calcular apenas um intervalo crítico. Para isso, de acordo com a tabela ANOVA(Fig. 6) determinamos o valor de MSW = 6,094. Então encontramos o valor Q U em α = 0,05, com= 4 (número de graus de liberdade no numerador) e n- com= 20 – 4 = 16 (o número de graus de liberdade no denominador). Infelizmente, não encontrei a função correspondente no Excel, então usei a tabela (Fig. 10).

Arroz. 10. Valor crítico do intervalo estudantil Q U

Nós temos:

Como apenas 4,74 > 4,47 (veja a tabela inferior na Figura 9), existe uma diferença estatisticamente significativa entre o primeiro e o segundo fornecedor. Todos os outros pares possuem médias amostrais, o que não nos permite falar sobre sua diferença. Consequentemente, a resistência média dos pára-quedas tecidos com fibras compradas do primeiro fornecedor é significativamente menor do que a do segundo.

Condições necessárias para análise de variância unidirecional

Ao resolver o problema da força dos pára-quedas, não verificamos se as condições são atendidas sob as quais se pode usar o fator único F-critério. Como você sabe se pode aplicar um fator único F-critério na análise de dados experimentais específicos? Fator único F O teste - só pode ser aplicado se três suposições básicas forem atendidas: os dados experimentais devem ser aleatórios e independentes, ter uma distribuição normal e suas variâncias devem ser as mesmas.

O primeiro palpite é aleatoriedade e independência de dados- deve ser feito sempre, pois a acerto de qualquer experimento depende da aleatoriedade da escolha e/ou do processo de randomização. Para evitar distorcer os resultados, é necessário que os dados sejam extraídos de com populações aleatórias e independentes umas das outras. Da mesma forma, os dados devem ser distribuídos aleatoriamente com níveis do fator de interesse para nós (grupos experimentais). A violação dessas condições pode distorcer seriamente os resultados da análise de variância.

O segundo palpite é normalidade- significa que os dados são extraídos de populações normalmente distribuídas. Quanto a t-critério, análise de variância unidirecional com base em F-critério é relativamente insensível à violação desta condição. Se a distribuição não estiver muito longe do normal, o nível de significância F-critério muda pouco, especialmente se o tamanho da amostra for grande o suficiente. Se a condição da distribuição normal for seriamente violada, ela deve ser aplicada.

O terceiro palpite é uniformidade de dispersão- significa que as variâncias de cada população geral são iguais entre si (ou seja, σ 1 2 = σ 2 2 = … = σ j 2). Essa suposição permite decidir se separa ou agrupa as variações dentro do grupo. Se os volumes dos grupos forem iguais, a condição de homogeneidade da variância tem pouco efeito nas conclusões obtidas usando F-critério. No entanto, se os tamanhos das amostras não forem os mesmos, a violação da condição de igualdade de variâncias pode distorcer seriamente os resultados da análise de variância. Assim, deve-se esforçar para garantir que os tamanhos das amostras sejam os mesmos. Um dos métodos para verificar a suposição sobre a homogeneidade da variância é o critério Levenay Descrito abaixo.

Se, de todas as três condições, apenas a condição de uniformidade de dispersão for violada, um procedimento análogo ao t-critério usando variação separada (ver detalhes). No entanto, se os pressupostos de distribuição normal e homogeneidade de variância forem violados ao mesmo tempo, é necessário normalizar os dados e reduzir as diferenças entre as variâncias ou aplicar um procedimento não paramétrico.

Critério de Leveney para verificar a homogeneidade da variância

Apesar do fato que F- o critério é relativamente resistente a violações da condição de igualdade de variâncias em grupos, uma violação grosseira dessa suposição afeta significativamente o nível de significância e o poder do critério. Talvez um dos mais poderosos seja o critério Levenay. Para verificar a igualdade de variâncias com populações em geral, testaremos as seguintes hipóteses:

H 0: σ 1 2 = σ 2 2 = ... = σj 2

H 1: De jeito nenhum σj 2 são os mesmos ( j = 1, 2, …, com)

O teste de Leveney modificado baseia-se na afirmação de que se a variabilidade nos grupos for a mesma, a análise da variância dos valores absolutos das diferenças entre as observações e as medianas dos grupos pode ser aplicada para testar a hipótese nula de igualdade de variâncias. Portanto, primeiro você deve calcular os valores absolutos das diferenças entre as observações e as medianas em cada grupo e, em seguida, realizar uma análise de variância unidirecional sobre os valores absolutos obtidos das diferenças. Para ilustrar o critério de Levenay, voltemos ao cenário descrito no início da nota. Usando os dados apresentados na Fig. 6, faremos uma análise semelhante, mas com relação aos módulos das diferenças nos dados iniciais e medianas para cada amostra separadamente (Fig. 11).

A análise de variância permite explorar a diferença entre grupos de dados, para determinar se essas discrepâncias são aleatórias ou causadas por circunstâncias específicas. Por exemplo, se as vendas de uma empresa em uma das regiões diminuíram, usando a análise de variação, você pode descobrir se a diminuição da rotatividade nessa região é acidental em comparação com o restante e, se necessário, fazer alterações organizacionais. Ao realizar um experimento sob diferentes condições, a análise de variância ajudará a determinar o quanto os fatores externos influenciam as medições, ou os desvios são aleatórios. Se na produção, para melhorar a qualidade dos produtos, o modo de processos é alterado, então a análise de variância permite avaliar os resultados do impacto desse fator.

Nisto exemplo mostramos como realizar ANOVA em dados experimentais.

Exercício 1. São quatro lotes de matérias-primas para a indústria têxtil. Cinco amostras foram selecionadas de cada lote e testes foram realizados para determinar a magnitude da carga de ruptura. Os resultados do teste são mostrados na tabela.

71" height="29" bgcolor="white" style="border:.75pt preto sólido; vertical-align:top;fundo:branco">

Figura 1


> Abra uma planilha do Microsoft Excel. Clique no rótulo Sheet2 para alternar para outra planilha.

> Insira os dados ANOVA mostrados na Figura 1.

> Converter dados em formato numérico. Para fazer isso, selecione o comando de menu Formatar célula. A janela de formato de célula aparecerá na tela (Fig. 2). Selecione o formato Numérico e os dados inseridos serão convertidos para o formato mostrado na fig. 3

> Selecione o comando de menu Análise de Dados de Serviço (Ferramentas * Análise de Dados). A janela Análise de Dados (Análise de Dados) aparecerá na tela (Fig. 4).

> Clique na linha Análise de variância de fator único (Anova: fator único) na lista Ferramentas de análise (Anova: fator único).

> Clique em OK para fechar a janela Análise de Dados (Análise de Dados). A janela de análise de variância unidirecional aparecerá na tela para realizar a análise de dispersão dos dados (Fig. 5).

https://pandia.ru/text/78/446/images/image006_46.jpg" width="311" height="214 src=">

Fig.5

> Se em um grupo de controles Dados de entrada(Entrada) a troca por linhas não está configurada, então configure-a para que o programa Excel aceite grupos de dados por linhas - lotes.

> Instalar Tags de caixa de seleção na primeira linha (Labels in First Rom) no grupo de controles de entrada, se a primeira coluna do intervalo de dados selecionado contiver nomes de linha.

> No campo de entrada Alfa A Entrada do Grupo de Controle (A1pha) tem como padrão um valor de 0,05, que está relacionado à probabilidade de erro na análise de variância.

> Se o switch Nev Worksheet Ply não estiver definido no grupo de controles de opções de entrada, defina-o para que os resultados da análise de variância sejam colocados em uma nova planilha

> Clique em OK para fechar a janela Anova: Single Factor. Os resultados da análise de variância aparecerão em uma nova planilha (Fig. 6).

O intervalo de células A4:E6 contém os resultados da estatística descritiva. A linha 4 contém os nomes dos parâmetros, as linhas contêm os valores estatísticos calculados por lotes.

Na coluna Verificar(Contagem) são o número de medidas, na coluna Soma - a soma dos valores, na coluna Média (Média) - os valores médios aritméticos, na coluna Variância (Varianse) - dispersão.

Os resultados obtidos mostram que a maior carga média de ruptura está no lote #3, e a maior dispersão da carga de ruptura está no lote #1.

Em uma série de células A11:G16 exibe informações sobre o significado das discrepâncias entre os grupos de dados. A linha 12 contém os nomes dos parâmetros de análise de variância, a linha 13 - os resultados do processamento intergrupo, a linha 14 - os resultados do processamento intragrupo e a linha 16 - a soma dos valores das duas linhas mencionadas.

Na coluna SS (qi) os valores de variação estão localizados, ou seja, as somas dos quadrados sobre todos os desvios. A variação, como a dispersão, caracteriza a disseminação dos dados. Pode-se observar na tabela que a dispersão intergrupo da carga de ruptura é significativamente maior do que a variação intragrupo.

Na coluna df (k) os valores dos números de graus de liberdade são encontrados. Esses números indicam o número de desvios independentes sobre os quais a variância será calculada. Por exemplo, o número de graus de liberdade entre grupos é igual à diferença entre o número de grupos de dados e um. Quanto maior o número de graus de liberdade, maior a confiabilidade dos parâmetros de dispersão. Os dados de graus de liberdade na tabela mostram que os resultados dentro do grupo são mais confiáveis ​​do que os parâmetros entre grupos.

Na coluna EM (S2 ) os valores de dispersão estão localizados, que são determinados pela razão de variação e o número de graus de liberdade. A dispersão caracteriza o grau de dispersão dos dados, mas ao contrário da magnitude da variação, não tem uma tendência direta de aumentar com o aumento do número de graus de liberdade. A tabela mostra que a variância intergrupo é muito maior do que a variância intragrupo.

Na coluna F localizado, significando F- Estatisticas, calculado pela razão das variâncias intergrupos e intragrupos.

Na coluna Fcrítico(F crit) está localizado o valor F-crítico, calculado a partir do número de graus de liberdade e do valor de Alpha (A1pha). Critério de uso da estatística F e do valor crítico F Pescador-Snedekora.

Se a estatística F for maior que o valor crítico F, pode-se argumentar que as diferenças entre os grupos de dados não são aleatórias. ou seja, no nível de significância α = 0,05 (com uma confiabilidade de 0,95) a hipótese nula é rejeitada e a alternativa é aceita: a diferença entre lotes de matérias-primas tem um impacto significativo na magnitude da carga de ruptura.

A coluna de valor P contém o valor de probabilidade de que a discrepância entre os grupos seja aleatória. Como essa probabilidade é muito pequena na tabela, o desvio entre os grupos não é aleatório.

2. Resolvendo problemas de análise de variância bidirecional sem repetições

O Microsoft Excel possui a função Anova: (Two-Factor Without Replication), que é usada para identificar o fato da influência de fatores controláveis MAS e NO em um atributo eficaz com base em dados de amostra, e cada nível de fatores MAS e NO apenas uma amostra corresponde. Para chamar esta função, selecione o comando na barra de menu Serviço - Análise de Dados. Uma janela será aberta na tela. Análise de dados, no qual você deve selecionar um valor Análise de variância bidirecional sem repetições e clique no botão OK. Como resultado, a caixa de diálogo mostrada na Figura 1 será aberta na tela.

78" height="42" bgcolor="white" style="border:.75pt preto sólido; vertical-align:top;fundo:branco">

2. A caixa de seleção Rótulos é definida se a primeira linha no intervalo de entrada contiver títulos de coluna. Se não houver cabeçalhos, a caixa de seleção deve ser desmarcada. Nesse caso, os nomes padrão serão gerados automaticamente para os dados do intervalo de saída.

3. No campo Alfa, é inserido o nível de significância aceito. α , que corresponde à probabilidade de um erro do primeiro tipo.

4. A chave no grupo de opções de saída pode ser definida para uma das três posições: Faixa de saída, Nova folha de trabalho ou Nova pasta de trabalho.

Exemplo.

Análise de variância bidirecional sem repetições(Anova: dois fatores sem replicação) no exemplo a seguir.

Na imagem. A Figura 2 mostra a produtividade (c/ha) de quatro variedades de trigo (quatro níveis do fator A) alcançada com cinco tipos de fertilizantes (cinco níveis do fator B). Os dados foram obtidos de 20 parcelas de mesmo tamanho e cobertura de solo semelhante. Precisa definir se a variedade e o tipo de fertilizante afetam o rendimento do trigo.

Análise de variância bidirecional sem repetições são mostrados na Figura 3.

Como pode ser visto a partir dos resultados, o valor calculado do valor da estatística F para o fator A (tipo de fertilizante) FMAS= eu,67 , e a região crítica é formada pelo intervalo à direita (3,49; +∞). Como FMAS= eu,67 não cai na região crítica, a hipótese HA: uma 1 = uma 2 + = ak aceitar, ou seja, acreditamos que neste experimento o tipo de fertilizante não teve efeito sobre a produtividade.

Valor estimado da estatística F para o fator B (variedade de trigo) FNO =2,03 , e a região crítica é formada pelo intervalo à direita (3,259;+∞).

Como FNO=2,03 não cai na região crítica, a hipótese HB: b1 = b2 = ... = bm

também aceitamos, ou seja, acreditamos que neste No experimento, a variedade de trigo também não afetou a produtividade.

2. Análise de variância bidirecionalcrepetições

O Microsoft Excel possui a função Anova: Two-Factor With Replication, que também é usado para determinar se os fatores controlados A e B influenciam uma característica de desempenho com base em dados de amostra, no entanto, cada nível de um dos fatores A (ou B) corresponde a mais de uma amostra de dados.

Considere usar a função Análise de variância bidirecional com repetições no próximo exemplo.

Exemplo 2. na mesa. A Figura 6 mostra o ganho de peso diário (g) de 18 leitões coletados para o estudo, dependendo do método de criação dos leitões (fator A) e da qualidade de sua alimentação (fator B).

75" height="33" bgcolor="white" style="border:.75pt preto sólido; vertical-align:top;fundo:branco">

Esta caixa de diálogo define as seguintes opções.

1. No campo Input Range, insira uma referência ao intervalo de células que contém os dados analisados. Selecione as células de G 4 antes EU 13.

2. No campo Linhas por amostra, defina o número de amostras para cada nível de um dos fatores. Cada nível de fator deve conter o mesmo número de amostras (linhas da tabela). No nosso caso, o número de linhas é três.

3. No campo Alfa, insira o valor aceito do nível de significância α , que é igual à probabilidade de um erro do Tipo I.

4. A chave no grupo Opções de saída pode ser definida para uma das três posições: Faixa de saída (intervalo de saída), Nova folha de trabalho (Nova planilha) ou Nova pasta de trabalho (nova pasta de trabalho).

Resultados da análise de variância bidirecional usando a função Análise de variância bidirecional com repetições significativas. Devido ao fato de a interação desses fatores é insignificante (ao nível de 5%).

Trabalho de casa

1. Ao longo de seis anos, cinco tecnologias diferentes foram utilizadas para o cultivo. Os dados experimentais (em c/ha) são fornecidos na tabela:

https://pandia.ru/text/78/446/images/image024_11.jpg" width="642" height="190 src=">

É necessário ao nível de significância α = 0,05 para estabelecer a dependência da produção de telhas de alta qualidade na linha de produção (fator A).

3. Os seguintes dados estão disponíveis sobre o rendimento de quatro variedades de trigo nos cinco lotes de terra (blocos):

https://pandia.ru/text/78/446/images/image026_9.jpg" width="598" height="165 src=">

É necessário ao nível de significância α = 0,05 para estabelecer o impacto na produtividade do trabalho das tecnologias (fator A) e das empresas (fator B).

Para analisar a variabilidade de uma característica sob a influência de variáveis ​​controladas, utiliza-se o método de dispersão.

Estudar a relação entre valores - método fatorial. Consideremos as ferramentas analíticas com mais detalhes: métodos fatorial, de dispersão e de dispersão de dois fatores para avaliar a variabilidade.

ANOVA no Excel

Condicionalmente, o objetivo do método de dispersão pode ser formulado da seguinte forma: isolar da variabilidade total do parâmetro 3 a variabilidade particular:

  • 1 - determinado pela ação de cada um dos valores estudados;
  • 2 - ditado pela relação entre os valores estudados;
  • 3 - aleatório, ditado por todas as circunstâncias não explicadas.

No Microsoft Excel, a análise de variância pode ser realizada usando a ferramenta "Análise de Dados" (aba "Dados" - "Análise"). Este é um complemento de planilha. Se o add-in não estiver disponível, você precisa abrir "Opções do Excel" e habilitar a configuração para análise.

O trabalho começa com o design da mesa. Regras:

  1. Cada coluna deve conter os valores de um fator em estudo.
  2. Organize as colunas em ordem crescente/decrescente do valor do parâmetro em estudo.

Considere a análise de variância no Excel usando um exemplo.

A psicóloga da empresa analisou com uma técnica especial a estratégia de comportamento dos funcionários em situação de conflito. Assume-se que o comportamento é influenciado pelo nível de escolaridade (1 - secundário, 2 - secundário especializado, 3 - ensino superior).

Insira os dados em uma planilha do Excel:


O parâmetro significativo é preenchido com a cor amarela. Como o valor P entre os grupos é maior que 1, o teste de Fisher não pode ser considerado significativo. Consequentemente, o comportamento em uma situação de conflito não depende do nível de educação.



Análise fatorial no Excel: um exemplo

A análise fatorial é uma análise multivariada das relações entre os valores das variáveis. Usando este método, você pode resolver as tarefas mais importantes:

  • descrever de forma abrangente o objeto medido (além disso, de forma ampla, compacta);
  • identificar valores de variáveis ​​ocultas que determinam a presença de correlações estatísticas lineares;
  • classificar variáveis ​​(determinar a relação entre elas);
  • reduzir o número de variáveis ​​necessárias.

Considere o exemplo da análise fatorial. Suponha que conhecemos as vendas de qualquer mercadoria nos últimos 4 meses. É necessário analisar quais itens estão em demanda e quais não estão.



Agora você pode ver claramente quais vendas de produtos geram o principal crescimento.

Análise de variância bidirecional no Excel

Mostra como dois fatores afetam a mudança no valor de uma variável aleatória. Considere a análise de variância bidirecional no Excel usando um exemplo.

Tarefa. A um grupo de homens e mulheres foram apresentados sons de diferentes volumes: 1 - 10 dB, 2 - 30 dB, 3 - 50 dB. O tempo de resposta foi registrado em milissegundos. É necessário determinar se o gênero afeta a resposta; A sonoridade afeta a resposta?

Análise de variação

1. O conceito de análise de variância

Análise de variação- trata-se de uma análise da variabilidade de uma característica sob a influência de quaisquer fatores variáveis ​​controlados. Na literatura estrangeira, a análise de variância é muitas vezes referida como ANOVA, que se traduz como análise de variância (Análise de Variância).

A tarefa de análise de variância consiste em isolar a variabilidade de um tipo diferente da variabilidade geral do traço:

a) variabilidade devido à ação de cada uma das variáveis ​​independentes estudadas;

b) variabilidade devido à interação das variáveis ​​independentes estudadas;

c) variação aleatória devido a todas as outras variáveis ​​desconhecidas.

A variabilidade devido à ação das variáveis ​​estudadas e sua interação correlaciona-se com a variabilidade aleatória. Um indicador dessa razão é o teste F de Fisher.

A fórmula de cálculo do critério F inclui estimativas de variâncias, ou seja, os parâmetros de distribuição de uma característica, portanto o critério F é um critério paramétrico.

Quanto mais a variabilidade do traço se deve às variáveis ​​estudadas (fatores) ou sua interação, maior valores empíricos do critério.

Zero a hipótese na análise de variância dirá que os valores médios do recurso efetivo estudado em todas as gradações são os mesmos.

Alternativo a hipótese afirmará que os valores médios do atributo efetivo em diferentes gradações do fator estudado são diferentes.

A análise de variância nos permite afirmar uma mudança em uma característica, mas não indica direção estas alterações.

Vamos começar a análise de variância com o caso mais simples, quando estudamos a ação de apenas 1 variável (fator único).

2. Análise de variância unidirecional para amostras não relacionadas

2.1. Objetivo do método

O método de análise de variância de fator único é usado nos casos em que as mudanças no atributo efetivo são estudadas sob a influência de mudanças nas condições ou gradações de qualquer fator. Nesta versão do método, a influência de cada uma das gradações do fator é vários amostra de sujeitos de teste. Deve haver pelo menos três gradações do fator. (Pode haver duas gradações, mas neste caso não poderemos estabelecer dependências não lineares e parece mais razoável usar outras mais simples).

Uma variante não paramétrica desse tipo de análise é o teste H de Kruskal-Wallis.

Hipóteses

H 0: As diferenças entre os graus dos fatores (diferentes condições) não são mais pronunciadas do que as diferenças aleatórias dentro de cada grupo.

H 1: As diferenças entre as gradações dos fatores (diferentes condições) são mais pronunciadas do que as diferenças aleatórias dentro de cada grupo.

2.2. Limitações da análise de variância univariada para amostras não relacionadas

1. A análise de variância univariada requer pelo menos três gradações do fator e pelo menos dois sujeitos em cada gradação.

2. A característica resultante deve ter distribuição normal na amostra do estudo.

É verdade que geralmente não é indicado se estamos falando da distribuição de uma característica em toda a amostra pesquisada ou naquela parte dela que compõe o complexo de dispersão.

3. Um exemplo de solução do problema pelo método de análise de variância de fator único para amostras não relacionadas usando o exemplo:

Três grupos diferentes de seis sujeitos receberam listas de dez palavras. As palavras foram apresentadas ao primeiro grupo a uma taxa baixa de 1 palavra por 5 segundos, ao segundo grupo a uma taxa média de 1 palavra por 2 segundos e ao terceiro grupo a uma taxa alta de 1 palavra por segundo. O desempenho de reprodução foi previsto para depender da velocidade de apresentação de palavras. Os resultados são apresentados na Tabela. 1.

Número de palavras reproduzidas tabela 1

número do assunto

baixa velocidade

velocidade média

alta velocidade

montante total

H 0: Diferenças no volume da palavra entre grupos não são mais pronunciados do que diferenças aleatórias dentro cada grupo.

H1: Diferenças no volume da palavra entre os grupos são mais pronunciados do que as diferenças aleatórias dentro cada grupo. Usando os valores experimentais apresentados na Tabela. 1, estabeleceremos alguns valores que serão necessários para calcular o critério F.

O cálculo das principais quantidades para análise de variância unidirecional é apresentado na tabela:

mesa 2

Tabela 3

Sequência de operações em ANOVA unidirecional para amostras desconectadas

Frequentemente usada nesta e nas tabelas subsequentes, a designação SS é uma abreviação de "soma de quadrados". Esta abreviatura é mais frequentemente usada em fontes traduzidas.

SS facto significa a variabilidade da característica, devido à ação do fator em estudo;

SS comum- variabilidade geral da característica;

S CA- variabilidade devido a fatores não contabilizados, variabilidade "aleatória" ou "residual".

EM- "quadrado médio", ou a expectativa matemática da soma dos quadrados, o valor médio do SS correspondente.

df - o número de graus de liberdade, que, ao considerar critérios não paramétricos, denotamos pela letra grega v.

Conclusão: H 0 é rejeitado. H1 é aceito. As diferenças no volume de reprodução de palavras entre os grupos são mais pronunciadas do que as diferenças aleatórias dentro de cada grupo (α=0,05). Assim, a velocidade de apresentação das palavras afeta o volume de sua reprodução.

Um exemplo de solução do problema no Excel é apresentado abaixo:

Dados iniciais:

Usando o comando: Ferramentas->Análise de Dados->Análise de variância unidirecional, obtemos os seguintes resultados:

A ANOVA é um conjunto de métodos estatísticos destinados a testar hipóteses sobre a relação entre determinadas características e os fatores estudados que não possuem descrição quantitativa, bem como estabelecer o grau de influência dos fatores e sua interação. Na literatura especializada, é frequentemente chamado de ANOVA (do nome inglês Analysis of Variations). Este método foi desenvolvido pela primeira vez por R. Fischer em 1925.

Tipos e critérios para análise de variância

Este método é usado para investigar a relação entre características qualitativas (nominais) e uma variável quantitativa (contínua). De fato, testa a hipótese sobre a igualdade das médias aritméticas de várias amostras. Assim, pode ser considerado como um critério paramétrico para comparar os centros de várias amostras de uma só vez. Se você usar esse método para duas amostras, os resultados da análise de variância serão idênticos aos resultados do teste t de Student. No entanto, ao contrário de outros critérios, este estudo permite estudar o problema com mais detalhes.

A análise de variância em estatística é baseada na lei: a soma dos quadrados dos desvios da amostra combinada é igual à soma dos quadrados dos desvios intragrupo e a soma dos quadrados dos desvios intergrupos. Para o estudo, o teste de Fisher é utilizado para estabelecer a significância da diferença entre as variâncias intergrupos e intragrupos. No entanto, para isso, os pré-requisitos necessários são a normalidade da distribuição e a homocedasticidade (igualdade de variâncias) das amostras. Distinguir entre análise de variância unidimensional (fator único) e multivariada (multifatorial). O primeiro considera a dependência do valor em estudo em um atributo, o segundo - em muitos ao mesmo tempo, e também permite identificar a relação entre eles.

Fatores

Os fatores são chamados de circunstâncias controladas que afetam o resultado final. Seu nível ou método de processamento é chamado de valor que caracteriza a manifestação específica dessa condição. Esses números são geralmente dados em uma escala de medição nominal ou ordinal. Muitas vezes, os valores de saída são medidos em escalas quantitativas ou ordinais. Depois, há o problema de agrupar os dados de saída em uma série de observações que correspondem aproximadamente aos mesmos valores numéricos. Se o número de grupos for muito grande, o número de observações neles pode ser insuficiente para obter resultados confiáveis. Se o número for muito pequeno, isso pode levar à perda de recursos essenciais de influência no sistema. O método específico de agrupamento de dados depende do volume e da natureza da variação dos valores. O número e o tamanho dos intervalos na análise univariada são mais frequentemente determinados pelo princípio dos intervalos iguais ou pelo princípio das frequências iguais.

Tarefas de análise de dispersão

Portanto, há casos em que você precisa comparar duas ou mais amostras. É então que é aconselhável usar a análise de variância. O nome do método indica que as conclusões são feitas com base no estudo dos componentes da variância. A essência do estudo é que a mudança geral no indicador é dividida em componentes que correspondem à ação de cada fator individual. Considere uma série de problemas que uma análise de variância típica resolve.

Exemplo 1

A oficina possui uma série de máquinas-ferramentas - máquinas automáticas que produzem uma peça específica. O tamanho de cada peça é um valor aleatório, que depende das configurações de cada máquina e dos desvios aleatórios que ocorrem durante o processo de fabricação das peças. É necessário determinar a partir das medidas das dimensões das peças se as máquinas estão configuradas da mesma maneira.

Exemplo 2

Durante a fabricação de um aparelho elétrico são utilizados vários tipos de papel isolante: capacitor, elétrico, etc. O aparelho pode ser impregnado com várias substâncias: resina epóxi, verniz, resina ML-2, etc. pressão elevada, quando aquecido. Pode ser impregnado por imersão em verniz, sob um fluxo contínuo de verniz, etc. O aparelho elétrico como um todo é vazado com um determinado composto, do qual existem várias opções. Os indicadores de qualidade são a rigidez dielétrica do isolamento, a temperatura de superaquecimento do enrolamento no modo de operação e vários outros. Durante o desenvolvimento do processo tecnológico de fabricação de dispositivos, é necessário determinar como cada um dos fatores listados afeta o desempenho do dispositivo.

Exemplo 3

O depósito de trólebus serve várias rotas de trólebus. Operam trólebus de vários tipos e 125 fiscais cobram as passagens. A direção do depósito está interessada na questão: como comparar o desempenho econômico de cada controlador (receita) diante das diferentes rotas, diferentes tipos de trólebus? Como determinar a viabilidade econômica do lançamento de trólebus de um determinado tipo em uma determinada rota? Como estabelecer requisitos razoáveis ​​para o valor da receita que o condutor traz em cada rota em vários tipos de trólebus?

A tarefa de escolher um método é como obter o máximo de informações sobre o impacto no resultado final de cada fator, determinar as características numéricas de tal impacto, sua confiabilidade a um custo mínimo e no menor tempo possível. Métodos de análise de dispersão permitem resolver tais problemas.

Análise univariada

O estudo visa avaliar a magnitude do impacto de um caso particular na revisão em análise. Outra tarefa da análise univariada pode ser comparar duas ou mais circunstâncias entre si para determinar a diferença em sua influência na recordação. Se a hipótese nula for rejeitada, o próximo passo é quantificar e construir intervalos de confiança para as características obtidas. No caso em que a hipótese nula não pode ser rejeitada, geralmente é aceita e é feita uma conclusão sobre a natureza da influência.

A análise de variância unidirecional pode se tornar um análogo não paramétrico do método de classificação de Kruskal-Wallis. Foi desenvolvido pelo matemático americano William Kruskal e pelo economista Wilson Wallis em 1952. Este teste pretende testar a hipótese nula de que os efeitos da influência sobre as amostras estudadas são iguais com valores médios desconhecidos, mas iguais. Neste caso, o número de amostras deve ser superior a duas.

O critério de Jonkhier (Jonkhier-Terpstra) foi proposto independentemente pelo matemático holandês T. J. Terpstrom em 1952 e pelo psicólogo britânico E. R. Jonkhier em 1954. É usado quando se sabe de antemão que os grupos de resultados disponíveis são ordenados por um aumento na influência do fator em estudo, que é medido em escala ordinal.

M - o critério de Bartlett, proposto pelo estatístico britânico Maurice Stevenson Bartlett em 1937, é usado para testar a hipótese nula sobre a igualdade das variâncias de várias populações gerais normais das quais as amostras estudadas são retiradas, no caso geral tendo tamanhos diferentes (o número de cada amostra deve ser pelo menos quatro).

G é o teste de Cochran, que foi descoberto pelo americano William Gemmel Cochran em 1941. É usado para testar a hipótese nula sobre a igualdade das variâncias de populações normais para amostras independentes de igual tamanho.

O teste não paramétrico de Levene, proposto pelo matemático americano Howard Levene em 1960, é uma alternativa ao teste de Bartlett em condições em que não há certeza de que as amostras em estudo seguem uma distribuição normal.

Em 1974, os estatísticos americanos Morton B. Brown e Alan B. Forsythe propuseram um teste (o teste de Brown-Forsyth), que é um pouco diferente do teste de Levene.

Análise bidirecional

A análise de variância bidirecional é usada para amostras vinculadas normalmente distribuídas. Na prática, também são frequentemente utilizadas tabelas complexas deste método, em particular aquelas em que cada célula contém um conjunto de dados (medidas repetidas) correspondentes a valores de nível fixo. Se as premissas necessárias para aplicar a análise de variância bidirecional não forem atendidas, então é utilizado o teste não paramétrico de classificação de Friedman (Friedman, Kendall e Smith), desenvolvido pelo economista americano Milton Friedman no final de 1930. Este critério não depende do tipo de distribuição.

Supõe-se apenas que a distribuição de quantidades é a mesma e contínua, e que elas próprias são independentes umas das outras. Ao testar a hipótese nula, os dados de saída são apresentados na forma de uma matriz retangular, em que as linhas correspondem aos níveis do fator B e as colunas correspondem aos níveis A. Cada célula da tabela (bloco) pode ser o resultado de medições de parâmetros em um objeto ou em um grupo de objetos com valores constantes dos níveis de ambos os fatores. Nesse caso, os dados correspondentes são apresentados como os valores médios de um determinado parâmetro para todas as medidas ou objetos da amostra em estudo. Para aplicar o critério de saída, é necessário passar dos resultados diretos das medições para sua classificação. A classificação é realizada para cada linha separadamente, ou seja, os valores são ordenados para cada valor fixo.

O teste de Page (L-test), proposto pelo estatístico americano E. B. Page em 1963, tem como objetivo testar a hipótese nula. Para amostras grandes, a aproximação de página é usada. Elas, sujeitas à realidade das hipóteses nulas correspondentes, obedecem à distribuição normal padrão. No caso em que as linhas da tabela de origem possuem os mesmos valores, é necessário utilizar os ranks médios. Nesse caso, a precisão das conclusões será tanto pior quanto maior for o número de tais coincidências.

Q - Critério de Cochran, proposto por V. Cochran em 1937. É utilizado nos casos em que grupos de sujeitos homogêneos são expostos a mais de duas influências e para os quais são possíveis duas opções de revisões - condicionalmente negativo (0) e condicionalmente positivo (1 ). A hipótese nula consiste na igualdade dos efeitos de influência. A análise de variância bidirecional permite determinar a existência de efeitos de processamento, mas não permite determinar para quais colunas esse efeito existe. Ao resolver este problema, é utilizado o método de múltiplas equações de Scheffe para amostras acopladas.

Análise multivariada

O problema da análise de variância multivariada surge quando é necessário determinar a influência de duas ou mais condições sobre uma determinada variável aleatória. O estudo prevê a presença de uma variável aleatória dependente, medida em uma escala de diferenças ou razões, e várias variáveis ​​independentes, cada uma delas expressa em uma escala de nomes ou em uma escala de classificação. A análise de dispersão de dados é um ramo bastante desenvolvido da estatística matemática, que tem muitas opções. O conceito do estudo é comum tanto para estudos univariados quanto para estudos multivariados. Sua essência está no fato de que a variância total é dividida em componentes, o que corresponde a um determinado agrupamento de dados. Cada agrupamento de dados tem seu próprio modelo. Aqui consideraremos apenas as principais disposições necessárias para a compreensão e uso prático de suas variantes mais usadas.

A análise de variância dos fatores requer uma atitude bastante cuidadosa na coleta e apresentação dos dados de entrada e, principalmente, na interpretação dos resultados. Em contraste com o de um fator, cujos resultados podem ser colocados condicionalmente em uma determinada sequência, os resultados do fator de dois requerem uma apresentação mais complexa. Uma situação ainda mais difícil surge quando há três, quatro ou mais circunstâncias. Por isso, o modelo raramente inclui mais de três (quatro) condições. Um exemplo seria a ocorrência de ressonância em um determinado valor de capacitância e indutância do círculo elétrico; a manifestação de uma reação química com um determinado conjunto de elementos a partir dos quais o sistema é construído; a ocorrência de efeitos anômalos em sistemas complexos sob uma certa coincidência de circunstâncias. A presença da interação pode mudar radicalmente o modelo do sistema e, às vezes, levar a repensar a natureza dos fenômenos com os quais o experimentador está lidando.

Análise de variância multivariada com experimentos repetidos

Os dados de medição geralmente podem ser agrupados não por dois, mas por mais fatores. Assim, se considerarmos a análise de variação da vida útil dos pneus para rodas de trólebus, levando em consideração as circunstâncias (fabricante e a rota em que os pneus são operados), podemos distinguir como condição separada a estação em que o pneus são operados (ou seja: operação de inverno e verão). Como resultado, teremos o problema do método dos três fatores.

Na presença de mais condições, a abordagem é a mesma da análise bidirecional. Em todos os casos, o modelo está tentando simplificar. O fenômeno da interação de dois fatores não aparece com tanta frequência, e a interação tripla ocorre apenas em casos excepcionais. Inclua as interações para as quais há informações anteriores e boas razões para considerá-las no modelo. O processo de isolar fatores individuais e levá-los em consideração é relativamente simples. Portanto, muitas vezes há um desejo de destacar mais circunstâncias. Você não deve se deixar levar por isso. Quanto mais condições, menos confiável o modelo se torna e maior a chance de erro. O próprio modelo, que inclui um grande número de variáveis ​​independentes, torna-se bastante difícil de interpretar e inconveniente para uso prático.

Ideia geral da análise de variância

A análise de variância em estatística é um método para obter os resultados de observações que dependem de várias circunstâncias concorrentes e avaliar sua influência. Uma variável controlada que corresponde ao método de influência sobre o objeto de estudo e adquire um determinado valor em um determinado período de tempo é chamada de fator. Eles podem ser qualitativos e quantitativos. Níveis de condições quantitativas adquirem um certo valor em uma escala numérica. Exemplos são temperatura, pressão de prensagem, quantidade de substância. Fatores qualitativos são diferentes substâncias, diferentes métodos tecnológicos, aparelhos, cargas. Seus níveis correspondem à escala de nomes.

A qualidade também inclui o tipo de material de embalagem, as condições de armazenamento da forma farmacêutica. Também é racional incluir o grau de moagem das matérias-primas, a composição fracionária dos grânulos, que têm um valor quantitativo, mas são difíceis de regular, se for usada uma escala quantitativa. O número de fatores de qualidade depende do tipo de forma farmacêutica, bem como das propriedades físicas e tecnológicas das substâncias medicinais. Por exemplo, comprimidos podem ser obtidos a partir de substâncias cristalinas por compressão direta. Neste caso, é suficiente realizar a seleção de agentes deslizantes e lubrificantes.

Exemplos de fatores de qualidade para diferentes tipos de formas farmacêuticas

  • Tinturas. Composição do extrator, tipo de extrator, método de preparação da matéria-prima, método de produção, método de filtração.
  • Extratos (líquidos, espessos, secos). A composição do extrator, o método de extração, o tipo de instalação, o método de remoção do extrator e as substâncias de lastro.
  • Comprimidos. Composição de excipientes, cargas, desintegrantes, aglutinantes, lubrificantes e lubrificantes. O método de obtenção de tablets, o tipo de equipamento tecnológico. Tipo de casca e seus componentes, formadores de filme, pigmentos, corantes, plastificantes, solventes.
  • soluções de injeção. Tipo de solvente, método de filtração, natureza dos estabilizantes e conservantes, condições de esterilização, método de enchimento das ampolas.
  • Supositórios. A composição da base do supositório, o método de obtenção de supositórios, enchimentos, embalagens.
  • Pomadas. A composição da base, componentes estruturais, método de preparação da pomada, tipo de equipamento, embalagem.
  • Cápsulas. Tipo de material da concha, método de obtenção das cápsulas, tipo de plastificante, conservante, corante.
  • Linimentos. Método de produção, composição, tipo de equipamento, tipo de emulsificante.
  • Suspensões. Tipo de solvente, tipo de estabilizador, método de dispersão.

Exemplos de fatores de qualidade e seus níveis estudados no processo de fabricação de tablets

  • Fermento em pó. Amido de batata, argila branca, uma mistura de bicarbonato de sódio com ácido cítrico, carbonato de magnésio básico.
  • solução de ligação.Água, pasta de amido, xarope de açúcar, solução de metilcelulose, solução de hidroxipropilmetilcelulose, solução de polivinilpirrolidona, solução de álcool polivinílico.
  • substância deslizante. Aerosil, amido, talco.
  • Enchimento. Açúcar, glicose, lactose, cloreto de sódio, fosfato de cálcio.
  • Lubrificante.Ácido esteárico, polietilenoglicol, parafina.

Modelos de análise de dispersão no estudo do nível de competitividade do estado.

Um dos critérios mais importantes para avaliar o estado do estado, que é usado para avaliar o nível de seu bem-estar e desenvolvimento socioeconômico, é a competitividade, ou seja, um conjunto de propriedades inerentes à economia nacional que determinam a capacidade de o Estado para competir com outros países. Tendo determinado o lugar e o papel do Estado no mercado mundial, é possível estabelecer uma estratégia clara para garantir a segurança econômica em escala internacional, porque é a chave para relações positivas entre a Rússia e todos os players do mercado mundial: investidores , credores, governos estaduais.

Para comparar o nível de competitividade dos estados, os países são classificados usando índices complexos, que incluem vários indicadores ponderados. Esses índices são baseados em fatores-chave que afetam a situação econômica, política, etc. O complexo de modelos para estudar a competitividade do estado prevê o uso de métodos de análise estatística multivariada (em particular, esta é uma análise de variância (estatística), modelagem econométrica, tomada de decisão) e inclui as seguintes etapas principais:

  1. Formação de um sistema de indicadores-indicadores.
  2. Avaliação e previsão de indicadores de competitividade do estado.
  3. Comparação de indicadores-indicadores de competitividade dos estados.

E agora vamos considerar o conteúdo dos modelos de cada uma das etapas deste complexo.

Na primeira fase com a ajuda de métodos de estudo de especialistas, é formado um conjunto razoável de indicadores-indicadores econômicos para avaliar a competitividade do estado, levando em consideração as especificidades de seu desenvolvimento com base em classificações internacionais e dados de departamentos de estatística, refletindo o estado de o sistema como um todo e seus processos. A escolha destes indicadores justifica-se pela necessidade de selecionar aqueles que de forma mais completa, do ponto de vista da prática, permitem determinar o nível do Estado, a sua atratividade de investimento e a possibilidade de localização relativa das ameaças potenciais e reais existentes.

Os principais indicadores-indicadores dos sistemas internacionais de rating são os índices:

  1. Competitividade Global (GCC).
  2. Liberdade econômica (IES).
  3. Desenvolvimento Humano (IDH).
  4. Percepções de Corrupção (CPI).
  5. Ameaças internas e externas (IVZZ).
  6. Potencial de Influência Internacional (IPIP).

Segunda fase prevê a avaliação e previsão de indicadores de competitividade do estado de acordo com classificações internacionais para os 139 estados do mundo estudados.

Terceiro estágio prevê a comparação das condições de competitividade dos estados por meio dos métodos de correlação e análise de regressão.

A partir dos resultados do estudo, é possível determinar a natureza dos processos em geral e para os componentes individuais da competitividade do estado; testar a hipótese sobre a influência dos fatores e sua relação no nível apropriado de significância.

A implementação do conjunto de modelos proposto permitirá não só avaliar a situação atual do nível de competitividade e atratividade de investimentos dos estados, mas também analisar as deficiências de gestão, prevenir erros de decisões erradas e prevenir o desenvolvimento de uma crise no Estado.