Familiarizado com os conceitos de carga fatorial e área de mudanças conjuntas, pode-se ir mais longe, utilizando novamente o aparato de matrizes para apresentação, cujos elementos desta vez serão coeficientes de correlação.
A matriz de coeficientes de correlação, obtida, via de regra, experimentalmente, é chamada de matriz de correlação, ou matriz de correlação.
Os elementos desta matriz são os coeficientes de correlação entre todas as variáveis de uma determinada população.
Se tivermos, por exemplo, um conjunto composto por testes, então o número de coeficientes de correlação obtidos experimentalmente será
Esses coeficientes preenchem metade da matriz, localizada em um lado de sua diagonal principal. Do outro lado existem, obviamente, os mesmos coeficientes, visto que, etc. Portanto, a matriz de correlação é simétrica.
Esquema 3.2. Matriz de correlação completa
Existem alguns na diagonal desta matriz porque a correlação de cada variável consigo mesma é +1.
Uma matriz de correlação na qual os elementos da diagonal principal são iguais a 1 é chamada de “matriz completa” de correlação (Esquema 3.2) e é denotada
Ressalta-se que ao colocar as unidades, ou correlações, de cada variável consigo mesma na diagonal principal, estamos levando em consideração a variância total de cada variável representada na matriz. Assim, é levada em consideração a influência não apenas de fatores gerais, mas também de fatores específicos.
Pelo contrário, se na diagonal principal da matriz de correlação existem elementos correspondentes a generalidades e relacionados apenas com a dispersão geral das variáveis, então a influência apenas de fatores gerais é levada em consideração, a influência de fatores específicos e erros é eliminada , ou seja, a especificidade e a dispersão de erros são descartadas.
Uma matriz de correlação na qual os elementos da diagonal principal correspondem a pontos em comum é chamada de reduzida e é denotada por R (Esquema 3.3).
Esquema 3.3. Matriz de correlação reduzida
Já discutimos a carga fatorial, ou o preenchimento de uma determinada variável com um fator específico. Ressaltou-se que a carga fatorial tem a forma de um coeficiente de correlação entre uma determinada variável e um determinado fator.
Uma matriz cujas colunas consistem nas cargas de um determinado fator em relação a todas as variáveis de uma determinada população, e cujas linhas consistem nas cargas fatoriais de uma determinada variável, é chamada de matriz fatorial, ou matriz fatorial. Aqui também podemos falar de uma matriz fatorial completa e reduzida. Os elementos da matriz fatorial completa correspondem à variância unitária total de cada variável em uma determinada população. Se as cargas dos fatores gerais forem denotadas por c, e as cargas dos fatores específicos por e, então a matriz fatorial completa pode ser representada da seguinte forma:
Esquema 3.4. Matriz fatorial completa para quatro variáveis
A matriz fatorial mostrada aqui tem duas partes: a primeira parte contém itens relacionados a quatro variáveis e três fatores gerais, todos os quais são considerados aplicáveis a todas as variáveis. Esta não é uma condição necessária, pois alguns elementos da primeira parte da matriz podem ser iguais a zero, o que significa que alguns fatores não se aplicam a todas as variáveis. Os elementos da primeira parte da matriz são as cargas dos fatores comuns (por exemplo, o elemento mostra a carga do segundo fator comum na primeira variável).
Na segunda parte da matriz vemos 4 cargas de fatores característicos, uma em cada linha, que correspondem à sua natureza característica. Cada um desses fatores está relacionado a apenas uma variável. Todos os outros elementos desta parte da matriz são iguais a zero. Fatores característicos podem obviamente ser divididos em específicos e relacionados a erros.
A coluna da matriz fatorial caracteriza o fator e sua influência em todas as variáveis. A linha caracteriza a variável e seu conteúdo com diversos fatores, ou seja, a estrutura fatorial da variável.
Ao analisar apenas a primeira parte da matriz, estamos lidando com uma matriz fatorial que mostra a variância total de cada variável. Esta parte da matriz é chamada de reduzida e é denotada por F. Esta matriz não leva em consideração a carga de fatores característicos e não leva em consideração a variância específica. Lembre-se que de acordo com o que foi dito acima sobre variâncias comuns e cargas fatoriais, que são as raízes quadradas das variâncias comuns, a soma dos quadrados dos elementos de cada linha da matriz fatorial reduzida F é igual à comunalidade de um determinado variável
Conseqüentemente, a soma dos quadrados de todos os elementos da linha da matriz fatorial completa é igual a , ou a variância total de uma determinada variável.
Como a análise fatorial se concentra em fatores comuns, a seguir usaremos principalmente a correlação reduzida e a matriz fatorial reduzida.
Disposições básicas
A análise fatorial é uma das novas seções da análise estatística multivariada. Este método foi originalmente desenvolvido para explicar a correlação entre parâmetros de entrada. O resultado da análise de correlação é uma matriz de coeficientes de correlação. Se o número de recursos (variáveis) for pequeno, você poderá realizar uma análise visual desta matriz. À medida que o número de sinais aumenta (10 ou mais), a análise visual não dará resultados positivos. Acontece que toda a variedade de correlações pode ser explicada pela ação de diversos fatores generalizados, que são funções dos parâmetros em estudo, enquanto os próprios fatores podem ser desconhecidos, mas podem ser expressos por meio das características em estudo. O fundador da análise fatorial é o cientista americano L. Thurstone.
Os estatísticos modernos entendem a análise fatorial como um conjunto de métodos que, a partir de uma conexão real entre características, permite identificar características generalizantes latentes (ocultas) da estrutura organizacional e dos mecanismos de desenvolvimento dos fenômenos e processos em estudo.
Exemplo: suponha que n carros sejam avaliados com base em 2 critérios:
x 1 – custo do carro,
x 2 – duração da vida útil do motor.
Desde que x 1 ex 2 estejam correlacionados, um aglomerado direcionado e bastante denso de pontos aparece no sistema de coordenadas, formalmente exibido pelos novos eixos e (Fig. 5).
Figura 6
Recurso F 1 e F 2 é que eles passam por densos aglomerados de pontos e, por sua vez, se correlacionam com x 1 x 2.Máximo
o número de novos eixos será igual ao número de recursos elementares. Desenvolvimentos posteriores na análise fatorial mostraram que este método pode ser aplicado com sucesso em problemas de agrupamento e classificação de objetos.
Apresentação de informações em análise fatorial.
Para realizar a análise fatorial, as informações devem ser apresentadas na forma de uma matriz de tamanho m x n:
As linhas da matriz correspondem aos objetos de observação (i=) e as colunas correspondem aos atributos (j=).
As características que caracterizam um objeto possuem dimensões diferentes. Para trazê-los para a mesma dimensão e garantir a comparabilidade dos recursos, a matriz dos dados de origem geralmente é normalizada pela introdução de uma escala única. O método mais comum de normalização é a padronização. Das variáveis vá para as variáveis
Valor médio j sinal,
Desvio padrão.
Essa transformação é chamada de padronização.
Modelo básico de análise fatorial
O modelo básico de análise fatorial tem a forma:
z j- j- sinal (valor aleatório);
F 1 , F 2 , …, F p– fatores gerais (valores aleatórios, normalmente distribuídos);
você j– fator característico;
j1 , j2 , …, jp – fatores de carga que caracterizam a significância da influência de cada fator (parâmetros do modelo a serem determinados);
Fatores gerais são essenciais para a análise de todas as características. Fatores característicos mostram que se refere apenas a uma determinada característica; esta é a especificidade da característica, que não pode ser expressa por meio de fatores. Cargas fatoriais j1 , j2 , …, jp caracterizar a magnitude da influência de um ou outro fator geral na variação de uma determinada característica. A principal tarefa da análise fatorial é determinar as cargas fatoriais. Variância S j 2 de cada característica pode ser dividida em 2 componentes:
a primeira parte determina a ação dos fatores gerais - a comunalidade de h j 2;
a segunda parte determina a ação do fator característico - característica - d j 2.
Todas as variáveis são apresentadas de forma padronizada, portanto a variância - sinal de estado S j2 = 1.
Se os fatores gerais e característicos não se correlacionarem, então a dispersão da j-ésima característica pode ser representada como:
onde está a proporção da variância da característica atribuível a k-ésimo fator.
A contribuição total de qualquer fator para a variância total é igual a:
Contribuição de todos os fatores comuns para a variância total:
É conveniente apresentar os resultados da análise fatorial em forma de tabela.
Cargas fatoriais |
Pontos em comum |
|
a 11 a 21 ... a p1 a 12 a 22 … a p2 … … … … a 1m a 2m … a PM | ||
fatores |
V 1 V 2 ... V p |
A- matriz de cargas fatoriais. Pode ser obtido de diversas maneiras; atualmente o método mais utilizado é o método dos componentes principais ou fatores principais.
Procedimento computacional do método dos fatores principais.
Resolver o problema usando componentes principais se resume a uma transformação passo a passo da matriz de dados de origem X :
X- matriz de dados de origem;
Z– matriz de valores de recursos padronizados,
R– matriz de correlações de pares:
Matriz diagonal de números próprios (característicos),
j encontrado resolvendo a equação característica
E- matriz de identidade,
j – indicador de dispersão de cada componente principal,
sujeito à padronização dos dados de origem, então = eu
você– matriz de autovetores, que são encontrados a partir da equação:
Na realidade, isto significa uma solução eu sistemas de equações lineares para cada
Aqueles. Cada autovalor corresponde a um sistema de equações.
Então eles encontram V- matriz de autovetores normalizados.
A matriz de mapeamento fatorial A é calculada usando a fórmula:
Em seguida, encontramos os valores dos componentes principais usando uma das fórmulas equivalentes:
Um conjunto de quatro empresas industriais foi avaliado de acordo com três características:
produção média anual por funcionário x 1;
nível de rentabilidade x 2;
Nível de produtividade de capital x 3.
O resultado é apresentado em uma matriz padronizada Z:
Por matriz Z uma matriz de correlações de pares foi obtida R:
Vamos encontrar o determinante da matriz de correlação pareada (por exemplo, usando o método de Faddeev):
Vamos construir uma equação característica:
Resolvendo esta equação encontramos:
Assim, as características elementares iniciais x 1, x 2, x 3 podem ser generalizadas pelos valores dos três componentes principais, e:
F 1 explica aproximadamente toda a variação,
F 2 - , uma F 3 -
Todos os três componentes principais explicam as variações completamente em 100%.
Resolvendo este sistema encontramos:
Os sistemas para 2 e 3 são construídos de forma semelhante. Para solução de sistema 2:
Matriz de autovetor você assume a forma:
Dividimos cada elemento da matriz pela soma dos quadrados dos elementos do j-ésimo
coluna, obtemos uma matriz normalizada V.
Observe que a igualdade deve ser satisfeita = E.
Obtemos a matriz de mapeamento fatorial a partir da relação matricial
=
O significado de cada elemento da matriz A representa os coeficientes parciais da matriz de correlação entre o recurso original x j e componentes principais F R. Portanto, todos os elementos.
A igualdade implica a condição R- número de componentes.
A contribuição total de cada fator para a variância total das características é igual a:
O modelo de análise fatorial assumirá a forma:
Vamos encontrar os valores dos componentes principais (matriz F) de acordo com a fórmula
O centro da distribuição dos valores dos componentes principais está no ponto (0,0,0).
Além disso, conclusões analíticas baseadas nos resultados do cálculo seguem após a tomada de decisão sobre o número de características significativas e componentes principais e a determinação dos nomes dos componentes principais. As tarefas de reconhecer os componentes principais e determinar seus nomes são resolvidas subjetivamente com base nos coeficientes de ponderação da matriz de mapeamento A.
Consideremos a questão da formulação dos nomes dos componentes principais.
Vamos denotar c 1 – um conjunto de coeficientes de ponderação insignificantes, que inclui elementos próximos de zero,
c 2 - conjunto de coeficientes de ponderação significativos,
c 3 – um subconjunto de coeficientes de ponderação significativos que não estão envolvidos na formação do nome do componente principal.
c 2 - c 3 – um subconjunto de coeficientes de ponderação envolvidos na formação do nome.
Calculamos o coeficiente de conteúdo de informação para cada fator principal
Consideramos um conjunto de características explicáveis satisfatório se os valores dos coeficientes de informatividade estiverem na faixa de 0,75-0,95.
a 11 =0,776 a 12 =-0,130 a 13 =0,308
a 12 =0,904 a 22 =-0,210 a 23 =-0,420
A 31 =0,616 A 32 =0,902 A 33 =0,236
Para j = 1 c 1 = ,c 2 ={a 11 ,a 21 ,a 31 },
.
Para j = 2 c 1 ={a 12 ,a 22 }, c 2 ={ A 32 },
Para j=3 c 1 ={A 33 }, c 2 ={a 13 ,a 33 },
Valores de recursos x 1 , x 2 , x 3 a composição do componente principal é determinada como 100%. neste caso, a maior contribuição do recurso x 2, cujo significado é lucratividade. correto para o nome do atributo F 1 será eficiência de produção.
F 2 é determinado pelo componente x 3 (produtividade de capital), vamos chamá-lo eficiência de uso de ativos fixos de produção.
F 3 determinado por componentes x 1 ,x 2 – não pode ser considerado na análise porque explica apenas 10% da variação total.
Literatura.
Popov A.A.
Excel: Guia Prático, DES COM.-M.-2000.
Dyakonov V.P., Abramenkova I.V. Mathcad7 em matemática, física e Internet. Editora "Nomidzh", M.-1998, seção 2.13. Executando regressão.
Los Angeles Soshnikova, V.N. Tomashevich e outros Análise estatística multivariada em economia, ed. V. N. Tomashevich.- M.-Nauka, 1980.
Kolemaev V.A., O.V. Staroverov, V.B. Teoria da probabilidade de Turundaevsky e estatística matemática. –M. – Ensino superior – 1991.
Para Iberla. Análise fatorial.-M. Estatísticas - 1980.
Comparação de duas médias normais da população cujas variâncias são conhecidas |
Sejam as populações gerais X e Y normalmente distribuídas e suas variâncias conhecidas (por exemplo, por experiência anterior ou encontradas teoricamente). Com base em amostras independentes de volumes n e m, extraídas dessas populações, foram encontradas médias amostrais x in e y in. É necessário usar médias amostrais em um determinado nível de significância para testar a hipótese nula, que é que as médias gerais (expectativas matemáticas) das populações em consideração são iguais entre si, ou seja, H 0: M(X) = M (S). Considerando que as médias amostrais são estimativas imparciais de médias gerais, ou seja, M(x in) = M(X) e M(y in) = M(Y), a hipótese nula pode ser escrita da seguinte forma: H 0: M(x in) ) = M(y pol). Assim, é necessário verificar se as expectativas matemáticas das médias amostrais são iguais entre si. Esta tarefa se coloca porque, via de regra, as médias amostrais são diferentes. Surge a questão: as médias da amostra diferem significativamente ou insignificantemente? Se se verificar que a hipótese nula é verdadeira, ou seja, as médias gerais são iguais, então a diferença nas médias amostrais é insignificante e é explicada por razões aleatórias e, em particular, pela seleção aleatória de objetos amostrais. Se a hipótese nula for rejeitada, ou seja, as médias gerais não são iguais, então a diferença nas médias amostrais é significativa e não pode ser explicada por razões aleatórias. Isto se explica pelo fato de as próprias médias gerais (expectativas matemáticas) serem diferentes. Como teste da hipótese nula, tomaremos uma variável aleatória. O critério Z é uma variável aleatória normal normalizada. Na verdade, o valor Z é normalmente distribuído, pois é uma combinação linear dos valores normalmente distribuídos X e Y; esses valores em si são normalmente distribuídos como médias amostrais encontradas em amostras extraídas de populações em geral; Z é um valor normalizado, pois M(Z) = 0, se a hipótese nula for verdadeira, D(Z) = 1, pois as amostras são independentes. A região crítica é construída dependendo do tipo de hipótese concorrente. Primeiro caso. Hipótese nula H 0:M(X)=M(Y). Hipótese concorrente H 1: M(X) ¹M(Y). Neste caso, uma região crítica bilateral é construída com base na exigência de que a probabilidade do critério cair nesta região, assumindo que a hipótese nula seja verdadeira, seja igual ao nível de significância aceito. O maior poder do critério (a probabilidade do critério cair na região crítica se a hipótese concorrente for verdadeira) é alcançado quando os pontos críticos “esquerdo” e “direito” são escolhidos de modo que a probabilidade do critério cair em cada intervalo da região crítica é igual a: P(Z< zлев.кр)=a¤2, P(Z > zright.cr)=a¤2. (1) Como Z é uma quantidade normal normalizada e a distribuição de tal quantidade é simétrica em relação a zero, os pontos críticos são simétricos em relação a zero. Assim, se denotarmos o limite direito da região crítica bilateral por zcr, então o limite esquerdo é zcr. Portanto, é suficiente encontrar o limite correto para encontrar a própria região crítica bilateral Z< -zкр, Z >zcr e a área de aceitação da hipótese nula (-zcr, zcr). Vamos mostrar como encontrar zcr - o limite direito da região crítica bilateral, usando a função de Laplace Ф(Z). Sabe-se que a função de Laplace determina a probabilidade de uma variável aleatória normal normalizada, por exemplo Z, cair no intervalo (0;z): P(0< Z Como a distribuição de Z é simétrica em relação a zero, a probabilidade de Z cair no intervalo (0; ¥) é igual a 1/2. Consequentemente, se dividirmos este intervalo pelo ponto zcr no intervalo (0, zcr) e (zcr, ¥), então pelo teorema da adição P(0<
Z < zкр)+Р(Z >zcr)=1/2. Em virtude de (1) e (2), obtemos Ф(zкр)+a/2=1/2. Portanto, Ф(zкр) =(1-a)/2. Daí concluímos: para encontrar o limite direito da região crítica bilateral (zcr), basta encontrar o valor do argumento da função de Laplace, que corresponde ao valor da função igual a (1- a)/2. Então a região crítica bilateral é determinada pelas desigualdades Z< –
zкр, Z >zcr, ou a desigualdade equivalente ½Z½ > zcr, e o intervalo de aceitação da hipótese nula pela desigualdade – zcr< Z <
zкр или равносильным неравенством çZ
ç< zкр. Denotamos o valor do critério calculado a partir de dados observacionais por zobserved e formulamos uma regra para testar a hipótese nula. Regra. 1. Calcule o valor do critério observado 2. Usando a tabela da função de Laplace, encontre o ponto crítico pela igualdade Ф(zкр)=(1-a)/2. 3. Se ç zobservado ç< zкр – нет оснований
отвергнуть нулевую гипотезу. Se ç zob ç> zcr, a hipótese nula é rejeitada. Segundo caso. Hipótese nula H0: M(X)=M(Y). Hipótese concorrente H1: M(X)>M(Y). Na prática, tal caso ocorre se considerações profissionais sugerirem que a média geral de uma população é maior do que a média geral de outra. Por exemplo, se for introduzida uma melhoria tecnológica no processo, é natural supor que isso levará a um aumento na produção do produto. Neste caso, uma região crítica do lado direito é construída com base no requisito de que a probabilidade de um critério cair nesta região, assumindo que a hipótese nula seja verdadeira, seja igual ao nível de significância aceito: P(Z> zcr)=a. (3) Vamos mostrar como encontrar o ponto crítico usando a função Laplace. Vamos usar a relação P(0 Em virtude de (2) e (3), temos Ф(zкр)+a=1/2. Portanto, Ф(zкр)=(1-2a)/2. A partir daqui concluímos que para encontrar o limite da região crítica direita (zcr), basta encontrar o valor da função de Laplace igual a (1-2a)/2. Então a região crítica à direita é determinada pela desigualdade Z > zcr, e a região onde a hipótese nula é aceita é determinada pela desigualdade Z<
zкр. Regra. 1. Calcule o valor observado do critério zob. 2. Usando a tabela da função de Laplace, encontre o ponto crítico da igualdade Ф(zкр)=(1-2a)/2. 3. Se Z obs.<
z кр –
нет оснований отвергнуть нулевую
гипотезу. Если Z набл >z cr – rejeitamos a hipótese nula. Terceiro caso. Hipótese nula H0: M(X)=M(Y). Hipótese concorrente H1: M(X) Neste caso, uma região crítica do lado esquerdo é construída com base no requisito, pressupõe-se a probabilidade do critério cair nesta região a validade da hipótese nula, foi igual ao nível de significância aceito P(Z< z’кр)=a, т.е. z’кр= – zкр. Таким
образом, для того чтобы найти точку
z’кр, достаточно сначала найти
“вспомогательную точку” zкр а затем
взять найденное значение со знаком
минус. Тогда левосторонняя критическая
область определяется неравенством Z
< -zкр, а область принятия нулевой
гипотезы – неравенством Z >-zcr. Regra. 1. Calcule Zob. 2. Usando a tabela da função de Laplace, encontre o “ponto auxiliar” zcr pela igualdade Ф(zcr)=(1-2a)/2, e então coloque z’cr = -zcr. 3. Se Zob > -zcr, não há razão para rejeitar a hipótese nula. Se Zoobservado< -zкр, – нулевую гипотезу
отвергают. |
Em geral, para explicar a matriz de correlação, serão necessários não um, mas vários fatores. Cada fator é caracterizado por uma coluna , cada variável é uma linha da matriz. O fator é chamado em geral se todas as suas cargas forem significativamente diferentes de zero e tiver cargas de todas as variáveis. O fator geral possui cargas de todas as variáveis e tal fator é mostrado esquematicamente na Figura 1. coluna .Factor é chamada em geral, se pelo menos duas de suas cargas diferirem significativamente de zero. Colunas, em arroz. 1. representam esses fatores comuns. Eles têm cargas em mais de duas variáveis. Se um fator tem apenas uma carga significativamente diferente de zero, então ele é chamado fator característico(ver colunas em arroz. 1.) Cada um desses fatores representa apenas uma variável. Fatores comuns são de importância decisiva na análise fatorial. Se os fatores gerais forem estabelecidos, os fatores característicos serão obtidos automaticamente. O número de altas cargas de uma variável em fatores comuns é chamado complexidade. Por exemplo, uma variável em Figura 1. tem dificuldade de 2 e a variável tem dificuldade de três.
Arroz. 1. Representação esquemática do mapeamento fatorial. Uma cruz indica uma carga fatorial alta.
Então, vamos construir um modelo
, (4)
onde estão os fatores não observáveis eu< k,
Variáveis observadas (características iniciais),
Cargas fatoriais,
Erro aleatório associado apenas com média zero e variância:
E - não correlacionado,
Variáveis aleatórias não correlacionadas com média zero e variância unitária .
(5)
Aqui - eu A décima comunidade, que representa a parte da variância devida aos fatores, é a parte da variância devida ao erro. Na notação matricial, o modelo fatorial terá a forma:
(6)
onde está a matriz de carregamento, é o vetor de fatores, é o vetor de erros.
As correlações entre variáveis, expressas por fatores, podem ser derivadas da seguinte forma:
Onde - matriz diagonal de ordem contendo variações de erro[i]. Condição principal: - diagonal, - matriz definida não negativa. Uma condição adicional para a unicidade da solução é a diagonalidade da matriz.
Existem muitos métodos para resolver uma equação fatorial. O método mais antigo de análise fatorial é método do fator principal, em que a técnica de análise de componentes principais é aplicada a uma matriz de correlação reduzida com pontos em comum na diagonal principal. Para avaliar pontos em comum, costumam utilizar o coeficiente de correlação múltipla entre a variável correspondente e o conjunto de outras variáveis.
A análise fatorial é realizada com base em uma equação característica, como na análise de componentes principais:
(8)
Resolvendo isso, eles obtêm os autovalores λ i e a matriz de vetores normalizados (característicos) V, e então encontram a matriz de mapeamento de fatores:
Um algoritmo iterativo empírico é usado para obter estimativas de comunidade e cargas fatoriais que convergem para estimativas de parâmetros verdadeiros. A essência do algoritmo se resume ao seguinte: as estimativas iniciais das cargas fatoriais são determinadas usando o método do fator principal. Com base na matriz de correlação R, as estimativas dos componentes principais e dos fatores comuns são formalmente determinadas:
(9)
onde é o autovalor correspondente da matriz R;
Dados de origem (vetor coluna);
Coeficientes para fatores comuns;
Componentes principais (vetores coluna).
As estimativas das cargas fatoriais são os valores
As estimativas de generalidade são obtidas como
Na próxima iteração, a matriz R é modificada - em vez dos elementos da diagonal principal, são substituídas as estimativas comunitárias obtidas na iteração anterior; Com base na matriz R modificada, utilizando o esquema computacional de análise de componentes, repete-se o cálculo dos componentes principais (que não o são do ponto de vista da análise de componentes); estimativas dos fatores principais, cargas fatoriais, pontos em comum e especificidades são procuradas. A análise fatorial pode ser considerada completa quando as estimativas da comunidade mudam pouco em duas iterações adjacentes.
Observação. As transformações da matriz R podem violar a definição positiva da matriz R+ e, como consequência, alguns autovalores de R+ podem ser negativos.
Universidade Nacional de Pesquisa Nuclear "MEPhI"Análise fatorial de variância
Matriz fatorial
Variável Fator A Fator B
Como pode ser visto na matriz, as cargas fatoriais (ou pesos) A e B para diferentes necessidades dos consumidores diferem significativamente. A carga fatorial A para o requisito T 1 corresponde à proximidade da ligação, caracterizada por um coeficiente de correlação igual a 0,83, ou seja, boa dependência (próxima). A carga fatorial B para o mesmo requisito dá rk= 0,3, o que corresponde a uma conexão fraca. Como esperado, o fator B correlaciona-se muito bem com os requisitos do consumidor T 2, T 4 e T 6.
Considerando que as cargas fatoriais de A e B influenciam as necessidades dos consumidores não relacionadas ao seu grupo com uma conexão estreita não superior a 0,4 (ou seja, fracamente), podemos assumir que a matriz de intercorrelação apresentada acima é determinada por dois fatores independentes, que por sua vez , são determinados seis requisitos do consumidor (com exceção de T 7).
A variável T 7 poderia ser isolada como fator independente, pois não possui carga de correlação significativa (mais de 0,4) com nenhuma exigência do consumidor. Mas, em nossa opinião, isso não deveria ser feito, pois o fator “a porta não deve enferrujar” não está diretamente relacionado às exigências do consumidor para projetos portas.
Assim, ao aprovar as especificações técnicas para projeto da estrutura das portas dos automóveis, são os nomes dos fatores obtidos que serão inseridos como requisitos do consumidor para os quais é necessário encontrar uma solução construtiva na forma de características de engenharia.
Destacamos uma propriedade fundamentalmente importante do coeficiente de correlação entre variáveis: ao quadrado, mostra que parte da variância (dispersão) do atributo é comum a duas variáveis, e o quanto essas variáveis se sobrepõem. Assim, por exemplo, se duas variáveis T 1 e T 3 com uma correlação de 0,8 se sobrepõem a um grau de 0,64 (0,8 2), isso significa que 64% das variâncias de ambas as variáveis são comuns, ou seja, combinar. Também se pode dizer que comunidade dessas variáveis é igual a 64%.
Lembremos que as cargas fatoriais na matriz fatorial também são coeficientes de correlação, mas entre fatores e variáveis (exigências do consumidor).
Variável Fator A Fator B
Portanto, a carga fatorial quadrática (variância) caracteriza o grau de comunalidade (ou sobreposição) de uma determinada variável e de um determinado fator. Vamos determinar o grau de sobreposição (variância D) de ambos os fatores com a variável (necessidade do consumidor) T 1. Para isso, é necessário calcular a soma dos quadrados dos pesos dos fatores com a primeira variável, ou seja, 0,83 x 0,83 + 0,3 x 0,3 = 0,70. Assim, a comunalidade da variável T 1 com ambos os fatores é de 70%. Esta é uma sobreposição bastante significativa.
Ao mesmo tempo, a baixa comunalidade pode indicar que a variável mede ou reflecte algo que é qualitativamente diferente das outras variáveis incluídas na análise. Isto implica que uma determinada variável não é combinada com fatores por uma das razões: ou mede outro conceito (como a variável T 7), ou tem um grande erro de medição, ou há características que distorcem a variância.
Ressalta-se que a significância de cada fator também é determinada pela quantidade de dispersão entre as variáveis e pela carga fatorial (peso). Para calcular o autovalor de um fator, é necessário encontrar em cada coluna da matriz fatorial a soma dos quadrados da carga fatorial para cada variável. Assim, por exemplo, a variância do fator A (D A) será 2,42 (0,83 x 0,83 + 0,3 x 0,3 + 0,83 x 0,83 + 0,4 x 0,4 + 0,8 x 0,8 + 0,35 x 0,35). O cálculo da significância do fator B mostrou que D B = 2,64, ou seja a importância do fator B é maior do que o fator A.
Se o autovalor de um fator for dividido pelo número de variáveis (no nosso exemplo são sete), então o valor resultante mostrará que proporção da variância (ou quantidade de informação) γ na matriz de correlação original este fator irá compor . Para o fator A γ ~ 0,34 (34%) e para o fator B - γ = 0,38 (38%). Resumindo os resultados, obtemos 72%. Assim, os dois fatores, quando combinados, preenchem apenas 72% da variância dos indicadores da matriz original. Isto significa que, como resultado da fatoração, algumas das informações da matriz original foram sacrificadas para construir um modelo de dois fatores. Com isso, faltaram 28% de informações que poderiam ter sido recuperadas caso o modelo de seis fatores tivesse sido adotado.
Para onde foi o erro, dado que todas as variáveis consideradas relevantes para os requisitos de design da porta foram tidas em conta? É muito provável que os valores dos coeficientes de correlação das variáveis relacionadas a um fator estejam um tanto subestimados. Tendo em conta a análise efectuada, seria possível voltar à formação de outros valores dos coeficientes de correlação na matriz de intercorrelação (ver Tabela 2.2).
Na prática, deparamo-nos frequentemente com uma situação em que o número de factores independentes é suficientemente grande para ter todos eles em conta na resolução de um problema, quer do ponto de vista técnico, quer do ponto de vista económico. Existem várias maneiras de limitar o número de fatores. A mais famosa delas é a análise de Pareto. Nesse caso, são selecionados (à medida que sua significância diminui) aqueles fatores que estão dentro do limite de 80-85% de sua significância total.
A análise fatorial pode ser utilizada para implementar o método de estruturação de funções de qualidade (QFD), amplamente utilizado no exterior na formação de especificações técnicas de um novo produto.