B. matriz de correlação e matriz fatorial

13.10.2021

Familiarizado com os conceitos de carga fatorial e área de mudanças conjuntas, pode-se ir mais longe, utilizando novamente o aparato de matrizes para apresentação, cujos elementos desta vez serão coeficientes de correlação.

A matriz de coeficientes de correlação, obtida, via de regra, experimentalmente, é chamada de matriz de correlação, ou matriz de correlação.

Os elementos desta matriz são os coeficientes de correlação entre todas as variáveis de uma determinada população.

Se tivermos, por exemplo, um conjunto composto por testes, então o número de coeficientes de correlação obtidos experimentalmente será

Esses coeficientes preenchem metade da matriz, localizada em um lado de sua diagonal principal. Do outro lado existem, obviamente, os mesmos coeficientes, visto que, etc. Portanto, a matriz de correlação é simétrica.

Esquema 3.2. Matriz de correlação completa

Existem alguns na diagonal desta matriz porque a correlação de cada variável consigo mesma é +1.

Uma matriz de correlação na qual os elementos da diagonal principal são iguais a 1 é chamada de “matriz completa” de correlação (Esquema 3.2) e é denotada

Ressalta-se que ao colocar as unidades, ou correlações, de cada variável consigo mesma na diagonal principal, estamos levando em consideração a variância total de cada variável representada na matriz. Assim, é levada em consideração a influência não apenas de fatores gerais, mas também de fatores específicos.

Pelo contrário, se na diagonal principal da matriz de correlação existem elementos correspondentes a generalidades e relacionados apenas com a dispersão geral das variáveis, então a influência apenas de fatores gerais é levada em consideração, a influência de fatores específicos e erros é eliminada , ou seja, a especificidade e a dispersão de erros são descartadas.

Uma matriz de correlação na qual os elementos da diagonal principal correspondem a pontos em comum é chamada de reduzida e é denotada por R (Esquema 3.3).

Esquema 3.3. Matriz de correlação reduzida

Já discutimos a carga fatorial, ou o preenchimento de uma determinada variável com um fator específico. Ressaltou-se que a carga fatorial tem a forma de um coeficiente de correlação entre uma determinada variável e um determinado fator.

Uma matriz cujas colunas consistem nas cargas de um determinado fator em relação a todas as variáveis de uma determinada população, e cujas linhas consistem nas cargas fatoriais de uma determinada variável, é chamada de matriz fatorial, ou matriz fatorial. Aqui também podemos falar de uma matriz fatorial completa e reduzida. Os elementos da matriz fatorial completa correspondem à variância unitária total de cada variável em uma determinada população. Se as cargas dos fatores gerais forem denotadas por c, e as cargas dos fatores específicos por e, então a matriz fatorial completa pode ser representada da seguinte forma:

Esquema 3.4. Matriz fatorial completa para quatro variáveis

A matriz fatorial mostrada aqui tem duas partes: a primeira parte contém itens relacionados a quatro variáveis e três fatores gerais, todos os quais são considerados aplicáveis a todas as variáveis. Esta não é uma condição necessária, pois alguns elementos da primeira parte da matriz podem ser iguais a zero, o que significa que alguns fatores não se aplicam a todas as variáveis. Os elementos da primeira parte da matriz são as cargas dos fatores comuns (por exemplo, o elemento mostra a carga do segundo fator comum na primeira variável).

Na segunda parte da matriz vemos 4 cargas de fatores característicos, uma em cada linha, que correspondem à sua natureza característica. Cada um desses fatores está relacionado a apenas uma variável. Todos os outros elementos desta parte da matriz são iguais a zero. Fatores característicos podem obviamente ser divididos em específicos e relacionados a erros.

A coluna da matriz fatorial caracteriza o fator e sua influência em todas as variáveis. A linha caracteriza a variável e seu conteúdo com diversos fatores, ou seja, a estrutura fatorial da variável.

Ao analisar apenas a primeira parte da matriz, estamos lidando com uma matriz fatorial que mostra a variância total de cada variável. Esta parte da matriz é chamada de reduzida e é denotada por F. Esta matriz não leva em consideração a carga de fatores característicos e não leva em consideração a variância específica. Lembre-se que de acordo com o que foi dito acima sobre variâncias comuns e cargas fatoriais, que são as raízes quadradas das variâncias comuns, a soma dos quadrados dos elementos de cada linha da matriz fatorial reduzida F é igual à comunalidade de um determinado variável

Conseqüentemente, a soma dos quadrados de todos os elementos da linha da matriz fatorial completa é igual a , ou a variância total de uma determinada variável.

Como a análise fatorial se concentra em fatores comuns, a seguir usaremos principalmente a correlação reduzida e a matriz fatorial reduzida.

Disposições básicas

A análise fatorial é uma das novas seções da análise estatística multivariada. Este método foi originalmente desenvolvido para explicar a correlação entre parâmetros de entrada. O resultado da análise de correlação é uma matriz de coeficientes de correlação. Se o número de recursos (variáveis) for pequeno, você poderá realizar uma análise visual desta matriz. À medida que o número de sinais aumenta (10 ou mais), a análise visual não dará resultados positivos. Acontece que toda a variedade de correlações pode ser explicada pela ação de diversos fatores generalizados, que são funções dos parâmetros em estudo, enquanto os próprios fatores podem ser desconhecidos, mas podem ser expressos por meio das características em estudo. O fundador da análise fatorial é o cientista americano L. Thurstone.

Os estatísticos modernos entendem a análise fatorial como um conjunto de métodos que, a partir de uma conexão real entre características, permite identificar características generalizantes latentes (ocultas) da estrutura organizacional e dos mecanismos de desenvolvimento dos fenômenos e processos em estudo.

Exemplo: suponha que n carros sejam avaliados com base em 2 critérios:

x 1 – custo do carro,

x 2 – duração da vida útil do motor.

Desde que x 1 ex 2 estejam correlacionados, um aglomerado direcionado e bastante denso de pontos aparece no sistema de coordenadas, formalmente exibido pelos novos eixos e (Fig. 5).

Figura 6

Recurso F 1 e F 2 é que eles passam por densos aglomerados de pontos e, por sua vez, se correlacionam com x 1 x 2.Máximo

o número de novos eixos será igual ao número de recursos elementares. Desenvolvimentos posteriores na análise fatorial mostraram que este método pode ser aplicado com sucesso em problemas de agrupamento e classificação de objetos.

Apresentação de informações em análise fatorial.

Para realizar a análise fatorial, as informações devem ser apresentadas na forma de uma matriz de tamanho m x n:

As linhas da matriz correspondem aos objetos de observação (i=) e as colunas correspondem aos atributos (j=).

As características que caracterizam um objeto possuem dimensões diferentes. Para trazê-los para a mesma dimensão e garantir a comparabilidade dos recursos, a matriz dos dados de origem geralmente é normalizada pela introdução de uma escala única. O método mais comum de normalização é a padronização. Das variáveis vá para as variáveis

Valor médio j sinal,

Desvio padrão.

Essa transformação é chamada de padronização.

Modelo básico de análise fatorial

O modelo básico de análise fatorial tem a forma:

z j- j- sinal (valor aleatório);

F 1 , F 2 , …, F p– fatores gerais (valores aleatórios, normalmente distribuídos);

você j– fator característico;

 j1 ,  j2 , …,  jp – fatores de carga que caracterizam a significância da influência de cada fator (parâmetros do modelo a serem determinados);

Fatores gerais são essenciais para a análise de todas as características. Fatores característicos mostram que se refere apenas a uma determinada característica; esta é a especificidade da característica, que não pode ser expressa por meio de fatores. Cargas fatoriais  j1 ,  j2 , …,  jp caracterizar a magnitude da influência de um ou outro fator geral na variação de uma determinada característica. A principal tarefa da análise fatorial é determinar as cargas fatoriais. Variância S j 2 de cada característica pode ser dividida em 2 componentes:

a primeira parte determina a ação dos fatores gerais - a comunalidade de h j 2;

a segunda parte determina a ação do fator característico - característica - d j 2.

Todas as variáveis são apresentadas de forma padronizada, portanto a variância - sinal de estado S j2 = 1.

Se os fatores gerais e característicos não se correlacionarem, então a dispersão da j-ésima característica pode ser representada como:

onde está a proporção da variância da característica atribuível a k-ésimo fator.

A contribuição total de qualquer fator para a variância total é igual a:

Contribuição de todos os fatores comuns para a variância total:

É conveniente apresentar os resultados da análise fatorial em forma de tabela.

	Cargas fatoriais	Pontos em comum
	a 11 a 21 ... a p1 a 12 a 22 … a p2 … … … … a 1m a 2m … a PM

fatores	V 1 V 2 ... V p

A- matriz de cargas fatoriais. Pode ser obtido de diversas maneiras; atualmente o método mais utilizado é o método dos componentes principais ou fatores principais.

Procedimento computacional do método dos fatores principais.

Resolver o problema usando componentes principais se resume a uma transformação passo a passo da matriz de dados de origem X :

X- matriz de dados de origem;

Z– matriz de valores de recursos padronizados,

R– matriz de correlações de pares:

Matriz diagonal de números próprios (característicos),

 j encontrado resolvendo a equação característica

E- matriz de identidade,

 j – indicador de dispersão de cada componente principal,

sujeito à padronização dos dados de origem, então = eu

você– matriz de autovetores, que são encontrados a partir da equação:

Na realidade, isto significa uma solução eu sistemas de equações lineares para cada

Aqueles. Cada autovalor corresponde a um sistema de equações.

Então eles encontram V- matriz de autovetores normalizados.

A matriz de mapeamento fatorial A é calculada usando a fórmula:

Em seguida, encontramos os valores dos componentes principais usando uma das fórmulas equivalentes:

Um conjunto de quatro empresas industriais foi avaliado de acordo com três características:

produção média anual por funcionário x 1;

nível de rentabilidade x 2;

Nível de produtividade de capital x 3.

O resultado é apresentado em uma matriz padronizada Z:

Por matriz Z uma matriz de correlações de pares foi obtida R:

Vamos encontrar o determinante da matriz de correlação pareada (por exemplo, usando o método de Faddeev):

Vamos construir uma equação característica:

Resolvendo esta equação encontramos:

Assim, as características elementares iniciais x 1, x 2, x 3 podem ser generalizadas pelos valores dos três componentes principais, e:

F 1 explica aproximadamente toda a variação,

F 2 - , uma F 3 -

Todos os três componentes principais explicam as variações completamente em 100%.

Resolvendo este sistema encontramos:

Os sistemas para  2 e  3 são construídos de forma semelhante. Para solução de sistema  2:

Matriz de autovetor você assume a forma:

Dividimos cada elemento da matriz pela soma dos quadrados dos elementos do j-ésimo

coluna, obtemos uma matriz normalizada V.

Observe que a igualdade deve ser satisfeita = E.

Obtemos a matriz de mapeamento fatorial a partir da relação matricial

O significado de cada elemento da matriz A representa os coeficientes parciais da matriz de correlação entre o recurso original x j e componentes principais F R. Portanto, todos os elementos.

A igualdade implica a condição R- número de componentes.

A contribuição total de cada fator para a variância total das características é igual a:

O modelo de análise fatorial assumirá a forma:

Vamos encontrar os valores dos componentes principais (matriz F) de acordo com a fórmula

O centro da distribuição dos valores dos componentes principais está no ponto (0,0,0).

Além disso, conclusões analíticas baseadas nos resultados do cálculo seguem após a tomada de decisão sobre o número de características significativas e componentes principais e a determinação dos nomes dos componentes principais. As tarefas de reconhecer os componentes principais e determinar seus nomes são resolvidas subjetivamente com base nos coeficientes de ponderação da matriz de mapeamento A.

Consideremos a questão da formulação dos nomes dos componentes principais.

Vamos denotar c 1 – um conjunto de coeficientes de ponderação insignificantes, que inclui elementos próximos de zero,

c 2 - conjunto de coeficientes de ponderação significativos,

c 3 – um subconjunto de coeficientes de ponderação significativos que não estão envolvidos na formação do nome do componente principal.

c 2 - c 3 – um subconjunto de coeficientes de ponderação envolvidos na formação do nome.

Calculamos o coeficiente de conteúdo de informação para cada fator principal

Consideramos um conjunto de características explicáveis satisfatório se os valores dos coeficientes de informatividade estiverem na faixa de 0,75-0,95.

a 11 =0,776 a 12 =-0,130 a 13 =0,308

a 12 =0,904 a 22 =-0,210 a 23 =-0,420

A 31 =0,616 A 32 =0,902 A 33 =0,236

Para j = 1 c 1 = ,c 2 ={a 11 ,a 21 ,a 31 },

Para j = 2 c 1 ={a 12 ,a 22 }, c 2 ={ A 32 },

Para j=3 c 1 ={A 33 }, c 2 ={a 13 ,a 33 },

Valores de recursos x 1 , x 2 , x 3 a composição do componente principal é determinada como 100%. neste caso, a maior contribuição do recurso x 2, cujo significado é lucratividade. correto para o nome do atributo F 1 será eficiência de produção.

F 2 é determinado pelo componente x 3 (produtividade de capital), vamos chamá-lo eficiência de uso de ativos fixos de produção.

F 3 determinado por componentes x 1 ,x 2 – não pode ser considerado na análise porque explica apenas 10% da variação total.

Literatura.

Popov A.A.

Excel: Guia Prático, DES COM.-M.-2000.

Dyakonov V.P., Abramenkova I.V. Mathcad7 em matemática, física e Internet. Editora "Nomidzh", M.-1998, seção 2.13. Executando regressão.

Los Angeles Soshnikova, V.N. Tomashevich e outros Análise estatística multivariada em economia, ed. V. N. Tomashevich.- M.-Nauka, 1980.

Kolemaev V.A., O.V. Staroverov, V.B. Teoria da probabilidade de Turundaevsky e estatística matemática. –M. – Ensino superior – 1991.

Para Iberla. Análise fatorial.-M. Estatísticas - 1980.

Comparação de duas médias normais da população cujas variâncias são conhecidas

Sejam as populações gerais X e Y normalmente distribuídas e suas variâncias conhecidas (por exemplo, por experiência anterior ou encontradas teoricamente). Com base em amostras independentes de volumes n e m, extraídas dessas populações, foram encontradas médias amostrais x in e y in.

É necessário usar médias amostrais em um determinado nível de significância para testar a hipótese nula, que é que as médias gerais (expectativas matemáticas) das populações em consideração são iguais entre si, ou seja, H 0: M(X) = M (S).

Considerando que as médias amostrais são estimativas imparciais de médias gerais, ou seja, M(x in) = M(X) e M(y in) = M(Y), a hipótese nula pode ser escrita da seguinte forma: H 0: M(x in) ) = M(y pol).

Assim, é necessário verificar se as expectativas matemáticas das médias amostrais são iguais entre si. Esta tarefa se coloca porque, via de regra, as médias amostrais são diferentes. Surge a questão: as médias da amostra diferem significativamente ou insignificantemente?

Se se verificar que a hipótese nula é verdadeira, ou seja, as médias gerais são iguais, então a diferença nas médias amostrais é insignificante e é explicada por razões aleatórias e, em particular, pela seleção aleatória de objetos amostrais.

Se a hipótese nula for rejeitada, ou seja, as médias gerais não são iguais, então a diferença nas médias amostrais é significativa e não pode ser explicada por razões aleatórias. Isto se explica pelo fato de as próprias médias gerais (expectativas matemáticas) serem diferentes.

Como teste da hipótese nula, tomaremos uma variável aleatória.

O critério Z é uma variável aleatória normal normalizada. Na verdade, o valor Z é normalmente distribuído, pois é uma combinação linear dos valores normalmente distribuídos X e Y; esses valores em si são normalmente distribuídos como médias amostrais encontradas em amostras extraídas de populações em geral; Z é um valor normalizado, pois M(Z) = 0, se a hipótese nula for verdadeira, D(Z) = 1, pois as amostras são independentes.

A região crítica é construída dependendo do tipo de hipótese concorrente.

Primeiro caso. Hipótese nula H 0:M(X)=M(Y). Hipótese concorrente H 1: M(X) ¹M(Y).

Neste caso, uma região crítica bilateral é construída com base na exigência de que a probabilidade do critério cair nesta região, assumindo que a hipótese nula seja verdadeira, seja igual ao nível de significância aceito.

O maior poder do critério (a probabilidade do critério cair na região crítica se a hipótese concorrente for verdadeira) é alcançado quando os pontos críticos “esquerdo” e “direito” são escolhidos de modo que a probabilidade do critério cair em cada intervalo da região crítica é igual a:

P(Z< zлев.кр)=a¤2,

P(Z > zright.cr)=a¤2. (1)

Como Z é uma quantidade normal normalizada e a distribuição de tal quantidade é simétrica em relação a zero, os pontos críticos são simétricos em relação a zero.

Assim, se denotarmos o limite direito da região crítica bilateral por zcr, então o limite esquerdo é zcr.

Portanto, é suficiente encontrar o limite correto para encontrar a própria região crítica bilateral Z< -zкр, Z >zcr e a área de aceitação da hipótese nula (-zcr, zcr).

Vamos mostrar como encontrar zcr - o limite direito da região crítica bilateral, usando a função de Laplace Ф(Z). Sabe-se que a função de Laplace determina a probabilidade de uma variável aleatória normal normalizada, por exemplo Z, cair no intervalo (0;z):

P(0< Z

Como a distribuição de Z é simétrica em relação a zero, a probabilidade de Z cair no intervalo (0; ¥) é igual a 1/2. Consequentemente, se dividirmos este intervalo pelo ponto zcr no intervalo (0, zcr) e (zcr, ¥), então pelo teorema da adição P(0< Z < zкр)+Р(Z >zcr)=1/2.

Em virtude de (1) e (2), obtemos Ф(zкр)+a/2=1/2. Portanto, Ф(zкр) =(1-a)/2.

Daí concluímos: para encontrar o limite direito da região crítica bilateral (zcr), basta encontrar o valor do argumento da função de Laplace, que corresponde ao valor da função igual a (1- a)/2.

Então a região crítica bilateral é determinada pelas desigualdades Z< – zкр, Z >zcr, ou a desigualdade equivalente ½Z½ > zcr, e o intervalo de aceitação da hipótese nula pela desigualdade – zcr< Z < zкр или равносильным неравенством çZ ç< zкр.

Denotamos o valor do critério calculado a partir de dados observacionais por zobserved e formulamos uma regra para testar a hipótese nula.

Regra.

1. Calcule o valor do critério observado

2. Usando a tabela da função de Laplace, encontre o ponto crítico pela igualdade Ф(zкр)=(1-a)/2.

3. Se ç zobservado ç< zкр – нет оснований отвергнуть нулевую гипотезу.

Se ç zob ç> zcr, a hipótese nula é rejeitada.

Segundo caso. Hipótese nula H0: M(X)=M(Y). Hipótese concorrente H1: M(X)>M(Y).

Na prática, tal caso ocorre se considerações profissionais sugerirem que a média geral de uma população é maior do que a média geral de outra. Por exemplo, se for introduzida uma melhoria tecnológica no processo, é natural supor que isso levará a um aumento na produção do produto.

Neste caso, uma região crítica do lado direito é construída com base no requisito de que a probabilidade de um critério cair nesta região, assumindo que a hipótese nula seja verdadeira, seja igual ao nível de significância aceito:

P(Z> zcr)=a. (3)

Vamos mostrar como encontrar o ponto crítico usando a função Laplace. Vamos usar a relação

P(0 zcr)=1/2.

Em virtude de (2) e (3), temos Ф(zкр)+a=1/2. Portanto, Ф(zкр)=(1-2a)/2.

A partir daqui concluímos que para encontrar o limite da região crítica direita (zcr), basta encontrar o valor da função de Laplace igual a (1-2a)/2. Então a região crítica à direita é determinada pela desigualdade Z > zcr, e a região onde a hipótese nula é aceita é determinada pela desigualdade Z< zкр.

Regra.

1. Calcule o valor observado do critério zob.

2. Usando a tabela da função de Laplace, encontre o ponto crítico da igualdade Ф(zкр)=(1-2a)/2.

3. Se Z obs.< z кр – нет оснований отвергнуть нулевую гипотезу. Если Z набл >z cr – rejeitamos a hipótese nula.

Terceiro caso. Hipótese nula H0: M(X)=M(Y). Hipótese concorrente H1: M(X)

Neste caso, uma região crítica do lado esquerdo é construída com base no requisito, pressupõe-se a probabilidade do critério cair nesta região

a validade da hipótese nula, foi igual ao nível de significância aceito P(Z< z’кр)=a, т.е. z’кр= – zкр. Таким образом, для того чтобы найти точку z’кр, достаточно сначала найти “вспомогательную точку” zкр а затем взять найденное значение со знаком минус. Тогда левосторонняя критическая область определяется неравенством Z < -zкр, а область принятия нулевой гипотезы – неравенством Z >-zcr.

Regra.

1. Calcule Zob.

2. Usando a tabela da função de Laplace, encontre o “ponto auxiliar” zcr pela igualdade Ф(zcr)=(1-2a)/2, e então coloque z’cr = -zcr.

3. Se Zob > -zcr, não há razão para rejeitar a hipótese nula.

Se Zoobservado< -zкр, – нулевую гипотезу отвергают.

Em geral, para explicar a matriz de correlação, serão necessários não um, mas vários fatores. Cada fator é caracterizado por uma coluna , cada variável é uma linha da matriz. O fator é chamado em geral se todas as suas cargas forem significativamente diferentes de zero e tiver cargas de todas as variáveis. O fator geral possui cargas de todas as variáveis e tal fator é mostrado esquematicamente na Figura 1. coluna .Factor é chamada em geral, se pelo menos duas de suas cargas diferirem significativamente de zero. Colunas, em arroz. 1. representam esses fatores comuns. Eles têm cargas em mais de duas variáveis. Se um fator tem apenas uma carga significativamente diferente de zero, então ele é chamado fator característico(ver colunas em arroz. 1.) Cada um desses fatores representa apenas uma variável. Fatores comuns são de importância decisiva na análise fatorial. Se os fatores gerais forem estabelecidos, os fatores característicos serão obtidos automaticamente. O número de altas cargas de uma variável em fatores comuns é chamado complexidade. Por exemplo, uma variável em Figura 1. tem dificuldade de 2 e a variável tem dificuldade de três.

Arroz. 1. Representação esquemática do mapeamento fatorial. Uma cruz indica uma carga fatorial alta.

Então, vamos construir um modelo

, (4)

onde estão os fatores não observáveis eu< k,

Variáveis observadas (características iniciais),

Cargas fatoriais,

Erro aleatório associado apenas com média zero e variância:

E - não correlacionado,

Variáveis aleatórias não correlacionadas com média zero e variância unitária .

(5)

Aqui - eu A décima comunidade, que representa a parte da variância devida aos fatores, é a parte da variância devida ao erro. Na notação matricial, o modelo fatorial terá a forma:

(6)

onde está a matriz de carregamento, é o vetor de fatores, é o vetor de erros.

As correlações entre variáveis, expressas por fatores, podem ser derivadas da seguinte forma:

Onde - matriz diagonal de ordem contendo variações de erro[i]. Condição principal: - diagonal, - matriz definida não negativa. Uma condição adicional para a unicidade da solução é a diagonalidade da matriz.

Existem muitos métodos para resolver uma equação fatorial. O método mais antigo de análise fatorial é método do fator principal, em que a técnica de análise de componentes principais é aplicada a uma matriz de correlação reduzida com pontos em comum na diagonal principal. Para avaliar pontos em comum, costumam utilizar o coeficiente de correlação múltipla entre a variável correspondente e o conjunto de outras variáveis.

A análise fatorial é realizada com base em uma equação característica, como na análise de componentes principais:

(8)

Resolvendo isso, eles obtêm os autovalores λ i e a matriz de vetores normalizados (característicos) V, e então encontram a matriz de mapeamento de fatores:

Um algoritmo iterativo empírico é usado para obter estimativas de comunidade e cargas fatoriais que convergem para estimativas de parâmetros verdadeiros. A essência do algoritmo se resume ao seguinte: as estimativas iniciais das cargas fatoriais são determinadas usando o método do fator principal. Com base na matriz de correlação R, as estimativas dos componentes principais e dos fatores comuns são formalmente determinadas:

(9)

onde é o autovalor correspondente da matriz R;

Dados de origem (vetor coluna);

Coeficientes para fatores comuns;

Componentes principais (vetores coluna).

As estimativas das cargas fatoriais são os valores

As estimativas de generalidade são obtidas como

Na próxima iteração, a matriz R é modificada - em vez dos elementos da diagonal principal, são substituídas as estimativas comunitárias obtidas na iteração anterior; Com base na matriz R modificada, utilizando o esquema computacional de análise de componentes, repete-se o cálculo dos componentes principais (que não o são do ponto de vista da análise de componentes); estimativas dos fatores principais, cargas fatoriais, pontos em comum e especificidades são procuradas. A análise fatorial pode ser considerada completa quando as estimativas da comunidade mudam pouco em duas iterações adjacentes.

Observação. As transformações da matriz R podem violar a definição positiva da matriz R+ e, como consequência, alguns autovalores de R+ podem ser negativos.

Universidade Nacional de Pesquisa Nuclear "MEPhI"
Faculdade de Informática Empresarial e Gestão
sistemas complexos
Departamento de Economia e Gestão
na indústria (nº 71)
Métodos de processamento matemático e instrumental
informação estatística
Kireev V. S.,
Ph.D., Professor Associado
E-mail:
Moscou, 2017
1

Normalização

Escala decimal
Normalização Minimax
Normalização usando transformação padrão
Normalização usando transformações elemento a elemento
2

Escala decimal

Vi
"
Vi k , máx (Vi) 1
10
"
3

Normalização Minimax

Vi
Vi min (Vi)
"
eu
máx (Vi) min (Vi)
eu
eu
4

Normalização usando desvio padrão

Vi
"
V
V
Vi V
V
- seletivo
média
- quadrado médio da amostra
desvio
5

Normalização usando transformações elemento a elemento

Vi e Vi
"
Vi 1
"
registrar Vi
, Vi log Vi
"
Vi exp Vi
"
Vi Vi, Vi 1 ano
Vi
"
sim
"
6

Análise fatorial

(FA) é um conjunto de métodos que
com base nas conexões da vida real dos recursos analisados, as próprias conexões
objetos observados, permitem identificar ocultos (implícitos, latentes)
generalizando características da estrutura organizacional e mecanismo de desenvolvimento
fenômenos e processos que estão sendo estudados.
Os métodos de análise fatorial na prática de pesquisa são usados principalmente
maneira com o propósito de comprimir informações, obtendo um pequeno número de generalizações
características que explicam a variabilidade (dispersão) de características elementares (técnica R de análise fatorial) ou a variabilidade dos objetos observados (técnica Q
análise fatorial).
Algoritmos de análise fatorial são baseados no uso de valores reduzidos
matrizes de correlações pareadas (covariâncias). Uma matriz reduzida é uma matriz
cuja diagonal principal não há unidades (estimativas) de correlação completa ou
estimativas da dispersão total e seus valores reduzidos, um tanto reduzidos. No
Isso postula que a análise não explicará toda a variância.
das características (objetos) que estão sendo estudadas, e algumas delas, geralmente grandes. Restante
a parte inexplicável da variância é a característica que surge devido à especificidade
objetos observados ou erros cometidos ao registrar fenômenos, processos,
aqueles. falta de confiabilidade dos dados de entrada.
7

Classificação dos métodos FA

Método de componente principal

(MGK) é usado para reduzir a dimensionalidade
espaço de vetores observados, sem levar a uma perda significativa
conteúdo informativo. A premissa do PCA é a lei de distribuição normal
vetores multidimensionais. No PCA, combinações lineares de variáveis aleatórias são definidas
característica
vetores
covariância
matrizes.
Principal
componentes representam um sistema de coordenadas ortogonais no qual as variações
componentes são caracterizados por suas propriedades estatísticas. MGC não é classificado como FA, embora tenha
um algoritmo semelhante e resolve problemas analíticos semelhantes. Sua principal diferença
reside no fato de que não é a matriz reduzida, mas a matriz ordinária que está sujeita a processamento
correlações pareadas, covariâncias, na diagonal principal das quais as unidades estão localizadas.
Seja dado um conjunto inicial de vetores X do espaço linear Lk. Aplicativo
método dos componentes principais nos permite ir à base do espaço Lm (m≤k), tal
que: o primeiro componente (o primeiro vetor de base) corresponde à direção ao longo
qual a dispersão dos vetores do conjunto original é máxima. Direção dois
componentes (do vetor da segunda base) são escolhidos de tal forma que a dispersão do vetor inicial
vetores ao longo dele era máximo sob a condição de ortogonalidade ao primeiro vetor
base. Os restantes vetores de base são determinados de forma semelhante. Como resultado, as direções
vetores de base são escolhidos para maximizar a variância do conjunto original
ao longo dos primeiros componentes, chamados componentes principais (ou componentes principais).
eixos). Acontece que a principal variabilidade dos vetores do conjunto original de vetores
representado pelos primeiros componentes, e surge a oportunidade, descartando
componentes menos essenciais, passam para um espaço de menor dimensão.
9

10. Método das componentes principais. Esquema

11. Método das componentes principais. Matriz de contas

A matriz de contagem T nos dá projeções das amostras originais (J-dimensional
vetores
x1,…,xI)
sobre
subespaço
principal
componente
(A-dimensional).
As linhas t1,…,tI da matriz T são as coordenadas das amostras no novo sistema de coordenadas.
As colunas t1,…,tA da matriz T são ortogonais e representam projeções de todas as amostras sobre
um novo eixo de coordenadas.
Ao estudar dados usando o método PCA, atenção especial é dada aos gráficos
contas. Eles carregam informações úteis para entender como
dados. No gráfico de contagem, cada amostra é representada em coordenadas (ti, tj), na maioria das vezes
– (t1, t2), denotado PC1 e PC2. A proximidade de dois pontos significa sua semelhança, ou seja,
correlação positiva. Os pontos localizados em ângulos retos são
não correlacionados, e aqueles localizados diametralmente opostos têm
Correlação negativa.
11

12. Método das componentes principais. Matriz de carga

A matriz de carga P é a matriz de transição do espaço original
variáveis x1,…xJ (J-dimensional) no espaço de componentes principais (A-dimensional). Cada
uma linha da matriz P consiste em coeficientes que conectam as variáveis t e x.
Por exemplo, a a-ésima linha é a projeção de todas as variáveis x1, ...xJ no a-ésimo eixo do principal
componente. Cada coluna P é a projeção da variável correspondente xj em um novo
sistema de coordenadas.
O gráfico de carregamentos é usado para examinar o papel das variáveis. Nisto
No gráfico, cada variável xj é representada por um ponto nas coordenadas (pi, pj), por exemplo
(p1,p2). Analisando-o de forma semelhante ao plano de contas, é possível entender quais variáveis
estão relacionados e quais são independentes. Estudo conjunto de gráficos pareados de contas e
cargas também podem fornecer muitas informações úteis sobre os dados.
12

13. Características do método dos componentes principais

O método das componentes principais baseia-se nos seguintes pressupostos:
suposição de que a dimensionalidade dos dados pode ser efetivamente reduzida
por transformação linear;
a suposição de que a maior parte da informação é transportada pelas direções em que
a dispersão dos dados de entrada é máxima.
É fácil perceber que essas condições nem sempre são atendidas. Por exemplo,
se os pontos do conjunto de entrada estão localizados na superfície da hiperesfera, então não
a transformação linear não será capaz de reduzir a dimensionalidade (mas pode facilmente lidar com isso
transformação não linear baseada na distância de um ponto ao centro da esfera).
Esta desvantagem é igualmente característica de todos os algoritmos lineares e pode ser
superado usando variáveis dummies adicionais, que são
funções não lineares de elementos do conjunto de dados de entrada (o chamado truque do kernel).
A segunda desvantagem do método das componentes principais é que as direções
Aquelas que maximizam a dispersão nem sempre maximizam o conteúdo da informação.
Por exemplo, uma variável com variância máxima pode não carregar quase nada
informação, enquanto uma variável com variância mínima permite
aulas completamente separadas. O método das componentes principais neste caso dará
preferência pela primeira variável (menos informativa). Todos adicionais
informações associadas ao vetor (por exemplo, se a imagem pertence a um dos
classes) é ignorado.
13

14. Dados de exemplo para MGC

K. Esbensen. Análise multivariada de dados, abr. faixa do inglês sob
Ed. O. Rodionova, do Instituto de Física Química RAS, 2005
14

15. Exemplo de dados para MGC. Designações

Altura
Altura: em centímetros
Peso
Peso: em quilogramas
Cabelo
Cabelo: curto: –1, ou longo:
+1
Sapato
Sapatos: tamanho europeu
padrão
Idade
Idade em anos
Renda
Rendimento: em milhares de euros por ano
Cerveja
Cerveja: consumo em litros por ano
Vinho
Vinho: consumo em litros por ano
Sexo
Gênero: masculino: –1, ou feminino: +1
Força
Força: índice baseado em
teste de capacidade física
Região
Região: norte: –1 ou sul: +1
QI
QI,
medido por teste padronizado
15

16. Matriz de contas

17. Matriz de carga

18. Amostragem de objetos no espaço de novos componentes

As mulheres (F) são indicadas por círculos ● e ●, e
homens (M) – quadrados ■ e ■. Norte (N)
representado por azul ■ e sul (S) por vermelho
cor ●.
O tamanho e a cor dos símbolos reflectem o rendimento - o que
quanto maior e mais leve for, maior será. Números
representar idade
18

19. Variáveis iniciais no espaço de novos componentes

20. Gráfico de seixos

21. Método dos principais fatores

No paradigma do método do fator principal, a tarefa de reduzir a dimensão do recurso
o espaço parece que n recursos podem ser explicados usando menores
número de recursos m-latentes - fatores comuns, onde m<características iniciais e fatores comuns introduzidos (combinações lineares)
levado em conta usando os chamados fatores característicos.
O objetivo final de um estudo estatístico realizado com a participação de
o aparato de análise fatorial, via de regra, consiste em identificar e interpretar
fatores comuns latentes com um desejo simultâneo de minimizar ambos
número e grau de dependência de seu resíduo aleatório específico
componente.
Cada sinal
é o resultado
impactos de m hipotéticos gerais e
um fator característico:
X 1 a11 f1 a12 f 2 a1m f m d1V1
X a f a f a f d V
2
21 1
22 2
2m m
2
X n a n1 f1 a n 2 f 2 a nm f m d nVn
21

22. Rotação de fatores

A rotação é uma forma de transformar os fatores obtidos na etapa anterior em
em outros mais significativos. A rotação é dividida em:
gráfico (desenhar eixos, não usado para mais de duas dimensões
análise),
analítico (um determinado critério de rotação é selecionado, ortogonal e
oblíquo) e
aproximado da matriz (a rotação consiste em aproximar-se de um determinado
matriz alvo).
O resultado da rotação é a estrutura fatorial secundária. Primário
estrutura fatorial (composta por cargas primárias (obtidas no
estágio) são, na verdade, projeções de pontos em eixos de coordenadas ortogonais. É óbvio que
se as projeções forem zero, a estrutura será mais simples. E as projeções serão zero,
se o ponto estiver em algum eixo. Assim, a rotação pode ser considerada uma transição de
um sistema de coordenadas para outro com coordenadas conhecidas em um sistema (
fatores primários) e coordenadas selecionadas iterativamente em outro sistema
(fatores secundários). Ao obterem uma estrutura secundária, tendem a se deslocar para tal
sistema de coordenadas para desenhar tantos eixos quanto possível através de pontos (objetos) para que
tantas projeções (e, portanto, cargas) foram zero quanto possível. Ao mesmo tempo eles podem
as restrições de ortogonalidade e significância decrescente do primeiro ao último são removidas
fatores característicos da estrutura primária.
22

23. Rotação ortogonal

implica que rotacionaremos os fatores, mas não
violaremos sua ortogonalidade entre si. Rotação ortogonal
implica multiplicar a matriz de carga primária original por uma ortogonal
matriz R (uma matriz tal que
V=BR
O algoritmo de rotação ortogonal no caso geral é o seguinte:
0. B - matriz de fatores primários.
1.
Estão procurando
ortogonal
matriz
TR
tamanho
2*2
Para
dois
colunas (fatores) bi e bj da matriz B de modo que o critério para a matriz
R é máximo.
2.
Substitua as colunas bi e bj por colunas
3.
Verificamos se todas as colunas foram classificadas. Se não, vá para 1.
4.
Verificamos que o critério para toda a matriz aumentou. Se sim, vá para 1. Se
não, então o fim do algoritmo.
.
23

24. Rotação Varimax

Este critério usa a formalização
dispersão de cargas quadradas de uma variável:
dificuldades
fatorar um
através
Então o critério em geral pode ser escrito como:
Ao mesmo tempo, as cargas fatoriais podem ser normalizadas para eliminar
influência de variáveis individuais.
24

25. Rotação Quartimax

Formalizemos o conceito de complexidade fatorial q da i-ésima variável através
dispersão das cargas fatoriais quadradas dos fatores:
onde r é o número de colunas da matriz fatorial, bij é a carga fatorial do j-ésimo
fator na i-ésima variável, é o valor médio. O critério quartimax tenta
maximizar a complexidade de todo o conjunto de variáveis para alcançar
facilidade de interpretação dos fatores (visa facilitar a descrição das colunas):
Considerando que
- constante (soma dos autovalores da matriz
covariância) e expandindo a média (e também levando em conta que a função de potência
cresce proporcionalmente ao argumento), obtemos a forma final do critério para
maximização:
25

26. Critérios para determinação do número de fatores

O principal problema da análise fatorial é a identificação e interpretação
principais fatores. Ao selecionar componentes, o pesquisador geralmente se depara com
dificuldades significativas, uma vez que não existe um critério inequívoco para identificar
fatores e, portanto, a subjetividade na interpretação dos resultados é inevitável.
Existem vários critérios comumente usados para determinar o número de fatores.
Alguns deles são alternativas a outros, e alguns deles
Os critérios podem ser usados em conjunto para que um complemente o outro:
Critério de Kaiser ou critério de autovalor. Este critério é proposto
Kaiser, e é provavelmente o mais utilizado. Somente selecionado
fatores com autovalores iguais ou superiores a 1. Isso significa que se
fator não aloca variância equivalente a pelo menos a variância de um
variável, então ela é omitida.
Critério de scree ou critério de triagem. Ele é
método gráfico, proposto pela primeira vez pelo psicólogo Cattell. Ter
os valores podem ser representados na forma de um gráfico simples. Cattell sugeriu encontrar tal
o local no gráfico onde a diminuição dos autovalores da esquerda para a direita é máxima
diminui a velocidade. Supõe-se que à direita deste ponto existe apenas
"pedra fatorial" - "slide" é um termo geológico que significa
fragmentos de rocha acumulando-se no fundo de uma encosta rochosa.
26

27. Critérios para determinação do número de fatores. Continuação

Critério de significância. É especialmente eficaz quando o modelo geral
a totalidade é conhecida e não há fatores secundários. Mas o critério é inadequado
para buscar mudanças no modelo e são implementadas apenas na análise fatorial usando o método
mínimos quadrados ou máxima verossimilhança.
Critério para a proporção de variância reprodutível. Os fatores são classificados por participação
variância determinística, quando a porcentagem de variância acaba sendo insignificante,
a liberação deve ser interrompida. É desejável que os fatores identificados expliquem
mais de 80% do spread. Desvantagens do critério: em primeiro lugar, a seleção é subjetiva; em segundo lugar, a especificidade dos dados pode ser tal que todos os fatores principais não podem
explicar coletivamente a porcentagem desejada de spread. Portanto os principais fatores
devem juntos explicar pelo menos 50,1% da variância.
Critério de interpretabilidade e invariância. Este critério combina
precisão estatística com interesses subjetivos. Segundo ele, os principais fatores
podem ser isolados desde que seja possível a sua interpretação clara. Ela, nela
por sua vez, depende da magnitude das cargas fatoriais, ou seja, se o fator contém pelo menos
uma carga forte, pode ser interpretada. A opção inversa também é possível -
se houver cargas fortes, mas a interpretação for difícil, isso
É preferível descartar os componentes.
27

28. Exemplo de uso de MGC

Deixar
disponível
seguindo
indicadores
econômico
Atividades
empresas: intensidade de trabalho (x1), participação dos itens adquiridos na produção (x2),
taxa de mudança de equipamento (x3), proporção de trabalhadores na empresa
(x4), bônus e recompensas por funcionário (x5), lucratividade (y). Linear
o modelo de regressão se parece com:
y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5
x1
x2
x3
x4
x5
sim
0,51
0,2
1,47
0,72
0,67
9,8
0,36
0,64
1,27
0,7
0,98
13,2
0,23
0,42
1,51
0,66
1,16
17,3
0,26
0,27
1,46
0,69
0,54
7,1
0,27
0,37
1,27
0,71
1,23
11,5
0,29
0,38
1,43
0,73
0,78
12,1
0,01
0,35
1,5
0,65
1,16
15,2
0,02
0,42
1,35
0,82
2,44
31,3
0,18
0,32
1,41
0,8
1,06
11,6
0,25
0,33
1,47
0,83
2,13
30,1
28

29. Exemplo de uso de MGC

Construir um modelo de regressão em um pacote estatístico mostra
o coeficiente X4 não é significativo (valor-p > α = 5%) e pode ser excluído do modelo.
O que
Após eliminar o X4, o processo de construção do modelo é reiniciado.
29

30. Exemplo de uso de MGC

O critério Kaiser para PCA mostra que dois componentes podem ser deixados para explicar
cerca de 80% da variação original.
Para os componentes selecionados, você pode construir equações no sistema de coordenadas original:
U1 = 0,41*x1 - 0,57*x2 + 0,49*x3 - 0,52*x5
U2 = 0,61*x1 + 0,38*x2 - 0,53*x3 - 0,44*x5
30

31. Exemplo de uso de MGC

Agora você pode construir um novo modelo de regressão nos novos componentes:
y = 15,92 - 3,74*U1 - 3,87*U2
31

32. Método de decomposição de valor singular (SVD)

Beltrami e Jordan são considerados os fundadores da teoria da singularidade
decomposição. Beltrami - por ser o primeiro a publicar um trabalho sobre
decomposição singular, e Jordan pela elegância e completude de seu
trabalhar. O trabalho de Beltrami apareceu no Journal of Mathematics for
o Uso dos Estudantes das Universidades Italianas” em 1873, principal
cujo objetivo era familiarizar os alunos com
formas bilineares. A essência do método é a decomposição de uma matriz A de tamanho n
x m com classificação d = classificação (M)<= min(n,m) в произведение матриц меньшего
classificação:
A=UDVT,
onde as matrizes U de tamanho n x d e V de tamanho m x d consistem em
colunas ortonormais, que são autovetores para
autovalores diferentes de zero das matrizes AAT e ATA, respectivamente, e
UTU = V TV = I, e D de tamanho d x d é uma matriz diagonal com
elementos diagonais positivos classificados em
por ordem decrescente. As colunas da matriz U representam,
é uma base ortonormal do espaço coluna da matriz A, e as colunas
a matriz V é uma base ortonormal do espaço linha da matriz A.
32

33. Método de decomposição de valor singular (SVD)

Uma propriedade importante da decomposição SVD é o fato de que se
garfo apenas dos k maiores elementos diagonais, e também
deixe apenas as primeiras k colunas nas matrizes U e V, então a matriz
Ak=UkDkVkT
será a melhor aproximação da matriz A em relação a
Norma de Frobenius entre todas as matrizes com classificação k.
Este truncamento reduz em primeiro lugar a dimensão do vetor
espaço, reduz os requisitos de armazenamento e computação
requisitos do modelo.
Em segundo lugar, ao descartar pequenos valores singulares, pequenos
distorções resultantes do ruído nos dados são removidas, deixando
apenas os efeitos e tendências mais fortes neste modelo.

Análise fatorial de variância

Matriz fatorial

Variável Fator A Fator B

Como pode ser visto na matriz, as cargas fatoriais (ou pesos) A e B para diferentes necessidades dos consumidores diferem significativamente. A carga fatorial A para o requisito T 1 corresponde à proximidade da ligação, caracterizada por um coeficiente de correlação igual a 0,83, ou seja, boa dependência (próxima). A carga fatorial B para o mesmo requisito dá rk= 0,3, o que corresponde a uma conexão fraca. Como esperado, o fator B correlaciona-se muito bem com os requisitos do consumidor T 2, T 4 e T 6.

Considerando que as cargas fatoriais de A e B influenciam as necessidades dos consumidores não relacionadas ao seu grupo com uma conexão estreita não superior a 0,4 (ou seja, fracamente), podemos assumir que a matriz de intercorrelação apresentada acima é determinada por dois fatores independentes, que por sua vez , são determinados seis requisitos do consumidor (com exceção de T 7).

A variável T 7 poderia ser isolada como fator independente, pois não possui carga de correlação significativa (mais de 0,4) com nenhuma exigência do consumidor. Mas, em nossa opinião, isso não deveria ser feito, pois o fator “a porta não deve enferrujar” não está diretamente relacionado às exigências do consumidor para projetos portas.

Assim, ao aprovar as especificações técnicas para projeto da estrutura das portas dos automóveis, são os nomes dos fatores obtidos que serão inseridos como requisitos do consumidor para os quais é necessário encontrar uma solução construtiva na forma de características de engenharia.

Destacamos uma propriedade fundamentalmente importante do coeficiente de correlação entre variáveis: ao quadrado, mostra que parte da variância (dispersão) do atributo é comum a duas variáveis, e o quanto essas variáveis se sobrepõem. Assim, por exemplo, se duas variáveis T 1 e T 3 com uma correlação de 0,8 se sobrepõem a um grau de 0,64 (0,8 2), isso significa que 64% das variâncias de ambas as variáveis são comuns, ou seja, combinar. Também se pode dizer que comunidade dessas variáveis é igual a 64%.

Lembremos que as cargas fatoriais na matriz fatorial também são coeficientes de correlação, mas entre fatores e variáveis (exigências do consumidor).

Variável Fator A Fator B

Portanto, a carga fatorial quadrática (variância) caracteriza o grau de comunalidade (ou sobreposição) de uma determinada variável e de um determinado fator. Vamos determinar o grau de sobreposição (variância D) de ambos os fatores com a variável (necessidade do consumidor) T 1. Para isso, é necessário calcular a soma dos quadrados dos pesos dos fatores com a primeira variável, ou seja, 0,83 x 0,83 + 0,3 x 0,3 = 0,70. Assim, a comunalidade da variável T 1 com ambos os fatores é de 70%. Esta é uma sobreposição bastante significativa.

Ao mesmo tempo, a baixa comunalidade pode indicar que a variável mede ou reflecte algo que é qualitativamente diferente das outras variáveis incluídas na análise. Isto implica que uma determinada variável não é combinada com fatores por uma das razões: ou mede outro conceito (como a variável T 7), ou tem um grande erro de medição, ou há características que distorcem a variância.

Ressalta-se que a significância de cada fator também é determinada pela quantidade de dispersão entre as variáveis e pela carga fatorial (peso). Para calcular o autovalor de um fator, é necessário encontrar em cada coluna da matriz fatorial a soma dos quadrados da carga fatorial para cada variável. Assim, por exemplo, a variância do fator A (D A) será 2,42 (0,83 x 0,83 + 0,3 x 0,3 + 0,83 x 0,83 + 0,4 x 0,4 + 0,8 x 0,8 + 0,35 x 0,35). O cálculo da significância do fator B mostrou que D B = 2,64, ou seja a importância do fator B é maior do que o fator A.

Se o autovalor de um fator for dividido pelo número de variáveis (no nosso exemplo são sete), então o valor resultante mostrará que proporção da variância (ou quantidade de informação) γ na matriz de correlação original este fator irá compor . Para o fator A γ ~ 0,34 (34%) e para o fator B - γ = 0,38 (38%). Resumindo os resultados, obtemos 72%. Assim, os dois fatores, quando combinados, preenchem apenas 72% da variância dos indicadores da matriz original. Isto significa que, como resultado da fatoração, algumas das informações da matriz original foram sacrificadas para construir um modelo de dois fatores. Com isso, faltaram 28% de informações que poderiam ter sido recuperadas caso o modelo de seis fatores tivesse sido adotado.

Para onde foi o erro, dado que todas as variáveis consideradas relevantes para os requisitos de design da porta foram tidas em conta? É muito provável que os valores dos coeficientes de correlação das variáveis relacionadas a um fator estejam um tanto subestimados. Tendo em conta a análise efectuada, seria possível voltar à formação de outros valores dos coeficientes de correlação na matriz de intercorrelação (ver Tabela 2.2).

Na prática, deparamo-nos frequentemente com uma situação em que o número de factores independentes é suficientemente grande para ter todos eles em conta na resolução de um problema, quer do ponto de vista técnico, quer do ponto de vista económico. Existem várias maneiras de limitar o número de fatores. A mais famosa delas é a análise de Pareto. Nesse caso, são selecionados (à medida que sua significância diminui) aqueles fatores que estão dentro do limite de 80-85% de sua significância total.

A análise fatorial pode ser utilizada para implementar o método de estruturação de funções de qualidade (QFD), amplamente utilizado no exterior na formação de especificações técnicas de um novo produto.

Artigos semelhantes