Análise de Componentes Principais-(PCA) 
 
Componentes Princiapais e Análise de Fatores [5]


Análise de componentes principais (PCA) e análise de fatores (FA) são técnicas estatísticas aplicadas a um conjunto de variáveis para descobrir quais conjuntos de variáveis na forma de subconjuntos coerentes são relativamente independentes uma das outras. Variáveis que estão relacionadas com outras são também altamente independente de outros subconjuntos de variáveis que estão combinados nesses fatores. Os fatores que são gerados são utilizados de maneira representativa em processos subjacentes que criaram as correlações entre variáveis.

PCA e FA podem ser exploratórios por natureza, FA é usado como uma ferramenta em tentativas para reduzir um grande conjunto de variáveis para um conjunto mais significativo, com um conjunto menor de variáveis. Como FA e PCA são sensíveis à magnitude dessas correlações, comparações robustas devem ser feitas para assegurar a qualidade das análises. Adequadamente, PCA e FA são sensíveis a outliers, dados perdidos, e correlações pobres entre variáveis devido a variáveis pobremente distribuídas (Veja a página sobre normalidade para mais informação sobre distribuições.) Como resultado transformações de dados têm um grande impacto sobre FA e PCA.

Coeficientes de correlação tendem a ser de menos confiança quando faz cálculos de estimativas de amostra pequenas. Em geral o mínimo é ter cinco casos pelo menos para cada variável observada. Dados perdidos precisam ser analisados para prover as melhores relações possíveis entre variáveis. Ajustando dados perdidos através de técnicas de regressão são prováveis sobre ajustes de dados e resultam em correlações para não ser realisticamente alto e podem prover fatores como resultado. Normalidade provê para uma solução melhorada, mas algumas conclusões ainda podem ser derivadas de dados anormais. Normalidade Multivariada também implica que as relações entre variáveis são lineares. Linearidade é requerida para assegurar que aqueles coeficientes de correlação são formas apropriadas de dados gerados, encontrando as suposições necessárias para o uso do modelo linear geral. Outliers monovariados e multivariados precisam de ser filtrados devido a sua alta influência no cálculo de coeficientes de correlação que em troca têm uma forte influência no cálculo de fatores. Em PCA multicolinearizado não é um problema como inversão de matriz não é requerida, contudo para a maioria das formas de FA singularidade e multicolinearidade é um problema. Se o determinante de R e eigenvalues associados com alguns fatores próximos de zero, a multicolinearidade ou a singularidade podem estar presentes. A eliminação de variáveis singulares ou multicolineares são necessárias.

Usos do Princípio de Análise de Componentes e Análise de Fatores

Usos diretos: - identificação de grupos de variáveis interrelacionadas,
- redução de número de variáveis,

Usos indiretos: - um método de transformar dados. Transformação de dados através da reescrita dos dados com propriedades que os dados originais não tinham. Os dados podem ser eficientemente simplificados para uma classificação enquanto também são removidos artefatos como multicolinearidade.

Teoria para Análise de Fator Comum e Análise de Fator

A base subjacente fundamental para a Análise de Fator Comum (PCA e FA) é que as variáveis escolhidas podem ser transformadas em combinações lineares de um conjunto subjacente de componentes (fatores) hipotéticos ou despercebidos. Podem ser associados fatores com 2 ou mais das variáveis originais (fatores comuns) ou associadas com uma variável individual (fatores únicos). As cargas relacionam a associação específica entre fatores e variáveis originais. Portanto, é necessário achar as cargas e achar a solução para os fatores, que aproximarão a relação entre as variáveis originais e fatores subjacentes. As cargas são derivados da magnitude dos eigenvalues associados às variáveis individuais.

A diferença entre PCA e FA é que para a finalidade de computações de matriz PCA assume que toda a variância é comum, com todos fatores únicos iguais a  zero; enquanto FA assume que há alguma variância única. O nível de variância única é ditado pelo modelo de FA que é escolhido. Adequadamente, PCA é um modelo de um sistema fechado, enquanto FA é um modelo de um sistema aberto.

Rotação tenta colocar os fatores em uma posição mais simples com respeito às variáveis originais que ajudam na interpretação de fatores. Rotação coloca os fatores em posições que serão associadas só as variáveis que são relacionadas distintamente a um fator. Varimax, quartimax, e equimax são todas as rotações ortogonais, enquanto as rotações oblíquas são não-ortogonais. A rotação de varimax maximiza a variância da carga, e é também o mais utilizado normalmente.

Executar um PCA ou FA

Para analisar dados com PCA ou FA devem ser efetuadas 3 decisões:
- o método de extração de fator,
- o número de fatores para extrair, e
- o método de transformação a ser usado.

 

Interpretação de uma Análise de Fator

Determinação de número de fatores para extrair

- teste de significado, difícil de encontrar suposições requeridas para o teste de significado, portanto as heurísticas seguinte são usadas.

- magnitude de eigenvalues,
Avalia a quantia de variância original considerada. Retém fatores cujos eigenvalues são maiores que 1. (Ignora-os com eigenvalues menores que um como o fator está respondendo por menos variância que uma variável original).
 

eigen values - image
> a figura relaciona que cinco fatores são significantes.

 

- importância substantiva,
um teste absoluto de eigenvalues em senso proporcional. Retém qualquer eigenvalue que responde por pelo menos 5% da variância,
- steste kree,
representa graficamente a magnitude dos eigenvalues (eixo de Y) contra componentes (eixo de X), retém fatores que estão sobre o ponto de inflexão da rampa.
- interpretabilidade,
uma bateria de testes sobre heurísticas podem ser aplicadas, avalia a magnitude dos eigenvalues, importância substantiva, e um teste de skree.
 
 

Quais variáveis são consideradas as melhores pelo modelo?

- interprete communalities (estimativas finais de communalities),
alto = mais importante,
baixo = menos importante.

communality summary - image
> communalities relacionam o efeito global dos fatores.

 

Nomeando Fatores

- olhar pela pontuação dos fatores individuais, ver quais variáveis têm as pontuações de fator mais altas. Também olhar o pontuação do fator para ver se as interpretações inicial são confimadas pela pontuação do fator (normalmente são distribuídas apenas as pontuações de Fator quando a entrada de variáveis são distribuídas normalmente. Portanto, quando interpretando fatores a maior preocupação é com os valores de anteriores. A distribuição normal de pontuações de fator também age como uma transformação de dados e prepara os dados para outras análises multivariadas.)

Qual é o significado de uma Matriz de Correlação Mal Condicionada

- uma matriz de correlação mal condicionada é uma manifestação de multicolinearidade. FA é sensível a uma matriz mal condicionada enquanto PCA não é. Resolver para a equação característica em FA, a inversão de matriz é requerida, o que não é possível com uma matriz singular.

Avaliar o valor de entrada das variáveis para o modelo

- avaliar a medida de Kaiser-Meyer-Olkin de amostras suficientes que provê resultados no alcance de 0.5 a 0.9.
 

sampling adequacy - image
> Por exemplo: MINAS é uma variável válida menor que POPDEN neste modelo.

Um valor de 1 relaciona uma relação completa, totalmente relacionado que é ruim. O alcance que é provido como uma heurística é:
0.9 - maravilhoso,
0.8 - mérito,
0.7 - mediano,
0.6 - medíocre, ou
0.5 - miserável.

 



 
Voltar