Proposição de dois novos métodos para análise de componentes principais

Reis, Carlos José dos

Use este identificador para citar ou linkar para este item: http://repositorio.ufla.br/jspui/handle/1/46110

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Reis, Carlos José dos	-
dc.date.accessioned	2021-02-10T16:39:01Z	-
dc.date.available	2021-02-10T16:39:01Z	-
dc.date.issued	2020-08-17	-
dc.date.submitted	2020-08-04	-
dc.identifier.citation	REIS, C. J. dos. Proposição de dois novos métodos para análise de componentes principais. 2020. 187 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária) – Universidade Federal de Lavras, Lavras, 2020.	pt_BR
dc.identifier.uri	http://repositorio.ufla.br/jspui/handle/1/46110	-
dc.description.abstract	Principal component analysis (PCA) is a multivariate method widely used, mainly because of its ability to synthesize in a few latent variables, known as principal components, a large proportion of the total variance of all original variables. However, PCA suffers from the fact that each principal component is the linear combination of a very large number of original variables, which often causes difficulties in interpreting the results. One of the ways adopted to overcome this difficulty is to observe the loadings that accompany each variable and ignore those whose values are small. The component thus obtained becomes the linear combination involving the remaining variables. Although this practice is widely used, this procedure is potentially misleading as it is based on subjectivity. Sparse principal component analysis (SPCA) has emerged as a method that can be applied to improve this disadvantage of PCA. Being a subject of intense research for over a decade, the SPCA method proposed by Zou, Hastie and Tibshirani in 2006 modifies the original formulation of the PCA by treating it as a regression problem by introducing the LASSO penalty, acronym for Least Absolute Shrinkage and Selection Operator, which is useful for inducing sparse (null loadings) in the principal components. Because of the above, two new methods are proposed in order to facilitate the interpretation of results in the PCA, mainly for scenarios in which the problem under investigation has a very large number of variables. The proposed methods were called Sparse Group for Principal Component Analysis (SGPCA) and Pairwise Absolute Clustering and Sparsity for Principal Component Analysis (PACSPCA). The SGPCA and PACSPCA methods are based on the Octogonal Shrinkage and Clustering Algorithm for Regression (OSCAR) and Pairwise Absolute Clustering and Sparsity (PACS) regression methods, respectively. The two new methods proposed, in addition to also inducing the sparsity in the components such as the SPCA method, also can group variables using the correlation between them by the equality of their loadings. As an illustration, the proposed SGPCA and PACSPCA methods were applied to real and simulated data, aiming to elucidate some of their characteristics.	pt_BR
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Lavras	pt_BR
dc.rights	acesso aberto	pt_BR
dc.subject	Análise de componentes principais	pt_BR
dc.subject	Esparsidade	pt_BR
dc.subject	Octogonal shrinkage and clustering algorithm for regression	pt_BR
dc.subject	Pairwise absolute clustering and sparsity	pt_BR
dc.subject	Agrupamentos	pt_BR
dc.subject	Principal component analysis	pt_BR
dc.subject	Esparsity	pt_BR
dc.title	Proposição de dois novos métodos para análise de componentes principais	pt_BR
dc.title.alternative	Proposition of two new methods for principal component analysis	pt_BR
dc.type	tese	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Estatística e Experimentação Agropecuária	pt_BR
dc.publisher.initials	UFLA	pt_BR
dc.publisher.country	brasil	pt_BR
dc.contributor.advisor1	Chaves, Lucas Monteiro	-
dc.contributor.advisor-co1	Souza, Devanil Jaques de	-
dc.contributor.referee1	Nogueira, Denismar Alves	-
dc.contributor.referee2	Ferreira, Daniel Furtado	-
dc.contributor.referee3	Guimarães, Paulo Henrique Sales	-
dc.description.resumo	A análise de componentes principais (PCA, do inglês “Principal Component Analysis”) é um método multivariado amplamente utilizado, principalmente por sua capacidade de conter em poucas variáveis latentes, conhecidas como componentes principais, uma grande proporção da variância total de todas as variáveis originais. Entretanto, a PCA sofre pelo fato de cada componente principal ser a combinação linear de todas as variáveis originais, o que frequentemente ocasiona dificuldades na interpretação dos resultados. Uma das formas adotadas para contornar essa dificuldade é observar os loadings que acompanham cada variável e ignorar aqueles cujos valores sejam pequenos. O componente assim obtido passa a ser a combinação linear envolvendo as variáveis remanescentes. Embora essa prática seja muito utilizada, este procedimento é potencialmente enganoso por se basear na subjetividade. A análise de componentes principais esparsos (SPCA, do inglês “Sparse Principal Component Analysis”) surgiu como um método que pode ser aplicado para melhorar essa desvantagem da PCA. Sendo um tema de intensa pesquisa por mais de uma década, o método SPCA proposto por Zou, Hastie e Tibshirani em 2006 modifica a formulação original da PCA por tratá-la como um problema de regressão pela introdução da penalidade LASSO, acrônimo de Least Absolute Shrinkage and Selection Operator, que é útil por induzir a esparsidade (loadings nulos) nos componentes principais. Diante do que foi exposto, são propostos dois novos métodos com o objetivo de facilitar a interpretação dos resultados na PCA, principalmente para cenários em que o problema sob investigação possua um número muito elevado de variáveis. Os métodos propostos foram denominados Sparse Group for Principal Component Analysis (SGPCA) e Pairwise Absolute Clustering and Sparsity for Principal Component Analysis (PACSPCA). Os métodos SGPCA e PACSPCA se baseiam nos métodos de regressão Octogonal Shrinkage and Clustering Algorithm for Regression (OSCAR) e Pairwise Absolute Clustering and Sparsity (PACS), respectivamente. Os dois novos métodos propostos, além de também induzirem a esparsidade nos componentes como o método SPCA, também possuem a capacidade de agrupar variáveis utilizando-se da correlação entre as mesmas pela igualdade dos seus loadings. Como ilustração, os métodos propostos SGPCA e PACSPCA foram aplicados a dados reais e simulados, visando elucidar algumas de suas características.	pt_BR
dc.publisher.department	Departamento de Ciências Exatas	pt_BR
dc.subject.cnpq	Estatística	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/8238335560906934	pt_BR
Aparece nas coleções:	Estatística e Experimentação Agropecuária - Doutorado (Teses)

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
TESE_Proposição de dois novos métodos para análise de componentes principais.pdf		4,91 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas