Use este identificador para citar ou linkar para este item:
http://repositorio.ufla.br/jspui/handle/1/58857
Registro completo de metadados
Campo DC | Valor | Idioma |
---|---|---|
dc.creator | Ferreira Neto, José Carlos | - |
dc.date.accessioned | 2024-01-30T12:08:19Z | - |
dc.date.available | 2024-01-30T12:08:19Z | - |
dc.date.issued | 2024-01-29 | - |
dc.date.submitted | 2023-12-08 | - |
dc.identifier.citation | FERREIRA NETO, J. C. Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa. 2023. 93 p. Dissertação (Mestrado em Engenharia de Sistemas e Automação)–Universidade Federal de Lavras, Lavras, 2023. | pt_BR |
dc.identifier.uri | http://repositorio.ufla.br/jspui/handle/1/58857 | - |
dc.description | Arquivo retido, a pedido do autor, até janeiro de 2025. | - |
dc.description.abstract | The identification and extraction of aspects are essential in text analysis for discerning opinions and emotions. However, there is a gap in applying these techniques to Portuguese. This work aims to adapt approaches originally developed for English to this language in the TV and ReLi datasets. The goal of this work is to evaluate the application of language models for aspect extraction in Portuguese in the context of TV device reviews and literary reviews in the TV and ReLi datasets. To achieve this goal, models based on the BERT architecture were employed, both in the pre-trained form for general domains (BERTimbau) and for specific domains (BERTtv and BERTreli). Additionally, a double embedding technique was implemented, combining general and specific domain models. Large Language Models (LLMs) were also evaluated, including variants of GPT-3 via the OpenAI API and a variant of LLaMa, Cabrita, which is trained for the Portuguese language. To optimize hardware resource demand, efficient fine-tuning techniques such as LoRA (Low-Rank Adaptation) for BERTimbau and QLoRa (Quantized Low-Rank Adaptation) for Cabrita were applied. The results showed that the BERTimbau model adjusted with LoRA was superior in both datasets, achieving F1 scores of 0.846 for the TV dataset and 0.615 for ReLi. In contrast, the Cabrita model showed inferior performance, with less favorable results for both datasets, 0.68 for TV and 0.46 for ReLi. This study, therefore, offers a valuable contribution to research in aspect extraction in Portuguese, demonstrating the feasibility and effectiveness of adapting and optimizing techniques and models originally developed for other languages. | pt_BR |
dc.language | por | pt_BR |
dc.publisher | Universidade Federal de Lavras | pt_BR |
dc.rights | restrictAccess | pt_BR |
dc.rights | Attribution 4.0 International | * |
dc.rights.uri | http://creativecommons.org/licenses/by/4.0/ | * |
dc.subject | Processamento de linguagem natural | pt_BR |
dc.subject | Extração de aspectos | pt_BR |
dc.subject | BERT | pt_BR |
dc.subject | Modelos de linguagem | pt_BR |
dc.subject | Natural language processing | pt_BR |
dc.subject | Aspect extraction | pt_BR |
dc.subject | Bidirectional Encoder Representations from Transformers | pt_BR |
dc.subject | Language models | pt_BR |
dc.title | Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa | pt_BR |
dc.title.alternative | Development of language models for aspect extraction in portuguese | pt_BR |
dc.type | dissertação | pt_BR |
dc.publisher.program | Programa de Pós-graduação em Engenharia de Sistemas e Automação | pt_BR |
dc.publisher.initials | UFLA | pt_BR |
dc.publisher.country | brasil | pt_BR |
dc.contributor.advisor1 | Ferreira, Danton Diego | - |
dc.contributor.referee1 | Ferreira, Danton Diego | - |
dc.contributor.referee2 | Barbosa, Bruno Henrique Groenner | - |
dc.contributor.referee3 | Pereira, Denilson Alves | - |
dc.contributor.referee4 | Cardoso, Paula Christina Figueira | - |
dc.contributor.referee5 | Vitor, Giovani Bernardes | - |
dc.description.resumo | A identificação e extração de aspectos é essencial na análise de textos para discernir opiniões e emoções. Contudo, há uma lacuna na aplicação dessas técnicas ao português. Este trabalho visa adaptar abordagens originalmente desenvolvidas para o inglês a este idioma no conjuntos de dados TV e ReLi. O objetivo deste trabalho consiste em avaliar a aplicação de modelos de linguagem para extração de aspectos na língua portuguesa no contexto de revisões de aparelhos de TV e resenhas literárias nos conjuntos de dado TV e ReLi. Para alcançar este objetivo, modelos baseados na arquitetura BERT foram empregados, tanto na forma pré-treinada para domínios gerais (BERTimbau) quanto para domínios específicos (BERTtv e BERTreli). Além disso, uma técnica de duplo embedding foi implementada, combinando modelos de domínio geral e específico. Também foram avaliados Modelos de Linguagem de Larga Escala (Large Language Models - LLM), incluindo variantes do GPT-3 via API da OpenAI e uma variante do LLaMa, Cabrita, que é trei- nada para a língua portuguesa. Para otimizar a demanda por recursos de hardware, técnicas de ajuste fino eficiente, como LoRA (Low-Rank Adaptation) para o BERTimbau e QLoRa (Quantized Low-Rank Adaptation) para o Cabrita, foram aplicadas. Os resultados demonstraram que o modelo BERTimbau ajustado com LoRa se mostrou superior nos dois conjuntos de dados, alcançando F1 scores de 0.846 para o conjunto TV e 0.615 para o ReLi. Em contraste, o modelo Cabrita apresentou desempenho inferior, com resultados menos favoráveis para ambos os conjuntos de dados, 0.68 para o TV e 0.46 para o ReLi. Este estudo, portanto, oferece uma contribuição valiosa para a pesquisa em extração de aspectos em língua portuguesa, demonstrando a viabilidade e eficácia de adaptar e otimizar técnicas e modelos desenvolvidos originalmente para outros idiomas. | pt_BR |
dc.publisher.department | Departamento de Engenharia | pt_BR |
dc.subject.cnpq | Ciência da Computação | pt_BR |
dc.creator.Lattes | http://lattes.cnpq.br/2512230222423651 | pt_BR |
Aparece nas coleções: | Engenharia de Sistemas e automação (Dissertações) |
Arquivos associados a este item:
Não existem arquivos associados a este item.
Este item está licenciada sob uma Licença Creative Commons