Use este identificador para citar ou linkar para este item:
http://repositorio.ufla.br/jspui/handle/1/56065
Registro completo de metadados
Campo DC | Valor | Idioma |
---|---|---|
dc.creator | Silva, Priscilla de Souza | - |
dc.date.accessioned | 2023-02-27T16:50:56Z | - |
dc.date.available | 2023-02-27T16:50:56Z | - |
dc.date.issued | 2023-02-27 | - |
dc.date.submitted | 2022-11-25 | - |
dc.identifier.citation | SILVA, P. de S. Rotulação de dados para a tarefa de reconhecimento de entidades nomeadas no domínio da bebida cachaça. 2022. 111 p. Dissertação (Mestrado em Ciência da Computação)–Universidade Federal de Lavras, Lavras, 2022. | pt_BR |
dc.identifier.uri | http://repositorio.ufla.br/jspui/handle/1/56065 | - |
dc.description.abstract | Named Entity Recognition (NER) is the task of identifying tokens in free text and classifying them according to a set of predefined categories such as person name, organization and location. Datasets labeled for this task are essential for training supervised machine learning models. However, although there are many datasets labeled with texts in English, for the Portuguese language they are still scarce. Therefore, this work contributes with the creation and evaluation of a manually labeled dataset for the NER task, with texts written in Brazilian Portuguese, in the specific domain of the distilled beverage cachaça. Essa é uma bebida popular no Brasil e de grande importância econômica. The dataset proposed in this work is the first in Portuguese in the field of beverages and may be useful for other types of beverages with categories of entities similar to cachaça, such as wine and beer. This work describes the process of textual data collection and extraction, creation and labeling of the NER data set and its experimental evaluation. As a result, a dataset called cachacaNER was obtained, which contains more than 180,000 tokens labeled in 17 categories of named entities specific to the cachaça context and generic categories. According to Fleiss’ Kappa metric, the agreement (0.857) obtained between the different labelers was almost perfect, guaranteeing the reliability of the dataset in relation to manual labeling. The size of the dataset, as well as the result of its experimental evaluation, are comparable to other datasets in Portuguese, although the one in this work has a greater number of categories of named entities. In addition to manual labeling, an automatic entity labeling technique was also evaluated, with cachacaNER data, in order to propose faster labeling with less manual work. As a result, it was identified that the NER model trained with automatically labeled data performed well (F1 of 0.808), considering the result of the same model trained with manually labeled data (F1 of 0.899). | pt_BR |
dc.language | por | pt_BR |
dc.publisher | Universidade Federal de Lavras | pt_BR |
dc.rights | restrictAccess | pt_BR |
dc.subject | Reconhecimento de entidades nomeadas | pt_BR |
dc.subject | Cachaça | pt_BR |
dc.subject | Aprendizagem de máquina | pt_BR |
dc.subject | Processamento de Linguagem Natural (PLN) | pt_BR |
dc.subject | Processamento de Linguagem Natural | pt_BR |
dc.subject | Named Entity Recognition (NER) | pt_BR |
dc.subject | Machine learning | pt_BR |
dc.subject | Natural Language Processing (NLP) | pt_BR |
dc.title | Rotulação de dados para a tarefa de reconhecimento de entidades nomeadas no domínio da bebida cachaça | pt_BR |
dc.title.alternative | Data labeling for the task of named entity recognition in the domain of cachaça beverage | pt_BR |
dc.type | dissertação | pt_BR |
dc.publisher.program | Programa de Pós-graduação em Ciência da Computação | pt_BR |
dc.publisher.initials | UFLA | pt_BR |
dc.publisher.country | brasil | pt_BR |
dc.contributor.advisor1 | Pereira, Denilson Alves | - |
dc.contributor.referee1 | Merschmann, Luiz Henrique de Campos | - |
dc.contributor.referee2 | Brito, Mozar José de | - |
dc.contributor.referee3 | Dalip, Daniel Hasan | - |
dc.description.resumo | O Reconhecimento de Entidade Nomeada (NER) é a tarefa de identificar tokens em textos livres e os classificar de acordo com um conjunto de categorias pré-definidas, tais como, nome de pessoa, organização e local. Conjuntos de dados rotulados para essa tarefa são essenciais para treinar modelos de aprendizagem de máquina supervisionados. Entretanto, apesar de existirem muitos conjuntos de dados rotulados com textos em inglês, para a língua portuguesa eles ainda são escassos. Portanto, este trabalho contribui com a criação e avaliação de um conjunto de dados rotulado manualmente para a tarefa de NER, com textos escritos em português brasileiro, no domínio específico da bebida destilada cachaça. Essa é uma bebida popular no Brasil e de grande importância econômica. O conjunto de dados proposto neste trabalho é o primeiro em português no domínio de bebidas e pode ser útil para outros tipos de bebidas com categorias de entidades semelhantes a cachaça, como o vinho e a cerveja. Neste trabalho é descrito o processo de coleta e extração de dados textuais, criação e rotulação do conjunto de dados NER e sua avaliação experimental. Como resultado obteve-se um dataset chamado de cachacaNER, o qual contém mais de 180.000 tokens rotulados em 17 categorias de entidades nomeadas específicas ao contexto da cachaça e categorias genéricas. De acordo a métrica Kappa de Fleiss a concordância (0,857) obtida entre os diferentes rotuladores foi quase perfeita, garantindo a confiabilidade do dataset em relação às rotulações feitas manualmente. O tamanho do conjunto de dados, bem como o resultado de sua avaliação experimental, são comparáveis a outros conjuntos de dados em língua portuguesa, embora o deste trabalho tenha um número maior de categorias de entidades nomeadas. Além da rotulação manual, também foi avaliada uma técnica de rotulação automática de entidades, com os dados do cachacaNER, a fim de propor uma rotulação mais rápida e com menos trabalho manual. Como resultado, identificou-se que o modelo de NER treinado com os dados rotulados automaticamente obteve um bom desempenho (F1 de 0,808), considerando o resultado do mesmo modelo treinado com os dados rotulados manualmente (F1 de 0,899). | pt_BR |
dc.publisher.department | Departamento de Ciência da Computação | pt_BR |
dc.subject.cnpq | Teoria da Computação | pt_BR |
dc.creator.Lattes | http://lattes.cnpq.br/4890633760190655 | pt_BR |
Aparece nas coleções: | Ciência da Computação - Mestrado (Dissertações) |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
DISSERTAÇÃO_Rotulação de dados para a tarefa de reconhecimento de entidades nomeadas no domínio da bebida cachaça.pdf | 5,58 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.