Rotulação de dados para a tarefa de reconhecimento de entidades nomeadas no domínio da bebida cachaça

Silva, Priscilla de Souza

Use este identificador para citar ou linkar para este item: http://repositorio.ufla.br/jspui/handle/1/56065

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Silva, Priscilla de Souza	-
dc.date.accessioned	2023-02-27T16:50:56Z	-
dc.date.available	2023-02-27T16:50:56Z	-
dc.date.issued	2023-02-27	-
dc.date.submitted	2022-11-25	-
dc.identifier.citation	SILVA, P. de S. Rotulação de dados para a tarefa de reconhecimento de entidades nomeadas no domínio da bebida cachaça. 2022. 111 p. Dissertação (Mestrado em Ciência da Computação)–Universidade Federal de Lavras, Lavras, 2022.	pt_BR
dc.identifier.uri	http://repositorio.ufla.br/jspui/handle/1/56065	-
dc.description.abstract	Named Entity Recognition (NER) is the task of identifying tokens in free text and classifying them according to a set of predefined categories such as person name, organization and location. Datasets labeled for this task are essential for training supervised machine learning models. However, although there are many datasets labeled with texts in English, for the Portuguese language they are still scarce. Therefore, this work contributes with the creation and evaluation of a manually labeled dataset for the NER task, with texts written in Brazilian Portuguese, in the specific domain of the distilled beverage cachaça. Essa é uma bebida popular no Brasil e de grande importância econômica. The dataset proposed in this work is the first in Portuguese in the field of beverages and may be useful for other types of beverages with categories of entities similar to cachaça, such as wine and beer. This work describes the process of textual data collection and extraction, creation and labeling of the NER data set and its experimental evaluation. As a result, a dataset called cachacaNER was obtained, which contains more than 180,000 tokens labeled in 17 categories of named entities specific to the cachaça context and generic categories. According to Fleiss’ Kappa metric, the agreement (0.857) obtained between the different labelers was almost perfect, guaranteeing the reliability of the dataset in relation to manual labeling. The size of the dataset, as well as the result of its experimental evaluation, are comparable to other datasets in Portuguese, although the one in this work has a greater number of categories of named entities. In addition to manual labeling, an automatic entity labeling technique was also evaluated, with cachacaNER data, in order to propose faster labeling with less manual work. As a result, it was identified that the NER model trained with automatically labeled data performed well (F1 of 0.808), considering the result of the same model trained with manually labeled data (F1 of 0.899).	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Lavras	pt_BR
dc.rights	restrictAccess	pt_BR
dc.subject	Reconhecimento de entidades nomeadas	pt_BR
dc.subject	Cachaça	pt_BR
dc.subject	Aprendizagem de máquina	pt_BR
dc.subject	Processamento de Linguagem Natural (PLN)	pt_BR
dc.subject	Processamento de Linguagem Natural	pt_BR
dc.subject	Named Entity Recognition (NER)	pt_BR
dc.subject	Machine learning	pt_BR
dc.subject	Natural Language Processing (NLP)	pt_BR
dc.title	Rotulação de dados para a tarefa de reconhecimento de entidades nomeadas no domínio da bebida cachaça	pt_BR
dc.title.alternative	Data labeling for the task of named entity recognition in the domain of cachaça beverage	pt_BR
dc.type	dissertação	pt_BR
dc.publisher.program	Programa de Pós-graduação em Ciência da Computação	pt_BR
dc.publisher.initials	UFLA	pt_BR
dc.publisher.country	brasil	pt_BR
dc.contributor.advisor1	Pereira, Denilson Alves	-
dc.contributor.referee1	Merschmann, Luiz Henrique de Campos	-
dc.contributor.referee2	Brito, Mozar José de	-
dc.contributor.referee3	Dalip, Daniel Hasan	-
dc.description.resumo	O Reconhecimento de Entidade Nomeada (NER) é a tarefa de identificar tokens em textos livres e os classificar de acordo com um conjunto de categorias pré-definidas, tais como, nome de pessoa, organização e local. Conjuntos de dados rotulados para essa tarefa são essenciais para treinar modelos de aprendizagem de máquina supervisionados. Entretanto, apesar de existirem muitos conjuntos de dados rotulados com textos em inglês, para a língua portuguesa eles ainda são escassos. Portanto, este trabalho contribui com a criação e avaliação de um conjunto de dados rotulado manualmente para a tarefa de NER, com textos escritos em português brasileiro, no domínio específico da bebida destilada cachaça. Essa é uma bebida popular no Brasil e de grande importância econômica. O conjunto de dados proposto neste trabalho é o primeiro em português no domínio de bebidas e pode ser útil para outros tipos de bebidas com categorias de entidades semelhantes a cachaça, como o vinho e a cerveja. Neste trabalho é descrito o processo de coleta e extração de dados textuais, criação e rotulação do conjunto de dados NER e sua avaliação experimental. Como resultado obteve-se um dataset chamado de cachacaNER, o qual contém mais de 180.000 tokens rotulados em 17 categorias de entidades nomeadas específicas ao contexto da cachaça e categorias genéricas. De acordo a métrica Kappa de Fleiss a concordância (0,857) obtida entre os diferentes rotuladores foi quase perfeita, garantindo a confiabilidade do dataset em relação às rotulações feitas manualmente. O tamanho do conjunto de dados, bem como o resultado de sua avaliação experimental, são comparáveis a outros conjuntos de dados em língua portuguesa, embora o deste trabalho tenha um número maior de categorias de entidades nomeadas. Além da rotulação manual, também foi avaliada uma técnica de rotulação automática de entidades, com os dados do cachacaNER, a fim de propor uma rotulação mais rápida e com menos trabalho manual. Como resultado, identificou-se que o modelo de NER treinado com os dados rotulados automaticamente obteve um bom desempenho (F1 de 0,808), considerando o resultado do mesmo modelo treinado com os dados rotulados manualmente (F1 de 0,899).	pt_BR
dc.publisher.department	Departamento de Ciência da Computação	pt_BR
dc.subject.cnpq	Teoria da Computação	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/4890633760190655	pt_BR
Aparece nas coleções:	Ciência da Computação - Mestrado (Dissertações)

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
DISSERTAÇÃO_Rotulação de dados para a tarefa de reconhecimento de entidades nomeadas no domínio da bebida cachaça.pdf		5,58 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas