Use este identificador para citar ou linkar para este item: http://repositorio.ufla.br/jspui/handle/1/56065
Registro completo de metadados
Campo DCValorIdioma
dc.creatorSilva, Priscilla de Souza-
dc.date.accessioned2023-02-27T16:50:56Z-
dc.date.available2023-02-27T16:50:56Z-
dc.date.issued2023-02-27-
dc.date.submitted2022-11-25-
dc.identifier.citationSILVA, P. de S. Rotulação de dados para a tarefa de reconhecimento de entidades nomeadas no domínio da bebida cachaça. 2022. 111 p. Dissertação (Mestrado em Ciência da Computação)–Universidade Federal de Lavras, Lavras, 2022.pt_BR
dc.identifier.urihttp://repositorio.ufla.br/jspui/handle/1/56065-
dc.description.abstractNamed Entity Recognition (NER) is the task of identifying tokens in free text and classifying them according to a set of predefined categories such as person name, organization and location. Datasets labeled for this task are essential for training supervised machine learning models. However, although there are many datasets labeled with texts in English, for the Portuguese language they are still scarce. Therefore, this work contributes with the creation and evaluation of a manually labeled dataset for the NER task, with texts written in Brazilian Portuguese, in the specific domain of the distilled beverage cachaça. Essa é uma bebida popular no Brasil e de grande importância econômica. The dataset proposed in this work is the first in Portuguese in the field of beverages and may be useful for other types of beverages with categories of entities similar to cachaça, such as wine and beer. This work describes the process of textual data collection and extraction, creation and labeling of the NER data set and its experimental evaluation. As a result, a dataset called cachacaNER was obtained, which contains more than 180,000 tokens labeled in 17 categories of named entities specific to the cachaça context and generic categories. According to Fleiss’ Kappa metric, the agreement (0.857) obtained between the different labelers was almost perfect, guaranteeing the reliability of the dataset in relation to manual labeling. The size of the dataset, as well as the result of its experimental evaluation, are comparable to other datasets in Portuguese, although the one in this work has a greater number of categories of named entities. In addition to manual labeling, an automatic entity labeling technique was also evaluated, with cachacaNER data, in order to propose faster labeling with less manual work. As a result, it was identified that the NER model trained with automatically labeled data performed well (F1 of 0.808), considering the result of the same model trained with manually labeled data (F1 of 0.899).pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal de Lavraspt_BR
dc.rightsrestrictAccesspt_BR
dc.subjectReconhecimento de entidades nomeadaspt_BR
dc.subjectCachaçapt_BR
dc.subjectAprendizagem de máquinapt_BR
dc.subjectProcessamento de Linguagem Natural (PLN)pt_BR
dc.subjectProcessamento de Linguagem Naturalpt_BR
dc.subjectNamed Entity Recognition (NER)pt_BR
dc.subjectMachine learningpt_BR
dc.subjectNatural Language Processing (NLP)pt_BR
dc.titleRotulação de dados para a tarefa de reconhecimento de entidades nomeadas no domínio da bebida cachaçapt_BR
dc.title.alternativeData labeling for the task of named entity recognition in the domain of cachaça beveragept_BR
dc.typedissertaçãopt_BR
dc.publisher.programPrograma de Pós-graduação em Ciência da Computaçãopt_BR
dc.publisher.initialsUFLApt_BR
dc.publisher.countrybrasilpt_BR
dc.contributor.advisor1Pereira, Denilson Alves-
dc.contributor.referee1Merschmann, Luiz Henrique de Campos-
dc.contributor.referee2Brito, Mozar José de-
dc.contributor.referee3Dalip, Daniel Hasan-
dc.description.resumoO Reconhecimento de Entidade Nomeada (NER) é a tarefa de identificar tokens em textos livres e os classificar de acordo com um conjunto de categorias pré-definidas, tais como, nome de pessoa, organização e local. Conjuntos de dados rotulados para essa tarefa são essenciais para treinar modelos de aprendizagem de máquina supervisionados. Entretanto, apesar de existirem muitos conjuntos de dados rotulados com textos em inglês, para a língua portuguesa eles ainda são escassos. Portanto, este trabalho contribui com a criação e avaliação de um conjunto de dados rotulado manualmente para a tarefa de NER, com textos escritos em português brasileiro, no domínio específico da bebida destilada cachaça. Essa é uma bebida popular no Brasil e de grande importância econômica. O conjunto de dados proposto neste trabalho é o primeiro em português no domínio de bebidas e pode ser útil para outros tipos de bebidas com categorias de entidades semelhantes a cachaça, como o vinho e a cerveja. Neste trabalho é descrito o processo de coleta e extração de dados textuais, criação e rotulação do conjunto de dados NER e sua avaliação experimental. Como resultado obteve-se um dataset chamado de cachacaNER, o qual contém mais de 180.000 tokens rotulados em 17 categorias de entidades nomeadas específicas ao contexto da cachaça e categorias genéricas. De acordo a métrica Kappa de Fleiss a concordância (0,857) obtida entre os diferentes rotuladores foi quase perfeita, garantindo a confiabilidade do dataset em relação às rotulações feitas manualmente. O tamanho do conjunto de dados, bem como o resultado de sua avaliação experimental, são comparáveis a outros conjuntos de dados em língua portuguesa, embora o deste trabalho tenha um número maior de categorias de entidades nomeadas. Além da rotulação manual, também foi avaliada uma técnica de rotulação automática de entidades, com os dados do cachacaNER, a fim de propor uma rotulação mais rápida e com menos trabalho manual. Como resultado, identificou-se que o modelo de NER treinado com os dados rotulados automaticamente obteve um bom desempenho (F1 de 0,808), considerando o resultado do mesmo modelo treinado com os dados rotulados manualmente (F1 de 0,899).pt_BR
dc.publisher.departmentDepartamento de Ciência da Computaçãopt_BR
dc.subject.cnpqTeoria da Computaçãopt_BR
dc.creator.Latteshttp://lattes.cnpq.br/4890633760190655pt_BR
Aparece nas coleções:Ciência da Computação - Mestrado (Dissertações)



Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.