An investigation of linguistic problems in automatic multi-document summaries

Dias, Márcio de Souza; Di Felippo, Ariani; Rassi, Amanda Pontes; Cardoso, Paula Christina Figueira; Nóbrega, Fernando Antônio Asevedo; Pardo, Thiago Alexandre Salgueiro

Please use this identifier to cite or link to this item: http://repositorio.ufla.br/jspui/handle/1/50347

Full metadata record

DC Field	Value	Language
dc.creator	Dias, Márcio de Souza	-
dc.creator	Di Felippo, Ariani	-
dc.creator	Rassi, Amanda Pontes	-
dc.creator	Cardoso, Paula Christina Figueira	-
dc.creator	Nóbrega, Fernando Antônio Asevedo	-
dc.creator	Pardo, Thiago Alexandre Salgueiro	-
dc.date.accessioned	2022-06-27T12:44:35Z	-
dc.date.available	2022-06-27T12:44:35Z	-
dc.date.issued	2021	-
dc.identifier.citation	DIAS, M. de S. et al. An investigation of linguistic problems in automatic multi-document summaries. Revista de Estudos da Linguagem, Belo Horizonte, v. 29, n. 2, p. 859-907, 2021. DOI: 10.17851/2237-2083.29.2.859-907.	pt_BR
dc.identifier.uri	http://repositorio.ufla.br/jspui/handle/1/50347	-
dc.description.abstract	Automatic summaries commonly present diverse linguistic problems that affect textual quality and thus their understanding by users. Few studies have tried to characterize such problems and their relation with the performance of the summarization systems. In this paper, we investigated the problems in multi-document extracts (i.e., summaries produced by concatenating several sentences taken exactly as they appear in the source texts) generated by systems for Brazilian Portuguese that have different approaches (i.e., superficial and deep) and performances (i.e., baseline and state-of-the art methods). For that, we first reviewed the main characterization studies, resulting in a typology of linguistic problems more suitable for multi-document summarization. Then, we manually annotated a corpus of automatic multi-document extracts in Portuguese based on the typology, which showed that some of linguistic problems are significantly more recurrent than others. Thus, this corpus annotation may support research on linguistic problems detection and correction for summary improvement, allowing the production of automatic summaries that are not only informative (i.e., they convey the content of the source material), but also linguistically well structured.	pt_BR
dc.language	en_US	pt_BR
dc.publisher	Universidade Federal de Minas Gerais (UFMG), Faculdade de Letras (FALE)	pt_BR
dc.rights	Attribution 4.0 International	*
dc.rights	acesso aberto	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	*
dc.source	Revista de Estudos da Linguagem	pt_BR
dc.subject	Automatic summarization	pt_BR
dc.subject	Multi-document summary	pt_BR
dc.subject	Linguistic problem	pt_BR
dc.subject	Corpus annotation	pt_BR
dc.subject	Sumarização automática	pt_BR
dc.subject	Sumário multidocumento	pt_BR
dc.subject	Problema linguístico	pt_BR
dc.subject	Anotação de corpus	pt_BR
dc.title	An investigation of linguistic problems in automatic multi-document summaries	pt_BR
dc.title.alternative	Uma investigação de problemas linguísticos em sumários automáticos multidocumento	pt_BR
dc.type	Artigo	pt_BR
dc.description.resumo	Sumários automáticos geralmente apresentam vários problemas linguísticos que afetam a sua qualidade textual e, consequentemente, sua compreensão pelos usuários. Alguns trabalhos caracterizam tais problemas e os relacionam ao desempenho dos sistemas de sumarização. Neste artigo, investigaram-se os problemas em extratos (isto é, sumários produzidos pela concatenação de sentenças extraídas na íntegra dos textos-fonte) multidocumento em Português do Brasil gerados por sistemas que apresentam diferentes abordagens (isto é, superficial e profunda) e desempenho (isto é, métodos baseline e do estado-da-arte). Para tanto, as principais caracterizações dos problemas linguísticos em sumários automáticos foram investigadas, resultando em uma tipologia mais adequada à sumarização multidocumento. Em seguida, anotou-se manualmente um corpus de extratos com base na tipologia, evidenciando que alguns tipos de problemas são significativamente mais recorrentes que outros. Assim, essa anotação gera subsídios para as tarefas automáticas de detecção e correção de problemas linguísticos com vistas à produção de sumários automáticos não só mais informativos (isto é, que cobrem o conteúdo do material de origem), como também linguisticamente bem-estruturados.	pt_BR
Appears in Collections:	DCC - Artigos publicados em periódicos

Files in This Item:

File	Description	Size	Format
ARTIGO_An investigation of linguistic problems in automatic multi-document summaries.pdf		410,14 kB	Adobe PDF	View/Open

Show simple item record Recommend this item

This item is licensed under a Creative Commons License

Admin Tools