Enriching Portuguese medieval texts with named entity recognition

Bico, M. I.; Baptista, J.; Batista, F.; Cardeira, E.

doi:10.3366/ijhac.2024.0324

Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/31538

Registo completo

Campo DC	Valor	Idioma
dc.contributor.author	Bico, M. I.	-
dc.contributor.author	Baptista, J.	-
dc.contributor.author	Batista, F.	-
dc.contributor.author	Cardeira, E.	-
dc.date.accessioned	2024-04-15T08:19:32Z	-
dc.date.available	2024-04-15T08:19:32Z	-
dc.date.issued	2024	-
dc.identifier.citation	Bico, M. I., Baptista, J., Batista, F., & Cardeira, E. (2024). Enriching Portuguese medieval texts with named entity recognition. International Journal of Humanities and Arts Computing, 18(1), 109-124. https://doi.org/10.3366/ijhac.2024.0324	-
dc.identifier.issn	1753-8548	-
dc.identifier.uri	http://hdl.handle.net/10071/31538	-
dc.description.abstract	Historical data poses unique challenges to natural language processing (NLP) and information retrieval (IR) tools, including digitization errors, lack of annotated data, and diachronic-specific issues. However, the increasing recognition of the value in historical documents has promoted efforts to semantically enrich and optimize their analysis. This article contributes to this endeavour by enriching the Corpus de Textos Antigos through NLP tools and techniques to enhance its usability and support research. The corpus undergoes linguistic annotation, including part-of-speech tagging, lemma annotation and named entity recognition (NER). Subsequently, the article delves into the tasks of entity disambiguation and entity linking, which involve identifying and disambiguating named entities by referring to a knowledge base (KB). Addressing the challenges posed by factors such as text state, epoch and the chosen KB, the article presents insights into related work, annotation results and the linguistic interest of a medieval annotated corpus for named entities. It concludes by discussing the challenges and providing avenues for future research in this domain.	eng
dc.language.iso	eng	-
dc.publisher	Edinburgh University Press	-
dc.rights	openAccess	-
dc.subject	Corpus analysis	eng
dc.subject	Named entity disambiguation	eng
dc.subject	Named entity linking	eng
dc.subject	Natural language processing	eng
dc.subject	Information retrieval	eng
dc.subject	Portuguese medieval texts	eng
dc.title	Enriching Portuguese medieval texts with named entity recognition	eng
dc.type	article	-
dc.pagination	109 - 124	-
dc.peerreviewed	yes	-
dc.volume	18	-
dc.number	1	-
dc.date.updated	2024-04-15T09:17:24Z	-
dc.description.version	info:eu-repo/semantics/acceptedVersion	-
dc.identifier.doi	10.3366/ijhac.2024.0324	-
dc.subject.fos	Domínio/Área Científica::Humanidades::Línguas e Literaturas	por
iscte.subject.ods	Educação de qualidade	por
iscte.identifier.ciencia	https://ciencia.iscte-iul.pt/id/ci-pub-103751	-
iscte.journal	International Journal of Humanities and Arts Computing	-
Aparece nas coleções:	CTI-RI - Artigos em revistas científicas internacionais com arbitragem científica

Ficheiros deste registo:

Ficheiro	Tamanho	Formato
article_103751.pdf	265,34 kB	Adobe PDF	Ver/Abrir

Mostrar registo em formato simples Visualizar estatísticas