Please use this identifier to cite or link to this item: http://hdl.handle.net/10071/4038
Author(s): Tiny, Abigail
Amaro, Haldane
Hendrickx, Iris
Hagemeijer, Tjerk
Date: Nov-2012
Title: O Forro: a construção de um corpus
ISBN: 978-989-732-089-7
Keywords: São Tomé
Crioulo
Forro (santome)
Corpus linguístico
Normalização
Anotação
Creole
Linguistic corpus
Normalization
Annotation
Abstract: Este trabalho apresenta o processo de construção de um corpus de material oral e escrito do forro (santome), um crioulo de base lexical portuguesa falado na ilha de São Tomé. O corpus compreende dados da segunda metade do século XIX até ao presente. Abordamos as dificuldades típicas de línguas não oficiais que são predominantemente orais, tais como a normalização ortográfica e um conjunto de dados mais restrito. Para a compilação do corpus seguimos padrões linguísticos de corpora e para codificar os metadados utilizámos a codificação de carateres UTF-8 e XML. Definimos um conjunto de metadados e apresentamos as etiquetas desenvolvido para a anotação dos dados com informação linguística.
This paper presents the process of building a corpus of spoken and written material of forro (santome), a Portuguese-related creole spoken on the island of S. Tomé (Gulf of Guinea, Africa). The corpus comprises data from the second half of the 19th century until the present. We address the usual difficulties related to non-official languages that are predominantly spoken, such as orthographic normalization and a relatively small data set. For the corpus compilation we followed corpus linguistics standards and used UTF-8 character encoding and XML to encode meta information. We also present a POS-tag set developed for forro that will be used to annotate the data with linguistic information.
Access type: Open Access
Appears in Collections:CEI-CLN – Capítulos de livros nacionais

Files in This Item:
File Description SizeFormat 
Tiny_Amaro_Hendrickx_Tjerk_STP_597_609.pdf384,97 kBAdobe PDFView/Open


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis Logotipo do Orcid 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.