Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/4038
Autoria: Tiny, Abigail
Amaro, Haldane
Hendrickx, Iris
Hagemeijer, Tjerk
Data: Nov-2012
Título próprio: O Forro: a construção de um corpus
ISBN: 978-989-732-089-7
Palavras-chave: São Tomé
Crioulo
Forro (santome)
Corpus linguístico
Normalização
Anotação
Creole
Linguistic corpus
Normalization
Annotation
Resumo: Este trabalho apresenta o processo de construção de um corpus de material oral e escrito do forro (santome), um crioulo de base lexical portuguesa falado na ilha de São Tomé. O corpus compreende dados da segunda metade do século XIX até ao presente. Abordamos as dificuldades típicas de línguas não oficiais que são predominantemente orais, tais como a normalização ortográfica e um conjunto de dados mais restrito. Para a compilação do corpus seguimos padrões linguísticos de corpora e para codificar os metadados utilizámos a codificação de carateres UTF-8 e XML. Definimos um conjunto de metadados e apresentamos as etiquetas desenvolvido para a anotação dos dados com informação linguística.
This paper presents the process of building a corpus of spoken and written material of forro (santome), a Portuguese-related creole spoken on the island of S. Tomé (Gulf of Guinea, Africa). The corpus comprises data from the second half of the 19th century until the present. We address the usual difficulties related to non-official languages that are predominantly spoken, such as orthographic normalization and a relatively small data set. For the corpus compilation we followed corpus linguistics standards and used UTF-8 character encoding and XML to encode meta information. We also present a POS-tag set developed for forro that will be used to annotate the data with linguistic information.
Acesso: Acesso Aberto
Aparece nas coleções:CEI-CLN – Capítulos de livros nacionais

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Tiny_Amaro_Hendrickx_Tjerk_STP_597_609.pdf384,97 kBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis Logotipo do Orcid 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.