Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10071/4038
Autoria: | Tiny, Abigail Amaro, Haldane Hendrickx, Iris Hagemeijer, Tjerk |
Data: | Nov-2012 |
Título próprio: | O Forro: a construção de um corpus |
ISBN: | 978-989-732-089-7 |
Palavras-chave: | São Tomé Crioulo Forro (santome) Corpus linguístico Normalização Anotação Creole Linguistic corpus Normalization Annotation |
Resumo: | Este trabalho apresenta o processo de construção de um corpus de material oral e escrito do forro (santome), um crioulo de base lexical portuguesa falado na ilha de São Tomé. O corpus compreende dados da segunda metade do século XIX até ao presente. Abordamos as dificuldades típicas de línguas não oficiais que são predominantemente orais, tais como a normalização ortográfica e um conjunto de dados mais restrito. Para a compilação do corpus seguimos padrões linguísticos de corpora e para codificar os metadados utilizámos a codificação de carateres UTF-8 e XML. Definimos um conjunto de metadados e apresentamos as etiquetas desenvolvido para a anotação dos dados com informação linguística. This paper presents the process of building a corpus of spoken and written material of forro (santome), a Portuguese-related creole spoken on the island of S. Tomé (Gulf of Guinea, Africa). The corpus comprises data from the second half of the 19th century until the present. We address the usual difficulties related to non-official languages that are predominantly spoken, such as orthographic normalization and a relatively small data set. For the corpus compilation we followed corpus linguistics standards and used UTF-8 character encoding and XML to encode meta information. We also present a POS-tag set developed for forro that will be used to annotate the data with linguistic information. |
Acesso: | Acesso Aberto |
Aparece nas coleções: | CEI-CLN – Capítulos de livros nacionais |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Tiny_Amaro_Hendrickx_Tjerk_STP_597_609.pdf | 384,97 kB | Adobe PDF | Ver/Abrir |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.