Please use this identifier to cite or link to this item: http://hdl.handle.net/10071/4038
Full metadata record
DC FieldValueLanguage
dc.contributor.authorTiny, Abigail-
dc.contributor.authorAmaro, Haldane-
dc.contributor.authorHendrickx, Iris-
dc.contributor.authorHagemeijer, Tjerk-
dc.date.accessioned2012-11-07T12:41:01Z-
dc.date.available2012-11-07T12:41:01Z-
dc.date.issued2012-11-
dc.identifier.isbn978-989-732-089-7-
dc.identifier.urihttp://hdl.handle.net/10071/4038-
dc.description.abstractEste trabalho apresenta o processo de construção de um corpus de material oral e escrito do forro (santome), um crioulo de base lexical portuguesa falado na ilha de São Tomé. O corpus compreende dados da segunda metade do século XIX até ao presente. Abordamos as dificuldades típicas de línguas não oficiais que são predominantemente orais, tais como a normalização ortográfica e um conjunto de dados mais restrito. Para a compilação do corpus seguimos padrões linguísticos de corpora e para codificar os metadados utilizámos a codificação de carateres UTF-8 e XML. Definimos um conjunto de metadados e apresentamos as etiquetas desenvolvido para a anotação dos dados com informação linguística.por
dc.description.abstractThis paper presents the process of building a corpus of spoken and written material of forro (santome), a Portuguese-related creole spoken on the island of S. Tomé (Gulf of Guinea, Africa). The corpus comprises data from the second half of the 19th century until the present. We address the usual difficulties related to non-official languages that are predominantly spoken, such as orthographic normalization and a relatively small data set. For the corpus compilation we followed corpus linguistics standards and used UTF-8 character encoding and XML to encode meta information. We also present a POS-tag set developed for forro that will be used to annotate the data with linguistic information.por
dc.language.isoporpor
dc.publisherInstituto Universitário de Lisboa (ISCTE-IUL), Centro de Estudos Africanos (CEA-IUL)por
dc.relationinfo:eu-repo/grantAgreement/FCT/3599-PPCDT/111494/PT-
dc.rightsopenAccesspor
dc.subjectSão Tomépor
dc.subjectCrioulopor
dc.subjectForro (santome)por
dc.subjectCorpus linguísticopor
dc.subjectNormalizaçãopor
dc.subjectAnotaçãopor
dc.subjectCreolepor
dc.subjectLinguistic corpuspor
dc.subjectNormalizationpor
dc.subjectAnnotationpor
dc.titleO Forro: a construção de um corpuspor
dc.typebookPartpor
degois.publication.firstPage597por
degois.publication.lastPage609por
degois.publication.locationLisboapor
degois.publication.titleActas do Colóquio Internacional São Tomé e Príncipe numa perspectiva interdisciplinar, diacrónica e sincrónicapor
Appears in Collections:CEI-CLN – Capítulos de livros nacionais

Files in This Item:
File Description SizeFormat 
Tiny_Amaro_Hendrickx_Tjerk_STP_597_609.pdf384,97 kBAdobe PDFView/Open


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis Logotipo do Orcid 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.