LabEx EFL

Fiche ressource

download Metadonnées à télécharger : Dublin Core | TEI | OLAC | DCMI (Clarin)

Description de la ressource Modifier Signaler une erreur
Nom de la ressourceBijankhan Corpus
DescriptionBijankhan corpus is a tagged corpus that is suitable for natural language processing research on the Persian (Farsi) language. This collection is gathered form daily news and common texts. In this collection all documents are categorized into different subjects such as political, cultural and so on. Totally, there are 4300 different subjects. The Bijankhan collection contains about 2.6 millions manually tagged words with a tag set that contains 40 Persian POS tags. This collection is prepared and distributed by database research group at University of Tehran.
URLhttp://ece.ut.ac.ir/dbrg/bijankhan/
Publication à citerHadi Amiri, Hosein Hojjat, Farhad Oroumchian. Investigation on a Feasible Corpus for Persian POS Tagging. 12th international CSI computer conference, Iran, 2007.
Droits d'accèsTéléchargement
ModalitéEcrit
Type de donnéesCorpus
Provenance des donnéesDaily news and common texts
Formats de fichiersTXT
Langue(s)Farsi
Types d'informations linguistiquesPOS
Codage des caractèresUTF-8
État d'avancementAchevé

Personnes à contacter (internes au LabEx)

RéférentAjouter un référent

MII
StatutUtilisateur
Référent localPegah Faghiri
Adresse mailpegah.faghiri (at) univ-pairs3.fr

Producteur

OrganismeDBRG Lab. at University of Tehran – ECE department
ContactHadi Amiri : h.amiri@ece.ut.ac.ir



Valid XHTML 1.0! Valid CSS! Licence Creative Commons Admin