Description de la ressource
Signaler une erreur
|
---|
Nom de la ressource | Europarl3 |
Description | Corpus parallèle issu du site du Parlement Européen. Environ 40 millions de mots par langue, 11 langues (da, de, el, en, es, fi, fr, it, nl, pt, sv).
11 languages, 55 bitexts (3.5 G)
total number of files: 7,034
total number of tokens: 404.01M
total number of sentence fragments: 15.81M |
URL | http://opus.lingfil.uu.se/Europarl3.php |
Publication à citer | Jörg Tiedemann, 2009, News from OPUS - A Collection of Multilingual Parallel Corpora with Tools and Interfaces [pdf] In N. Nicolov and K. Bontcheva and G. Angelova and R. Mitkov (eds.) Recent Advances in Natural Language Processing (vol V), pages 237-248, John Benjamins, Amsterdam/Philadelphia |
Droits d'accès | Téléchargement |
Objectifs scientifiques | Traduction automatique, machine learning |
Modalité | Ecrit |
Type de données | Corpus |
Provenance des données | Web (Parlement Européen) |
Formats de fichiers | XML, XCES |
Taille des données (Mo) | 3,5 Go |
Langue(s) | Danish, Greek, English, Spanish, Finnish, French, Italian, Dutch, Polish, Portuguese, Slovak |
Types d'informations linguistiques | Annotations morpho-syntaxiques |
Codage des caractères | UTF-8 |
État d'avancement | Achevé |