Site icon Le Matin d'Algérie

Héberger des corpus de langue kabyle sur Tatoeba

Langues, plateformes d’hébergement et corpus linguistiques

Héberger des corpus de langue kabyle sur Tatoeba

Pour accélérer la création et le partage gratuit de corpus linguistiques à des fins d’analyse et de TAL, l’équipe localisatrice a sollicité les propriétaires de la plateforme Tatoeba pour introduire la langue kabyle parmi  les langues disponibles et pouvoir ainsi introduire des corpus en langue kabyle.

Pour rappel, Totoeba est une plateforme hébergeant des corpus de plusieurs langues au monde. Ces corpus sont ouverts aux usages divers traitant des langues humaines.

Comme le kabyle, toutes les langues berbères peuvent postuler à l’ouverture de leur locale si elles disposent de contenus propres et si elles sont codifiées dans la norme iso 639-3 et c’est le cas de tacawit, tarifit, tamzabit et plusieurs autres recensées et consolidées par ladite norme.

La langue kabyle sera disponible prochainement sur l’interface de Tatoeba. La localisation du site se fait via la plateforme Transifex à l’adresse : https://www.transifex.com/tatoeba/. Le projet est libre et ouvert à la communauté. L’aide de la communauté est souhaitable pour corriger les erreurs de localisation éventuelles.

Les DLCAs, centre de recherche ou institutions en relation avec les langues berbères en général ou la langue kabyle en particulier peuvent utiliser Tatoeba pour intégrer et télécharger des corpus. Les corpus consistent en phrases issues du langage quotidien ou de productions libres de droit. Ils peuvent être (corpus) issus de la littérature populaire (proverbes, dictons, contes, poésie populaire, chants populaires, devinettes, blagues..), mais aussi de romans, nouvelles, poésie, textes de chansons, script de films, pièces de théâtres kabyles mais libre de droit. Les auteurs s’ils sont détenteurs exclusifs des droits de leurs productions, peuvent aussi accorder le droit à cette plateforme pour héberger des phrases issues de leur production.

La version kabyle de la plateforme Tatoeba sera accessible sur l’adresse : https://tatoeba.org/kab.

Les contributeurs devront créer leurs comptes avant de pouvoir introduire des phrases.

Il est aussi appréciable que les futurs contributeurs puissent traduire des phrases à partir du kabyle ou vers le kabyle au lieu d’ajouter uniquement des phrases issues de la production kabyle. Les traductions confirmées seront aussi utilisées dans certains types d’analyses et de traitements par les spécialistes du TAL. L’aide des étudiants et diplômés de nos DLCAs sera très attendue, car il ne s’agit pas de localisation qui lui est un langage technique, mais de vrai corpus linguistiques qui seront utilisés dans le cadre de travaux de TAL appliqués à langue Kabyle que ce soit par la communauté libre du Web ouvert ou les universités elles-mêmes à travers le monde. Totoeba, offre aussi la possibilité d’enregistrer des lectures. Ces enregistrements seront aussi de la matière pour le traitement vocal de la langue.

Nous signalons qu’un corpus étiqueté en tant que langue berbère a déjà été introduit par d’autres contributeurs depuis plusieurs années sur la plateforme Tatoeba. La majorité de ces entrées appartiennent à la langue kabyle. Mais il très difficile, voire impossible de traiter un tel corpus à l’aide des techniques informatiques car plusieurs langues sont mélangées sous la même étiquette linguistique (ber – berbère), d’où la nécessité de les séparer puisque Tatoeba est capable de gérer toutes les langues berbères codifiées dans la norme iso 639-3 (Exp. Mozabit :  https://iso639-3.sil.org/code/mzb, Chawi : https://iso639-3.sil.org/code/shy). Il est à signaler que les langues codifiées dans ISO 639-3 ne sont pas toutes présentes sur la norme ISO 639-2 où figure aussi la langue kabyle. Les langues d’ISO 639-2 sont aussi candidates à l’intégration sur tous les systèmes informatiques même si celle-ci ne sont pas officielles. La réalité sociolinguistique, la loi de la production et de la demande sociale/politique régit en général ces normes.

Linguistiquement, les langues berbères ne suivent pas toutes les mêmes schémas. Le système flexionnel et dérivationnel, les pronoms autonome ou affixes… ne sont pas les mêmes.  Certaines de ces langues présentent aussi des écarts grammaticaux. Les outils informatiques ne peuvent pas dans ce cas traiter ces données. La codification des règles linguistiques pour une utilisation unifiée pour l’ensemble des langues berbères dans le cadre de projet de TAL n’est donc pas une tâche aisée.

D’autre part, ces corpus  étiquetés dans leur propres langues, encouragera les locuteurs à introduire leur propre contenu mais aussi, utiliser la graphie qui leur sied.

Certains ont déjà commencé à contribuer sous le nom de la langue kabyle. Nous encourageons vivement nos étudiants et diplômés des DLCAs, INALCO et autres institutions académique, à rejoindre en masse et exploiter ce nouvel outil qui est destiné. Nous remercions tous ceux qui nous ont prêté mains forte pour réaliser ce projet.

Par ailleurs, et suite à l’article de la semaine passée à propos de LibreOffice, nous confirmons la sortie de la version Alpha (test) de cette suite bureautique contenant le pack linguistique kabyle disponible pour toutes les plateformes : Windows, Linux et masOS.

Vous pouvez la télécharger via ce lien: https://www.libreoffice.org/download/download/?type=deb-x86_64&version=6.1.0&lang=kab

Le programme d’installation ne sera disponible en kabyle que lorsqu’on fournit toute la localisation (100%), nous sommes à 78% mais l’interface est à présent disponible.

Il est important de signaler les erreurs à l’équipe sur notre page FB (Tarbaεt n Imsidag Iqbayliyen et Sideg Ifecka umḍinen) ou VK (Sideg – Asideg aqbayli n ifecka umḍinen)

Nous rappelons qu’il s’agit de la version initiale pour tester et vérifier les traductions.

TAL : Traitement automatique des langues naturelles.

DLCA : Département de langue et culture Amazigh

ISO : International Organization for Standardization ou organisation internationale de normalisation.

 

Auteur
Belkacem Mohamed

 




Quitter la version mobile