Intégration numérique de la langue kabyle: investir des projets mondiaux

La Rédaction

il y a 7 ans

Samedi 14 juillet 2018

Recherche

Intégration numérique de la langue kabyle: investir des projets mondiaux

La localisation des systèmes informatiques en kabyle permettra de vulgariser le lexique produit jusqu’à aujourd’hui mais stimulera et provoquera d’autres besoins pour pouvoir satisfaire la demande accrues des diverses sciences que ces systèmes couvrent.

Le monde opensource est en pleine expansion à travers le monde. Il répond à tous les besoins possibles allant de la technique, à la littérature en passant par les métiers de l’entreprise ou des solutions verticales destinées à des besoins très particuliers.

Ces systèmes et en particulier opensource, sont ouverts à toutes les langues codifiées dans la norme iso 639-2 dont fait partie la langue kabyle.

La localisation ne suffit pas à elle seule pour intégrer numériquement la langue kabyle. Des besoins nouveaux naissent chaque jour à travers le monde. Le monde numérique provoque souvent ces besoins.

Nous tendons vers un monde où tous les objets doivent être connectés. Ces objets interagissent avec l’homme qui les commande au besoin ou d’une manière automatisée. Dans ce monde, point de place aux langues traditionnelles.

Le besoin de la rentabilité, la productivité, la collaboration, … à l’échelle internationale exigent la maitrise des langues. Il faut pouvoir s’affirmer dans un environnement (entreprise, organisation) d’envergure internationale, mais l’humain possèdent ses propres limites que ce soit dans la maitrise des langues ou des connaissances diverses. Il doit faire appel à la machine.

Intégrer la langue kabyle dans ces outils ultramodernes, c’est d’abord la protéger mais aussi offrir les moyens aux locuteurs kabylophones d’interagir en dehors de leur environnement sans risquer l’assimilation linguistique qui frappent nos communautés en France, au canada et ailleurs.

La nécessité d’investir le traitement automatique des langues, l’intelligence artificielle… en explorant ce qui se produit dans les domaines des sciences de données, du deep learning, et de l’apprentissage automatique… se ressent. Si ces sciences sont une bénédiction pour les langues fortes et visibles, elles peuvent néanmoins s’avérer néfastes pour les langues mineures. Elles peuvent tout simplement être à l’origine du déclin de plusieurs langues non visibles et peu intégrées dans le numérique à l’image de la langue kabyle.

Plusieurs projets sont lancés par la communauté kabylophone. Certain sont en cours comme celui lancé dans le cadre du projet Common Voice de Mozilla (voir : https://voice.mozilla.org/kab/) pour produire un moteur vocale dont les applications sont très variées, nous citons :

Saisie/synthèse de texte à partir de la voix
Génération de la voix à partir du texte.
Dialogue et traduction vocale/textuelles en live
Sécurité basée sur la voix
Commande et contrôle basées sur la voix.
….etc.

A côté, de la reconnaissance vocale, d’autres projets impliquant le traitement automatique de la langue kabyle doivent être lancés, en allant de l’analyse morpho-syntaxique, lemmatisation & racinisation, dérivateur & générateurs de flexions, correcteurs orthographiques, analyseurs grammaticaux, analyseurs sémantiques, reconnaisseurs d’entités nommées, analyseurs de sentiments, de discours….etc. Ils permettront une intégration complète de la langue dans ce monde dit des objets connectés.

Un exemple de tels projets a déjà été initié par la communauté kabylophone. Il s’agit d’un analyseur morpho-syntaxique se basant sur le projet NLTK (Natural Language Tool kit), se basant sur les dernières technique en la matière.

Ce projet est disponible en libre accès sur l’adresse (https://gitlab.com/belkacem77/KabyleNLP). Deux algorithmes principaux traitant de l’analyse morphosyntaxique se basant sur un modèle d’apprentissage existent en libre accès. Ils sont développés à l’aide du langage Python. L’un génère le modèle d’apprentissage de la langue kabyle à partir d’un corpus étiqueté manuellement et l’autre l’utilise pour analyser et étiqueter des textes en langue kabyle.

Cet exemple de projet nécessite la collaboration des linguistes pour codifier et produire des corpus en langue kabyle, et de l’autre côté des informaticiens capables de traiter et de développer des algorithmes se basant sur les dernières techniques issues des grandes universités, centres de recherche mais aussi les industries linguistiques et les adapter au contexte linguistique de la langue kabyle.

Mohammed Belkacem est Ingénieur informaticien

Auteur

Mohammed Belkacem