Dimanche 8 juillet 2018
Au-delà du projet de la localisation de Common Voice en langue kabyle
Nous avons lancé depuis des mois la localisation du site Common Voice de Mozilla en langue kabyle dans l’espoir de collecter des données vocales en langue kabyle. L’objectif de la localisation du site étant atteint.
La locale kabyle dispose actuellement d’une place parmi d’autres langues à travers le monde. Le site est accessible en ligne sur l’adresse: https://voice.mozilla.org/kab, où des contributeurs commencent déjà à enregistrer leur voix sur les corpus en kabyle déjà exposés et participer à la présélection des enregistrements effectués.
L’enregistrement de la voix se fait actuellement sur la base d’un corpus de 3000 phrases intégrées par une équipe de contributeurs.
Nous comptons atteindre un objectif de 1000 heures d’enregistrements libres de droit, destinés à produire des modèles d’apprentissage vocaux kabyles, à utiliser librement sur les dispositifs numériques. Les 1000 heures d’enregistrements sont absolument nécessaires pour produire un moteur vocal kabyle de haute qualité.
Il s’agit donc de pouvoir générer des modèles pré-entrainés pour alimenter les moteurs vocaux:
-
Un moteur text2Speech: Il permettra d’interagir avec les machines en leur fournissant du texte en kabyle et la machine pourra le lire. Hormis les usages courants, ce type d’outils permettra aussi aux personnes dans l’incapacité de parler en kabyle pour différentes raisons (non maitrise, incapacité physique) d’interagir avec des kabylophones via la parole.
-
Un moteur speech2text: Il permettra d’interagir avec les machines en leur fournissant de la voix en kabyle et la machine pourra le traduire en texte. Hormis les usages courants, ce type d’outils permettra aussi aux personnes dans l’incapacité d’écrire en kabyle pour différentes raisons (non maitrise, incapacité physique) d’interagir avec des kabylophones par l’écrit (emails, rédaction de papier…).
Deux projets parallèles sont lancés par Mozilla pour accompagner Common Voice, et que nous espérons investir très prochainement pour entrainer les données collectées via Common Voice pour intégrer la langue kabyle:
-
Le projet DeepSpeech: Il fait partie du projet Common Voice. DeepSpeech est un moteur Speech-To-Text (voix->texte) opensource, utilisant un modèle entrainé via les techniques d’apprentissage automatique, il se base sur le document de recherche de Baidu- Scaling up end-to-end speech recognition- accessible sur l’adresse: https://arxiv.org/abs/1412.5567. Le project DeepSpeech utilise le projet TensorFlow de Google pour rendre l’implémentation plus simple.
-
Le projet TTS. Le projet TTS (Text 2 Speech – Texte->Voix) a pour objectif de produire un moteur TTS léger mais avec une très grande qualité de synthèse vocale.
Ainsi, nous lançons un appel à toutes les bonnes volontés et en particulier la communauté scientifique/académique pour intégrer ce projet en fournissant des corpus, mais aussi au grand public des quatre coins de la Kabylie pour lire et enregistrer leur voix sur le site Common Voice tout accent confondu.
Les corpus devront respecter les conditions suivantes:
-
Le corpus consiste en phrases de taille petite et moyenne, ne dépassant pas 10 secondes à la lecture.
-
Ces phrases devront être construites à partir de ressources libres de droits.
-
Elles peuvent être issues du langage quotidien, des poèmes, articles de journaux, romans, nouvelles, textes de chansons, proverbes, devinettes, script de films, théâtre,
-
Ces corpus doivent respecter la syntaxe en usage dans les écoles et universités en Kabylie.
-
Ces corpus ne doivent contenir que le langage kabyle.
-
L’auteur du corpus devra donner ses sources et devra s’identifier: Nom, email et occupation.
-
Les phrases devront être rédigées sur des fichiers textes encodées en utf8 (Word par défaut gère utf8). Une phrase par ligne.
-
Les corpus peuvent être envoyés à l’email: belkacem77@gmail.com ou via un Pull Request (insertion) sur le dépôt github : https://github.com/belkacem77/tuddar
-
Pour enregistrer votre voix en lisant des phrases ou pour participer à la présélection des enregistrements, rendez vous sur l’adresse : https://voice.mozilla.org/kab.
Une fois collectés, ces corpus seront analysés, vérifiés syntaxiquement. Les doublons seront écartés pour ne pas exposer les mêmes phrases plusieurs fois sur Common Voice.
Ce projet n’a pas pour vocation de produire un outil d’apprentissage phonologique/phonétique pour le kabyle, mais un outil de reconnaissance vocale de grande envergure (taille et qualité) destiné à intégrer les machines.
(*) Mohamed Belkacem est ingénieur informaticien – Consultant ERP et administrateur de la locale kabyle Chez Mozilla