La langue a été un outil essentiel pour l’évolution humaine et demeure aujourd’hui encore au coeur de nos sociétés. Elle faconne notre manière de penser, transmettre le savoir et préserver notre identité dans un monde regorgeant de nombreux dialectes qui diffèrent selon les régions, cultures et peuples
L’Afrique illustre parfaitement cette réalité. Elle compte une multitude de langues et de dialectes mais qui sont malheuresement entrain de disparaitre. Cette disparition progressive constitue une perte culturelle majeure, mais elle n’est pas une fatalité. Des solutions existent.
Avec l’apparition du dataset Waxal , on a une immense opportunité de conserver ces differentes langues et de briser la barrière entre les technologies modernes et nos differentes populations locales. En transformant les langues africaines en ressources numériques accessibles, WAXAL ouvre la voie à une intelligence artificielle plus inclusive et respectueuse de la diversité culturelle.
C’est quoi exactement WAXAL ?

WAXAL est un large open speech dataset de 21 langues africaines principalement originaire de l’Afrique subsaharienne, et représente environ 100 millions de speakers. Il a été developpé grace à la collaboration de differentes institutions notamment celle de University of Ghana , Addis Ababa University , Digital Umuganda en partenariat avec Google
Caractéristiques du dataset
Toutes les informations de cet article sont vérifiables à travers ce papier scientifique : WAXAL Paper
Ce dataset est divisé en deux parties principales :
- Automated Speech Recognition (ASR) : un dataset couvrant 19 langues , constitué d’environ 1 250 heures de natural speech transcrit, issu d’une variété de voix (hommes et femmes).
- Text-to-Speech (TTS) : un dataset composé d’environ 180 heures d’enregistrements à locuteur unique (single-speaker recordings), réalisés à partir de scripts phonétiquement préparés.
Ces deux datasets sont complémentaires pour l’explotation de ces données vocales et permettront à la conception de differentes applications lié à la parole.
Automated Speech Recognition (ASR)

References
[1] Abdoulaye Diack et al. “WAXAL: A LARGE-SCALE MULTILINGUAL AFRICAN LANGUAGE SPEECH CORPUS” arXiv preprint arXiv: 2602.02734v2 (2026)
[2] “Introducing WAXAL: A new open dataset for African speech technology” Google Africa Blog, 02 Feb. 2026
[3] Google, “WaxalNLP dataset” Hugging Face, 2026.