Les combinaisons linguistiques ne sont pas toutes égales.
La même IA qui excelle dans la traduction anglais-espagnol peut rencontrer des difficultés avec les noms islandais, la segmentation thaïlandaise ou les dialectes arabes.
Pour les dirigeants qui passent d'un système de gestion de traduction (TMS) traditionnel à un contenu multilingue piloté par l'IA, l'une des premières questions pratiques est de savoir si la qualité du modèle varie réellement selon la combinaison linguistique.
Voici donc une explication sur les points forts des systèmes actuels, leurs difficultés, les raisons pour lesquelles les lacunes persistent et la manière de planifier une stratégie humaine raisonnable qui maintient un équilibre entre la qualité, la rapidité et le coût.

Les modèles apprennent à partir d'exemples disponibles sur le web. Les combinaisons linguistiques de l'anglais vers les principales langues européennes sont très nombreuses en ligne, et ces données sont de haute qualité. En revanche, de nombreuses langues africaines et sud-asiatiques sont plus rares. Ce déséquilibre se reflète dans la qualité. Le tableau de bord en direct World Wide Web Technology Surveys (W3Techs) montre qu'en août 2025, l'anglais représente environ 49 % du contenu connu des sites web, ce qui indique clairement où se trouvent les données d'entraînement les plus riches.
Certaines langues, telles que le thaï, le lao et le khmer, n'utilisent pas d'espaces entre les mots. Les systèmes doivent d'abord deviner où commencent et finissent les mots, ce qui entraîne des erreurs. Les recherches thaïlandaises sur le traitement du langage naturel soulignent régulièrement que la segmentation représente un défi majeur.
Langues telles que le finnois, le hongrois, le turc et l'islandais intègrent beaucoup d'informations dans les terminaisons des mots (cas, nombre, genre). Les suites de tests de la Conférence 2024 sur la Traduction Automatique (WMT 2024) révèlent des problèmes persistants dans la traduction de l'anglais vers l'islandais, notamment en ce qui concerne les expressions idiomatiques et les noms propres qui nécessitent la bonne inflexion.

Répertoriez vos combinaisons linguistiques critiques et vos types de contenu. Pour les contenus réglementés, critiques pour la sécurité ou déterminants pour l'image de marque, prévoyez systématiquement une vérification humaine, en particulier pour les combinaisons linguistiques à haut risque.
Testez votre contenu réel, pas seulement des phrases types. Incluez les pages complètes, les clauses juridiques, les chaînes d'interface utilisateur et les noms de produits. Cela reflète la manière dont la WMT 2024 a élargi le champ d'évaluation.
Utilisez des humains et des métriques pour procéder aux mesures. Utilisez des scores de qualité automatisés pour effectuer un tri, puis confirmez les cas présentant les risques les plus élevés par un examen humain ciblé. Attendez-vous à des différences en fonction du sens et du domaine.
Exemples :
• « Anglais→Thaï juridique – toujours confier la vérification à un humain. »
• « Anglais→Espagnol marketing – publier si le score ≥ X ; sinon, légère modification humaine. »
5Maintenez un glossaire et un guide de style à jour pour chaque langue. Cela réduit les incohérences, un problème fréquent en cas d'évolution.