
La Traduction Automatique qu'est-ce que c'est ?
La Traduction Automatique, ou logiciel de traduction automatique, est un processus utilisant un logiciel informatique pour transcrire un texte d'une langue naturelle (comme l'anglais) vers une autre (comme l'espagnol).
Pour traduire, le sens du texte original (source) doit être compris pour être restitué dans la langue cible. Ce processus apparemment simple est en réalité complexe. La traduction ne se limite pas à une simple substitution mot à mot. Le traducteur doit analyser et interpréter le texte et comprendre les relations entre les mots qui peuvent influencer son sens. Ceci requiert une connaissance de la grammaire, de la syntaxe (structure de la phrase) et de la sémantique (sens des mots) à la fois dans la langue source et dans la langue cible.
La traduction humaine doit faire face à ses propres défis. Deux traducteurs ne traduiront jamais identiquement un même texte. Il est fréquent que plusieurs révisions soient nécessaires pour aboutir à une "bonne" traduction.
Le défi de la traduction Automatique est de produire des traductions comparables à des traductions humaines.
Traduction Automatique à base de règles (« Rule-based » MT)
Les logiciels de Traduction Automatique à base de règles reposent sur l'utilisation de nombreuses règles linguistiques et de millions d'entrées de dictionnaires pour chaque paire de langue.
Le logiciel parcourt le texte à traduire et crée une représentation intermédiaire à partir de laquelle la traduction est générée. Ce processus nécessite l'utilisation de dictionnaires volumineux, de données syntaxiques, morphologiques et sémantiques, et de nombreuses règles linguistiques. Le logiciel utilise ces règles pour transférer la structure grammaticale du texte source dans le texte cible (traduction).
Les traductions sont construites à partir de dictionnaires gigantesques et de règles linguistiques sophistiquées. Les utilisateurs peuvent améliorer la qualité de traduction en intégrant leur propre terminologie qui sera prise en compte au cours du processus de traduction. L'utilisation de ces dictionnaires utilisateurs prime sur les paramètres de base du logiciel.
Dans la plupart des cas, ce processus de personnalisation se fait en deux étapes: un investissement initial qui améliore sensiblement la qualité de traduction, puis des investissements continus pour améliorer la qualité de manière incrémentale.
Les logiciels de Traduction Automatique à base de règles permettent d'atteindre un niveau de qualité très élevé mais le processus de personnalisation peut se révéler long et onéreux.
Traduction automatique statistique (SMT)
Les logiciels de Traduction Automatique statistique traduisent en utilisant des « modèles statistiques » auto construits à partir de corpus monolingues et bilingues. La construction de ces « modèles statistiques » est un processus rapide mais nécessite l'existence préalable et la disponibilité de volumes importants de textes traduits. L'entrainement d'un modèle bilingue nécessite au minimum 2 millions de mots pour un domaine spécifique et bien plus pour le domaine général. Il est en théorie possible d'atteindre le seuil de qualité attendu pour les entreprises mais, dans les faits, il est rare que les entreprises disposent de tels volumes de documents traduits. En outre, les logiciels de Traduction Automatique statistique nécessitent des configurations matérielles lourdes pour traduire avec des performances normales.
Comparaison Rule-based / SMT
Les logiciels de Traduction Automatique à base de règles ont un bon niveau de qualité pour des traductions généralistes « hors domaines », et les traductions sont par nature prédictibles. La personnalisation par ajout de dictionnaires utilisateurs améliore significativement la qualité de traduction tout en garantissant le respect de la langue de l'entreprise. La performance de ces logiciels est élevée sur des configurations matérielles moyennes. Les points faibles sont un manque de « fluidité » dans les traductions et une personnalisation qui peut se révéler longue et couteuse.
Les logiciels de Traduction Automatique statistique traduisent avec une qualité satisfaisante lorsque des corpus suffisamment volumineux et pertinents sont disponibles. La traduction est « fluide », c'est-à-dire qu'elle est facile à lire et répond par conséquent aux attentes du lecteur. Les traductions sont toutefois imprévisibles et manque de cohérence entre elles. L'entrainement des logiciels à partir d'un bon corpus de référence est automatique, rapide et peu couteuse. Les logiciels de Traduction Automatique statistique requièrent en outre des configurations matérielles lourdes pour s'entraîner et traduire.
| Rule-Based MT | Statistical MT |
|---|---|
| + Qualité contrôlable : Traductions prévisibles et homogènes | - Traductions imprévisibles et hétérogènes |
| + Bonne qualité des traductions généralistes | - Qualité faible sur les domaines généralistes |
| + Connaissance des règles grammaticales | - Pas de connaissance de la grammaire |
| + Performance et robustesse | - Besoin en CPU et espace disque importants |
| + Cohérence entre les versions | - Pas de cohérence entre les versions |
| - Manque de fluidité | + Traductions fluides |
| - Difficulté à gérer les exceptions | + Reconnaît bien les exceptions |
| - Coût de développement et de personalisation élevés | + Développement rapide et peu onéreux si des corpus de qualité sont disponibles |
Compte-tenu des avantages et inconvénients de chaque technologie et des attentes des clients, il existe clairement une voie pour une troisième approche permettant d'atteindre une meilleure qualité, avec un investissement réduit et des performances élevées.










