Comprendre la Traduction Automatique

La traduction par ordinateur est la Traduction Automatique (TA). Ce processus utilise un logiciel informatique pour transcrire un texte d'une langue naturelle (par exemple, l'anglais) vers une autre (par exemple, l'espagnol).

Pour traduire, le sens du texte original (source) doit être compris pour être restitué dans la langue cible. Ce processus apparemment simple est en réalité complexe. La traduction ne se limite pas à une simple substitution mot à mot. Le traducteur doit analyser et interpréter le texte et comprendre les relations entre les mots qui peuvent en influencer le sens. Ceci requiert une connaissance de la grammaire, de la syntaxe (structure de la phrase) et de la sémantique (sens des mots), à la fois dans la langue source et dans la langue cible.

La traduction humaine doit faire face à ses propres défis. Deux traducteurs ne traduiront jamais identiquement un même texte. Il est fréquent que plusieurs révisions soient nécessaires pour aboutir à une "bonne" traduction. Le défi de la traduction automatique est de produire des traductions comparables à des traductions humaines.

Traduction Automatique à base de règles (« Rule-based » MT)

Les logiciels de traduction automatique à base de règles reposent sur l'utilisation de nombreuses règles linguistiques et de millions d'entrées de dictionnaires pour chaque paire de langues.

Le logiciel parcourt le texte à traduire et crée une représentation intermédiaire à partir de laquelle la traduction est générée. Ce processus nécessite l'utilisation de dictionnaires volumineux, de données syntaxiques, morphologiques et sémantiques, et de nombreuses règles linguistiques. Le logiciel utilise ces règles pour transférer la structure grammaticale du texte source dans le texte cible (traduction).

Les traductions sont construites à partir de dictionnaires gigantesques et de règles linguistiques sophistiquées. Les utilisateurs peuvent améliorer la qualité de traduction en intégrant leur propre terminologie ; celle-ci sera prise en compte au cours du processus de traduction. L'utilisation de ces dictionnaires utilisateurs prime sur les paramètres de base du logiciel.

Dans la plupart des cas, ce processus de personnalisation se fait en deux étapes : un investissement initial qui améliore sensiblement la qualité de traduction, puis des investissements continus pour améliorer la qualité de manière incrémentale. Les logiciels de traduction automatique à base de règles permettent d'atteindre un niveau de qualité très élevé, mais le processus de personnalisation peut se révéler long et onéreux.

Traduction automatique statistique (SMT)

Les logiciels de traduction automatique statistique traduisent en utilisant des « modèles statistiques » auto construits à partir de corpus monolingues et bilingues. La construction de ces « modèles statistiques » est un processus rapide mais nécessite l'existence préalable et la disponibilité de volumes importants de textes traduits. L'entraînement d'un modèle bilingue nécessite au minimum 2 millions de mots pour un domaine spécifique et bien plus pour le domaine général. En théorie, il est en possible d'atteindre le seuil de qualité attendu pour les entreprises mais, dans les faits, il est rare que les entreprises disposent de tels volumes de documents traduits. En outre, les logiciels de traduction automatique statistique nécessitent des configurations matérielles lourdes pour exécuter des modèles de traduction afin de garantir des performances normales.

Comparaison Rule-based / SMT

Les logiciels de Traduction Automatique (TA) à base de règles ont un bon niveau de qualité pour des traductions généralistes « hors domaines », et les traductions sont par nature prédictibles. La personnalisation par ajout de dictionnaires utilisateurs améliore significativement la qualité de traduction tout en garantissant le respect de la langue de l'entreprise Mais la traduction obtenue peut ne pas être aussi fluide et naturelle que souhaité. En termes d'investissement, le cycle de personnalisation requis pour atteindre le seuil de qualité peut être long et coûteux. Les performances sont élevées, même avec un matériel standard.

Les points faibles sont un manque de « fluidité » dans les traductions et une personnalisation qui peut se révéler longue et coûteuse. Les logiciels de traduction automatique statistique produisent une traduction de qualité satisfaisante lorsque des corpus suffisamment volumineux et pertinents sont disponibles. La traduction est « fluide », c'est-à-dire qu'elle est facile à lire et répond par conséquent aux attentes du lecteur. Les traductions sont toutefois imprévisibles et manquent de cohérence entre elles. L'entraînement des logiciels à partir d'un bon corpus de référence est automatique, rapide et peu coûteuse. Les logiciels de traduction automatique statistique requièrent en outre des configurations matérielles lourdes pour s'entraîner et traduire.

Rule-Based MT Statistical MT
+ Traductions prévisibles et homogènes – Unpredictable translation quality
+ Bonne qualité des traductions généralistes – Poor out-of-domain quality
+ Connaissance des règles grammaticales – Does not know grammar
   
+ Performance et robustesse – High CPU and disk space requirements
+ Cohérence entre les versions – Inconsistency between versions
   
– Lack of fluency + Traductions fluides
– Hard to handle exceptions to rules + Reconnaît bien les exceptions
   
– High development and customization costs + Développement rapide et peu onéreux si des corpus de qualité sont disponibles

Compte-tenu des avantages et inconvénients de chaque technologie et des attentes des clients, il existe clairement une voie pour une troisième approche permettant d'atteindre une meilleure qualité, avec un investissement réduit et des performances élevées.

Veuillez compléter l'information ci-dessous pour télécharger le document.

*Champs obligatoires

Des informations n'ont pas été correctement renseignées. Veuillez compléter les champs encadrés en rouge

Informations société
Information contact
Code de sécurité

Saisissez les caractères comme visibles dans l'image ci-dessus (sans différentiation de casse). Veuillez cliquer sur l'image si vous avez des difficultés pour lire ces caractères.