Normalisation automatique du vocabulaire source pour traduire depuis une langue \`a morphologie riche (Learning Morphological Normalization for Translation from Morphologically Rich Languages)
Lorsqu{'}ils sont traduits depuis une langue {\`a} morphologie riche vers l{'}anglais, les mots-formes sources contiennent des marques d{'}informations grammaticales pouvant {\^e}tre jug{\'e}es redondantes par rapport {\`a} l{'}anglais, causant une variabilit{\'e} formelle qui nuit {\`a} l{'}estimation des mod{\`e}les probabilistes. Un moyen bien document{\'e} pour att{\'e}nuer ce probl{\`e}me consiste {\`a} supprimer l{'}information non pertinente de la source en la normalisant. Ce pr{\'e}-traitement est g{\'e}n{\'e}ralement effectu{\'e} de mani{\`e}re d{\'e}terministe, {\`a} l{'}aide de r{\`e}gles produites manuellement. Une telle normalisation est, par essence, sous-optimale et doit {\^e}tre adapt{\'e}e pour chaque paire de langues. Nous pr{\'e}sentons, dans cet article, une m{\'e}thode simple pour rechercher automatiquement une normalisation optimale de la morphologie source par rapport {\`a} la langue cible et montrons que celle-ci peut am{\'e}liorer la traduction automatique.
PDF Abstract