Approche supervis\'ee de calcul de similarit\'e s\'emantique entre paires de phrases (Supervised approach to compute semantic similarity between sentence pairs)

JEPTALNRECITAL 2020 · Khadim Dram{\'e}, Gorgoumack Sambe, Ibrahima Diop, Lamine Faty ·

Ce papier d{\'e}crit les m{\'e}thodes que nous avons d{\'e}velopp{\'e}es pour participer aux t{\^a}ches 1 et 2 de l{'}{\'e}dition 2020 du d{\'e}fi fouille de textes (DEFT 2020). Pour la premi{\`e}re t{\^a}che, qui s{'}int{\'e}resse au calcul de scores de similarit{\'e} s{\'e}mantique entre paires de phrases, sur une {\'e}chelle de 0 {\`a} 5, une approche supervis{\'e}e o{\`u} chaque paire de phrases est repr{\'e}sent{\'e}e par un ensemble d{'}attributs a {\'e}t{\'e} propos{\'e}e. Des algorithmes classiques d{'}apprentissage automatique sont ensuite utilis{\'e}s pour entrainer les mod{\`e}les. Diff{\'e}rentes mesures de similarit{\'e} textuelle sont explor{\'e}es et les plus pertinentes sont combin{\'e}es pour supporter nos m{\'e}thodes. Diff{\'e}rentes combinaisons ont {\'e}t{\'e} test{\'e}es et {\'e}valu{\'e}es sur les donn{\'e}es de test du DEFT 2020. Notre meilleur syst{\`e}me qui s{'}appuie sur un mod{\`e}le Random Forest a obtenu les meilleures performances sur la premi{\`e}re t{\^a}che avec une EDRM de 0,8216.

PDF Abstract