Indexation et appariement de documents cliniques avec le mod\`ele vectoriel (Indexing and matching clinical documents using the vector space model)
Dans ce papier, nous pr{\'e}sentons les m{\'e}thodes que nous avons d{\'e}velopp{\'e}es pour participer aux t{\^a}ches 1 et 2 de l{'}{\'e}dition 2019 du d{\'e}fi fouille de textes (DEFT 2019). Pour la premi{\`e}re t{\^a}che, qui s{'}int{\'e}resse {\`a} l{'}indexation de cas cliniques, une m{\'e}thode utilisant la pond{\'e}ration TF-IDF (term frequency {--} inverse document frequency) a {\'e}t{\'e} propos{\'e}e. Quant {\`a} la seconde t{\^a}che, la m{\'e}thode propos{\'e}e repose sur le mod{\`e}le vectoriel pour apparier des discussions aux cas cliniques correspondants ; pour cela, le cosinus est utilis{\'e} comme mesure de similarit{\'e}. L{'}indexation s{\'e}mantique latente (latent semantic indexing {--} LSI) est {\'e}galement exp{\'e}riment{\'e}e pour {\'e}tendre cette m{\'e}thode. Pour chaque m{\'e}thode, diff{\'e}rentes configurations ont {\'e}t{\'e} test{\'e}es et {\'e}valu{\'e}es sur les donn{\'e}es de test du DEFT 2019.
PDF Abstract