Table Of ContentUniversitédeNantes
ÉCOLE DOCTORALE STIM
« SCIENCES ET TECHNOLOGIES DE L’INFORMATION ET DES MATÉRIAUX »
Année
Alignement multilingue en corpus
comparables spécialisés
Caractérisation terminologique multilingue
THÈSE DE DOCTORAT
Discipline:Informatique
Spécialité :TraitementAutomatique duLangageNaturel
Présentée
etsoutenuepubliquement par
Emmanuel PROCHASSON
Le17décembre2009àl’UFR Sciences&Techniques,UniversitédeNantes,
devantlejuryci-dessous
Président : Pr.Kamel SMAÏLI UniversitéNancy2
Rapporteurs : ÉricGAUSSIER,Professeur UniversitéJosephFourier
Yves LEPAGE,Professeur UniversitédeCaen
Examinateurs : Béatrice DAILLE,Professeur UniversitédeNantes
Emmanuel MORIN,Professeur UniversitédeNantes
Kamel SMAÏLI,Professeur UniversitéNancy2
Directeurdethèse:Pr.Béatrice DAILLE
Encadrantdethèse:Pr.Emmanuel MORIN
Laboratoire: LABORATOIRE D’INFORMATIQUE DE NANTES ATLANTIQUE.
CNRS UMR .,ruedelaHoussinière, BP –Nantes, CX .
ALIGNEMENT MULTILINGUE EN CORPUS COMPARABLES
SPÉCIALISÉS
CARACTÉRISATION TERMINOLOGIQUE MULTILINGUE
Multilingual alignment from specialised comparable corpora
Multilingualterminologycharacterisation
Emmanuel PROCHASSON
⊲⊳
favetneptunuseunti
Université de Nantes
Emmanuel PROCHASSON
Alignementmultilingueencorpuscomparablesspécialisés
Caractérisationterminologiquemultilingue
IV+X+122p.
CedocumentaétépréparéavecLATEX2eetlaclassethese-LINAversionv.0.1del’associationdejeunes
chercheurseninformatiqueLOGIN,UniversitédeNantes.
Cetteclasseestconformeauxrecommandationsduministèredel’éducationnationale,del’enseigne-
mentsupérieuretdelarecherche(circulaireno 05-094dumars),del’UniversitédeNantes,de
l’écoledoctorale«SciencesetTechnologiesdel’InformationetMathématiques»(ED-STIM), et respecte
la norme AFNOR NF Z41-006 (octobre ) Présentation des thèses et documents assimilés de
l’associationfrançaisedenormalisation(AFNOR).
Computersaregoodatfollowinginstructions,butnotatreading
yourmind.
—DonaldE.Knuth,theTEXbook(page9).
Il se prénommait Rinri, ce qui signifie Moral, [...] mais l’ono-
mastiquejaponaiseestcoutumièredeshapax.
—AmélieNothomb,Biographiedelafaim.
Résumé
Lescorpuscomparablesrassemblentdesdocumentsmultilinguesn’étantpasenrelationdetraduction
mais partageant des traits communs. Notre travail porte sur l’extraction de lexique bilingue à partir
de ces corpus, c’est-à-dire la reconnaissance et l’alignement d’un vocabulaire commun multilingue
disponible dans le corpus. Nous nous concentrons sur les corpus comparables spécialisés, c’est-à-
dire des corpus constitués de documents révélateurs de la terminologie utilisée dans les langues de
spécialité. Nous travaillons sur des corpus médicaux, l’un deux couvre la thématique du diabète et
del’alimentation,enfrançais,anglaisetjaponais;l’autrecouvrelathématiqueducancerdusein,en
anglais et en français. Nous proposons et évaluons différentes améliorations du processus d’aligne-
ment, en particulier dans le cas délicat de la langue japonaise. Nous prolongeons ce manuscrit par
uneréflexionsurlanaturedescorpuscomparablesetlanotiondecomparabilité.
Mots-clés:corpuscomparables,languedespécialité,alignementmultilingue
Abstract
Comparablecorporaaresetsofdocumentswrittenindifferentlanguages,whicharenottranslations
ofeachotherbutsharecommonfeatures,suchasthetopicorthediscoursetype.Ourworkconcerns
bilinguallexiconextractionfromsuchcorpora,inotherword,theprocessoffindingtranslationpairs
amongthecommonmultilingualvocabularyavailableincomparablecorpora.Wefocusonspecialised
comparable corpora, for they are likely to reveal the terminology proper to specialised language.
We work on corpora made of medical documents: one of them covers the topic of diabetes and
feeding,inFrench,EnglishandJapanese;theotheronecoversthetopicofbreastcancer,inFrenchand
English.Weproposeseveralimprovementsfortheclassicalalignmentprocess,especiallyconcerning
thedelicatecaseoftheJapaneselanguage,distantfromFrenchandEnglish.Weconcludethisthesis
withthoughtsconcerningthenatureofcomparablecorporaandthequestionofcomparability.
Keywords: comparablecorpora,specialisedlanguage,multilingualaligment
Remerciements
J’adressemesplussincèresremerciementsàmesencadrantsquiontconsacréénormémentdetemps
àmesoutenir.Ungrandmerciàmadirectricedethèse,BéatriceDaille,qui,malgréunemploidutemps
bien rempli a pris le temps de mettre en avant les défauts de mon travail (et quelques fois les qualités),
quitte à traverser l’Oural pour ça. Merci à Emmanuel Morin, pour sa disponibilité et le temps que j’ai
dû lui faire perdre en me présentant régulièrement à l’improviste dans son bureau pour lui faire part
de mes inquiétudes scientifiques, auxquelles il a toujours pris soin de répondre. Merci à eux pour leurs
compétencesscientifiquesetpédagogiques,etpourm’avoirdonnerl’opportunitédecollaboreraveceux
auseindel’équipeTALN.
Merci aux rapporteurs de ce travail, Yves Lepage et Éric Gaussier pour avoir eu le courage de le
disséquer pour en révéler les défauts et, heureusement, les qualités. Merci également à Kamel Smaïli
pouravoiracceptédeprésidermonjurydethèseetpoursescommentairesconstructifs.
MesremerciementsvontaussiàKyoKageuraetAkikoAizawa,quim’ontaccueilliàTokyopendant
troismois(etm’ontpermidefouleràlafoislamoquettedugratte-cielduNIIetlecampusdel’Université
de Tokyo), souvenirs qui resteront longtemps gravés dans ma mémoire. Cette période de collaboration
a été le point de départ de nombreuses réflexions et je souhaite de tout coeur pouvoir renouveler cette
expérience,d’unpointdevuescientifiquecommepersonnel.
MerciauConseilGénéraldeLoire-Atlantiquepouravoirfinancécetravail,maisaussipouravoirété
àmonécoutepouraméliorerledispositifdefinancement,pouravoirétéaussiattentifauxproblématiques
desdoctorantsetdelarecherchescientifiqueengénéral.
Description:Les corpus comparables rassemblent des documents multilingues n'étant Toutefois, ces artefacts de traduction sont lissés avec l'augmentation.