|
Les principes de base d'Eurodicautom
La stratégie de recherche sur Eurodicautom a été
mise au point par M. Pol François, ingénieur civil et informaticien
à la Commission. Pour éviter des réponses du type
tout ou rien, M. François a imaginé un système qui
décompose une unité complexe en ses constituants (sauf bien
entendu pour l'uniterme).
"A défaut de la réponse totale, Eurodicautom
affiche les réponses partielles dans un ordre décroissant
de pertinence en fonction de l'adéquation à la question posée.
Le système suit donc la démarche naturelle du traducteur,
lequel recherche prioritairement l'expression complète et explore
ensuite, à défaut de mieux, les différents composants
du multiterme recherché" (R. Goffin). Ceci s'applique au mode de
recherche habituel (partial match).
Le mode de recherche "as is, full match" recherche l'occurrence
des termes telle quelle et ne répond plus alors au principe énoncé
ci-dessus. Le mode de recherche "all words" fournira quant à lui
une pléthore de réponses, c'est-à-dire le terme dans
ses multiples combinaisons.
Les mécanismes de tris multicritères
Citons ici Roger Goffin qui a lui-même puisé
pour partie cette information dans un document interne à la Commission
rédigé en 1980 par M. P. François.
Le système va opérer une hiérarchisation
automatique des réponses et les présenter dans un ordre décroissant
de pertinence. La hiérarchie des réponses s'oriente autour
de cinq critères intrinsèques ou permanents et de deux critères
optionnels. Passons-les en revue :
Premier critère : l'ordre des réponses
est fonction du nombre d'unitermes contenus dans la question. Soit une
question à trois termes (q = a b c), les réponses se présenteront
dans l'ordre suivant, d'abord la séquence a b c, puis la séquence
a c b, ensuite les réponses comprenant deux des trois termes demandés
a b, a c, b c, enfin des séquences plus longues comportant au moins
deux des termes demandés.
Soit la question :
= moteur linéaire asynchrone(a b c)
séquence des réponses :
= moteur linéaire asynchrone(a b c)
= moteur asynchrone de type linéaire(a c b)
= moteur asynchrone(a c)
= moteur linéaire(a b)
= moteur asynchrone synchronisé(a c x)
= moteur linéaire homopolaire(a b x1)
= moteur linéaire à double inducteur(a
b x2)
= moteur linéaire synchrone(a b x3)
= moteur linéaire à flux axial(a b x y)
= moteur électrique linéaire(a x b)
= moteur linéaire à simple inducteur(a
b x y)
= moteur linéaire à inducteurs(a b x)
Deuxième critère : le poids d'un
terme réponse dépend de sa valeur terminologique. Un terme
figurant dans le champ vedette (VE) ou dans le champ mot clé (CM)
a une valeur supérieure à celle d'un terme apparaissant dans
le champ phrase. L'auteur d'une fiche reconnaït l'intérêt
terminologique du terme en lui donnant le statut de vedette (VE).
Troisième critère : parmi les réponses
partielles, la priorité est donnée aux réponses ne
contenant pas d'autres unitermes. A défaut de moteur linéaire
asynchrone, on trouvera d'abord moteur asynchrone sans plus, avant moteur
asynchrone synchronisé .
Quatrième critère : si les entités
réponses ne possèdent pas les n termes de la question, elles
se présentent selon une alternance d'apparition des différents
termes composants. Soit la question a b : éolienne bipale, à
défaut de réponse a b, l'ordre des réponses sera a,
b, a, a, c-à-d éolienne, (hélice) bipale, éolienne,
roule éolienne (plus de réponse avec bipale).
Cinquième critère : parmi les entités
classées selon les critères 1 à 4, certaines sont
éliminées car elles n'atteignent pas un seuil d'acceptabilité
(n-1 termes). Ainsi à la question stockage inertiel par ressorts,
une entité contenant uniquement stockage ne présente aucun
intérêt. Par la limitation des réponses partielles,
on réduit le temps d'ordinateur et on évite une réaction
de rejet de la part du traducteur.
Les deux critères optionnels concernent l'indication
du code matière et le choix des langues. Si l'on utilise l'option
CM, le système privilégie, après classement selon
les critères permanents, les fiches réponses nanties du code-matière.
L'option "langue" se fait avant l'interrogation proprement dite : une langue
source et une ou plusieurs langues cibles; l'utilisateur peut encore appeler
la visualisation de toute la fiche par la commande "a".
Que comporte une fiche type ?
-
une vedette VE
-
une phrase PH
-
une note NT
-
un sujet ou code matière CM
-
un code de fiabilité CF
-
une date
-
un numéro d'identification NI
-
le type de document (collections) TY
-
le bureau de terminologie (auteur) BE
L'on dispose dans Eurodicautom essentiellement de trois types
de fiches :
-
la fiche terme à terme : la vedette identifiant ici
la notion est un mot simple (uniterme) ou un syntagme (multiterme) avec
son équivalent dans les autres langues. Ce nombre peut varier de
une à douze (les onze langues officielles plus le latin). Les synonymes
figurent dans le même champ. Ex : libre circulation des travailleurs.
-
la fiche avec définition (DF) ou contexte illustratif
: la vedette-notion est assortie d'une définition ou d'un contexte
éclairant qui illustre le sens du terme. Ex : palplanche.
-
la fiche phraséologique (PH) donne des phrases ou
membres de phrases en deux ou plusieurs langues ou des contextes définitoires
originaux. Ce champ permet d'illustrer le fonctionnement du terme.
Dans le cadre de cet exposé, il n'est pas possible
d'aller plus loin dans la description d'Eurodicautom, car nous devrions
y consacrer énormément de temps.
Je saisis l'occasion de cet exposé pour attirer
votre attention sur d'autres bases terminologiques qu'EUROPA :
-
Euterpe du Parlement européen
-
TIS
du Conseil des Ministres
-
ILOTERM,
base terminologique du Bureau international du travail
-
Termiumplus,
du Bureau canadien de la traduction
5. Recherche sur
EUROPA et principes de base utiles pour d'autres moteurs de recherche
La plupart des moteurs de recherche actuels se fondent
sur des principes relativement communs, notamment l'application des opérateurs
booléens. Par ailleurs, les règles de syntaxe, donc la façon
d'écrire une commande est capitale. Ainsi, dans le moteur de recherche
d'EUROPA, le fait d'utiliser les guillemets pour entourer une expression
recherchée oblige le moteur à rechercher le mot tel qu'il
est orthographié. Une certaine connaissance des fonctionnalités
d'un moteur est donc un élément fondamental de l'aboutissement
des demandes que vous poserez au moteur de recherche.
Le moteur de recherche d'EUROPA affiche les résultats
tout d'abord par niveau de pertinence (le degré de pertinence le
plus élevé est de 100%). Puis, il fournit le titre ou référence
du document, mention pas toujours très explicite d'ailleurs. Ensuite,
il indique dans quel format est confectionné le document retrouvé
(Word, Html, pdf). Enfin, selon que l'on clique sur le lien souligné
en bleu ou sur la petite flèche rouge, le résultat affiché
n'est pas identique. Cliquer sur le lien vous affiche le document, tandis
que cliquer sur la flèche rouge vous achemine vers la première
occurrence du ou des mots recherchés. Tant qu'il y a des flèches
pointant vers la droite, il existe d'autres occurrences du même mot
dans le document consulté.
Essayez de poser la question de la façon la plus
pertinente possible afin de ne pas avoir trop de bruit de fond, donc de
réponses pléthoriques et inutiles. Au-delà de 100
documents pertinents, les autres n'ont plus aucun sens, vous vous lasserez
avant d'arriver au bout. Ne vous découragez pas ! Il n'est pas inintéressant
d'aller voir les dernières occurrences des trouvailles, ceci permet
parfois de mieux comprendre comment le moteur a réagi en fonction
de votre question. Recommencez en posant la question autrement, éventuellement
avec d'autres termes. N'oubliez pas qu'EUROPA comporte actuellement 1.152.946
documents !
Principes de base
-
écrivez en minuscules
-
Verity Search 97 fait la différence entre les signes
diacritiques, en d'autres termes la lettre surmontée d'un accent
circonflexe est pour lui quelque chose de différent de la lettre
surmontée d'un accent aigu ou grave
-
mettez vos termes entre guillemets si vous voulez que le
moteur de recherche trouve exactement le terme tel qu'écrit, exemple
: "recyclage de bouteilles"
-
les mots d'une phrase doivent bien entendu être séparés
par un espace.
-
si vous voulez poser des questions plus complexes, lisez
les fichiers d'aide. En effet, la syntaxe à utiliser pour des opérateurs
booléens tels que OU et ET (souvent d'ailleurs à écrire
en anglais) est particulièrement contraignante. Les opérateurs
booléens doivent être séparés des mots faisant
l'objet de la requête par un espace.
-
attention, sur EUROPA, vous interrogez directement en multilingue,
ce qui signifie que les homographes des autres langues seront récupérés
par le moteur de recherche. EUROPA ne permet pas de préciser la
langue dans laquelle on recherche.
Quelques fonctionnalités de base
-
si vous tapez rêve ou "rêve ", vous n'obtiendrez
pas les mêmes résultats. En effet, taper rêve permet
de retrouver toutes les formes du verbe rêver ainsi que le mot rêverie.
Tandis que taper "rêver" ne donne comme résultat vraiment
que le verbe rêver à l'infinitif. J'ai fait le test : rêve
donne 15.361 réponses, "rêver" n'en donne que 21.
-
utiliser le joker (wild card facility) matérialisé
par l'astérisque (*) dans le moteur de recherche. Par exemple rêve*
donne 231 réponses, mais ce mode d'interrogation en vous donne pas
le mot rêve en tant que tel. Vous pouvez faire vous-mêmes des
tests. Si vous voulez savoir combien de fois le terme rêves (au pluriel)
apparaït, tapez "rêves" et vous verrez qu'il apparaït 40
fois, dans les 231 réponses.
-
si vous n'êtes pas sûrs de l'orthographe d'un
mot utilisez les ?? (jokers également). Par exemple, taper "encyclop?dia"
ne donnera pas les mêmes résultats que "encyclop??dia", le
second terme donnant la réponse 'encyclopaedia' tandis que le premier
donne la réponse 'encyclopedia'. Ceci peut être utile pour
les noms propres dont on n'est pas certain de l'orthographe.
-
si vous recherchez un sigle dont vous pensez qu'il est écrit
en majuscules, vous pouvez forcer le moteur de recherche à ne rechercher
qu'en majuscules. J'ai pris personnellement l'exemple du mot anglais leader.
Si je tape "leader" j'ai 5.350 réponses, si je tape "LEADER", je
n'en ai que 1.593 et je suis à peu prêt certain que ces réponses
concernent exclusivement le programme LEADER.
Recherches plus poussées
Si vous n'avez pas obtenu de réponses correspondant
à votre question, vous pouvez vous essayer aux techniques plus pointues,
mais vous devrez alors consulter l'aide
en ligne pour y parvenir. En effet, la syntaxe d'écriture de
votre question est capitale !
Utilisation des opérateurs booléens : AND,
OR, NOT, NEAR, SENTENCE, PARAGRAPH
Ces opérateurs permettent des recherches plus fines
mais attention à la façon de formuler. Elle influence considérablement
la nature de vos réponses.
AND
si vous tapez : banques AND prêt AND entreprises
(avec espace entre le terme et l'opérateur), le moteur de recherche
vous renverra les documents dans lesquels ces trois mots se trouvent. Ces
termes peuvent se trouver très loin les uns des autres, la requête
a donné 1.602 réponses sur EUROPA.
NEAR
si vous tapez : banques<NEAR>prêt<NEAR>entreprises
(sans espaces), le moteur de recherche vous renverra les documents où
ces trois mots se trouvent dans un certain voisinage, sans être absolument
voisins. La requête a donné 1.112 réponses sur EUROPA.
PARAGRAPH
si vous tapez : banques<PARAGRAPH>prêt<PARAGRAPH>entreprises
(toujours sans espaces), le moteur de recherche vous renverra les documents
où ces trois mots se trouvent dans le même paragraphe, soit
dans 444 cas.
SENTENCE
si vous tapez banques<SENTENCE>prêt<SENTENCE>entreprises
(toujours sans espaces), le moteur de recherche vous renverra les documents
où ces trois mots se trouvent dans la même phrase, soit dans
82 cas.
OR
OR est un opérateur qui génère beaucoup
de bruit de fond (beaucoup de réponses peu pertinentes). Je conseille
de l'éviter. Il n'est utile que si vous recherchez des termes appartenant
à une même famille conceptuelle.
Voici un exemple : je m'intéresse aux chevaux de façon
générale. Je puis poser la question de façon spécifique.
Mais comment ?
Je tape:
cheva* = 2.148 réponses
"cheval" = 153 réponses
"chevaux" = 509 réponses
"chevalin" = 7 réponses
"équidés" = 406 réponses
"ongulés" = 50 réponses
Je puis également taper : cheval OR chevaux OR
chevalin OR équidés. Cette requête me donne 1.129 réponses.
J'ai ainsi pu réduire le nombre de documents traitant de mon sujet.
NOT
NOT est un opérateur booléen très
utile lorsque l'on veut exclure un sujet. Dans le cas précédent,
si je tape : cheval OR chevaux OR chevalin OR équidés NOT
ongulés. Ceci me donne 1.114 réponses, soit 15 de moins que
précédemment. Sur les 50 réponses relatives aux ongulés,
il y en donc 15 qui ne parlent ni de chevaux ni d'équidés.
Recherches très pointues
Il est possible d'aller plus loin encore mais ceci devient
vraiment un travail d'expert que nous n'aborderons pas ici. Afin néanmoins
d'être plus précis, ajoutons qu'il existe des possibilités
d'interroger les métadonnées des documents, mais il est clair
que ceci ne concerne que les documents situés sur EUROPA qui sont
formatés en HTML (hypertext markup language). Par ailleurs, ceci
présuppose que les document ont été tous dotés
de métadonnées et que ce travail d'indexation a été
fait correctement, ce qui est loin d'être le cas sur EUROPA.
Conclusions
Le présent exposé a essayé de présenter
des éléments utiles pour le traducteur et d'expliquer comment
sur un serveur internet comme EUROPA l'on peut procéder à
la recherche d'information. J'espère sincèrement que ces
informations permettront tant au traducteur qu'à l'interprète
de trouver ce dont il a besoin pour accomplir son oeuvre traduisante.
Internet est une gigantesque mine d'informations, encore
faut-il savoir l'utiliser intelligemment et efficacement. J'ai tenté
de démontrer qu'en combinant informations purement linguistiques
et renseignements de fond, le serveur EUROPA doit pouvoir faciliter le
travail du linguiste.
Certes, ceci ne s'acquiert pas du jour au lendemain. Mais
celui qui sait utiliser ces merveilleux outils modernes pourra en tirer
profit et améliorer la qualité de ses prestations. Utilisez
votre imagination, la souplesse de votre esprit et faites agir vos facultés
combinatoires de la façon la plus vaste possible, alors vous trouverez
plus facilement ce que vous recherchez. N'oubliez finalement pas non plus
que tout ne se trouve pas encore sur EUROPA !
Jean-Bernard Quicheron, Aix-en-Provence, 30 octobre
1999
(Liens mis à jour par Seitenmeister@aticom.de le 03 mars 2001)
|