165Fermer167
kimLe 16/11/2007 à 11:12
un est négligeable, parce qu'il n'a pas de sens dans ta recherche. Tu peux retrouver le mot "un" dans n'importe quel contexte (un cheminot a fait une erreur et un train s'est retrouvé encastré dans un autre => trois fois le mot "un", pour un contexte différent, et différent du tien). Le mot "un" n'apporte aucune information, il n'a donc pas de pertinence dans ta recherche, d'autant que si tu cherches déjà le mot "sac", tu peux présupposer qu'avant, tu auras au choix "un" ou "le" (a priori), mais de façon purement aléatoire, il n'y a aucune raison de privilégier un article sur un autre. Tu n'augmentes pas ton score en ajoutant ce mot.
Le cas de sac et voyage est différent : ce sont des mots peu communs, précis, tu cherches bien un message qui parle de sac, et notamment de voyage. Pas de sac de poubelle ni de voyage d'affaire. Ils sont pertinents parce qu'ils ont un sens. C'est une simple question de français : un mot de liaison ne donne pas le sens d'une phrase, il l'accompagne.

Pour te donner une idée, fais ce petit jeu :
"un cheminot a fait une erreur et un train s'est encastré dans un autre"
maintenant, tu enleves les mots un par un, et tu t'arrêtes quand tu penses qu'en partant du résultat, tu n'arriveras a priori pas à retrouver le contexte et le sens.
cheminot a fait une erreur et un train s'est encastré dans un autre
cheminot fait une erreur et un train s'est encastré dans un autre
cheminot fait erreur et un train s'est encastré dans un autre
cheminot fait erreur et train s'est encastré dans un autre
cheminot fait erreur et train encastré dans un autre
cheminot fait erreur et train encastré dans autre
cheminot fait erreur train encastré dans autre
cheminot fait erreur train encastré autre
cheminot erreur train encastré autre
à partir de là, je pense que si tu enleves un mot, tu ne comprendrais rien. Mais à ce moment, tu comprends que ça cause d'un cheminot, d'une erreur, de trains (vu qu'il y a autre), et que comme y'a encastré, tu peux supposer que c'est deux trains qui se sont téléscopés.

mots supprimés (dans l'ordre) :
a fait une et un s'est dans un
avec ces mots, impossible de deviner le sens.

C'est une méthode comme une autre pour illustrer l'intérêt d'un mot dans une recherche, par rapport à un autre.
Donc, un, de ne sont pas pertinents.

Le cas de "bon" (pour le sac de voyage) est plus délicat : c'est un adjectif qualificatif, donc on peut opter pour deux solutions :
* soit on décide qu'on va chercher tout ce qui parle de sacs de voyage, bons ou mauvais, parce qu'il est difficile de faire la distinction (genre cdg : "j'ai un sac de voyage qui n'est pas bon, j'en ai marre il a encore explosé quand je l'ai rempli" => bon est devenu négatif).
* soit on décide que les gens ont tendance à parler sans négation, et que la qualification de l'objet peut être "choisie" par le moteur de recherche.
Personnellement, j'ai préféré supposer que le mot "bon" est pertinent, parce qu'on n'a pas tendance à dire "n'est pas bon", mais plutôt "est nul/mauvais". Le souci, c'est qu'il fait partie des très rares 3 lettres utiles trouvés dans ton message (pris au hasard pour l'exemple, mais je pense que tu peux faire pareil avec un peu n'importe quel message non construit "pour faire contre exemple"), et vue la pollution engendrée par les autres mots, si on a des contraintes fortes (taille, temps par exemple), faire le choix de ne pas indexer les mots de 1/2/3 lettres permet de faire gagner déjà près de 40% en efficacité.