150Fermer152
kimLe 15/11/2007 à 22:18
alors, je me suis amusé un peu cheeky
méthode utilisée :
for word in `cat toto`; do echo $word; done | egrep "^........$" | sort -u | less

./148 : pour te donner une idée, dans ton post, il y a (aux accents et caractères spéciaux près, flemme de les virer) en gros :
11 mots de 1 lettre dont aucun pertinent (8 uniques, 0% pertinents)
50 mots de 2 lettres dont aucun pertinent (21 uniques, 0% pertinents)
30 mots de 3 lettres dont 3 pertinents (23 uniques, 13% pertinents)
34 mots de 4 lettres dont environ 6 pertinents (26 uniques, 23% pertinents)
25 mots de 5 lettres dont 8 pertinents (19 uniques, 42% pertinents)
8 mots de 6 lettres dont 100% pertinents (7 uniques, 100cheeky
13 mots de 7 lettres dont 9 pertinents (12 uniques, 69cheeky
7 mots de 8 lettres dont 100% pertinents (6 uniques, 100cheeky
4 mots de 9 lettres dont 100% pertinents (3 uniques, 100cheeky
6 mots plus grands (ou plus petits mais avec accents, donc mal gérés) dont 100% pertinents
total :
indexés : 131, pertinents : 48
on va partir du calcul suivant :
A=(nbr unique de mots de taille X) / (nombre de mots indexés) * 100 = pourcentage d'occupation pour le post en question
B=(nbr pertinents de taille X) / (nombre de mots indexés) * 100 = pourcentage d'occupation pertinente sur l'ensemble des mots
C=(nbr pertinents de taille X) / (nbr pertinents total) * 100 = pourcentage d'occupation pertinente sur les mots utiles
utilité d'index des mots de :
1 lettre : 6.1% , 0%, 0%
2 lettres : 16% , 0%, 0%
3 lettres : 17.5%, 2.2%, 6.25%
4 lettres : 19.8%, 4.5%, 12.5%
5 lettres : 14.5%, 6.1%, 16.6%
6 lettres : 5.3% , 5.3%, 14.5%
7 lettres : 9.1% , 6.8%, 18.75%
8 lettres : 4.5% , 4.5%, 12.5%
9 lettres : 2.2% , 4.5%, 6.25%
>9 lettres : 4.5% , 4.5%, 12.5%

Ce qui est utile, c'est de voir la différence de comportement entre A et C, ainsi que la hauteur de C, pour déterminer la qualité par types de mots.
1 et 2 : on a 0% utile, donc on peut balancer sans remord, on gagne 22,1% des mots indexés !
3 : occupent à eux seuls 17.5% des mots indexés, et pourtant, ils ne représentent que 6.25% des mots pertinents. En gros, c'est du gachi.
4 lettres : çadevient plus intéressant : A proche de C, donc on occupe bien la base
5 et supérieur : c'est que du bonheur : A<C, donc là, y'a peu de gachi, on prend !

conclusion : si tu veux économiser 39.6% de l'espace, tu tranches entre 3 et 4. en deça, le rapport n'est pas très intéressant pour les 3 lettres, et on

a du gachi, d'autant plus que les mots de 3 lettres ou moins sont les plus couramment utilisés, donc tu vas exploser la table d'association avec eux : tu ne peux pas jouer sur le fait que le mot est plus petit, donc moins coûteux en espace. De plus, outre le probleme de l'espace, tu as celui du temps : avec ces mots, tu exploses la table d'association, donc tu pénalises 100% des recherches...