2.2 Réduction des requêtes

Nous avons étudié les requêtes du premier trimestre 2001, ce qui correspond à 88 jours d’archives, du 1er janvier au 31 mars 2001 —les données des 8 janvier et 22 février étant perdues. Nous obtenons alors 11 millions de requêtes distinctes (pour environ 62 millions d’occurrences), composées à partir de 3,4 millions de formes graphiques différentes.

2.2.1 Première procédure

Il nous faut donc simplifier ces trop nombreuses interrogations, tout en altérant le moins possible leur sens et la démarche de leurs auteurs.

La variété de ces requêtes est à peine imaginable: certaines contiennent plus de... 1700 caractères, d’autres intègrent des tabulations, des passages à la ligne, des successions de dièses ou de points, etc. Le nombre de mots qui les composent est colossal. Aussi, avons-nous réalisé un premier toilettage: les caractères de contrôle 4, les symboles &, arobase-anti__spam , les accolades et les signes de ponctuation (sauf les points) ont été remplacés par des espaces. La répétition de certains caractères a été éliminée: ainsi +++ et - - deviennent simplement + et - (opération appliquée aux caractères suivants: +, -, %, ., #). Ensuite, les parenthèses, apostrophes, signes =, * et $, ainsi que les guillemets (auparavant réduits au type le plus simple), ont été isolés par des espaces. Cette opération n’a pas été appliquée au point pour éviter de scinder des URL (www.x.y) et l’a été partiellement pour le tiret, de façon à conserver les mots composés 5. Les majuscules ont été réduites en minuscules, et tous les caractères ont perdu leurs diacritiques (le ñ comme le ó ou le ç). Le ß et le æ ont aussi été tranformés en ss et en ae. Pour finir, les espaces précédant et terminant les requêtes ont été supprimés, et les espaces intermédiaires consécutifs —multipliés par les opérations précédentes— réduits à un seul.

Nous appelons Nett1 cette première procédure de réduction 6. Elle permet de réduire la taille du vocabulaire de 45 %: on passe de 3 348 586 mots distincts (après élimination des caractères de contrôle) à 1 842 768; de façon prévisible, elle réduit peu le nombre de requêtes distinctes: la baisse n’est que de 8 % (10 103 055 requêtes distinctes au lieu de 10 957 253).

Le tableau 2.1 détaille les résultats obtenus avec cette première procédure. Le total des fréquences des mots se monte à 143 276 089 pour 88 jours.






période requêtes distinctes mots distincts Rappel du total des accès




1 jour (1er jan) 85 050 42 663 206 070
1 jour (4 jan) 200 828 83 663 690 338
30 jours 3 799 976 817 658 20 095 168
88 jours 10 103 055 1 842 768 61 812 583





TAB. 2.1: Distribution des mots et des requêtes. Procédure Nett1. La taille du vocabulaire est ainsi réduite de 45 %.

2.2.2 Programmation et interprétation

De tels nettoyages appliqués à trois mois d’archives prennent environ six heures de travail sur un ordinateur puissant 7. Le résultat en est une simplification des requêtes, une réduction conséquente du nombre de « mots », ces derniers étant toujours définis comme une succession de caractères séparés par des espaces.

Il nous faut insister sur la complexité d’un tel travail. Nous verrons par exemple qu’un échantillonnage trop précoce biaise fortement l’analyse que l’on pourrrait faire de telles listes de requêtes. Les programmes doivent être exhaustifs (il faut penser à tous les cas de figure possibles) et surtout, doivent s’enchaîner de façon efficace: chaque programme et fichier résultat s’intègrent dans une procédure 8, et il arrive hélas fréquemment que l’on doive la relancer à partir du début, ce qui peut prendre plusieurs nuits de calcul 9, voire plus si l’on arrive en limite des possibilités de la machine 10, et l’on n’est jamais à l’abri d’une erreur: dans de tels cas, où la lecture exhaustive des fichiers par l’homme est irréalisable, mieux vaut trop vérifier ses sources que pas assez.

Par exemple, un mois après avoir entamé de tels travaux, nous avons découvert que certaines lignes des archives étaient incomplètes: pour 2174 requêtes du mois de janvier 2001, il manquait au moins l’un des champs précédemment décrits, quand la ligne n’était pas intégralement vide.

À ce stade de la préparation des données, il convient de n’avoir aucun préjugé. Par exemple, on aurait pu se débarrasser de requêtes rares et peu lisibles, comme la requête « # cat kjbible | tr cs a-za-z 012 | tr a-z a-z | sort | uniq » qui n’apparaît que trois fois et qui semble difficile à catégoriser en fonction des mots qui la composent, bien qu’elle puisse être compréhensible pour un informaticien. Sinon, l’incompréhension peut être totale, comme avec cette requête: « #1575 #1604 #1602 #1590 #1575 #1569 #1601 #1610 #1605 #1589 #1585  ». D’autres cas intermédiaires peuvent apparaître, comme pour la requête commençant par « %28courbes near alg%e9briques%29 and %28%28repr%e9sentation », dont le sens est clair. Il ne faut pour autant imaginer que les codages seront la cause principale de la difficulté à classer et à interpréter les requêtes ou les mots. Certes, certaines requêtes ne seront pas utilisables, mais il apparaîtra que les requêtes les plus simples et les plus lisibles seront parfois les plus délicates à analyser, souvent parce qu’elles sont composées d’un seul mot, polysémique suivant son contexte (paris, carte, etc.).

Ainsi, une première approche de ces données passe par leur description détaillée, sans aucune forme de préjugé. Ce n’est qu’après un temps assez long qu’émergent, au fil des programmes, des profils variés avec lesquels on finit par se familiariser.

2.2.3 Seconde procédure

Pour faciliter la description générale des requêtes, et notamment pour en mesurer de façon plus simple le contenu et les agrégations, nous avons appliqué la procédure Nett2 suivante: tout d’abord, les formes graphiques les plus courantes isolées par la procédure Nett1 —et ayant souvent un statut spécifique— ont été supprimées. Ce sont: « le », « la », « les », « l », « de », « du », « des », « d », « un », « 2 », « et », « ou », « en », « a », « au », « sur », « pour », « x », « the », « par », « and », « of », « 1 » et « - »; ensuite, il en a été de même pour les formes de ponctuation et les signes courants qui n’étaient pas encore éliminés avec la procédure Nett1: « " », « + », « * », « = », « $ », « ( », « ) », «  <  » et «  >  ». Le tableau 2.2 donne la liste de ces formes éliminées et de leur fréquence, et montre aussi leur grande importance dans le corpus issu de Nett1.

Nous appelons « mots-outils » ou « connecteurs » ces formes graphiques: en effet, si l’on considère le graphe dont les mots des requêtes sont les sommets et dont les arcs sont définis par la cooccurrence de deux mots dans une même requête, il apparaît intuitif que ces « connecteurs » garantissent l’existence d’un chemin entre des mots sémantiquement lointains 11 (bien sûr, une telle définition ne correspond pas à celle des grammairiens).





rang fréquence forme



1 7 095 156 +
2 4 647 379 de
3 3 698 633 "
4 1 238 572 d
5 1 142 901 la
6 908 149 et
7 805 368 des
8 789 994 du
9 749 225 le
10 734 240 a
12 680 930 en
13 659 555 l
14 610 726 les
21 335 486 sur
23 318 999 pour
42 174 312 au
52 157 130 un
57 152 126 2
65 143 801 -
67 141 663 x
89 115 039 (
93 113 340 )
105 103 487 the
179 73 394 par
180 72 998 and
192 68 321 of
275 52 528 1
289 50 385 *
582 28 909 ou
1951 10 020 =
3835 4816 $
19 815 542 >
45 277 152 <



Total 25 878 276




TAB. 2.2: Formes et caractères éliminés avec la procédure Nett2. Voir le paragraphe 2.2.3 pour savoir si la forme éliminée est isolée ou pas.

Ce second nettoyage nous fait perdre une partie de l’intention de l’émetteur (par exemple les signes « + », « - » et les guillemets disparaissent), mais rend le corpus plus aisé à traiter. Le nombre de requêtes distinctes se réduit alors à 8 616 504 et le nombre de mots distincts à 1 701 876 12. Le nombre total de mots n’est plus que de 118 750 102, pour 61 805 286 requêtes. Autrement dit, la suppression de seulement 33 mots, signes ou caractères réduit la fréquence totale des mots de plus de 23 millions 13 et le vocabulaire de 140 000 termes. Bien sûr le nombre de requêtes reste quasi-constant, à l’exception des 7297 requêtes éliminées indépendamment de la procédure pour cause d’incomplétude (cf. page 408).

2.2.4 Précautions

Avant tout chose, nous rappelons le caractère exploratoire d’un tel travail, même s’il existe désormais une littérature abondante sur le sujet 14. Notre but est de montrer que les outils d’appropriation que nous construisons pour étudier cette longue liste sont essentiels pour lui faire produire du sens autre qu’une succession de préjugés. Par exemple, nous ne connaissons rien des utilisateurs de Goosta, même si nous pouvons penser qu’ils se recrutent principalement parmi un « grand public » 15 aux contours bien vagues: nous savons aussi —grâce à nos enquêtes précédentes— qu’il n’y a pas de corrélation directe entre le niveau culturel et la compétence en matière d’internet documentaire. Enfin, si nous pouvons imaginer que les centres d’intérêt des internautes sont fortement contraints par les médias (télévision, presse, etc.) et par les normes de consommation, nous sommes d’autant moins intéressés à prouver une telle assertion qu’elle nous semble découler, non pas d’un conformisme de la population étudiée, mais de celui des chercheurs (et de leurs méthodes et outils) qui sont à l’origine de ce type de proposition.

Les descriptions qui suivent sont donc sommaires, et tant la structure du corpus que la volonté d’en dégager les traits saillants ne permettront pas, dans le cadre de ce travail, d’utiliser des méthodes syntaxiques raffinées, et encore moins des outils d’analyse sémantique. L’important est de défricher et d’explorer un domaine de recherche, d’en montrer les intérêts et les limites, l’intuition qui nous porte étant qu’un tel travail est fructueux, non pas malgré son coût apparent, mais du fait de ce coût: il permettra de montrer ce que les sciences sociales —en usant au mieux du potentiel réflexif de l’écriture— peuvent apporter à ce type de recherche, aujourd’hui monopolisée par les informaticiens et les spécialistes du marketing.