2.2 Réduction des requêtes

[suite] [préc.] [fin préc.] [bas] [remonter]

2.2 Réduction des requêtes

Nous avons étudié les requêtes du premier trimestre 2001, ce qui correspond à 88 jours d’archives, du 1er janvier au 31 mars 2001 —les données des 8 janvier et 22 février étant perdues. Nous obtenons alors 11 millions de requêtes distinctes (pour environ 62 millions d’occurrences), composées à partir de 3,4 millions de formes graphiques différentes.

2.2.1 Première procédure

Il nous faut donc simplifier ces trop nombreuses interrogations, tout en altérant le moins possible leur sens et la démarche de leurs auteurs.

La variété de ces requêtes est à peine imaginable: certaines contiennent plus de... 1700 caractères, d’autres intègrent des tabulations, des passages à la ligne, des successions de dièses ou de points, etc. Le nombre de mots qui les composent est colossal. Aussi, avons-nous réalisé un premier toilettage: les caractères de contrôle ⁴, les symboles &, arobase-anti__spam , les accolades et les signes de ponctuation (sauf les points) ont été remplacés par des espaces. La répétition de certains caractères a été éliminée: ainsi +++ et - - deviennent simplement + et - (opération appliquée aux caractères suivants: +, -, %, ., #). Ensuite, les parenthèses, apostrophes, signes =, * et $, ainsi que les guillemets (auparavant réduits au type le plus simple), ont été isolés par des espaces. Cette opération n’a pas été appliquée au point pour éviter de scinder des URL (www.x.y) et l’a été partiellement pour le tiret, de façon à conserver les mots composés ⁵. Les majuscules ont été réduites en minuscules, et tous les caractères ont perdu leurs diacritiques (le ñ comme le ó ou le ç). Le ß et le æ ont aussi été tranformés en ss et en ae. Pour finir, les espaces précédant et terminant les requêtes ont été supprimés, et les espaces intermédiaires consécutifs —multipliés par les opérations précédentes— réduits à un seul.

Nous appelons Nett1 cette première procédure de réduction ⁶. Elle permet de réduire la taille du vocabulaire de 45 %: on passe de 3 348 586 mots distincts (après élimination des caractères de contrôle) à 1 842 768; de façon prévisible, elle réduit peu le nombre de requêtes distinctes: la baisse n’est que de 8 % (10 103 055 requêtes distinctes au lieu de 10 957 253).

Le tableau 2.1 détaille les résultats obtenus avec cette première procédure. Le total des fréquences des mots se monte à 143 276 089 pour 88 jours.


période	requêtes distinctes	mots distincts	Rappel du total des accès

1 jour (1er jan)	85 050	42 663	206 070
1 jour (4 jan)	200 828	83 663	690 338
30 jours	3 799 976	817 658	20 095 168
88 jours	10 103 055	1 842 768	61 812 583

TAB. 2.1:

Distribution des mots et des requêtes. Procédure Nett1. La taille du vocabulaire est ainsi réduite de 45 %.

2.2.2 Programmation et interprétation

De tels nettoyages appliqués à trois mois d’archives prennent environ six heures de travail sur un ordinateur puissant ⁷. Le résultat en est une simplification des requêtes, une réduction conséquente du nombre de « mots », ces derniers étant toujours définis comme une succession de caractères séparés par des espaces.

Il nous faut insister sur la complexité d’un tel travail. Nous verrons par exemple qu’un échantillonnage trop précoce biaise fortement l’analyse que l’on pourrrait faire de telles listes de requêtes. Les programmes doivent être exhaustifs (il faut penser à tous les cas de figure possibles) et surtout, doivent s’enchaîner de façon efficace: chaque programme et fichier résultat s’intègrent dans une procédure ⁸, et il arrive hélas fréquemment que l’on doive la relancer à partir du début, ce qui peut prendre plusieurs nuits de calcul ⁹, voire plus si l’on arrive en limite des possibilités de la machine ¹⁰, et l’on n’est jamais à l’abri d’une erreur: dans de tels cas, où la lecture exhaustive des fichiers par l’homme est irréalisable, mieux vaut trop vérifier ses sources que pas assez.

Par exemple, un mois après avoir entamé de tels travaux, nous avons découvert que certaines lignes des archives étaient incomplètes: pour 2174 requêtes du mois de janvier 2001, il manquait au moins l’un des champs précédemment décrits, quand la ligne n’était pas intégralement vide.

À ce stade de la préparation des données, il convient de n’avoir aucun préjugé. Par exemple, on aurait pu se débarrasser de requêtes rares et peu lisibles, comme la requête « # cat kjbible | tr cs a-za-z 012 | tr a-z a-z | sort | uniq » qui n’apparaît que trois fois et qui semble difficile à catégoriser en fonction des mots qui la composent, bien qu’elle puisse être compréhensible pour un informaticien. Sinon, l’incompréhension peut être totale, comme avec cette requête: « #1575 #1604 #1602 #1590 #1575 #1569 #1601 #1610 #1605 #1589 #1585 ». D’autres cas intermédiaires peuvent apparaître, comme pour la requête commençant par « %28courbes near alg%e9briques%29 and %28%28repr%e9sentation », dont le sens est clair. Il ne faut pour autant imaginer que les codages seront la cause principale de la difficulté à classer et à interpréter les requêtes ou les mots. Certes, certaines requêtes ne seront pas utilisables, mais il apparaîtra que les requêtes les plus simples et les plus lisibles seront parfois les plus délicates à analyser, souvent parce qu’elles sont composées d’un seul mot, polysémique suivant son contexte (paris, carte, etc.).

Ainsi, une première approche de ces données passe par leur description détaillée, sans aucune forme de préjugé. Ce n’est qu’après un temps assez long qu’émergent, au fil des programmes, des profils variés avec lesquels on finit par se familiariser.

2.2.3 Seconde procédure

Pour faciliter la description générale des requêtes, et notamment pour en mesurer de façon plus simple le contenu et les agrégations, nous avons appliqué la procédure Nett2 suivante: tout d’abord, les formes graphiques les plus courantes isolées par la procédure Nett1 —et ayant souvent un statut spécifique— ont été supprimées. Ce sont: « le », « la », « les », « l », « de », « du », « des », « d », « un », « 2 », « et », « ou », « en », « a », « au », « sur », « pour », « x », « the », « par », « and », « of », « 1 » et « - »; ensuite, il en a été de même pour les formes de ponctuation et les signes courants qui n’étaient pas encore éliminés avec la procédure Nett1: « " », « + », « * », « = », « $ », « ( », « ) », « < » et « > ». Le tableau 2.2 donne la liste de ces formes éliminées et de leur fréquence, et montre aussi leur grande importance dans le corpus issu de Nett1.

Nous appelons « mots-outils » ou « connecteurs » ces formes graphiques: en effet, si l’on considère le graphe dont les mots des requêtes sont les sommets et dont les arcs sont définis par la cooccurrence de deux mots dans une même requête, il apparaît intuitif que ces « connecteurs » garantissent l’existence d’un chemin entre des mots sémantiquement lointains ¹¹ (bien sûr, une telle définition ne correspond pas à celle des grammairiens).


rang	fréquence	forme

1	7 095 156	+
2	4 647 379	de
3	3 698 633	"
4	1 238 572	d
5	1 142 901	la
6	908 149	et
7	805 368	des
8	789 994	du
9	749 225	le
10	734 240	a
12	680 930	en
13	659 555	l
14	610 726	les
21	335 486	sur
23	318 999	pour
42	174 312	au
52	157 130	un
57	152 126	2
65	143 801	-
67	141 663	x
89	115 039	(
93	113 340	)
105	103 487	the
179	73 394	par
180	72 998	and
192	68 321	of
275	52 528	1
289	50 385	*
582	28 909	ou
1951	10 020	=
3835	4816	$
19 815	542	>
45 277	152	<

Total	25 878 276

TAB. 2.2:

Formes et caractères éliminés avec la procédure Nett2. Voir le paragraphe 2.2.3 pour savoir si la forme éliminée est isolée ou pas.

Ce second nettoyage nous fait perdre une partie de l’intention de l’émetteur (par exemple les signes « + », « - » et les guillemets disparaissent), mais rend le corpus plus aisé à traiter. Le nombre de requêtes distinctes se réduit alors à 8 616 504 et le nombre de mots distincts à 1 701 876 ¹². Le nombre total de mots n’est plus que de 118 750 102, pour 61 805 286 requêtes. Autrement dit, la suppression de seulement 33 mots, signes ou caractères réduit la fréquence totale des mots de plus de 23 millions ¹³ et le vocabulaire de 140 000 termes. Bien sûr le nombre de requêtes reste quasi-constant, à l’exception des 7297 requêtes éliminées indépendamment de la procédure pour cause d’incomplétude (cf. page 408).

2.2.4 Précautions

Avant tout chose, nous rappelons le caractère exploratoire d’un tel travail, même s’il existe désormais une littérature abondante sur le sujet ¹⁴. Notre but est de montrer que les outils d’appropriation que nous construisons pour étudier cette longue liste sont essentiels pour lui faire produire du sens autre qu’une succession de préjugés. Par exemple, nous ne connaissons rien des utilisateurs de Goosta, même si nous pouvons penser qu’ils se recrutent principalement parmi un « grand public » ¹⁵ aux contours bien vagues: nous savons aussi —grâce à nos enquêtes précédentes— qu’il n’y a pas de corrélation directe entre le niveau culturel et la compétence en matière d’internet documentaire. Enfin, si nous pouvons imaginer que les centres d’intérêt des internautes sont fortement contraints par les médias (télévision, presse, etc.) et par les normes de consommation, nous sommes d’autant moins intéressés à prouver une telle assertion qu’elle nous semble découler, non pas d’un conformisme de la population étudiée, mais de celui des chercheurs (et de leurs méthodes et outils) qui sont à l’origine de ce type de proposition.

Les descriptions qui suivent sont donc sommaires, et tant la structure du corpus que la volonté d’en dégager les traits saillants ne permettront pas, dans le cadre de ce travail, d’utiliser des méthodes syntaxiques raffinées, et encore moins des outils d’analyse sémantique. L’important est de défricher et d’explorer un domaine de recherche, d’en montrer les intérêts et les limites, l’intuition qui nous porte étant qu’un tel travail est fructueux, non pas malgré son coût apparent, mais du fait de ce coût: il permettra de montrer ce que les sciences sociales —en usant au mieux du potentiel réflexif de l’écriture— peuvent apporter à ce type de recherche, aujourd’hui monopolisée par les informaticiens et les spécialistes du marketing.

[suite] [préc.] [fin préc.] [haut page] [remonter]