Les moteurs de recherche

Il n’y a pas qu’un seul moteur de recherche !

Chaque moteur de recherche a ses particularités (modèle économique, conditions d’utilisation, longues et complexes, certes, mais toujours utiles à consulter) voire ses secrets (algorithmes, méthodes de traçages). Chacun a ses qualités et ses défauts et le seul conseil très impératif que l’on peut donner est simple : « Utiliser plusieurs moteurs de recherche ».

En voici quelques-uns, très connus ou non, dont nous vous inviterons à comparer les résultats :

·         Google https://www.google.fr le plus utilisé (et de loin) en France

·         Bing http://www.bing.com/?cc=fr  mis en place par Microsoft

·         Yahoo https://fr.yahoo.com/ un des plus anciens

·         Duckduckgo https://duckduckgo.com qui met en avant son respect de la vie privée et l’absence de tout traçage

·         Qwant https://www.qwant.com/ d’origine française, qui refuse également tout traçage, toute personnalisation des réponses aux requêtes.

Important

Ne pas confondre moteur et navigateur !

Un navigateur est un logiciel qui permet de consulter le web, de surfer de site en site. Les plus connus sont Mozilla Firefox, Google Chrome, Internet explorer, Safari, Opera.

Un moteur de recherche est un site sur lequel on fait des requêtes à partir de mots-clés et qui propose des pages web correspondant à la requête.

Fonctionnement d’un moteur de recherche

Chaque moteur a ses propres méthodes et algorithmes, fondées en général sur trois temps : le moissonnage, l’indexation et le traitement des requêtes.

Moissonnage

Il s’agit ici de robots logiciels parcourant sans cesse le web, à la recherche de nouvelles pages, ou de modifications de pages existantes. La fréquence et l’étendue des visites sont deux éléments importants de la qualité des moteurs. 

Indexation

Les pages sont analysées, les mots-clés sont repérés.

Le moteur mémorise l’adresse de la page (son URL telle : https://www.fun-mooc.fr/courses/course-v1:C2i+11006+session01/info et la liste des mots-clés qu’il associe à cette page. Dans certains cas, il peut sauvegarder le contenu entier. La pertinence de l’indexation et la capacité de stockages sont deux éléments importants de la qualité du moteur.

Traitement des requêtes

Pour formuler une requête, un internaute indique des mots-clés.
Le moteur cherche alors dans sa base de données les pages indexées avec ces mots-clés.
Puis, devant la quantité de résultats positifs, chaque moteur utilise un algorithme pour choisir l’ordre d’affichage des pages.
Les critères peuvent être différents avec par exemple la réputation des sites (déterminée par leur fréquentation, le nombre de liens qui pointent dessus, des évaluations de visiteurs...).
Il peut s’agir de choix commerciaux (certains sites paient pour paraître en bonne position pour certains mots-clés).
Il arrive également que les traces disponibles sur l’internaute qui pose une question influencent le traitement des réponses qui lui ont proposées.

Pour aller plus loin

Ce qui fait la force de Google

Le moteur de recherche le plus utilisé en France et en Europe (mais il n’est pas le seul) propose un classement lié à la notoriété d’une page, mesurée par le nombre de liens entrants.

Le principe est simple : si une page est souvent ciblée par des liens, c’est que d’une certaine manière elle a été « lue et approuvée » un certain nombre de fois.

Dans ce système, les liens venant des pages les mieux référencées ont plus de poids que les autres.
Cependant, des liens créés automatiquement ont faussé les résultats et l’algorithme utilisé évolue sans cesse.

IMPORTANT

Il y a là beaucoup de secrets !

On ne sait pas en détail comment fonctionne les moteurs de recherche.

On ne connait pas clairement les critères qui font que telle page sera mise en évidence ou pas.

Ces choix sont liés en particulier au modèle économique du moteur.

POUR INFORMATION

Il n'y a pas que le PageRank !

À côté du PageRank, il y d'autres outils, d'autre algorithme comme le TF-IDF (Term Frequency-Inverse Document Frequency). Si un mot est très fréquent sur le web, sa présence, même multiple, dans une page n’est pas très significative. Par contre, si un mot est rare sur le web, sa présence répétée sur une page est un indice de pertinence.

Avoir plusieurs fois le mot "web" dans une page n’agira que très peu sur le référencement, ce mot "web" apparaissant dans la plupart des pages.

En revanche, une page contenant plusieurs fois l’expression « héron cendré » (terme plutôt rare) sera une page très bien classée dans les résultats d'une requête sur ce terme"

Pour prendre en compte ces éléments, il faut connaître la fréquence de chacun des milliards de mots sur chacune des milliers de milliards des pages du web ! C'est possible avec les centaines de milliers, voire les millions, de serveurs d'entreprises comme Google, Amazon, FaceBook...

Bref, le PageRank n'est pas le seul critère ; il interfère avec d'autres algorithmes. (pour aller plus loin : https://fr.wikipedia.org/wiki/TF-IDF)

Modifié le: mercredi 31 mai 2017, 11:10