mardi 16 octobre 2012

Comment fonctionne un moteur de recherche?


Qu'est-ce qu'un moteur de recherche?

Par définition, un moteur de recherche Internet est un système de recherche documentaire, qui nous aide à trouver des informations sur le World Wide Web. World wide web est l'univers de l'information, lorsque cette information est accessible sur le réseau. Il facilite le partage mondial de l'information. Mais WWW est considéré comme une base de données non structurées. Il est en croissance exponentielle pour devenir immense banque d'informations. La recherche d'informations sur le web est donc une tâche difficile. Il est nécessaire d'avoir un outil pour gérer, filtrer et récupérer cette information océanique. Un moteur de recherche sert à cette fin.

Comment fonctionne un moteur de recherche?

* Moteurs de recherche sur Internet sont les moteurs de recherche Web qui recherche et récupérer des informations sur le web. La plupart d'entre eux utilisent l'architecture indexeur chenilles. Ils dépendent de leurs modules sur chenilles. Crawlers aussi appelé araignées sont de petits programmes qui parcourent le web.

Crawlers * sont donnés un ensemble initial d'URL dont les pages qu'ils récupèrent. Ils extraire les URL qui apparaissent sur les pages explorées et donner cette information au module de commande sur chenilles. Le module crawler décide quelles pages vous visitez ensuite et donne leur URL vers les chenilles.

* Les sujets abordés par différents moteurs de recherche varient selon les algorithmes qu'ils utilisent. Certains moteurs de recherche sont programmés pour rechercher des sites sur un sujet particulier, tandis que les robots d'exploration dans d'autres peuvent être visiter les sites autant que possible.

* Le module de commande crawl pouvez utiliser le graphique de liaison d'une analyse précédente ou peut utiliser les modes d'utilisation de l'aider dans sa stratégie de ramper.

* Le module d'indexation extrait les mots forment chaque page qu'il visite et enregistre son URL. Il en résulte dans une table de correspondance importante qui donne une liste d'URL pointant vers des pages où chaque mot apparaît. Le tableau dresse la liste des pages qui ont été abordés dans le processus d'analyse.

* Un module d'analyse de collection est un autre élément important de l'architecture du moteur de recherche. Il crée un index d'utilité. Un indice d'utilité peut donner accès à des pages d'une longueur donnée ou pages contenant un certain nombre d'images sur eux.

* Pendant le processus d'exploration et d'indexation, moteur de recherche enregistre les pages qu'il récupère. Ils sont temporairement stockés dans un référentiel principale. Les moteurs de recherche maintient un cache des pages qu'ils visitent afin que la récupération des accélère pages déjà visitées.

* Le module d'interrogation d'un moteur de recherche reçoit des demandes utilisateurs un formulaire de recherche sous la forme de mots-clés. Les sortes de modules de classement des résultats.

* L'architecture indexeur chenilles comporte de nombreuses variantes. Elle est modifiée dans l'architecture distribuée d'un moteur de recherche. Ces architectures moteurs de recherche se composent de cueilleurs et les courtiers. Cueilleurs de recueillir des informations d'indexation des serveurs Web, tandis que les courtiers donner au mécanisme d'indexation et de l'interface de requête. Courtiers à jour des indices sur la base des informations reçues des cueilleurs et autres courtiers. Ils peuvent filtrer les informations. Plusieurs moteurs de recherche d'aujourd'hui utilisent ce type d'architecture.

Moteurs de recherche et classement de la page

Quand nous présenter une requête à un moteur de recherche, les résultats sont affichés dans un ordre particulier. La plupart d'entre nous ont tendance à visiter les pages dans l'ordre haut et ignorer ceux au-delà des quelques premiers. C'est parce que nous considérons que les pages de quelques supporter la plus grande importance à notre requête. Donc, tous intéressés par le classement de leurs pages dans les dix premiers d'un moteur de recherche.

Les mots que vous spécifiez dans l'interface de requête du moteur de recherche sont les mots clés qui sont recherchés par les moteurs de recherche. Ils présentent une liste des pages pertinentes aux mots-clés recherchés. Durant ce processus, les moteurs de recherche récupérer ces pages, qui ont de fréquents épisodes de mots-clés. Ils recherchent des relations entre mots-clés. L'emplacement de mots-clés est également considéré comme tout le classement des pages qui les contiennent. Mots-clés qui apparaissent dans les titres de page ou dans l'URL sont donné plus de poids. Une page ayant des liens qui pointent vers elle le rend plus populaire. Si de nombreux autres sites un lien vers une page, il est considéré comme valable et plus pertinente.

Il est en fait un algorithme de classement que chaque moteur de recherche utilise. L'algorithme est une formule informatisée conçue pour correspondre pages pertinentes avec une requête de l'utilisateur. Chaque moteur de recherche peut avoir un algorithme différent classement, qui analyse les pages de la base de données des moteurs de déterminer les interventions pertinentes aux requêtes de recherche. Différentes informations d'index des moteurs de recherche différemment. Cela conduit au fait qu'une requête particulière soumise deux moteurs de recherche distincts peuvent télécharger les pages dans un ordre différent ou peut récupérer des pages différentes. Tant le mot-clé ainsi que la popularité de site Web sont des facteurs qui déterminent la pertinence. Click-through popularité d'un site est un autre déterminant de son rang. Cette popularité est la mesure de la fréquence à laquelle le site est visité.

Webmasters essayer de tromper les algorithmes des moteurs de recherche pour augmenter les rangs de leurs sites. Les tours sont très peupler la page d'accueil d'un site avec des mots clés ou l'utilisation de méta-tags pour tromper les stratégies moteur de recherche classement. Mais les moteurs de recherche sont assez intelligents! Ils gardent la révision de leurs algorithmes et de programmes contre leurs systèmes afin que nous, les chercheurs ne tombez pas en proie à des pratiques illégales.

Si vous êtes un chercheur sérieux, comprendre que même les pages au-delà de quelques-uns premier dans la liste peuvent avoir un contenu sérieux. Mais rassurez-vous sur les bons moteurs de recherche. Ils seront toujours vous apporter pages très pertinentes dans l'ordre de haut!...

Aucun commentaire:

Enregistrer un commentaire