Hadoop, les traitements distribués en toute simplicité

Abonnements, magazines... Notre catalogue complet au bas de cette page.

Avez-vous déjà essayé d’indexer le web ? Non ? Et bien Google l’a fait, et le fait tous les jours. En quasi temps réel. Grande nouvelle me direz vous, on le sait depuis longtemps ! Mais ne vous êtes vous jamais demandé comment il procède ?

Avoir les plus grandes fermes de serveurs et embaucher les cerveaux les plus brillants ne suffit pas : il s’agit aussi de faire cela intelligemment ! Comment effectuer des traitements sur un ensemble de données de cette taille ? La firme de Mountain View a partagé quelques uns de ses secrets en décembre 2004 dans un whitepaper nommé “MapReduce: Simplified Data Processing on Large Clusters”(1). Un nom un peu barbare pour dévoiler les principes d’un algorithme simple, MapReduce, pour traiter des données sur des clusters de machines, mais sans en révéler les détails d’implémentation. Qu’à cela ne tienne, quelques passionnés, Doug Cutting (créateur du projet Apache Lucene(2), un moteur d’indexation de documents) en tête, se mettent à réaliser une implémentation open source de MapReduce : Apache Hadoop(3) était né ! L’objectif est alors pour Doug d'accélérer un autre de ses projets open source, le projet Apache Nutch(4), un moteur d’indexation web. Après quelque temps, une version de Nutch basée sur ce qui deviendra Hadoop, est rendue disponible. Et elle se révèle bien plus rapide et simple que la précédente. Yahoo pressent l’intérêt de la chose et va alors employer Doug. Ce dernier et une équipe travaillent à plein temps sur le projet Hadoop (nommé d’ailleurs avec le surnom du jouet du fils de Doug, un éléphant qui est aussi devenu le logo). Aujourd’hui la détection de spam et l’indexation des sites web chez Yahoo se basent sur Apache Hadoop, dont la première release date de 2008.

Cédric Exbrayat

S'ABONNER
Egalement au sommaire de :
Programmez! #144