Google ouvre le code de sa bibliothèque d'analyse de fichiers robots.txt

Par:
fredericmazue

mer, 03/07/2019 - 15:49

Le contenu d'un fichier robots.txt permet aux propriétaires de sites Web de contrôler les URL accessibles aux clients automatisés , c'est-à-dire des robots d'exploration, tels que Googlebot, celui de Google.

Le contenu d'un fichier robots.txt obéit au Robots Exclusion Protocol (REP), qui est un standard de fait, car utilisé depuis plus de 25 ans.

Mais, remarque Google, comme REP n'est qu'un standard de facto, différents développeurs ont implémenté l'analyse syntaxique du fichier robots.txt de manière légèrement différente, ce qui a créé une certaine confusion. C'est avec l'intention de résoudre ce problème que Google ouvre le code de son analyseur.

Cet analyseur est écrit en C++11.

Mise à part la suppression de certains en-têtes internes et symboles, ce code ouvert est celui exécuté par le Googlebot, précise Google.

Le projet doit être construit avec l'outil de build Bazel. Google envisage d'ajouter le support de CMake prochainement et n'interdit pas à un bienveillant contributeur de le faire dès maintenant :-)

Cet analyseur est un logiciel libre sous Licence Apache 2.0, disponible sur GitHub.