La sécurité d’un site web a toujours été l’objet de plusieurs discussions de nos jours car il ne suffit plus d’être un bon développeur et d’ignorer cette tâche.Si un site web apparaît dans un moteur de recherche c’est parce que l’administrateur ou le développeur a permit cette apparition via les paramètres qu’il a renseignés dans un fichier très important que tous les sites web disposent.Je cite le fichier robots.txt .
Le fichier robots.txt est un fichier qui se trouve à la racine d’un site web et c’est ce fichier qui permet de donner la ligne de conduite d’un site web face à des moteurs de recherches et à savoir que chaque moteur de recherches possède son propre robot.Par exemple GoogleBot est le robot du moteur de recherches Google.Pour voir la liste de tous les robots,je vous invite à consulter cette liste.
Je vous imagine en train de faire une drôle de tête.
Pour trouver les informations qui se trouvent dans un fichier robots.txt,il suffit de saisir la commande : https://domaine_du_site_web/robots.txt
Voici les informations du fichier robots.txt de Google:
Pour gérer les entrées ‘Disallow’ d’un fichier robotos.txt,nous pouvons le faire avec l’outil Parsero.
Que fait l’outil Parsero?
Parsero est un script gratuit écrit en Python qui lit le fichier Robots.txt d’un serveur web et examine les entrées Disallow. Les entrées Disallow indiquent aux moteurs de recherche quels répertoires ou fichiers hébergés sur un serveur web ne doivent pas être indexés. Par exemple, “Disallow : /portal/login” signifie que le contenu de www.example.com/portal/login ne doit pas être indexé par des crawlers comme Google, Bing, Yahoo… C’est la façon dont l’administrateur doit éviter de partager des informations sensibles ou privées avec les moteurs de recherche.
Mais parfois ces chemins tapés dans les entrées Disallows sont directement accessibles par les utilisateurs sans utiliser un moteur de recherche, en visitant seulement l’URL et le chemin, et parfois ils ne sont pas disponibles pour être visités par quiconque. Comme il est très courant que les administrateurs écrivent beaucoup de Disallows et que certains d’entre eux sont disponibles et d’autres non, vous pouvez utiliser Parsero pour vérifier le code d’état HTTP de chaque entrée Disallow afin de vérifier automatiquement si ces répertoires sont disponibles ou non.
De plus, le fait que l’administrateur écrive un robots.txt ne signifie pas que les fichiers ou répertoires tapés dans les entrées Dissallow ne seront pas indexés par Bing, Google, Yahoo, etc. Pour cette raison, Parsero est capable d’effectuer des recherches dans Bing pour trouver du contenu indexé sans l’autorisation de l’administrateur web. Parsero vérifiera le code d’état HTTP de la même manière pour chaque résultat Bing.
Pour l’utiliser nous allons l’installer sur une machine équipée d’un système d’exploitation Linux.
On ouvre un terminal et on tape simplement les commandes suivante les unes à la suite des autres:
cd Desktop
git clone https://github.com/behindthefirewalls/Parsero.git
ls
python setup.py install
python3 parsero.py
Nous aurons le résultat suivant après avoir réussi à saisir toutes les commandes précédentes:
Pour utiliser l’outil Parsero ,il faut tout d’abord comprendre comment il peut-être paramétré: parsero options où options prend les valeurs suivantes:
-h permet d’afficher l’aide en question
-u permet de renseigner l’URL du site qu’on souhaite consulter
-o permet de montrer uniquement le code ” HTTP 200″
-f permet de renseigner une liste de domaines.
Pour analyser le domaine ressonoa.com,il nous suffit de taper la commande: python3 parsero.py -u ressonoa.com et nous aurons le résultat suivant:
Le résultat ‘ No robots.txt file has been found ‘ prouve que le domaine ressonoa.com ne laisse pas les autres robots lire son fichier robots.txt
Si nous essayons de lire le fichier robots.txt du domaine google.com,nous aurons le résultat suivant:
python3 parsero.py -u google.com
Pour résumer nous avons vu ce qu’un fichier robtots.txt et nous avons également vu comment il était possible d’analyser les entrées ‘Disallow’.
Allez les amis,l’heure est arrivée pour que je retourne dans ma tanière.Mekang!
🙂
Passionné de cryptographie,de sécurité informatique, de mathématiques en gros des nouvelles technologies de l’information et de la communication. J’♥️ aussi le graphisme.Le partage est pour moi le véritable moyen de pouvoir vivre de sa vraie passion.Vous pouvez me contacter de différentes manières:Contact,Facebook,Twitter,Instagram,Pinterest.