La plupart des API peuvent explorer et extraire des pages publiques sur Internet sans connexion. Mais que se passe-t-il si vous devez accéder à des données cachées derrière une connexion ? Existe-t-il une solution ?

Dans cet article, nous vous montrerons une méthode unique pour extraire vos cookies de session d'une session et les transmettre à une API, lui permettant ainsi de se connecter à un site web et d'extraire les données nécessaires. Le processus peut paraître complexe, mais essayez-le et découvrez comment. Crawlbase peut simplifier l'ensemble du processus pour vous - le voir en action.

Table des Matières

  1. Complexité de l'authentification par Web Scraping

  2. Introduction à l'authentification

  3. Que sont les cookies de session ?

  4. Comment extraire les cookies de votre navigateur

  5. Bibliothèque de requêtes Python pour le scraping authentifié

  6. Scraping derrière la connexion à l'aide de Crawlbase

  7. Meilleures pratiques pour le scraping des sites protégés par connexion

  8. Foire aux questions

Complexité de l'authentification par Web Scraping

Les sites web utilisent des systèmes d'authentification pour protéger le contenu spécifique à l'utilisateur. Contrairement aux pages publiques, il est impossible d'envoyer une simple requête GET et d'espérer extraire des données pertinentes. Ces pages privées ou protégées utilisent diverses méthodes d'authentification, notamment les identifiants de connexion, les cookies de session, les jetons, les informations de connexion et, parfois, authentification multi-facteurs.

De plus, la plupart des sites web actuels prennent au sérieux le blocage des robots et des scrapers. détecter quand vous n'êtes pas un vrai humain, limitant la vitesse de vos requêtes, bannissant purement et simplement votre adresse IP ou modifiant constamment leurs jetons de sécurité. De nombreux sites surveillent et bloquent également les adresses IP suspectes pour empêcher tout accès non autorisé.

Si vous devez extraire du contenu qui nécessite une connexion pour y accéder, vous disposez essentiellement de deux options principales pour votre site Web cible :

• Créez un script capable de se connecter de lui-même pour récupérer les données d'un site Web, en lui apprenant à remplir le formulaire de connexion et à maintenir cet état de connexion pendant qu'il récupère ce dont vous avez besoin.

• Effectuez vous-même la partie connexion dans un navigateur classique, puis copiez ces cookies de session dans votre script de scraping afin que le site Web pense qu'il s'agit de vous.

Crawlbase Vous permet de transmettre vos cookies de session à l'API, lui permettant ainsi de se connecter à un site web avant d'en extraire le contenu. Cette fonctionnalité est utile pour extraire des données de sites web nécessitant une authentification, comme des plateformes comme Amazon. Certaines pages, comme les avis produits, nécessitent désormais une connexion pour être consultées. Elle est également utile pour accéder au contenu des réseaux sociaux comme Facebook, y compris les groupes privés ou les profils d'utilisateurs non publics.

Introduction à l'authentification

En matière de scraping web, l'authentification est souvent le premier obstacle majeur rencontré. De nombreux sites web protègent leurs précieuses données grâce à des formulaires de connexion, obligeant les utilisateurs à saisir leurs identifiants avant d'accéder à certaines pages. Pour extraire des données de ces zones protégées, vous devrez automatiser le processus de connexion dans le cadre de votre processus de scraping.

L'approche classique consiste à envoyer des requêtes HTTP à la page de connexion, comme le ferait un utilisateur lambda. Grâce à la bibliothèque de requêtes Python, vous pouvez remplir le formulaire de connexion par programmation et le soumettre via une requête POST. Cela signifie que vous devrez inspecter la page de connexion pour identifier les champs requis, tels que le nom d'utilisateur, le mot de passe et parfois les champs masqués, afin de les inclure dans votre charge utile d'identifiants de connexion.

Pour ce faire, ouvrez la page de connexion dans votre navigateur et utilisez les outils de développement pour analyser le code HTML. Recherchez le formulaire de connexion, notez les noms des champs de saisie et l'URL du formulaire soumis. Ces informations sont essentielles pour rédiger correctement vos requêtes POST. Une fois ces informations collectées, vous pouvez utiliser la bibliothèque de requêtes pour envoyer les données de connexion et établir une session authentifiée, vous permettant ainsi d'extraire des données de pages autrement verrouillées par une connexion.

En comprenant comment fonctionnent les formulaires de connexion et comment interagir avec eux à l'aide de requêtes HTTP, vous serez en mesure de vous attaquer au mur d'authentification que la plupart des sites Web mettent en place pour protéger leur contenu.

Que sont les cookies de session ?

Les cookies de session Il s'agit de cookies temporaires stockés dans votre navigateur lorsque vous vous connectez à un site web. Il s'agit de petits fichiers de données permettant de déterminer si un utilisateur est connecté et autorisé à accéder à du contenu protégé. Ces données expirent généralement à la fermeture de votre navigateur, ou parfois automatiquement après une période donnée.

Sans ces cookies, les sites web ne pourraient pas identifier l'utilisateur ni se souvenir de son authentification. Il lui faudrait se reconnecter sans cesse, ce qui serait peu pratique.

C'est là que les cookies de session deviennent importants pour le scraping. Si vous essayez de scraper une page nécessitant une connexion et que vous n'incluez pas votre cookie de session, le site risque de bloquer votre requête ou de vous rediriger vers la page de connexion. En revanche, si vous incluez le bon cookie, le site web traitera votre scraper comme un utilisateur connecté et vous accordera l'accès au contenu protégé, vous permettant ainsi d'effectuer des requêtes authentifiées et d'y accéder. Vous pouvez également gérer les cookies enregistrés pour une utilisation ultérieure, afin de ne pas avoir à vous connecter à chaque scraping.

En résumé, les cookies de session sont essentiels pour accéder aux données privées ou spécifiques à l'utilisateur sur de nombreux sites web. Une fois que vous aurez appris à les extraire et à les réutiliser, vous pourrez accéder à des données habituellement cachées derrière un identifiant.

Voyons ensuite comment vous pouvez obtenir vos cookies de session à l’aide de votre navigateur.

Lors de l'accès aux données après une connexion, vous pouvez utiliser un objet de session pour maintenir l'authentification. En réutilisant le même objet de session pour plusieurs requêtes, vous garantissez la préservation de votre état de connexion, et les cookies de session vous permettent d'effectuer des requêtes ultérieures sans réauthentification. Après authentification, vous pouvez récupérer des données depuis des pages protégées et extraire des données depuis des zones autrement inaccessibles.

Suivez toujours des pratiques de grattage responsables lors de la gestion des cookies de session pour rester conforme aux conditions du site Web et aux exigences légales.

Comment extraire les cookies de votre navigateur

Il existe plusieurs méthodes pour extraire les cookies de votre navigateur, de la plus simple à la plus complexe. Cela peut aller de l'utilisation de modules complémentaires à l'utilisation d'outils d'automatisation comme Selenium. Dans ce cas, nous vous proposons l'une des méthodes les plus simples pour extraire vos cookies de session, que nous utiliserons plus tard pour extraire les données des pages nécessitant une connexion.

Veuillez noter que cette méthode peut comporter des risques, car elle nécessite de vous connecter avec votre compte pour extraire les cookies du navigateur. Nous vous conseillons d'utiliser un compte fictif et comprenons que ce guide est purement informatif.

  • Étape 1 : Commencez par lancer un navigateur comme Google Chrome, Mozilla Firefox ou Microsoft Edge.

  • Étape 2 : Accédez à Facebook, saisissez vos identifiants et connectez-vous comme d'habitude. Attendez d'être connecté pour voir votre fil d'actualité ou votre profil.

  • Étape 3 : Faites un clic droit sur un espace de la page, puis sélectionnez « Inspecter » ou « Inspecter l'élément ». Cela ouvre les outils de développement de votre navigateur, appelés « Outils de développement ». Outils de développement.

  • Étape 4 : En haut de la fenêtre DevTools, vous verrez plusieurs onglets intitulés « Éléments », « Console », « Réseau », etc. Cliquez sur Réseau.

  • Étape 5 : Lorsque vous ouvrez l'onglet Réseau pour la première fois, il peut être vide. Appuyez sur F5 (ou cliquez sur le bouton Actualiser) pour actualiser la page. Lors du rechargement, une liste de requêtes réseau apparaîtra dans le panneau Réseau.

  • Étape 6 : Recherchez la première demande réseau répertoriée. Cliquez dessus pour afficher des informations détaillées sur cette demande.

Une image affichant le panneau Réseau dans l’interface des outils de développement Chrome.
  • Étape 7 : Avec la demande de réseau sélectionnée, recherchez un Cookies or En-têtes Sous-onglet, généralement situé à droite des outils de développement. Vous trouverez peut-être « Cookies » dans un onglet séparé, ou vous devrez peut-être parcourir les en-têtes de réponse pour trouver une section intitulée « Cookie » sous « En-têtes de requête ».
Une image montrant la section Cookies dans les outils de développement Chrome.
  • Étape 8 : Vous devriez maintenant voir une liste des noms et valeurs des cookies associés à votre session. Copiez les valeurs des cookies concernés. Trouvez le c_user ou xs cookies, que Facebook utilise souvent pour la gestion des sessions.

  • Étape 9 : Ouvrez un éditeur de texte comme le Bloc-notes. Collez les valeurs de cookie copiées en les étiquetant clairement (par exemple, c_user=[value], xs=[value]). Ce sont vos cookies enregistrés pour une utilisation future.

Remarque : Ces cookies permettront à votre scraper d'accéder à des pages privées, mais peuvent également permettre à quelqu'un d'autre d'accéder à votre compte Facebook. Veillez à sauvegarder ce fichier en toute sécurité et à ne pas le partager ni le publier sur un site public.

Vous pouvez utiliser ces cookies enregistrés dans un script Python pour automatiser la connexion et le scraping, vous permettant de maintenir l'authentification de session et d'éviter les connexions répétées.

Bibliothèque de requêtes Python pour le scraping authentifié

Mettons en pratique nos cookies extraits. Assurez-vous d'abord que votre environnement Python est entièrement configuré. Installez la dernière version. Python version, utilisez l'une de vos versions préférées IDE, et installez le Module de requêtes Python. Une fois votre environnement configuré, nous pouvons procéder à l'exercice.

Disons que nous voulons supprimer cela Page Facebook Hashtag Musique, et notre objectif est de récupérer les données des pages Web protégées si vous essayez d'ouvrir ceci en utilisant le mode navigation privée de Chrome (sans vous connecter à votre compte Facebook), vous obtiendrez la page de connexion :

Une image affichant la page de connexion Facebook.

Nous pouvons essayer de gratter cette page manuellement En utilisant Python seul, vous pouvez voir ce qui se passe. Créez un fichier et nommez-le. scraping_with_crawlbase.py, puis copiez et collez le code ci-dessous.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
importer demandes
à partir de demandes.exceptions importer DemandeException

URL_CIBLE = "https://www.facebook.com/hashtag/music"
EN-TÊTES = {
'accepter': 'texte/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
« accepter la langue »: 'en-US,en',
« agent utilisateur »: 'Mozilla/5.0 (Windows NT 10.0 ; Win64 ; x64) AppleWebKit/537.36 (KHTML, comme Gecko) Chrome/137.0.0.0 Safari/537.36',
'sec-fetch-mode': 'naviguer',
'Cookie': ' '
}
NOM_FICHIER_SORTIE = "sortie.html"

Essai:
réponse = requêtes.get(URL_CIBLE, en-têtes=EN-TÊTES)
réponse.raise_for_status()

html_content = réponse.texte
avec finition ouvert(NOM_FICHIER_DE_SORTIE, "w", encodage="utf-8") as fichier:
fichier.write(réponse.texte)

impression(f"\nPage enregistrée avec succès dans '{NOM_DU_FICHIER_DE_SORTIE}'\n")

sauf DemandeException as erreur:
impression(f"\n Échec de la récupération de la page : {erreur}\n")

Assurez-vous de remplacer <cookies-goes-here> avec les cookies réels que vous avez extraits de votre compte Facebook plus tôt et exécutez le code à l'aide de la commande ci-dessous.

1
python scraping_with_crawlbase.py

Après avoir exécuté le script, ouvrez le output.html Fichier. Vous remarquerez que le contenu semble vide ou incomplet. En l'inspectant, vous constaterez qu'il s'agit principalement de JavaScript non exécuté.

Pourquoi ? Parce que les données que vous recherchez sont chargées dynamiquement avec JavaScript, et requests seul, il ne peut pas exécuter JavaScript comme le fait un navigateur.

Alors, comment résoudre ce problème ? C'est ce que nous aborderons dans la section suivante.

Scraping derrière la connexion à l'aide de Crawlbase

Maintenant que nous avons vu les limites de l'utilisation de Python requests bibliothèque seule. Utilisons Crawlbase Pour gérer des problèmes tels que le rendu JavaScript et le travail derrière des barrières de connexion. Voici comment procéder :

  • Étape 1 : Préparez votre script. Créez ou mettez à jour votre scraping_with_crawlbase.py fichier avec le code suivant:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
importer json
importer demandes
à partir de demandes.exceptions importer DemandeException

API_TOKEN = " "
URL_CIBLE = "https://www.facebook.com/hashtag/music"
GRATTOIR = « hashtag Facebook »
COOKIES = "" "

"" "
PAYS = "NOUS"

API_ENDPOINT = "https://api.crawlbase.com/"

paramètres = {
"jeton": API_TOKEN,
"url": URL_CIBLE,
"grattoir": GRATTOIR,
"biscuits": COOKIES,
"pays": PAYS
}

Essai:
réponse = requêtes.get(API_ENDPOINT, params=params)
réponse.raise_for_status()

json_string_content = réponse.texte
json_data = json.loads(json_string_content)
pretty_json = json.dumps(json_data, indent=2)
impression(pretty_json)

sauf DemandeException as erreur:
impression(f"\nÉchec de la récupération de la page : {erreur}\n")
  • Étape 2 : remplacer <Javascript requests token> avec la Crawlbase Jeton JavaScript. Si vous n'avez pas encore de compte, inscrivez-vous à Crawlbase pour réclamer vos demandes d'API gratuites.

  • Étape 3 : remplacer <cookies-goes-here> avec les mêmes cookies que vous avez extraits précédemment de votre session Facebook connectée.

Assurez-vous que les cookies sont correctement formatés. Sinon, Crawlbase pourrait les rejeter. D'après la documentation relative aux cookies, le format correct devrait ressembler à ceci :

1
cookies : clé1=valeur1 ; clé2=valeur2 ; clé3=valeur3
  • Étape 4 : Exécutez maintenant le script en utilisant :
1
python scraping_with_crawlbase.py

Si tout est correctement configuré, vous verrez une sortie JSON propre s'afficher dans votre terminal. Il s'agit du contenu réel de la page hashtag Facebook récupéré avec succès.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
{
"état_original": 200,
"pc_status": 200,
"url": "https://www.facebook.com/hashtag/music",
« complexité_du_domaine »: "la norme",
"corps": {
"hashtag": "",
"des postes": [
{
"Nom d'utilisateur": « Dave Moffatt Music »,
"texte": « Tu t'en sortiras avec le sourire. Tu ne peux pas gagner à tout, mais tu peux essayer ! @eraserheads_official #nevada #music #withasmile #song »,
"url": "https://www.facebook.com/hashtag/music?__cft__[0]=AZWbgQE-_wYwW47AUbqqhzfqC6moiJrxFQs7glnpepq5ibId2fvbkZe1E3UoNwI-Ywj4gaQp3qbQjOMGmNVD1fu4Ofx-uPcDfWPJGhRCtKrHKV1G-rXqg2mxRSzd93AL281FwDSfjERvTMkdWK6bZI_cJC_CxDD63x_K5WycyUe1lnt5kBwyBOdIk4z2jfeFeRCZASbYvSLGQS9eQ4GQh-c2&__tn__=%2CO%2CP-R#?bee",
"dateHeure": "oSspoenrdt0iS27g8ie7lm4c2gt19779f1mpraaec87et108um8 b3,7 56g",
"nombre de mentions J'aime": "",
"sharesCount": "",
"commentairesCount": "",
"links": [
{
"lien": "https://www.facebook.com/hashtag/nevada?__eep__=6&__cft__[0]=AZWbgQE-_wYwW47AUbqqhzfqC6moiJrxFQs7glnpepq5ibId2fvbkZe1E3UoNwI-Ywj4gaQp3qbQjOMGmNVD1fu4Ofx-uPcDfWPJGhRCtKrHKV1G-rXqg2mxRSzd93AL281FwDSfjERvTMkdWK6bZI_cJC_CxDD63x_K5WycyUe1lnt5kBwyBOdIk4z2jfeFeRCZASbYvSLGQS9eQ4GQh-c2&__tn__=*NK-R",
"texte": "#Nevada"
},
{
"lien": "https://www.facebook.com/hashtag/music?__eep__=6&__cft__[0]=AZWbgQE-_wYwW47AUbqqhzfqC6moiJrxFQs7glnpepq5ibId2fvbkZe1E3UoNwI-Ywj4gaQp3qbQjOMGmNVD1fu4Ofx-uPcDfWPJGhRCtKrHKV1G-rXqg2mxRSzd93AL281FwDSfjERvTMkdWK6bZI_cJC_CxDD63x_K5WycyUe1lnt5kBwyBOdIk4z2jfeFeRCZASbYvSLGQS9eQ4GQh-c2&__tn__=*NK-R",
"texte": "#musique"
},
{
"lien": "https://www.facebook.com/hashtag/withasmile?__eep__=6&__cft__[0]=AZWbgQE-_wYwW47AUbqqhzfqC6moiJrxFQs7glnpepq5ibId2fvbkZe1E3UoNwI-Ywj4gaQp3qbQjOMGmNVD1fu4Ofx-uPcDfWPJGhRCtKrHKV1G-rXqg2mxRSzd93AL281FwDSfjERvTMkdWK6bZI_cJC_CxDD63x_K5WycyUe1lnt5kBwyBOdIk4z2jfeFeRCZASbYvSLGQS9eQ4GQh-c2&__tn__=*NK-R",
"texte": "#avecunsourire"
},
{
"lien": "https://www.facebook.com/hashtag/song?__eep__=6&__cft__[0]=AZWbgQE-_wYwW47AUbqqhzfqC6moiJrxFQs7glnpepq5ibId2fvbkZe1E3UoNwI-Ywj4gaQp3qbQjOMGmNVD1fu4Ofx-uPcDfWPJGhRCtKrHKV1G-rXqg2mxRSzd93AL281FwDSfjERvTMkdWK6bZI_cJC_CxDD63x_K5WycyUe1lnt5kBwyBOdIk4z2jfeFeRCZASbYvSLGQS9eQ4GQh-c2&__tn__=*NK-R",
"texte": "#chanson"
}
]
}
// Remarque : certains résultats ont été omis par souci de concision.
]
}
}
  • Étape bonus : Construction Crawlbase Grattoir de données Facebook Il ne se limite pas à l'extraction de pages contenant des hashtags. Il prend également en charge d'autres types de contenu Facebook. Si votre page cible correspond à l'une des catégories suivantes, vous avez de la chance :

    • facebook-group
    • facebook-page
    • facebook-profile
    • facebook-event

Il vous suffit de mettre à jour deux lignes de votre script pour qu'elles correspondent au type de page que vous souhaitez récupérer :

1
2
URL_CIBLE = "https://www.facebook.com/hashtag/music"
GRATTOIR = « hashtag Facebook »

Par exemple, si vous souhaitez récupérer un groupe Facebook privé, modifiez-le en quelque chose comme :

1
2
URL_CIBLE = « https://www.facebook.com/groups/examplegroup »
GRATTOIR = « groupe Facebook »

Il suffit d'insérer l'URL correcte et correspondante grattoir nom et Crawlbase s'occupera du reste.

Meilleures pratiques pour le scraping des sites protégés par connexion

Lorsque vous récupérez des pages après une connexion, gardez à l'esprit que vous traitez des comptes sensibles, des cookies de session et des règles de sécurité plus strictes. Voici quelques points importants à retenir.

Comprendre les conditions d'utilisation du site

Avant d'envisager d'extraire des données d'un site, en particulier celles cachées derrière un identifiant, assurez-vous de bien comprendre ses conditions d'utilisation. De nombreux sites mettent en place des mesures strictes contre les robots et le scraping, et ignorer ces restrictions peut vous attirer des ennuis. Alors, utilisez le scraping de manière responsable.

Savoir quels cookies utiliser

Pour accéder aux pages protégées par une connexion, vous devez envoyer les cookies de session appropriés avec votre demande. Pour Facebook, nos tests montrent que seuls les deux cookies suivants sont nécessaires :

  • c_user=[value]
  • xs=[value]

Ceux-ci suffisent à authentifier votre session et à charger le contenu réel.

Cependant, si vous effectuez des tests sur d'autres sites Web et que vous n'êtes pas sûr des cookies requis, vous pouvez simplement transmettre tous les cookies de votre session connectée au Crawlbase API. Vous pouvez tester les cookies envoyés en utilisant cette URL de test : https://postman-echo.com/cookies

Voici un exemple demande de boucle dans Postman qui envoie des cookies au Crawlbase API et récupère la réponse du serveur de test Postman Echo :

Une image affichant la demande de boucle Postman.

C'est un moyen pratique de vérifier que vos cookies sont correctement formatés et transmis correctement.

Gestion des cookies expirés

Les cookies de connexion ne sont pas permanents. Au fil du temps, ils peuvent expirer ou devenir invalides en raison de l'activité du compte, des déconnexions ou des expirations de session.

Si vous remarquez que votre scraper affiche de manière inattendue des pages de connexion au lieu des données attendues, cela indique clairement que vos cookies ont expiré et doivent être actualisés.

Voici ce que vous pouvez faire:

  1. Ré-authentifier manuellement - Reconnectez-vous à votre compte dans votre navigateur, récupérez de nouveaux cookies via DevTools et mettez-les à jour dans votre script. Assurez-vous de remplacer vos cookies enregistrés par ces nouveaux afin de maintenir l'authentification de la session.

  2. Utiliser une extension de navigateur - Ce Éditeur de cookies L'outil permet de visualiser et de copier facilement vos cookies actifs directement depuis votre navigateur.

Réutiliser les cookies automatiquement

Si vous effectuez plusieurs requêtes sur une courte période et que vous souhaitez que les cookies persistent entre elles, vous pouvez utiliser Crawlbase's Cookies Paramètre de sessionIl suffit d'attribuer une valeur (jusqu'à 32 caractères) ; cela liera les cookies de session d'une requête à l'autre, vous permettant ainsi de conserver la même session et de conserver l'authentification via un objet de session. Cela garantit que les requêtes suivantes pourront utiliser la même authentification sans nécessiter de nouvelle connexion.

Cela est particulièrement pratique lors du scraping avec plusieurs étapes ou pages connectées, où la cohérence entre les requêtes est cruciale, car le maintien de la même session permet des requêtes authentifiées sur différentes pages.

Alors, INSCRIVEZ-VOUS POUR Crawlbase Il est désormais possible d'extraire les pages protégées par connexion. Avec une seule plateforme, vous pouvez facilement gérer le contenu rendu par JavaScript, gérer les cookies et gérer les sessions sur plusieurs requêtes.

Foire aux questions

Q1: Est-ce que Crawlbase stocker mes cookies de session ?

A. Non, les données envoyées via le paramètre cookies ne seront utilisées que pour la demande spécifique que vous envoyez. Crawlbase Par défaut, aucune donnée n'est stockée de notre côté. Cependant, il est possible de stocker les données que vous transmettez si des paramètres tels que store ou cookies_session sont utilisés.

Q2 : Existe-t-il un risque de bannissement de compte lors de l'utilisation de cookies de session pour le scraping ?

A. Oui, cela est possible, en particulier lorsque le site Web détecte un comportement non humain lors de votre session. Crawlbase Nous ne pouvons garantir la sécurité de votre compte. Nous recommandons toujours d'utiliser un compte fictif si vous devez absolument récupérer des données une fois connecté.

Q3 : Comment gérer la protection des jetons CSRF

A. Manipuler CSRF (falsification de requêtes intersites) Pour protéger les jetons dans vos projets de web scraping, vous devez d'abord extraire le jeton de la page de connexion. Cela implique généralement d'envoyer une requête GET à l'URL de connexion, puis d'analyser le code HTML renvoyé pour trouver le jeton CSRF, souvent stocké dans un champ de saisie masqué du formulaire. BeautifulSoup La bibliothèque est un outil populaire pour analyser le HTML et extraire ces jetons.

Une fois le jeton CSRF localisé, incluez-le dans la charge utile de vos identifiants de connexion lors de l'envoi de votre requête POST à ​​l'URL de connexion. Certains sites web peuvent utiliser plusieurs jetons CSRF ou changer fréquemment de nom. Il est donc important d'inspecter attentivement la page de connexion et de vous assurer que vous capturez tous les jetons requis.