Baidu, plus communément appelé le « Google chinois », est le moteur de recherche le plus utilisé en Chine. Si vous vous intéressez aux tendances du marché, aux études SEO ou si vous êtes simplement curieux de connaître les tendances populaires en Chine, consulter les données de Baidu est quasiment indispensable.
Dans ce blog, nous vous montrerons un moyen simple de récupérer Baidu en utilisant Python et Crawlbase. En utilisant de tels outils, la création et la gestion manuelle des proxys ne sont plus nécessaires ; un simple script peut faire le travail.
Commencez votre inscrivez-vous et obtenez des crédits gratuits pour essayer Crawlbase maintenant.
Table des Matières
- Extraction des résultats de recherche Baidu : aperçu
- Pour commencer Crawlbase et environnement de codage
- Comment explorer et scraper Baidu
- Conseils rapides pour scraper Baidu
- Foire aux questions
Extraction des résultats de recherche Baidu : aperçu
Nous allons combiner deux outils principaux pour extraire des données de Baidu, communément appelé le moteur de recherche chinois anglais : Crawlbase et BeautifulSoup.
Crawlbase's Crawling API Vous permet d'éviter les blocages lors de l'exploration de sites web. Il utilise toutes les techniques nécessaires, telles que la rotation des adresses IP, la gestion des CAPTCHA et la simulation de navigateurs réels, pour garantir le succès du projet. Ainsi, vous n'avez pas besoin d'un scraper complexe imitant le comportement humain. Vous devez envoyer l'URL à Crawlbase et recevez la réponse HTML complète.
Une fois le code HTML maîtrisé, nous utiliserons BeautifulSoup pour le scraping. Cette bibliothèque Python simplifie l'analyse des pages web. Trouver et extraire les informations exactes est donc simple et rapide. Vous pouvez sélectionner les balises ou les classes dont vous avez besoin, presque comme avec les sélecteurs CSS habituels. Le script est ainsi simple et lisible par tous.
Nous allons nous concentrer sur trois aspects clés de la page de résultats de recherche Baidu avec le scraper que nous allons créer. Voyons cela. exemple d'URL Baidu.
Ouvrez la page dans votre navigateur et inspectez les éléments suivants (clic droit → Inspecter) :
- Résultats de la recherche: Vous pouvez le trouver à l'intérieur d'un
divavec la classetitle-box_4YBsj, suivi d'unh3tag avec la classet.

- Recherches associées: Ceux-ci se trouvent à l'intérieur d'un
tableavec la classers-table_3RiQc, naviguant à travers sontroutdbalises pour obtenir les liens.

- Pagination: Pour charger plus de résultats, nous augmentons le paramètre de requête pn dans l'URL par multiples de 10 (comme
pn=10,pn=20, Etc).
Pour commencer Crawlbase et environnement de codage
- Allez dans Crawlbase pour créer un compte et se connecter.
- Vos 1,000 9,000 premières demandes seront gratuites. Pour obtenir XNUMX XNUMX demandes supplémentaires gratuitement, il vous suffit de ajoutez vos informations de facturation avant de consommer l'un des crédits initiaux gratuits.
- Obtenez votre clé API ou le Jeton de demande normalNous l'utiliserons pour explorer Baidu.
Ensuite, configurez votre environnement Python :
- Assure-toi Python 3 est installé.
- Ouvrez un terminal et installez les bibliothèques requises :
1 | demandes d'installation pip beautifulsoup4 |
Voilà. Vous êtes maintenant prêt à commencer à écrire le scraper.
Comment explorer et extraire les résultats de recherche Baidu
Vos principaux outils sont maintenant prêts. Amusons-nous à créer un script simple pour récupérer le code HTML. CrawlbaseCela peut être fait en suivant ces étapes :
Étape 1 : Gérez les blocages et les CAPTCHA avec Crawlbase
Créez un nouveau fichier appelé crawling.py, et ajoutez le code suivant :
1 | à partir de demandes.exceptions importer DemandeException |
Ce que fait ce script :
- Définit un
crawl()fonction qui accepte une URL cible. - Utilisations
requestspour envoyer une requête GET au Crawlbase API. - Accepte votre Jeton de demande normal pour authentifier la demande. N'oubliez donc pas de le modifier.
- Vérifie que la page d'origine a renvoyé un 200 OK état.
- Renvoie le contenu HTML complet du corps de la réponse.
Ce script vous permet de récupérer facilement n'importe quelle page Web publique, tout en Crawlbase gère les problèmes tels que le blocage, les CAPTCHA et les limites de débit pour vous.
Étape 2 : Récupérer du code HTML avec Beautifulsoup
Nous utiliserons BeautifulSoup pour extraire les données nécessaires de la page de résultats de recherche Baidu pour cette étape, qui proviennent du HTML brut obtenu à l'aide Crawlbase.
Alors créez un fichier appelé scraping.py et ajoutez le code suivant:
1 | à partir de bs4 importer BeautifulSoup |
Ce que fait ce script :
- Analyse le HTML en utilisant
BeautifulSoup. - Extrait les données suivantes :
- La page
<title>Étiquette. - La requête de recherche du champ de saisie nommé «wd" .
- Titres et URL des résultats de recherche à partir de
div.title-box_4YBsj h3.t. - Liens de recherche associés de
table.rs-table_3RiQc tr td a.
- La page
- Renvoie les données dans un format propre et structuré que vous pouvez utiliser ou enregistrer.
Étape 3 : Combinez vos scripts
Maintenant que les scripts d'exploration et de scraping sont prêts, il est temps de tout assembler et de voir les résultats.
Enregistrez ce qui suit dans un fichier nommé main.py:
1 | à partir de rampant importer ramper |
Ce que fait ce script :
- Utilise votre
crawl()fonction permettant de récupérer le contenu HTML des résultats de recherche Baidu pour la requête «sur iPhone ». - Transmet le HTML à
scrape_html()pour extraire des données structurées. - Convertit le résultat en JSON joliment imprimé et l'affiche dans la console.
Étape 4 : Exécuter le script principal
Depuis votre terminal, exécutez :
1 | python main.py |
Vous devriez voir quelque chose comme ceci:

Cette sortie confirme que votre robot d'exploration et votre scraper fonctionnent ensemble avec succès pour transformer le HTML brut en données propres et utilisables.
Conseils rapides pour extraire les résultats de recherche Baidu
Voici quelques conseils rapides à garder à l'esprit lorsque vous continuez à créer après avoir configuré votre scraper de recherche Baidu avec Python, Crawlbase, et BeautifulSoup :
- Crawlbase Limites de taux : Veuillez noter que la limite de débit par défaut est de 20 requêtes par seconde pour éviter les erreurs 429. Si vous devez envoyer plus de requêtes que la limite par défaut, vous pouvez contacter Crawlbase service client.
- Codes d'état pc 5XX : Les codes d'erreur 5XX sont gratuits. Si vous rencontrez ce type d'erreur, cela signifie généralement que votre URL est bloquée, ne répond pas ou est actuellement indisponible. Heureusement, vous pouvez facilement réessayer ces erreurs, car c'est gratuit.
- Inspecter le HTML avec DevTools : Revenez toujours à la page HTML et inspectez les éléments pour vérifier si des modifications ont été apportées aux classes CSS ou si votre scraper est défectueux. C'est un problème courant, mais une solution rapide existe.
- Essayez différentes requêtes : Modifiez l'URL de recherche Baidu pour tester avec d'autres mots-clés et explorer comment la structure change.
- Exportez vos données : Écrire la sortie dans un
.jsonor.csvdéposer à l'aidejson.dump()orcsv.DictWriter()pour une utilisation ultérieure.
Si vous ne l'avez pas déjà fait, INSCRIVEZ-VOUS POUR Crawlbase pour obtenir votre jeton API gratuit et commencer à explorer le Web à grande échelle, sans être bloqué.
Foire Aux Questions (FAQ)
Q: Qu'est-ce que Crawlbase, et comment cela aide-t-il au scraping Web Baidu ?
Crawlbase est une plateforme principalement axée sur la collecte de données web. Elle gère les aspects techniques du scraping, comme la modification des adresses IP, le contournement des protections anti-bots et la restitution de la page web brute au format HTML propre, facilement utilisable dans votre code. Vous n'avez plus à vous soucier des obstacles courants liés au scraping.
Q : Puis-je récupérer Baidu en utilisant Python ?
Oui, c'est possible. Grâce aux requêtes et à BeautifulSoup, vous pouvez récupérer et exploiter les pages de résultats de recherche. Crawlbase agit comme un pont, garantissant que vos demandes sont traitées en douceur et vous évitant d'être bloqué.
Q : Pourquoi utiliser BeautifulSoup pour récupérer les données du moteur de recherche Baidu ?
BeautifulSoup est conçu pour extraire des données de pages web. Même pour les débutants, il est facile à utiliser. C'est également un choix populaire pour gérer du HTML, qu'il soit clair ou complexe, comme les résultats de recherche.
Q : Dois-je utiliser le rendu JavaScript pour récupérer Baidu ?
Habituellement, le contenu principal de Baidu se charge sans script supplémentaire. Cependant, si vous rencontrez une page qui le nécessite, Crawlbase propose une option JavaScript pour gérer les sites qui nécessitent une récupération de type navigateur.









