Le scraping avec Python est une méthode populaire pour automatiser l'extraction de données Amazon, permettant aux utilisateurs de collecter efficacement de grandes quantités d'informations sur les produits. Cependant, extraire les résultats de recherche d'Amazon à grande échelle représente un défi, principalement en raison de la quantité importante de données, de la complexité des interfaces web, des limitations de débit, des CAPTCHA et des autres mesures de sécurité en vigueur.
Ce guide complet vous expliquera comment extraire les pages de recherche Amazon à grande échelle à l'aide Python et la Crawlbase Crawling APIDans ce tutoriel, nous nous concentrerons sur l'extraction des données produits Amazon et démontrerons son fonctionnement, notamment la mise en place des outils et techniques nécessaires. Grâce à cette puissante combinaison, vous pourrez extraire et analyser efficacement les données produits d'Amazon.
Notre scraper Amazon prêt à l'emploi est une solution complète pour extraire les données clés d'Amazon. Vous pouvez l'essayer maintenant.
Table des Matières
- Configuration de votre environnement de développement
- Installation des bibliothèques requises
- Création d'un Crawlbase Compte
- Contenu dynamique et rendu JavaScript
- Obtenir le bon Crawlbase Token
- Mise en place Crawlbase Crawling API
- Gestion du contenu dynamique
- Choisir un grattoir
- Gestion de la pagination
1. Pourquoi récupérer les pages de recherche d'Amazon ?
Dans le vaste monde du commerce en ligne, Amazon est un géant. Il propose une sélection inégalée de produits dans une vaste gamme de catégories, ce qui en fait une destination incontournable pour les consommateurs du monde entier. La collecte de données auprès d'Amazon est essentielle à la veille stratégique, car elle permet aux entreprises d'analyser les tendances, de surveiller la concurrence et de prendre des décisions éclairées.

Crawlbase Bibliothèque Python
Pour exploiter le pouvoir de Crawlbase Crawling API, vous pouvez utiliser le Crawlbase Librairie Python. Cette bibliothèque simplifie l'intégration de Crawlbase dans vos projets Python, le rendant accessible aux développeurs Python de tous niveaux d'expertise.
Tout d’abord, initialisez le Crawling API classe.
1 | api = API d'exploration({ 'jeton': 'VOTRE_JETON_CRAWLBASE' }) |
Transmettez l’URL que vous souhaitez récupérer en utilisant la fonction suivante.
1 | api.get(url, options = {}) |
Vous pouvez passer toutes les options parmi celles disponibles dans le Documentation de l'API.
Exemple :
1 | réponse = api.get('https://www.reddit.com/r/pics/comments/5bx4bx/thanks_obama/', { |
Il existe de nombreuses autres fonctionnalités fournies par Crawlbase Bibliothèque Python. Pour en savoir plus, cliquez ici. ici.
Dans les sections suivantes, nous vous guiderons dans l’exploitation des capacités du Crawlbase Crawling API pour extraire efficacement les pages de recherche d'Amazon. Nous utiliserons Python, un langage de programmation polyvalent, pour illustrer le processus étape par étape. Explorons la richesse des informations d'Amazon et apprenons à exploiter son potentiel.
2. Pré-requis
Avant de nous lancer dans le web scraping, assurons-nous que vous disposez de tous les outils et ressources nécessaires. Dans ce chapitre, nous aborderons les prérequis pour réussir le web scraping des pages de recherche Amazon à l'aide de Crawlbase Crawling API.
Configuration de votre environnement de développement
Vous aurez besoin d'un environnement de développement adapté pour commencer à scraper du Web. Voici ce dont vous aurez besoin :
python:
Python est un langage de programmation polyvalent largement utilisé dans le scraping Web. Assurez-vous que Python est installé sur votre système. Vous pouvez télécharger la dernière version de Python sur le site officiel ici.
Éditeur de code ou IDE :
Choisissez un éditeur de code ou un environnement de développement intégré (IDE) pour écrire et exécuter votre code Python. Les options les plus courantes incluent PyCharm et Jupyter Notebook. Vous pouvez aussi utiliser Google ColabSélectionnez celui qui correspond le mieux à vos préférences et à votre flux de travail.
Installation des bibliothèques requises
Le scraping Web en Python est rendu plus accessible grâce à des bibliothèques qui simplifient des tâches telles que la création de HTTP, l'analyse HTML et la gestion des données. Installez les bibliothèques suivantes à l'aide de pip, le gestionnaire de paquets de Python :
1 | pip installer des pandas |
Les pandas : Pandas est une puissante bibliothèque de manipulation de données qui vous aidera à organiser et à analyser efficacement les données extraites.
Crawlbase: Une classe Python légère et sans dépendance qui agit comme wrapper pour Crawlbase API.
Création d'un Crawlbase Compte
Pour accéder à la Crawlbase Crawler API, vous aurez besoin d'un Crawlbase Si vous n'en avez pas, suivez ces étapes pour en créer un. Cliquez sur ici pour créer un nouveau Crawlbase Compte et remplissez les détails nécessaires.
3. Comprendre la structure de la page de recherche Amazon
Avant de nous lancer dans l'exploration du Web, il est essentiel de comprendre la structure d'une page de recherche Amazon. Les pages Web d'Amazon sont méticuleusement conçues pour offrir une expérience d'achat fluide, mais une multitude de données précieuses se cachent sous l'interface conviviale. Amazon fournit l'URL suivante pour les requêtes de recherche.
1 | # Remplacez serch_query par celui de votre choix |
Identifier les points de données intéressants
Pour extraire efficacement les pages de recherche d'Amazon, vous devez identifier les points de données spécifiques que vous souhaitez extraire. En fonction de vos objectifs, vous pourriez être intéressé par diverses informations, notamment :
- Titre du produit: Le nom du produit vendu.
- Prix: Le prix actuel du produit.
- Information du vendeur: Détails sur le vendeur, tels que son nom et ses évaluations.
- La disponibilité des produits: Informations indiquant si le produit est en stock ou en rupture de stock.
- URL du produit : L'URL qui mène à la page du produit sur Amazon.
- Évaluations des clients : Notes et avis fournis par les clients qui ont acheté le produit.
- Caractéristiques du produit : Caractéristiques ou attributs clés du produit.
- Informations sur la livraison: Détails sur les options d'expédition, y compris les délais et les coûts de livraison.
- Annonces sponsorisées : Amazon inclut souvent des annonces sponsorisées en haut des résultats de recherche. Il s'agit de publicités payantes.
Comme de nombreux sites Web modernes, Amazon utilise le chargement dynamique du contenu à l'aide du rendu JavaScript et des appels Ajax. Cela signifie que certaines parties de la page, telles que les résultats de recherche et les filtres, peuvent ne pas être présentes dans le code source HTML initial. Au lieu de cela, elles sont chargées dynamiquement après le chargement initial de la page dans le navigateur de l'utilisateur.
4. Comment extraire les pages de recherche Amazon
Dans cette section, nous nous lançons dans un voyage passionnant pour extraire les pages de recherche Amazon à grande échelle en utilisant le Crawlbase Crawling APIPar exemple, nous recueillerons des informations essentielles sur les produits liés à la requête « jeux » sur Amazon. Pour ce faire, nous utiliserons Crawlbase Bibliothèque Python, qui offre une intégration transparente avec le Crawling API. Passons au processus :
Obtenir le bon Crawlbase Token
Nous devons obtenir un jeton API avant de pouvoir libérer la puissance du Crawlbase Crawling API. Crawlbase Amazon propose deux types de jetons : le jeton normal (TCP) pour les sites web statiques et le jeton JavaScript (JS) pour les sites web dynamiques ou utilisant JavaScript. Étant donné qu'Amazon utilise fortement JavaScript pour le chargement dynamique de contenu, nous opterons pour le jeton JavaScript.
1 | à partir de base d'exploration importer API d'exploration |
Vous pouvez obtenir votre Crawlbase jeton ici après avoir créé un compte dessus.
Mise en place Crawlbase Crawling API
Avec notre jeton JavaScript en main, nous sommes prêts à configurer le Crawlbase Crawling API. Avant de continuer, nous devons connaître la structure de la réponse de sortie. Vous pouvez recevoir la réponse de sortie sous deux types : HTML ou JSON. Par défaut, Crawling API utilise le format HTML.
Réponse HTML :
1 | En-têtes: |
Pour obtenir la réponse au format JSON vous devez passer un paramètre « format » avec la valeur « json ».
Réponse JSON :
1 | { |
Nous pouvons en savoir plus sur Crawling API réponse ici. Pour l'exemple, nous utiliserons l'option par défaut. Nous utiliserons l'objet API initialisé pour effectuer des requêtes. Spécifiez l'URL que vous souhaitez récupérer à l'aide de la fonction api.get(url, options={}).
1 | à partir de base d'exploration importer API d'exploration |
Dans l'extrait de code ci-dessus, nous préservons le contenu HTML récupéré en l'enregistrant dans un fichier HTML. Cette étape est essentielle pour vérifier que nous avons bien obtenu les données HTML souhaitées. Nous pouvons prévisualiser le fichier et voir quel contenu est inclus dans le code HTML exploré.
output.html Exposition :

Comme vous pouvez le voir ci-dessus, aucune information utile n'est présente dans le code HTML analysé. Cela est dû au fait qu'Amazon charge son contenu important de manière dynamique à l'aide de JavaScript et d'Ajax.
Gestion du contenu dynamique
Comme de nombreux sites web modernes, les pages de recherche d'Amazon utilisent le chargement dynamique du contenu grâce au rendu JavaScript et aux appels Ajax. Ce comportement dynamique peut poser des difficultés lors de l'extraction de données sur ces pages. Cependant, avec Crawlbase Crawling API, vous pouvez surmonter efficacement ces défis. Nous pouvons utiliser les paramètres de requête suivants fournis par Crawling API pour surmonter ce problème.
Ajout de paramètres
Lors de l'utilisation du jeton JavaScript avec le Crawlbase API : vous pouvez spécifier des paramètres spécifiques pour garantir une capture précise du contenu rendu dynamiquement. Voici quelques paramètres essentiels :
- page_wait: Ce paramètre facultatif vous permet de spécifier le nombre de millisecondes à attendre avant que le navigateur capture le code HTML résultant. Utilisez ce paramètre dans les situations où le rendu d'une page prend du temps ou lorsque les requêtes AJAX doivent être chargées avant la capture du code HTML.
- ajax_wait: Un autre paramètre facultatif pour le jeton JavaScript. Il vous permet de spécifier s'il faut attendre la fin des requêtes AJAX avant de recevoir la réponse HTML. Ceci est important lorsque le contenu repose sur des requêtes AJAX.
Pour utiliser ces paramètres dans notre exemple, nous pouvons mettre à jour notre code comme ceci :
1 | à partir de base d'exploration importer API d'exploration |
output.html Exposition :

Crawling API fournit de nombreux autres paramètres importants. Vous pouvez en savoir plus à leur sujet ici.
Choisir un scraper Amazon
Crawling API fournit plusieurs scrapers intégrés pour différents sites web importants, dont Amazon. Vous trouverez ici une description des scrapers disponibles. Le paramètre « scraper » permet d'analyser les données récupérées selon un scraper spécifique fourni par le service. Crawlbase API. Ce paramètre est facultatif ; s'il n'est pas spécifié, vous recevrez le code HTML complet de la page pour un scraping manuel. Si vous utilisez ce paramètre, la réponse sera renvoyée au format JSON contenant les informations analysées par le scraper spécifié.
Exemple :
1 | # Exemple utilisant un scraper spécifique |
L'un des scrapers disponibles est « amazon-serp », conçu pour les pages de résultats de recherche Amazon. Il renvoie un tableau de produits avec des détails tels que le nom, le prix, les avis des clients, etc. Voici un exemple de sortie du scraper « amazon-serp » :
1 | { |
Cela inclut toutes les informations que nous souhaitons. Étant donné que la réponse sera au format JSON cette fois-ci, nous allons stocker certaines informations importantes de chaque objet produit dans un fichier CSV. Ajoutons donc ce paramètre dans notre exemple et effectuons les modifications conformément à la réponse :
1 | à partir de base d'exploration importer API d'exploration |
Dans le code ci-dessus, nous avons ajouté le scarper dans les options, puis collecté toutes les informations que nous voulions pour chaque objet JSON de produit à l'intérieur de la réponse. Enfin, nous créons un dataframe Pandas pour utiliser sa fonction « to_csv » pour enregistrer les données dans un fichier CSV.
amazon_products.csv Exposition :

Gestion de la pagination
Lors de l'exploration des pages de recherche Amazon, il est essentiel de gérer correctement la pagination pour collecter tous les produits dont vous avez besoin. Crawlbase « amazon-serp » fournit des informations de pagination dans la réponse JSON, y compris la page actuelle, la page suivante et le nombre total de pages.
1 | // Exemple |
Comme vous pouvez le voir, « currentPage » indique la page sur laquelle vous vous trouvez actuellement, « nextPage » affiche le numéro de page du prochain ensemble de résultats et « totalPages » vous indique le nombre total de pages disponibles.
Pour extraire tous les produits, vous devrez parcourir ces pages, en envoyant des requêtes avec le numéro de page approprié ajouté à l'URL, comme le fait Amazon :
- 1 page: https://www.amazon.com/s?k=games&page=1
- 2 page: https://www.amazon.com/s?k=games&page=2
- … Ainsi de suite jusqu’à la dernière page.
Mettons à jour l'exemple de code pour gérer la pagination et récupérer tous les produits :
1 | à partir de base d'exploration importer API d'exploration |
Dans cette section de code, nous lançons le processus de scraping Web. Tout d'abord, nous définissons l'URL de recherche Amazon que nous souhaitons récupérer. Ensuite, le code vérifie les informations de pagination sur la page initiale. Si la pagination est présente, ce qui signifie qu'il existe plusieurs pages de résultats, le code parcourt les pages suivantes pour récupérer des données de produit supplémentaires.
Enfin, les données extraites sont organisées dans un cadre de données Pandas, ce qui permet une manipulation facile des données, et le cadre de données est enregistré dans un fichier CSV. Ce code vous permet de collecter un ensemble de données complet de produits Amazon à partir des résultats de recherche, même s'ils s'étendent sur plusieurs pages.
amazon_products.csv Exposition :

5. Réflexions finales
Alors que les professionnels s'engagent de plus en plus dans des activités de scraping Web, le respect des normes éthiques et techniques reste primordial. Le respect des conditions d'utilisation d'un site Web et des directives du fichier robots.txt est obligatoire. De plus, assurez-vous que le scraping Web est utilisé à des fins légitimes et constructives. Grâce aux connaissances acquises grâce à ce guide, les professionnels sont bien équipés pour exploiter le vaste potentiel de données qu'offrent les listes de produits d'Amazon, générant des résultats analytiques et commerciaux.
Inscrivez-vous sur Crawlbase et obtenez 1,000 XNUMX crédits gratuits
6. Questions fréquemment posées
Q : Puis-je extraire les pages de recherche Amazon à des fins de recherche ou d’analyse personnelle ?
Le scraping des pages de recherche Amazon à des fins de recherche ou d'analyse personnelle est généralement acceptable, à condition de respecter les conditions de service d'Amazon et les règles de son site Web. Cependant, il est essentiel d'être attentif au volume de requêtes que vous envoyez au site Web, car un scraping excessif peut entraîner un blocage d'IP ou d'autres mesures pour empêcher le scraping. Pour résoudre ce problème, vous pouvez envisager d'utiliser un Crawlbase Crawling API qui vous permet d'extraire des données de sites Web de manière plus structurée et contrôlée, vous aidant ainsi à éviter les problèmes potentiels associés à des demandes excessives. Cette approche peut vous permettre de mener des recherches et des analyses tout en restant dans les limites des politiques d'Amazon.
Q : Existe-t-il des limitations de débit ou des CAPTCHA lors du scraping d'Amazon ?
Oui, Amazon utilise la limitation de débit et les CAPTCHA pour protéger son site web des accès excessifs ou automatisés. Lors du scraping d'Amazon, il est essentiel d'envoyer des requêtes à un rythme raisonnable et de mettre en place des mécanismes pour gérer les CAPTCHA s'ils sont rencontrés. Utiliser un service comme Crawlbase Crawling API peut vous aider à relever efficacement ces défis.
Q : Puis-je récupérer d’autres sites Web de commerce électronique en utilisant des techniques similaires ?
Oui, de nombreux sites de commerce électronique utilisent des techniques de scraping Web similaires, et les principes abordés dans ce guide peuvent être appliqués pour extraire des données d'autres plateformes de commerce électronique. Cependant, gardez à l'esprit que chaque site Web peut avoir ses propres politiques et défis, il est donc essentiel de consulter leurs conditions de service et d'adapter votre approche de scraping en conséquence.
Q : Quels sont les cas d’utilisation courants pour l’extraction de pages de recherche Amazon ?
Les cas d'utilisation courants du scraping des pages de recherche Amazon incluent les études de marché, l'analyse de la concurrence, l'optimisation des prix, l'agrégation de contenu pour les sites Web d'évaluation de produits et la prise de décisions d'investissement éclairées. Le scraping Web peut fournir des informations précieuses aux entreprises de commerce électronique, aux analystes de données, aux chercheurs et aux entrepreneurs.












