Dans ce blog, nous montrerons comment utiliser le Crawlbase Proxy AI intelligent pour extraire l'ASIN d'un produit Amazon sélectionné, nous montrerons également comment passer Crawlbase Crawling APINous avons intégré les paramètres au proxy Smart AI pour un scraping optimisé et un meilleur contrôle de l'exploration des données. Nous obtiendrons ainsi un JSON structuré de la page produit Amazon, facile à consulter. Nous répondrons également à quelques questions fréquentes sur le scraping web Amazon et les pages produits Amazon (appelées pages ASIN).
Vous pouvez utiliser notre scraper Amazon pour extraire toutes sortes de données de la plateforme. Essayez-le maintenant.
Étape par étape : extraire l'ASIN d'Amazon avec Crawlbase Proxy IA intelligent
Étape 1 : Commencez par créer un compte gratuit Crawlbase compte pour accéder à votre jeton Smart AI Proxy.
Étape 2 : Accédez à la Crawlbase Tableau de bord proxy intelligent de l'IA pour récupérer votre jeton d'accès gratuit situé sous la section « Détails de connexion ».

Étape 3 : Sélectionnez le produit Amazon que vous souhaitez explorer. Pour cet exemple, nous allons explorer ce produit Coque OtterBox Commuter Series pour iPhone 14 Pro Max (UNIQUEMENT) Produit Amazon. L'URL est la suivante :
https://www.amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/
Étape 4 : Pour envoyer une requête au Smart AI Proxy, copiez la ligne suivante et collez-la dans votre terminal :
1 | curl -x "http://[email protected]:8012" -k "https://www.amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/" |
Cette commande curl peut également être trouvée dans le Crawlbase Documentation du proxy Smart AIN'oubliez pas de remplacer « USER_TOKEN » par votre jeton d'accès et d'insérer l'URL du produit que vous souhaitez explorer.
Comme vous pouvez le voir, la commande curl a 2 options, le -x qui est équivalent à —proxy permet à l'utilisateur d'envoyer un hôte proxy:port et également une authentification proxy. Crawlbase Smart AI Proxy ne nécessite pas de mot de passe pour l'authentification, car les noms d'utilisateur proxy sont uniques et sécurisés. Il suffit d'utiliser le nom d'utilisateur ou le jeton utilisateur pour l'authentification proxy. Si vous devez toutefois ajouter un mot de passe à votre application de web scraping, ajoutez la chaîne de votre choix, comme le nom de votre entreprise, ou ajoutez simplement "Crawlbase ».
Dans l' curl commande, nous avons également ajouté le -k drapeau (ou --insecure) signifie « non sécurisé ». Lorsque vous utilisez le -k drapeau avec curl, indique à la commande d'autoriser les connexions aux sites protégés par SSL/TLS (HTTPS) sans vérifier l'authenticité du certificat présenté par le serveur. Cette option est requise par le proxy Smart AI et permet de gérer la redirection vers le serveur. Crawling API et contournez les captchas et les blocages avant d'envoyer la requête au site web initialement demandé. Il est obligatoire d'utiliser l'option -k ou —insecure lors de l'envoi de requêtes au proxy Smart AI.
Étape 5 : Si cela est fait correctement, vous devriez recevoir une réponse HTML similaire à celle affichée dans cette capture d'écran.

Dans l'exemple ci-dessus, nous avons exploré la page Amazon cible et nous pouvons voir que l'ASIN que nous recherchions est présent en tant que currentAsin:

Scraping d'ASIN Amazon à l'aide de Python et d'un proxy Smart AI
Dans la section précédente, nous avons utilisé curl pour effectuer une requête de base qui renvoie des données extraites d'une page produit à partir de laquelle nous avons extrait l'ASIN. Pour une utilisation plus avancée, nous allons maintenant nous plonger dans l'utilisation Python pour automatiser ces requêtes et analyser la réponse.
Pour le code Python, nous utiliserons le requests bibliothèque uniquement et créer un fichier nommé smartproxy_amazon_scraper.py.
1 | importer demandes |
Ensuite, vous pouvez simplement exécuter le script ci-dessus dans votre terminal avec finition python smartproxy_amazon_scraper.py.

Il s'agit de la réponse positive que vous obtenez dans votre terminal sous forme de HTML. Vous pouvez analyser cette réponse et structurer les données qui peuvent ensuite être stockées dans une base de données pour une récupération et une analyse faciles.
Personnalisation des demandes avec Crawling API Paramètres
Plongeons plus profondément en explorant comment personnaliser les requêtes Smart AI Proxy à l'aide de Crawlbase's Crawling API Paramètres. Vous pouvez simplement transmettre ces paramètres au Smart AI Proxy sous forme d'en-têtes préfixés par CrawlbaseAPI-Parameters: ... Par exemple :
Exemple #1 :
Dans ce script Python, nous définissons le CrawlbaseAPI-Parameters à autoparse=trueCet appel d'API indique au proxy Smart AI d'analyser automatiquement la page et de renvoyer une réponse JSON. Vous pouvez ensuite utiliser ces données structurées selon vos besoins.
1 | # requêtes d'installation de pip |
Après avoir exécuté l'appel ci-dessus dans le terminal, vous obtiendrez la réponse au format JSON et vous pourrez voir que les données semblent maintenant beaucoup plus structurées.

Exemple #2:
Afin de réaliser la géolocalisation de vos demandes depuis un pays particulier, il suffit d'inclure le Paramètre « pays = », en utilisant le code pays à deux caractères, tel que « pays=US ». Voir ci-dessous:
1 | # requêtes d'installation de pip |
Après avoir exécuté l'appel ci-dessus dans le terminal, vous obtiendrez la réponse au format HTML comme indiqué ci-dessous :

Vous pouvez enregistrer le fichier HTML de sortie sous smartproxy_amazon_scraper.html sur votre machine locale. Lorsque vous ouvrez le fichier HTML dans le navigateur, vous remarquerez que la page indique Royaume-Uni sous « Livrer à » ce qui signifie que votre demande à Amazon a été acheminée depuis GB comme nous l'avons indiqué à l'API dans le code ci-dessus.

Dans les deux exemples ci-dessus, nous vous avons montré comment vous pouvez explorer avec succès une page Web en utilisant Crawlbase Smart AI Proxy et également comment vous pouvez facilement utiliser le potentiel de notre Crawlbase Crawling API via le CrawlbaseParamètres de l'API. Plus précisément, nous avons introduit le autoparse=true paramètre, qui fournit une sortie structurée pour un traitement plus facile des données, et le country=GB paramètre (ou tout code de pays valide à deux lettres) qui facilite la géolocalisation ciblée.
Crawlbase Le proxy IA intelligent simplifie les redirections !
Habituellement, les proxys ne font pas de redirections d'URL, mais Crawlbase Smart AI Proxy le fait. C'est pourquoi nous l'appelons Smart AI Proxy. Smart AI Proxy utilise Crawling API fonctionnalités permettant de gérer les redirections d'URL en interceptant les requêtes entrantes, en évaluant les règles de redirection définies par les utilisateurs et en envoyant les codes d'état HTTP appropriés aux clients. Il oriente efficacement les utilisateurs de l'URL source vers l'URL cible en fonction du type de redirection spécifié (par exemple, 301 ou 302).
Démontrons un scénario de redirection en ciblant la même URL que précédemment, mais cette fois nous supprimerons le «Www» préfixe de l'URL. L'URL modifiée déclenchera une redirection, montrant comment Crawlbase Smart AI Proxy gère ce type de redirection. L'URL résultante, sans le préfixe « www », se présente comme suit :
https://amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/
Nous continuerons à utiliser le code Python fourni précédemment, et l'appel d'API pour la configuration des redirections d'URL suivra la même structure que précédemment. L'extrait de code ressemblera à ceci :
1 | # requêtes d'installation de pip |
Après avoir exécuté l'appel API ci-dessus dans le terminal, vous recevrez la réponse au format JSON. Dans la réponse, vous pouvez observer que le « état_original » le champ a la valeur "301."

Grattez les ASIN d'Amazon avec un proxy intelligent AI
L'extraction à grande échelle des ASIN d'Amazon permet aux développeurs d'extraire rapidement des informations importantes sur les produits. Ces données clés sont cruciales pour étudier le marché, fixer les prix et comparer la concurrence. outils de grattage Web, les utilisateurs peuvent automatiser la collecte d'ASIN à partir de grandes listes de produits, économisant ainsi beaucoup de temps et d'énergie.
Résumer, Crawlbase Proxy IA intelligent se présente comme une solution révolutionnaire offrant une géolocalisation personnalisée, une bande passante illimitée, une exploration pilotée par l'IA, rotation des adresses IP, et un taux de réussite élevé. Ses diverses fonctionnalités, notamment un vaste pool de proxy, une exploration anonyme et une surveillance en temps réel, en font un outil essentiel pour les développeurs, leur permettant de prospérer dans le domaine dynamique de l'acquisition de données Web. Inscrivez-vous et bénéficiez de 5000 demandes gratuites avec finition Crawlbase Proxy IA intelligent !
Foire aux questions
Q : Qu'est-ce qu'un ASIN Amazon ?
A: Un ASIN (Amazon Standard Identification Number) d'Amazon est un code alphanumérique unique de 10 caractères attribué aux produits vendus sur la place de marché d'Amazon. Il sert d'identifiant de produit et est utilisé pour différencier les articles du vaste catalogue d'Amazon. Il commence toujours par « B0. »
Q : Est-il légal de scrapper Amazon ?
A: L'extraction de données Amazon est tout à fait légale lorsque les données sont accessibles au public. Cependant, il est essentiel d'éviter d'extraire des données qui nécessitent des identifiants de connexion et de s'assurer que les ensembles de données collectés ne contiennent aucun contenu sensible ou protégé par des droits d'auteur.
Q : Qu'est-ce qu'un SKU ?
A: Le SKU (Stock Keeping Unit) est un code unique attribué par les vendeurs ou les détaillants pour suivre et gérer leur inventaire. Contrairement à l'ASIN, le SKU n'est pas spécifique à la plateforme d'Amazon et peut être utilisé sur plusieurs canaux de vente
Q : Pourquoi est-il important de récupérer l'ASIN pour les produits répertoriés sur Amazon ?
- La récupération des ASIN pour les produits répertoriés sur Amazon est importante car les ASIN agissent comme des identifiants uniques pour chaque article sur le vaste marché d'Amazon.
- En récupérant les ASIN via le scraping Web, les développeurs peuvent collecter des informations essentielles sur les produits, les prix, la disponibilité et les avis des clients, leur permettant ainsi de créer des applications personnalisées, d'analyser les tendances et de comparer les produits entre les catégories.
- Le scraping des ASIN permet aux développeurs d'intégrer de manière transparente les données produit d'Amazon dans leurs propres applications et sites Web.
- En suivant les ASIN et en surveillant leurs performances au fil du temps, les entreprises et les développeurs peuvent optimiser leurs stratégies marketing, gérer les stocks et rester compétitifs dans le paysage du commerce électronique.
Q : Quelles sont les principales caractéristiques de Crawlbase Proxy IA intelligent ?
A: Les principales fonctionnalités du Smart AI Proxy sont rotation des adresses IP pour maintenir l'anonymat pendant le processus d'exploration. Le pool d'adresses IP tournantes comprend 140 millions de résidences ou proxy de centre de donnéesLe proxy intelligent IA est également très utile pour contourner les défis CAPTCHA et garantir un taux de réussite de 99 % pour l'exploration et le scraping. Il offre également une géolocalisation personnalisée pour un accès aux données par région.









