Si vous êtes dépassé par l'extraction manuelle des données de prix et que vous souhaitez apprendre à extraire les prix d'Amazon à l'aide de l'IA, vous êtes au bon endroit. Au fur et à mesure que vous lirez ce blog, nous nous concentrerons sur les techniques de scraping automatisées, en particulier celles impliquant la récupération automatisée de XPath. Nous vous guiderons dans la configuration de votre configuration de scraping, en utilisant l'IA pour obtenir précisément les données dont vous avez besoin et en maîtrisant l'art de la récupération automatisée de données avec XPath. Que vous soyez une petite boutique en ligne ou un grand géant du commerce électronique, ces techniques seront vos super pouvoirs dans le monde numérique.

Table des matières

  1. Importance du scraping automatisé
  • Pourquoi le scraping automatisé est important dans le commerce électronique
  • Les avantages du scraping de prix basé sur l'IA sur Amazon
  1. Exploration des API nécessaires
  • Base d'exploration Crawling API
  • API OpenAI GPT
  1. Comprendre la structure de la page de recherche d'Amazon
  • Décomposer une page de recherche Amazon
  • Identifier les données dont vous avez besoin
  1. Se préparer
  • Installation de Python et des bibliothèques essentielles
  • Création d'un environnement virtuel
  • Acquisition de jetons pour Crawlbase et OpenAI
  1. Automatisation du scraping des prix sur Amazon
  • Récupération du code HTML de la page de recherche Amazon
  • Utilisation d'OpenAI pour extraire le XPath des prix
  • Réduction des prix des produits Amazon
  1. Mot de la fin
  2. FAQ - Foire Aux Questions

Importance du scraping automatisé

Pour effectuer le scraping, vous devez connaître le sélecteur CSS ou le Sélecteur XPath pour les éléments. Par conséquent, si vous récupérez des milliers de sites Web, vous devez déterminer manuellement le sélecteur pour chacun d'eux. Et si la page change, vous devez également la modifier. C'est là que le scraping Web automatisé entre en jeu, offrant un avantage essentiel à ceux qui exploitent efficacement ses capacités.

Pourquoi le scraping automatisé est important dans le commerce électronique

Le scraping automatisé est comme une superpuissance dans le monde des entreprises en ligne, en particulier dans le commerce électronique. Il aide les entreprises à collecter des données rapidement et avec précision, ce qui est essentiel pour réussir. Voici pourquoi c'est si important :

Scraping automatisé dans le commerce électronique
  • Collecte de données rapide:Le scraping automatisé permet aux entreprises de récupérer des données importantes telles que les prix des produits, la disponibilité des stocks et ce que font les concurrents. Cette vitesse est comme une arme secrète, permettant aux entreprises de prendre des décisions rapides et intelligentes qui leur permettent de garder une longueur d'avance sur la concurrence.
  • Garder toujours un œil sur les concurrents:Dans le commerce électronique, les choses évoluent rapidement. Il est essentiel de surveiller de près ce que font vos concurrents avec leurs prix et leurs produits. Le scraping automatisé revient à avoir un assistant robot qui surveille vos concurrents 24h/7 et XNUMXj/XNUMX, afin que vous soyez toujours au courant de la situation.
  • Informations sur les produits basées sur les données:Vous souhaitez savoir quels produits sont à la mode, ce que les clients aiment et ce que le marché veut ? Le scraping automatisé peut vous aider à approfondir ces informations, vous donnant ainsi des super pouvoirs pour développer des produits et cibler votre marketing.
  • Adaptabilité aux changements de mise en page:Les sites Web mettent parfois à jour leur apparence et leur structure. Le scraping automatisé peut gérer ces modifications à l'aide de sélecteurs CSS, vous permettant ainsi de continuer à collecter des données sans interruption.
  • Des expériences de magasinage exceptionnelles:Les acheteurs aiment avoir des informations à jour et précises lorsqu'ils visitent une boutique en ligne. Le scraping automatisé garantit que les données de vos produits sont toujours à jour et fiables, ce qui rend vos clients heureux.

Les avantages du scraping de prix basé sur l'IA sur Amazon

Parlons maintenant de l'utilisation du scraping piloté par l'IA sur Amazon, en particulier lorsqu'il est combiné à la récupération automatisée de XPath. C'est comme augmenter vos super pouvoirs :

  • Gestion d'un grand nombre de données:Le scraping piloté par l'IA et la récupération automatisée de XPath sont parfaits pour traiter de grandes quantités de données. Que vous ayez de nombreux produits à suivre, des millions d'avis clients ou de nombreux concurrents à surveiller, cette technologie peut gérer la charge.
  • Précision et fiabilité:Les modèles d'IA, comme ceux fournis par OpenAI GPT, sont comme des détectives de données experts. Ils trouvent exactement ce dont vous avez besoin avec une précision incroyable, de sorte que vous pouvez toujours faire confiance aux informations que vous obtenez.
  • Gain de temps et de ressources:Le scraping automatisé signifie que vous n'avez pas à tout faire manuellement. C'est comme avoir un assistant qui travaille 24 heures sur 24, ce qui vous fait gagner du temps et des ressources. Vous pouvez utiliser ce temps supplémentaire pour prendre des décisions importantes.
  • S'adapter aux changements:Les sites Web comme Amazon peuvent modifier leur présentation ou leur structure. Les modèles d'IA peuvent s'adapter, de sorte que vous ne perdez pas votre super pouvoir même lorsque les sites Web sont mis à jour.

Explorons les outils et méthodes pratiques pour donner à votre entreprise l’avantage dans la vente au détail en ligne.

Exploration des API nécessaires

Avant de vous plonger dans les subtilités techniques du scraping automatisé, vous devez vous familiariser avec les API fondamentales qui sous-tendent votre parcours de scraping. Cette section se penchera sur les API essentielles au cœur du scraping Web automatisé : la Crawlbase Crawling API et de la API OpenAI GPT.

Base d'exploration Crawling API

Le Base d'exploration Crawling API est une base essentielle pour les efforts d'extraction de données Web. Il offre la possibilité de récupérer le contenu HTML des pages Web, ce qui est un outil indispensable pour le scraping automatisé. Voici un aperçu technique de Crawlbase Crawling API:

  • Extraction de données Web : Crawlbase est conçu pour faciliter l'extraction de contenu HTML à partir de pages Web. Il s'adapte aux structures complexes des pages Web, vous permettant ainsi d'accéder aux données précises requises pour vos tâches de scraping, telles que l'extraction de prix et l'analyse de contenu.
  • Rotation IP : Crawlbase intègre une fonctionnalité essentielle de Rotation IP. Cette fonctionnalité offre un anonymat, une évolutivité et une fiabilité améliorés en parcourant plusieurs adresses IP lors des opérations de scraping. Elle permet d'échapper aux restrictions basées sur l'IP et garantit une extraction de données ininterrompue.
  • Évolutivité : Crawlbase Crawling API est conçu pour gérer des tâches de scraping de différentes tailles. Que vous souhaitiez scraper une seule page Web ou des milliers de pages, Crawlbase peut gérer efficacement les requêtes, ce qui le rend idéal pour les projets d'extraction de données à grande échelle.
  • Facilité d'intégration : l'exploitation des fonctionnalités de Crawlbase est simple, grâce à sa bibliothèque Python. Cette intégration permet l'exécution sans effort des requêtes, la récupération du contenu et l'inclusion transparente dans vos pipelines d'analyse de données.

API OpenAI GPT

Le API OpenAI GPT représente une pierre angulaire pour la compréhension et la génération du langage naturel. Il ouvre diverses possibilités pour les tâches liées à l'interprétation et à la génération de données textuelles. Voici une perspective technique sur l'API OpenAI GPT :

  • Compréhension du langage naturel:Les modèles GPT d'OpenAI sont méticuleusement formés pour une compréhension complète du langage. Ils excellent dans l'interprétation des requêtes, la génération de texte et l'assistance aux tâches qui exigent une compréhension linguistique, ce qui en fait un outil puissant pour générer des expressions XPath.
  • Génération de langue:L'API GPT fait preuve d'une compétence exceptionnelle dans la génération de texte de type humain. Cette capacité est inestimable pour des tâches telles que les réponses de chatbot, la génération de contenu et l'élaboration d'instructions d'extraction de données, améliorant l'automatisation et la flexibilité dans les projets de scraping.
  • Versatilité:Les modèles GPT d'OpenAI sont extrêmement polyvalents et adaptables à diverses tâches liées au texte, ce qui en fait un ajout précieux à votre boîte à outils de scraping automatisé. Leur adaptabilité ouvre la voie à un large éventail d'applications dans le domaine du scraping Web.

Dans les sections suivantes, nous exploiterons la puissance de ces API, en les fusionnant de manière transparente pour créer un processus efficace et rationalisé pour l'extraction des prix des produits à partir des pages de recherche d'Amazon.

Comprendre la structure de la page de recherche d'Amazon

Pour maîtriser le scraping automatisé, il est essentiel de comprendre la structure des pages Web que vous souhaitez scraper. Dans cette section, nous examinerons de plus près la structure de la page de recherche d'Amazon, en la décomposant en ses composants essentiels et en vous aidant à identifier les données spécifiques dont vous avez besoin.

Décomposer une page de recherche Amazon

Les pages de recherche d'Amazon sont méticuleusement conçues pour offrir aux utilisateurs une expérience d'achat conviviale et efficace, ainsi qu'une interface visuellement agréable avec logos personnalisés. Comprendre la structure de ces pages est la première étape vers un scraping automatisé réussi :

Page de recherche Amazon
  • Barre de recherche:En haut de la page, vous trouverez la barre de recherche, dans laquelle les utilisateurs saisissent leurs requêtes. C'est ici que commence le parcours de recherche, les utilisateurs recherchant des produits ou des catégories spécifiques.
  • Filtres et options de tri:Sur le côté gauche, vous verrez différentes options de filtrage et de tri. Les utilisateurs peuvent affiner leurs résultats de recherche en sélectionnant des catégories, des marques, des gammes de prix, etc. Il est important de reconnaître ces éléments car ils influencent les résultats de recherche.
  • Grille de résultats de recherche:La partie centrale de la page est occupée par la grille des résultats de recherche. Cette grille affiche une liste de produits correspondant à la requête de l'utilisateur. Chaque liste de produits comprend généralement une image, un titre, un prix, des notes et des informations supplémentaires.
  • Pagination:Au bas des résultats de recherche, vous trouverez souvent des contrôles de pagination, permettant aux utilisateurs de naviguer sur plusieurs pages de résultats. Il est essentiel de comprendre comment Amazon gère la pagination pour collecter des données sur toutes les pages à des fins de scraping.
  • Liens vers la page de détails du produit:Chaque fiche produit contient un lien qui dirige les utilisateurs vers la page de détails du produit. Lors de l'exploration des pages de recherche d'Amazon, ces liens peuvent être utiles pour collecter des informations plus approfondies sur des produits spécifiques.
  • Pied de page:Le pied de page contient des liens vers diverses politiques d'Amazon, le service client et des ressources supplémentaires. C'est la dernière section de la page.

Identifier les données dont vous avez besoin

Les pages de recherche d'Amazon sont riches en données, mais toutes ne sont pas forcément pertinentes pour vos objectifs de scraping spécifiques. Il est essentiel d'identifier les éléments de données précis dont vous avez besoin pour un scraping efficace et ciblé :

  • Information produit: Déterminez les détails du produit qui sont essentiels à vos objectifs. Il peut s'agir des titres de produits, des prix, des évaluations des clients et des descriptions. L'identification de ces éléments vous aide à extraire les bonnes informations.
  • URL de produits:Si vous souhaitez approfondir l'analyse de produits spécifiques, il est essentiel de saisir les URL des pages de produits individuelles. Cela vous permet d'accéder à des informations plus détaillées pour chaque article.
  • Contrôle de pagination:Il est essentiel de comprendre la structure de la pagination sur les pages de recherche d'Amazon pour collecter des données à partir de plusieurs pages de résultats. Vous devrez localiser et utiliser les éléments appropriés pour parcourir efficacement les pages.

Au fur et à mesure que nous progresserons dans ce blog, nous appliquerons ces connaissances à nos techniques de scraping automatisé. Vous apprendrez à localiser et à extraire les données dont vous avez besoin à partir des pages de recherche d'Amazon, ce qui vous permettra de recueillir des informations précieuses et de prendre des décisions basées sur les données dans le monde du commerce électronique.

Comment réduire les prix d'Amazon : comment s'y préparer

Avant de vous lancer dans le scraping automatisé, vous devez vous assurer que vous disposez des bons outils et de la bonne configuration. Cette section couvrira les étapes de préparation initiales, notamment l'installation de Python, la création d'un environnement virtuel et l'acquisition des jetons nécessaires pour Crawlbase et OpenAI.

Installation de Python et des bibliothèques essentielles

Python est la pierre angulaire des projets de scraping Web, et plusieurs bibliothèques joueront un rôle essentiel dans votre parcours. Commençons par vérifier que Python et les bibliothèques suivantes sont installées :

Installation de Python:Si vous n'avez pas installé Python, téléchargez la dernière version depuis le site Web officiel de Python et suivez les instructions d'installation correspondant à votre système d'exploitation.

Bibliothèques requises:Les bibliothèques suivantes sont nécessaires pour suivre ce blog avec succès.

  1. Bibliothèque Python Crawlbase: Pour interagir avec Crawlbase Crawling API, vous aurez besoin de la bibliothèque Python Crawlbase. Cette bibliothèque simplifie le processus de création de requêtes auprès de Crawlbase pour le scraping Web. Installez-la avec :
1
pip installe crawlbase
  1. Bibliothèque OpenAI Python:Comme vous utiliserez le GPT d'OpenAI pour obtenir XPath, vous devez installer la bibliothèque Python d'OpenAI. Cette bibliothèque vous permet d'interagir efficacement avec les API d'OpenAI. Installez-la en utilisant :
1
pip installer openai
  1. lxml:La bibliothèque Python lxml est un outil robuste et efficace pour analyser et travailler avec des documents XML et HTML. Elle fournit une interface puissante et conviviale pour naviguer et manipuler des données structurées.
1
pip installer lxml

Création d'un environnement virtuel

La création d'un environnement virtuel est une bonne pratique en matière de développement Python. Elle garantit que votre projet dispose de son environnement isolé avec les packages requis. Voici comment configurer un environnement virtuel :

  1. Installer Virtualenv:Si vous n'avez pas installé virtualenv, vous pouvez le faire en utilisant pip :
1
pip installer virtualenv
  1. Créer un environnement virtuel:Accédez au répertoire de votre projet et exécutez la commande suivante pour créer un environnement virtuel :
1
virtualenv venv
  1. Activer l'environnement virtuel:Selon votre système d'exploitation, la commande d'activation peut différer :
  • Sur Windows:
1
venv\Scripts\activate
  • Sur macOS et Linux:
1
source venv/bin/activate

Votre environnement virtuel est désormais configuré et activé. Vous pouvez installer des packages spécifiques au projet sans interférer avec votre installation Python à l'échelle du système.

Acquisition de jetons pour Crawlbase et OpenAI

Pour utiliser Crawlbase Crawling API et l'API OpenAI GPT, vous devrez obtenir les jetons ou les clés API nécessaires. Voici comment les acquérir :

Jeton Crawlbase: Visiter le Site Web de Crawlbase et créez un compte. Une fois inscrit, vous trouverez votre jeton ou clé API dans le Documentation. Crawlbase fournit deux types de jetons : le jeton normal (TCP) pour les sites Web statiques et le jeton JavaScript (JS) pour les sites Web dynamiques ou pilotés par JavaScript. Pour Amazon, nous avons besoin d'un jeton JS. Gardez ce jeton en sécurité, car il sera essentiel pour accéder à l'API Crawlbase. Pour un démarrage facile, Crawlbase offre 1000 requêtes gratuites pour ses Crawling API.

Jeton OpenAI GPT: Visiter le Site Web d'OpenAI et créez un compte si vous ne l'avez pas déjà fait. Accédez à votre jeton API à partir des paramètres de votre compte OpenAI. Ce jeton est requis pour effectuer des requêtes à l'API OpenAI GPT.

Dans les sections suivantes de ce blog, nous vous guiderons à travers les étapes pratiques pour extraire les prix des produits des pages de recherche d'Amazon de manière efficace et efficiente. Restez avec nous pendant que nous explorons les outils et les techniques qui vous donneront un avantage concurrentiel dans le commerce électronique.

Automatisation du scraping des prix sur Amazon

Maintenant que vous êtes bien préparé et équipé des outils et des jetons nécessaires, il est temps de plonger au cœur du scraping automatisé. Cette section vous guidera à travers les étapes détaillées de la récupération des prix des produits à partir des pages de recherche d'Amazon à l'aide de Crawlbase Crawling API et OpenAI.

Récupération du code HTML de la page de recherche Amazon

La première étape de l'automatisation du scraping de prix consiste à obtenir le contenu HTML des pages de recherche d'Amazon. Ce contenu HTML est l'endroit où les informations sur les produits, y compris les prix, sont intégrées. Tout comme de nombreux sites Web modernes, les pages de recherche d'Amazon utilisent une technologie sophistiquée comme JavaScript et Ajax pour charger leur contenu. Cela peut rendre difficile l'extraction de données à partir de ces pages. Mais, avec Crawlbase Crawling API, vous disposez des outils pour gérer efficacement ces défis. Vous trouverez ci-dessous le script Python permettant de récupérer le code HTML de la page de recherche Amazon pour la requête macbook .

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
de base d'exploration importer API d'exploration

# Initialiser le Crawling API avec votre jeton Crawlbase
api = API d'exploration({ 'jeton': 'VOUS_CRAWLBASE_JS_TOKEN' })

# URL de la page de recherche Amazon que vous souhaitez récupérer
amazon_search_url = 'https://www.amazon.com/s?k=macbook'

# options pour Crawling API
choix = {
'page_wait': 2000,
'ajax_wait': 'vrai'
}

# Faire une demande pour extraire la page de recherche Amazon avec des options
réponse = api.get(amazon_search_url, options)

# Vérifiez si la demande a réussi
if réponse['code_d'état']== 200:
# Contenu HTML extrait après décodage des données d'octets
html_content = réponse['corps'].décoder('latin1')

# Enregistrer le contenu HTML dans un fichier
avec ouvert('sortie.html', 'w', encodage=« utf-8 ») as fichier:
fichier.write(contenu_html)
d'autre:
impression(« Échec de la récupération de la page. Code d'état : », réponse['code_d'état'])

Lorsque vous utilisez le jeton JavaScript avec l'API Crawlbase, vous pouvez spécifier certains paramètres spéciaux pour garantir la capture précise du contenu rendu dynamiquement. Vous pouvez en savoir plus ici.

  • page_wait: Ce paramètre facultatif vous permet de spécifier le nombre de millisecondes à attendre avant que le navigateur capture le code HTML résultant. Utilisez ce paramètre dans les situations où une page prend du temps à s'afficher ou lorsque les requêtes AJAX doivent être chargées avant la capture du code HTML.
  • ajax_wait: Un autre paramètre facultatif pour le jeton JavaScript. Il vous permet de spécifier s'il faut attendre la fin des requêtes AJAX avant de recevoir la réponse HTML. Ceci est important lorsque le contenu repose sur des requêtes AJAX.

output.html Exposition :

Aperçu HTML exploré

Utilisation d'OpenAI pour extraire le XPath des prix

Dans notre quête d'automatisation de l'extraction des prix des produits à partir des pages de recherche d'Amazon, nous nous tournons vers les capacités remarquables d'OpenAI, en particulier le modèle GPT (Generative Pre-trained Transformer). Mettons à jour l'exemple précédent et ajoutons le code pour utiliser OpenAI afin de générer des expressions XPath précises pour extraire efficacement les prix des produits à partir du contenu HTML en utilisant Invites GPT-4 pour une précision optimale :

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
importer ouvert
importer asynchrone
de base d'exploration importer API d'exploration

# Remplacez « your_openai_api_key » par votre clé API OpenAI
openai.api_key = 'votre_clé_API_Openai'

# Initialiser le Crawling API avec votre jeton Crawlbase
api = API d'exploration({ 'jeton': 'VOUS_CRAWLBASE_JS_TOKEN' })

# URL de la page de recherche Amazon que vous souhaitez récupérer
amazon_search_url = 'https://www.amazon.com/s?k=macbook'

# Options pour Crawling API
choix = {
'page_wait': 2000
}

async def obtenir_xpath(html):
réponse = attendre openai.Complétion.créer(
moteur="gpt-3.5-turbo",
message=[
{"rôle": "système", "teneur": « En tant qu'entité d'assistance, votre rôle est d'identifier avec habileté l'expression XPath complète, englobant le chemin de la source HTML à l'élément de prix du produit dans l'invite. Votre réponse doit être constituée uniquement de l'expression XPath complète, dépourvue d'explications supplémentaires, de notes ou de tout texte supplémentaire. Plusieurs répétitions de la même réponse sont autorisées. »},
{"rôle": "utilisateur", "teneur":html}
]
)
retourner réponse.choix[0].message["teneur"]

async def principal
# Faire une demande pour extraire la page de recherche Amazon avec des options
réponse = api.get(amazon_search_url, options)

# Vérifiez si la demande a réussi
if réponse['code_d'état']== 200:
# Contenu HTML extrait après décodage des données d'octets
html_content = réponse['corps'].décoder('latin1')
xpath = attendre obtenir_xpath(contenu_html)
impression(path)
d'autre:
impression(« Échec de la récupération de la page. Code d'état : », réponse['code_d'état'])

if __nom__ == "__principale__":
asyncio.run(main())

Ce code constitue le pont entre votre contenu HTML et les expressions XPath précises nécessaires pour localiser et extraire les prix des produits. Il initie la communication avec le moteur GPT-3.5 Turbo d'OpenAI, fournit des instructions et reçoit les expressions XPath générées adaptées à vos besoins de scraping. Le XPath généré est ensuite facilement disponible pour vos tâches de scraping Web, ce qui simplifie le processus et améliore la précision.

Réduction des prix des produits Amazon

Pour faire passer votre parcours de scraping au niveau supérieur, nous allons améliorer l'exemple de script précédent en ajoutant une fonction appelée find_max_price. Cette fonction utilise la bibliothèque Python lxml pour analyser le contenu HTML et sélectionner tous les prix des produits en fonction de l'expression XPath générée. Elle convertit ensuite les chaînes de prix sélectionnées en valeurs numériques et identifie le prix le plus élevé à l'aide de max() fonction. Enfin, le script imprime le prix le plus élevé du Macbook trouvé sur la page de recherche d'Amazon, vous fournissant ainsi un point de données précieux.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
importer ouvert
importer asynchrone
importer lxml
de base d'exploration importer API d'exploration

# Remplacez « your_openai_api_key » par votre clé API OpenAI
openai.api_key = 'votre_clé_API_Openai'

# Initialiser le Crawling API avec votre jeton Crawlbase
api = API d'exploration({ 'jeton': 'VOUS_CRAWLBASE_JS_TOKEN' })

# URL de la page de recherche Amazon que vous souhaitez récupérer
amazon_search_url = 'https://www.amazon.com/s?k=macbook'

# Options pour Crawling API
choix = {
'page_wait': 2000
}

async def obtenir_xpath(html):
réponse = attendre openai.Complétion.créer(
moteur="gpt-3.5-turbo",
message=[
{"rôle": "système", "teneur": « Votre rôle en tant qu'entité d'assistance est d'identifier avec compétence l'expression XPath globale qui trace le chemin depuis la source HTML jusqu'aux éléments de titre et de prix du produit dans l'invite. Votre réponse doit uniquement inclure l'expression XPath complète pour les deux éléments, sans aucune explication, note ou texte supplémentaire. Il est acceptable de répéter la même réponse plusieurs fois. »},
{"rôle": "utilisateur", "teneur":html}
]
)
retourner réponse.choix[0].message["teneur"]

def trouver_prix_max(contenu html, xpath):
parsed_html = html.fromstring(contenu_html)
# Utilisez l'expression XPath générée pour sélectionner et extraire les prix des produits
chaînes_de_prix = parsed_html.xpath(xpath)

# Convertir les chaînes de prix en valeurs flottantes
prix = [flotter(prix) pour prix in [chaînes de prix]

# Trouvez le prix le plus élevé
prix_le_plus_élevé = max(prix)

# Imprimez le prix le plus élevé
impression(« Le prix le plus élevé d'un MacBook est : », prix le plus élevé)

async def principal
# Faire une demande pour extraire la page de recherche Amazon avec des options
réponse = api.get(amazon_search_url, options)

# Vérifiez si la demande a réussi
if réponse['code_d'état']== 200:
# Contenu HTML extrait après décodage des données d'octets
html_content = réponse['corps'].décoder('latin1')
xpath = attendre obtenir_xpath(contenu_html)

trouver_prix_max(contenu_html, xpath)

d'autre:
impression(« Échec de la récupération de la page. Code d'état : », réponse['code_d'état'])

if __nom__ == "__principale__":
asyncio.run(main())

Exemple de sortie :

1
Le prix le plus élevé du MacBook est de : 5,299 XNUMX

Grâce à cet ajout, votre script de scraping récupère désormais non seulement les données, mais les traite également pour vous fournir des informations précieuses, telles que le prix le plus élevé du Macbook trouvé sur la page de recherche d'Amazon. Vous souhaiterez peut-être également savoir comment gérer la pagination lors du scraping et de l'enregistrement des résultats dans un format approprié. Pour cela, vous pouvez vous référer à ceci blogProfitez de vos capacités de scraping améliorées !

Mot de la fin

J'espère que ce blog vous aidera à automatiser vos efforts de scraping et vous fera gagner beaucoup de temps. Si vous souhaitez récupérer les données des produits Walmart ou ses pages de recherche, pensez à consulter les guides suivants :

(I.e. Comment récupérer les avis d'Amazon
(I.e. Comment extraire les pages de recherche d'Amazon
(I.e. Comment récupérer les données des produits Amazon

Vous pouvez trouver des guides supplémentaires comme grattage d'Amazon ASIN, Avis Amazon dans Node, Images d'Amazon et Données Amazon en Ruby. De plus, pour des guides de scraping de commerce électronique au-delà de Walmart, consultez nos tutoriels sur le scraping de données de produits à partir de Walmart, eBay et AliExpress.

N'hésitez pas à nous contacter ici si vous avez besoin d'aide supplémentaire ou si vous avez des questions supplémentaires.

FAQ - Foire Aux Questions

Q : Que dois-je faire avec les données de prix récupérées sur Amazon ?

Ce que vous faites avec les données de prix récupérées sur Amazon dépend en grande partie de vos intentions et de votre conformité aux réglementations légales en vigueur. Si vous envisagez d'utiliser les données à des fins personnelles ou d'analyse, vous pouvez généralement le faire à condition que cela soit conforme aux conditions générales d'Amazon et aux lois sur le scraping Web en vigueur dans votre région. Cependant, le partage, la vente ou la publication de données récupérées, en particulier à des fins commerciales, nécessitent souvent l'autorisation explicite d'Amazon.

Q : Comment le scraping automatisé peut-il profiter à mon activité de commerce électronique ?

Le scraping automatisé offre plusieurs avantages aux entreprises de commerce électronique. Il vous permet de surveiller en permanence les prix concurrentiels et les offres de produits. Il fournit des informations détaillées sur les tendances des produits, les préférences des clients et les demandes du marché, ce qui est inestimable pour le développement de produits et le marketing ciblé. De plus, des informations produit précises et à jour sur votre site Web de commerce électronique garantissent une expérience d'achat fluide pour les clients.

Q : Puis-je adapter le scraping automatisé pour gérer les modifications dans les mises en page des sites Web ?

Oui, le scraping automatisé peut s'adapter aux changements de mise en page des sites Web. Lorsque les sites Web mettent à jour leur conception ou leur structure, le scraping automatisé peut utiliser des techniques telles que les sélecteurs CSS et les expressions XPath flexibles pour garantir que la collecte de données reste ininterrompue. Cette adaptabilité est précieuse, car elle vous permet de conserver des données précises et à jour même lorsque les sites Web changent d'apparence.

Les aspects juridiques et éthiques du scraping Web sont essentiels à prendre en compte. La légalité du scraping Web varie selon les juridictions et il est essentiel de respecter les conditions d'utilisation du site Web. Les pratiques de scraping éthiques impliquent de ne pas surcharger un site Web de requêtes, d'éviter de récupérer des informations privées ou sensibles et de fournir une attribution appropriée lors de l'utilisation des données récupérées. Demander un avis juridique et être au courant des réglementations en matière de confidentialité dans votre région peut aider à garantir le respect des lois en vigueur.