En raison de la croissance considérable d'AliExpress au fil des ans, la recherche d'un proxy AliExpress fiable est devenue de plus en plus importante pour ceux qui ont besoin de données précieuses pour les études de marché.

De novembre 2022 à avril 2023, AliExpress a attiré 2.7 milliards de visiteurs ! Et il n'est jamais descendu en dessous de 432 millions de visites chaque mois. Et devinez quoi ? Janvier 2023 a remporté la palme avec plus de 449 millions de visites du monde entier.

Statistiques de trafic Aliexpress

Grâce à la forte demande des utilisateurs, AliExpress garde une longueur d'avance sur la concurrence grâce à ses prix et ses tendances. Par conséquent, l'extraction de ses données peut fournir des informations précieuses sur les tendances et les prix actuels. Mais l'extraction d'AliExpress ne peut pas être facile sans utiliser un proxy.

C'est là qu'intervient notre solution. Crawlbase Smart Proxy ce n'est pas votre service proxy AliExpress typique ; c'est une solution polyvalente qui utilise des proxys résidentiels et de centres de données rotatifs.

Dans ce blog, nous vous guiderons tout au long du processus de création d'un scraper Web AliExpress à l'aide de Python et Smart Proxy, vous offrant une approche étape par étape. Vous apprendrez à configurer votre environnement de codage, à configurer Smart Proxy, créez un scraper et gérez les problèmes courants de scraping Web.

Plongeons-nous et profitons au maximum Smart ProxyLes capacités de. Voici un tutoriel vidéo à ce sujet. Si vous préférez un tutoriel écrit, faites défiler vers le bas et continuez à lire.

Table des matières

I. Comprendre le Smart Proxy

II. Comment Smart Proxy Aide pour scrapper AliExpress

III. Base Smart Proxy Utilisation avec la commande Curl

IV : Ajout de paramètres à Smart Proxy Demandes

V. Création d'un scraper Web AliExpress à l'aide de Python

VI. Stratégies pour faire évoluer votre projet Python

VII.Conclusion

VIII. Questions fréquemment posées

I. Comprendre le Smart Proxy

La série Smart Proxy simplifie le processus complexe de scraping Web en automatisant le routage du trafic via une gamme de serveurs proxy composant des millions d'adresses IP. Il s'agit d'un outil puissant conçu pour faciliter l'exploration et le scraping Web pour les applications qui ne sont pas conçues pour interagir avec les API basées sur HTTP/S comme Crawling API.

Au lieu de modifier votre application existante, vous pouvez intégrer le Smart Proxy pour gérer la communication avec le Crawling API. Le procédé consiste à utiliser un proxy tournant qui transmet vos demandes à la Crawling API, simplifiant l'intégration pour les développeurs.

Cet outil polyvalent est conçu pour rendre vos projets de scraping Web plus fluides et plus efficaces. Voici comment cela fonctionne :

Routage automatique du trafic

La série Smart Proxy gère les subtilités du routage du trafic pour vous. C'est un peu comme avoir un conducteur de trafic intelligent pour vos opérations de scraping Web. En répartissant vos requêtes sur plusieurs serveurs proxy avec des millions d'adresses IP mondiales, il évite de surcharger un seul serveur, garantissant ainsi que vos activités de scraping Web restent fluides et ininterrompues.

Opération multithread

Smart Proxy est équipé pour tirer le meilleur parti du multithreading dans le contexte du scraping Web. Lorsque vous lancez une tâche de scraping, Smart Proxy Le gestionnaire attribue intelligemment des threads à différentes requêtes. Ces threads s'exécutent en parallèle et récupèrent simultanément des données à partir du site Web cible.

Efficacité et rapidité

L'une des caractéristiques remarquables du Smart Proxy Le service est remarquablement rapide. Il garantit qu'il n'y a pas de retard inutile dans vos demandes. Ceci est particulièrement crucial pour le scraping Web, où le temps est un facteur essentiel. Avec le gestionnaire de proxy, vos tâches de scraping deviennent non seulement plus rapides mais aussi plus précises.

Rotation IP automatisée

Base de données Crawlbase Smart Proxy gère intelligemment Rotation IP. Cela signifie que l'adresse IP d'où proviennent vos requêtes change à intervalles réguliers. Cette fonctionnalité est cruciale car elle vous permet de contourner sans effort les restrictions, d'éviter les interdictions d'IP et d'augmenter considérablement votre vitesse de scraping Web. En actualisant constamment votre adresse IP, vous réduisez le risque de rencontrer des obstacles qui peuvent perturber votre processus de scraping.

Équilibrer la charge

Que vous effectuiez une vérification d'annonces, meniez une étude de marché ou analysiez vos concurrents, Smart Proxy maintient une charge équilibrée. Cela vous permet d'effectuer ces tâches en toute simplicité. L'équilibre empêche qu'un seul serveur proxy ne soit surchargé, contribuant ainsi à l'efficacité de vos activités de scraping Web.

Confidentialité et sécurité

Au cœur de Smart Proxy est un engagement envers la confidentialité et la sécurité. En distribuant vos requêtes via plusieurs serveurs proxy, votre identité en ligne reste bien protégée, vous permettant de mener des activités de scraping Web avec la plus grande sécurité. confidentialité et sécurité des données.

En résumé, l' Smart Proxy de Crawlbase rationalise le scraping Web en automatisant et en optimisant le processus de gestion du serveur proxy. Son routage efficace du trafic, sa vitesse et son automatisation Rotation IP, le fonctionnement multithread, l'équilibrage de charge et l'accent mis sur la confidentialité et la sécurité en font un outil précieux pour les activités de scraping Web telles que la vérification des publicités, les études de marché et l'analyse des concurrents. Smart Proxy, vous pouvez naviguer dans le paysage du scraping Web avec facilité et confiance.

Proxy Aliexpress pour récupérer les données Aliexpress

II. Comment Smart Proxy Aide au Web Scraping AliExpress ?

proxy intelligent pour scraper Aliexpress

AliExpress, l'une des plus grandes plateformes de commerce électronique au monde, offre des données précieuses aux entreprises et aux chercheurs à grande échelle. Cependant, l'extraction de données sur AliExpress comporte son lot de défis. Ces défis incluent les interdictions d'IP, les CAPTCHA et la nécessité de contourner les mécanismes de détection des robots. Smart Proxy by Crawlbase est la solution qui vous permettra de surmonter ces obstacles et d'extraire efficacement les données d'AliExpress.

Contourner les blocages et restrictions IP

AliExpress utilise le blocage IP comme mesure standard pour empêcher les activités de scraping excessives. En faisant constamment tourner votre adresse IP, Smart Proxy vous aide à contourner ces restrictions sans effort. Cela signifie que vous pouvez scraper sans craindre que votre adresse IP ne soit bloquée, garantissant ainsi une collecte de données ininterrompue.

Déjouer les CAPTCHA

Les CAPTCHA sont un autre obstacle auquel vous serez confronté lors du scraping d'AliExpress. Ces tests de sécurité sont conçus pour différencier les humains des robots. Smart Proxy's rotation des adresses IP La fonctionnalité vient ici à la rescousse. Lorsque les CAPTCHA apparaissent, Smart Proxy bascule intelligemment vers une nouvelle adresse IP, garantissant ainsi que votre processus de scraping reste fluide et continu. Vous ne serez pas ralenti par ces contrôles de sécurité.

Éviter la détection des robots

AliExpress, comme de nombreuses plateformes en ligne, utilise des mécanismes sophistiqués de détection de robots pour identifier et bloquer les activités de scraping automatisées. Smart ProxyLa rotation IP automatisée de réduit considérablement le risque d'être détecté comme un robot. En continu changer d'adresse IP, Smart Proxy maintient vos activités de scraping discrètes, vous permettant de récupérer des données de manière anonyme.

Extraction de données à grande vitesse

L'efficacité est cruciale dans le scraping Web, et Smart Proxy excelle dans cet aspect. Il garantit que vos demandes sont traitées dans des délais minimes, ce qui vous permet d'extraire rapidement des données d'AliExpress. De plus, grâce à son fonctionnement multithread, Smart Proxy peut traiter plusieurs demandes simultanément, améliorant encore la vitesse et l'efficacité de vos tâches de scraping Web.

Confidentialité et protection des données

Smart Proxy améliore non seulement l'efficacité, mais donne également la priorité à votre anonymat. En acheminant vos demandes via plusieurs serveurs proxy, il garde votre identité en ligne discrète, vous permettant d'effectuer du scraping Web avec le plus haut niveau de confidentialité et de sécurité.

Maintenant que nous avons discuté de l'importance de Smart Proxy en scraping AliExpress, êtes-vous prêt à libérer son potentiel pour vos besoins de scraping ? Dans la prochaine section de notre blog, nous vous guiderons pas à pas dans le processus d'écriture de code en Python et d'intégration transparente Smart Proxy pour créer un scraper Web hautement efficace personnalisé pour AliExpress.

III. Base Smart Proxy Utilisation avec la commande Curl

Avant de configurer notre environnement Python, essayons de tester Smart Proxy et récupérez les données de la page Web AliExpress à l'aide d'une simple commande curl. Votre première étape consistera à Créer un compte avec Crawlbase et accédez à votre Smart Proxy tableau de bord pour obtenir le jeton d'authentification proxy.

Smart Proxy tableau de bord

Une fois que vous avez le jeton, ouvrez votre invite de commande ou votre terminal, copiez la ligne de commande ci-dessous, remplacez USER_TOKEN avec le jeton que vous avez obtenu plus tôt, et appuyez sur Entrée pour exécuter le code.

1
boucle -x "http://[email protected]:8012" -k "https://aliexpress.com/w/wholesale-macbook-pro.html"

Ce curl La commande effectuera une requête HTTP vers votre URL cible via Crawlbase Smart Proxy. Le proxy est configuré pour s'exécuter sur smartproxy.crawlbase.com au port 8012ainsi que, -k l'option dit curl pour ignorer la vérification du certificat SSL. Il est utilisé lors de la connexion à un serveur via HTTPS et vous ne souhaitez pas vérifier l'authenticité du certificat du serveur.

Dans le contexte de Crawlbase Smart Proxy, il est essentiel de désactiver la vérification SSL. Le non-respect de cette consigne peut entraver l'interaction entre les Smart Proxy et votre candidature.

Une fois l'exécution réussie, vous devriez recevoir une réponse HTML de AliExpress similaire à celui montré dans cette capture d'écran :

Réponse HTML du scraper Web Aliexpress

IV : Ajout de paramètres à Smart Proxy Demandes

Depuis que Smart Proxy transmet vos demandes à la Crawling API, il bénéficie également de la plupart des capacités du Crawling API. Vous pouvez affiner vos demandes en envoyant des instructions spécifiques, appelées paramètres, via un en-tête spécial appelé CrawlbaseAPI-Parameters.

Cela vous permet de dire Smart Proxy exactement comme vous le souhaitez pour gérer votre demande. Vous pouvez le personnaliser pour qu'il réponde parfaitement à vos besoins.

Dans ce cas, nous utiliserons un paramètre appelé scraper=aliexpress-serp. Cela raconte Smart Proxy pour extraire la réponse du site Web et l'organiser de manière à ce qu'elle soit facile à comprendre. C'est comme demander Smart Proxy pour transformer les données désordonnées du site Web en informations soignées et organisées.

1
boucle -H « Paramètres CrawlbaseAPI : scraper=aliexpress-serp » -x "http://[email protected]:8012" -k "https://aliexpress.com/w/wholesale-macbook-pro.html"

V. Création d'un scraper Web AliExpress à l'aide de Python

Étape 1. Configuration de votre projet Python

Maintenant que nous avons discuté des détails de base de la façon dont Smart Proxy fonctionne. Nous sommes prêts à configurer notre environnement Python.

Commencez par vous assurer que vous avez Python installé sur votre machine. Si c'est la première fois que vous utilisez Python, nous vous recommandons notre Guide pour débutants en Python et suivez la procédure étape par étape pour configurer correctement Python sur votre système.

Étape 2. Configuration du répertoire du projet

Une fois que vous avez configuré Python sur votre machine, nous devons maintenant configurer un nouveau projet. Ouvrez votre console ou votre terminal et exécutez la commande suivante.

1
mkdir base d'exploration
  • mkdir:Il s'agit d'une commande qui signifie « make directory ». Elle est utilisée pour créer un nouveau répertoire.
  • crawlbase: Il s'agit du nom du répertoire que vous souhaitez créer. Dans ce cas, il s'appelle « crawlbase », mais vous pouvez le remplacer par tout autre nom de votre choix.

Ensuite, exécutez la commande ci-dessous.

1
cd nom-dossier && -nous crawlbase.py
  • cd folder-name: Cette commande signifie « changer de répertoire ». Elle permet de naviguer vers un dossier spécifique. Remplacez « nom-dossier » par le nom du dossier dans lequel vous souhaitez accéder.
  • &&: Il s'agit d'un opérateur logique qui signifie « et ». Dans le contexte de cette commande, il garantit que la deuxième partie de la commande (touch crawlbase.py) est exécuté uniquement si la première partie (cd folder-name) est un succès.
  • touch crawlbase.py: Les touch La commande permet de créer un fichier vide. Dans ce cas, elle crée un fichier nommé « crawlbase.py » dans le répertoire spécifié par la commande précédente. cd commander.

Ainsi, lorsque vous exécutez cette ligne de code, elle fait deux choses :

  1. Il remplace le répertoire actuel par celui spécifié par « nom-dossier ».
  2. Il crée un nouveau fichier Python vide nommé « crawlbase.py » dans ce répertoire.

Étape 3. Installation des dépendances

Pour récupérer les données de la page Web AliExpress et les enregistrer dans un fichier JSON, nous avons besoin de deux packages essentiels.

Demandes: Ce package simplifie le processus d'envoi de requêtes HTTP/1.1. Vous n'avez pas besoin d'ajouter manuellement des chaînes de requête à vos URL ni d'encoder vos données PUT et POST. Vous pouvez simplement utiliser la méthode json pour plus de simplicité.

JSON:Python prend en charge nativement JSON. Il est fourni avec un package intégré appelé json pour l'encodage et le décodage des données JSON, éliminant ainsi le besoin d'installer un package supplémentaire.

Pour obtenir ces packages, utilisez la commande suivante :

1
demandes d'installation pip

Cette commande garantit que vous disposez des outils nécessaires pour récupérer des données sur AliExpress et gérer les opérations JSON dans votre script Python.

Étape 4. Utilisation Smart Proxy avec Python

Nous avons atteint le point où nous pouvons commencer à créer notre code Python principal et intégrer le Smart Proxy appel.

Dans la section précédente, nous avons créé un fichier appelé crawlbase.pyAccédez à ce fichier, copiez le code ci-dessous et exécutez-le pour récupérer les données souhaitées.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
importer demandes

# remplacez par votre jeton utilisateur Crawlbase.
username = 'USER_TOKEN'
mot de passe = '' # le mot de passe est vide, il n'est pas utilisé pour l'authentification.
proxy_auth = f'{Nom d'utilisateur}:{le mot de passe}'

URL = 'https://nl.aliexpress.com/w/wholesale-macbook-pro.html'
url_proxy = f"http://{proxy_auth}@smartproxy.crawlbase.com:8012"
mandataires = {"http": url_proxy, « https »: URL_proxy}

réponse = requêtes.get(url=url, proxies=proxies, vérifier=Faux)

impression(« Corps de la réponse : », contenu de la réponse)

Importer le requests Bibliothèque:

Cette ligne importe le requests bibliothèque qui simplifie le processus de création de requêtes HTTP en Python.

Configuration de l’authentification proxy :

remplacer 'USER_TOKEN' avec votre jeton d'utilisateur Crawlbase actuel. Ce jeton est utilisé pour l'authentification lors des demandes via le Smart ProxyL’ proxy_auth La variable est ensuite formatée pour inclure le nom d'utilisateur et un mot de passe vide, suivant le format d'authentification de base.

Définition de l'URL et de l'URL proxy :

  • url: Il s'agit de l'URL cible que vous souhaitez récupérer. Dans ce cas, il s'agit d'une page Web AliExpress liée à la vente en gros de MacBook Pro.
  • proxy_url: Ceci est l'URL du Smart Proxy serveur, y compris les détails d'authentification. Le format de l'URL est http://username:password@proxy_host:proxy_port.

Configuration des proxys :

La série proxies Un dictionnaire est créé pour spécifier les paramètres du proxy. « http » et « https » sont configurés pour utiliser la même URL de proxy.

Faire la demande :

  • requests.get:Cette fonction lance une requête HTTP GET vers l'URL spécifiée.
  • proxies: Le paramètre proxys est défini pour utiliser les paramètres proxy configurés.
  • verify=False: Ce paramètre est défini sur False pour ignorer la vérification du certificat SSL. Dans un environnement de production, il est essentiel de gérer correctement la vérification SSL.

Impression du corps de la réponse :

Cette ligne imprime le contenu de la réponse, qui inclut le code HTML ou les données récupérées à partir de l'URL spécifiée.

Étape 5. Exécutez le code Python

1
crawlbase.py
Réponse HTML du scraper Web Aliexpress

Une réponse réussie du code récupérera le code source HTML complet de l'URL AliExpress et l'affichera sur votre console. Ces données ne sont pas encore utiles dans la plupart des cas car elles seront difficiles à décortiquer. Afin d'obtenir des données plus sensibles et plus faciles à lire, nous devons analyser cette réponse et la transformer en données structurées que nous pouvons ensuite stocker dans une base de données pour une récupération et une analyse faciles.

Étape 6. Analyse des données à l'aide du scraper AliExpress

La série Smart ProxyLa capacité de à analyser automatiquement les données d'AliExpress sera utilisée dans cette étape. Pour ce faire, nous devons simplement passer le grattoir=aliexpress-serp avec CrawlbaseAPI-parameters comme en-tête dans notre code. Modifiez votre crawlbase.py fichier et collez le code ci-dessous.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
importer demandes
importer json

# remplacez par votre jeton utilisateur Crawlbase.
username = 'USER_TOKEN'
mot de passe = '' # le mot de passe est vide, il n'est pas utilisé pour l'authentification.
proxy_auth = f'{Nom d'utilisateur}:{le mot de passe}'

URL = 'https://nl.aliexpress.com/w/wholesale-macbook-pro.html'
url_proxy = f"http://{proxy_auth}@smartproxy.crawlbase.com:8012"
mandataires = {"http": url_proxy, « https »: URL_proxy}

en-têtes = {
« Paramètres de CrawlbaseAPI »: "scraper=aliexpress-serp"
}

réponse = requêtes.get(url=url, proxies=proxies,
en-têtes=en-têtes, vérifier=Faux)

data = json.loads (réponse.text)

impression(« Réponse du corps gratté : », json.dumps(données, indent=4))

Une fois ce code exécuté, la réponse sera au format JSON comme indiqué ci-dessous :

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
{
"état_original": 200,
"pc_status": 200,
"url": "https://nl.aliexpress.com/w/wholesale-macbook-pro.html?spm=MI7V_IrIdoZgPjgbnB0s3Q&",
"corps": {
"des produits": [
{
« Titre »: "5 en 1 USB C Hub Type C vers 4K HD adaptateur avec réseau RJ45 100M 1000M Ethernet LAN adaptateur de chargeur pour Macbook Pro",
"prix": {
"actuel": "\uffe11.27"
},
"url": "https://nl.aliexpress.com/item/1005005653517644.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-0&pdp_npi=4%40dis%21GBP%215.76%211.27%21%21%216.86%21%21%40210318ec16999696359782730e2cad%2112000033898457492%21sea%21UK%210%21AB&curPageLogUid=SwEz55KtOSLT",
"image": "https://ae04.alicdn.com/kf/Sbffa8b7a90564cff82ca0b7c2ece62038/5-in-1-USB-C-Hub-Type-C-To-4K-HD-Adapter-with-RJ45-Network-100M.jpg_220x220xz.jpg_.webp",
"message d'expédition": "Gratis verzending boven de \uffe18 \u00b7 Levering binnen 7 jours",
"nombre de ventes": 207,
"ratingValue": "",
"RatingLink": "https://nl.aliexpress.com/item/1005005653517644.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-0&pdp_npi=4%40dis%21GBP%215.76%211.27%21%21%216.86%21%21%40210318ec16999696359782730e2cad%2112000033898457492%21sea%21UK%210%21AB&curPageLogUid=SwEz55KtOSLT",
"Informations sur le vendeur": {
"nom du magasin": "",
« Lien de magasin »: nul
}
},
{
« Titre »: "Getatek USB C Hub 4K 60Hz HDMI Station d'accueil Type C vers port Ethernet PD 100W USB 3.2 Adaptateur Hub pour MacBook Pro Xiaomi Lenovo",
"prix": {
"actuel": "\uffe19.66"
},
"url": "https://nl.aliexpress.com/item/1005005980859268.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-1&pdp_npi=4%40dis%21GBP%2130.10%219.66%21%21%21261.78%21%21%40210318ec16999696359782730e2cad%2112000035159491762%21sea%21UK%210%21AB&curPageLogUid=zcTTJdwE54mt",
"image": "https://ae04.alicdn.com/kf/S07ec6c1f025748f591ba11f8c9289000U/Getatek-USB-C-Hub-4K-60Hz-HDMI-Docking-Station-Type-C-to-Ethernet-Port-PD-100W.jpg_220x220xz.jpg_.webp",
"message d'expédition": "Livraison gratuite",
"nombre de ventes": 261,
"ratingValue": "",
"RatingLink": "https://nl.aliexpress.com/item/1005005980859268.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-1&pdp_npi=4%40dis%21GBP%2130.10%219.66%21%21%21261.78%21%21%40210318ec16999696359782730e2cad%2112000035159491762%21sea%21UK%210%21AB&curPageLogUid=zcTTJdwE54mt",
"Informations sur le vendeur": {
"nom du magasin": "",
« Lien de magasin »: nul
}
},
{
« Titre »: "Station d'accueil Hub USB C 12 en 1, adaptateur HDMI 4K 30Hz PD 100W, répartiteur USB 3.0 de Type C pour ordinateur portable, Macbook Pro Air",
"prix": {
"actuel": "\uffe113.92"
},
"url": "https://nl.aliexpress.com/item/1005006054738654.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-2&pdp_npi=4%40dis%21GBP%2136.62%2113.92%21%21%2143.63%21%21%40210318ec16999696359782730e2cad%2112000035520585565%21sea%21UK%210%21AB&curPageLogUid=YU2V7Z8Q7JSg",
"image": "https://ae04.alicdn.com/kf/S5a1cda79dd644150b8755030c9bdc68aJ/12-in-1-USB-C-HUB-Docking-Station-HDMI-compatible-Adapter-4K-30Hz-PD-100W-Type.jpg_220x220xz.jpg_.webp",
"message d'expédition": "Livraison gratuite",
"nombre de ventes": 47,
"ratingValue": "",
"RatingLink": "https://nl.aliexpress.com/item/1005006054738654.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-2&pdp_npi=4%40dis%21GBP%2136.62%2113.92%21%21%2143.63%21%21%40210318ec16999696359782730e2cad%2112000035520585565%21sea%21UK%210%21AB&curPageLogUid=YU2V7Z8Q7JSg",
"Informations sur le vendeur": {
"nom du magasin": "",
« Lien de magasin »: nul
}
},
{
« Titre »: "Baseus USB Type C Hub vers HDMI compatible USB 3.0 adaptateur 6 en 1 Type C Hub Dock pour MacBook Pro Air USB C répartiteur",
"prix": {
"actuel": "\uffe16.46"
},
"url": "https://nl.aliexpress.com/item/1005005208865147.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-3&pdp_npi=4%40dis%21GBP%2137.49%216.46%21%21%21325.98%21%21%40210318ec16999696359782730e2cad%2112000032856872202%21sea%21UK%210%21AB&curPageLogUid=0JuHtQXjX8DN",
"image": "https://ae04.alicdn.com/kf/S72ff1470a93645d6b3afd70400d7a288N/Baseus-USB-Type-C-HUB-to-HDMI-compatible-USB-3-0-Adapter-6-in-1-Type.jpg_220x220xz.jpg_.webp",
"message d'expédition": "Gratis verzending boven de \uffe18 \u00b7 Levering binnen 5 jours",
"nombre de ventes": 900,
"ratingValue": "",
"RatingLink": "https://nl.aliexpress.com/item/1005005208865147.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-3&pdp_npi=4%40dis%21GBP%2137.49%216.46%21%21%21325.98%21%21%40210318ec16999696359782730e2cad%2112000032856872202%21sea%21UK%210%21AB&curPageLogUid=0JuHtQXjX8DN",
"Informations sur le vendeur": {
"nom du magasin": "",
« Lien de magasin »: nul
}
},
{
« Titre »: "Huav 2024 original ordinateur portable 13.3 pouces 360% Omgedraaid ultra-léger 2K écran tactile 16G avec 2Tssd Intel N4120 Windows 10 11 ordinateur portable",
"prix": {
"actuel": "\uffe1270.74"
},
"url": "https://nl.aliexpress.com/item/1005006176614563.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-4&pdp_npi=4%40dis%21GBP%21356.23%21270.74%21%21%213097.62%21%21%40210318ec16999696359782730e2cad%2112000036140607614%21sea%21UK%210%21AB&curPageLogUid=CWtKq454SCOw&search_p4p_id=20231114054716531607197640720004634170_1",
"image": "https://ae04.alicdn.com/kf/S09eb548a999e407384e583126b354e73Y/HUAV-2024-Original-Laptop-13-3-inch-360-Flipped-Ultra-Light-2K-Touch-Screen-16G-Running.jpg_220x220xz.jpg_.webp",
"message d'expédition": "Livraison gratuite",
"nombre de ventes": 18,
"ratingValue": "",
"RatingLink": "https://nl.aliexpress.com/item/1005006176614563.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-4&pdp_npi=4%40dis%21GBP%21356.23%21270.74%21%21%213097.62%21%21%40210318ec16999696359782730e2cad%2112000036140607614%21sea%21UK%210%21AB&curPageLogUid=CWtKq454SCOw&search_p4p_id=20231114054716531607197640720004634170_1",
"Informations sur le vendeur": {
"nom du magasin": "",
« Lien de magasin »: nul
}
},
{
« Titre »: "Hub USB 3.0 4 ports USB3.0, adaptateur multi-répartiteur OTG pour Xiaomi Lenovo Macbook Pro 13 15 Air Pro, accessoires d'ordinateur portable",
"prix": {
"actuel": "\uffe12.74"
},
"url": "https://nl.aliexpress.com/item/1005006212928878.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-5&pdp_npi=4%40dis%21GBP%214.57%212.74%21%21%215.44%21%21%40210318ec16999696359782730e2cad%2112000036304475455%21sea%21UK%210%21AB&curPageLogUid=koszKvWCNDet",
"image": "https://ae04.alicdn.com/kf/S3a56023e42be4eff830bd6174528311bp/USB-HUB-3-0-4-Ports-USB3-0-Multi-Splitter-Adapter-OTG-For-Xiaomi-Lenovo-Macbook.jpg_220x220xz.jpg_.webp",
"message d'expédition": "12 jours de levier sur \uffe18.39",
"nombre de ventes": 9,
"ratingValue": "",
"RatingLink": "https://nl.aliexpress.com/item/1005006212928878.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-5&pdp_npi=4%40dis%21GBP%214.57%212.74%21%21%215.44%21%21%40210318ec16999696359782730e2cad%2112000036304475455%21sea%21UK%210%21AB&curPageLogUid=koszKvWCNDet",
"Informations sur le vendeur": {
"nom du magasin": "",
« Lien de magasin »: nul
}
},
{
« Titre »: "Hub USB C pour station d'accueil Stoomdek Type C vers HDMI-compatible 4K 60Hz PD 100W câble adaptateur USB 3.0 pour ordinateur portable Macbook Pro",
"prix": {
"actuel": "\uffe17.57"
},
"url": "https://nl.aliexpress.com/item/1005005653434065.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-6&pdp_npi=4%40dis%21GBP%2120.45%217.57%21%21%2124.37%21%21%40210318ec16999696359782730e2cad%2112000033897379128%21sea%21UK%210%21AB&curPageLogUid=E6zEd5ZZ3wXs",
"image": "https://ae04.alicdn.com/kf/S73ea26b1e655401cb67152e3c2aa3f30i/USB-C-HUB-for-Steam-Deck-Docking-Station-Type-C-to-HDMI-compatible-4K-60Hz-PD.jpg_220x220xz.jpg_.webp",
"message d'expédition": "Livraison gratuite",
"nombre de ventes": 30,
"ratingValue": "",
"RatingLink": "https://nl.aliexpress.com/item/1005005653434065.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-6&pdp_npi=4%40dis%21GBP%2120.45%217.57%21%21%2124.37%21%21%40210318ec16999696359782730e2cad%2112000033897379128%21sea%21UK%210%21AB&curPageLogUid=E6zEd5ZZ3wXs",
"Informations sur le vendeur": {
"nom du magasin": "",
« Lien de magasin »: nul
}
},
{
« Titre »: "Adaptateur Ethernet USB C RJ45 vers Thunderbolt 3 type C, réseau Gigabit LAN, convertisseur 1000Mbps pour Macbook Pro/Air, Samsung Galaxy",
"prix": {
"actuel": "\uffe13.37"
},
"url": "https://nl.aliexpress.com/item/1005006224668700.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-7&pdp_npi=4%40dis%21GBP%2111.24%213.37%21%21%2197.76%21%21%40210318ec16999696359782730e2cad%2112000036356461171%21sea%21UK%210%21AB&curPageLogUid=PuUF5xuqSwIN",
"image": "https://ae04.alicdn.com/kf/S6a1bc693df814f689c8a28bb25ce9867L/USB-C-to-Ethernet-Adapter-RJ45-to-Thunderbolt-3-Type-C-Gigabit-Network-LAN-1000Mbps-Converter.jpg_220x220xz.jpg_.webp",
"message d'expédition": "12 jours de levier sur \uffe18.39",
"nombre de ventes": nul,
"ratingValue": "",
"RatingLink": "https://nl.aliexpress.com/item/1005006224668700.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-7&pdp_npi=4%40dis%21GBP%2111.24%213.37%21%21%2197.76%21%21%40210318ec16999696359782730e2cad%2112000036356461171%21sea%21UK%210%21AB&curPageLogUid=PuUF5xuqSwIN",
"Informations sur le vendeur": {
"nom du magasin": "",
« Lien de magasin »: nul
}
},
{
« Titre »: "Minisopuru Hub USB C Hub 10 Gbps Hub USB Type C vers USB 3.2 PD 100 W Adaptateur pour MacBook Pro Imac PC Accessoires USB Hub",
"prix": {
"actuel": "\uffe14.64"
},
"url": "https://nl.aliexpress.com/item/1005005883953605.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-8&pdp_npi=4%40dis%21GBP%2132.13%214.64%21%21%21279.37%21%21%40210318ec16999696359782730e2cad%2112000034711180884%21sea%21UK%210%21AB&curPageLogUid=QeKUEU8r5Hh8",
"image": "https://ae04.alicdn.com/kf/S13153af571704d17b2143b89918557785/Minisopuru-HUB-USB-C-Hub-10Gbps-Hub-USB-Type-C-to-USB-3-2-PD-100W.jpg_220x220xz.jpg_.webp",
"message d'expédition": "Gratis verzending boven de \uffe18 \u00b7 Levering binnen 7 jours",
"nombre de ventes": 600,
"ratingValue": "",
"RatingLink": "https://nl.aliexpress.com/item/1005005883953605.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-8&pdp_npi=4%40dis%21GBP%2132.13%214.64%21%21%21279.37%21%21%40210318ec16999696359782730e2cad%2112000034711180884%21sea%21UK%210%21AB&curPageLogUid=QeKUEU8r5Hh8",
"Informations sur le vendeur": {
"nom du magasin": "",
« Lien de magasin »: nul
}
},
{
« Titre »: "Écran de remplacement compatible avec Macbook Pro Air A1706 A1708 A1989 A2159 A2251 A2289 A2338 A1466 A1932 A2179 A2337 écran LCD",
"prix": {
"actuel": "\uffe1113.97"
},
"url": "https://nl.aliexpress.com/item/1005003836485026.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-9&pdp_npi=4%40dis%21GBP%21113.97%21113.97%21%21%21135.79%21%21%40210318ec16999696359782730e2cad%2112000031226615553%21sea%21UK%210%21AB&curPageLogUid=0LcWc3CWSgz3&search_p4p_id=20231114054716531607197640720004634170_2",
"image": "",
"message d'expédition": "Livraison : \uffe130.92",
"nombre de ventes": 128,
"ratingValue": "",
"RatingLink": "https://nl.aliexpress.com/item/1005003836485026.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-9&pdp_npi=4%40dis%21GBP%21113.97%21113.97%21%21%21135.79%21%21%40210318ec16999696359782730e2cad%2112000031226615553%21sea%21UK%210%21AB&curPageLogUid=0LcWc3CWSgz3&search_p4p_id=20231114054716531607197640720004634170_2",
"Informations sur le vendeur": {
"nom du magasin": "",
« Lien de magasin »: nul
}
}
],
"Recherches associées": [
{
« Titre »: "adaptateur netsnoer",
"lien": "https://nl.aliexpress.com/w/wholesale-adapter-netsnoer.html"
},
{
« Titre »: "lunette d'air du macbook",
"lien": "https://nl.aliexpress.com/w/wholesale-macbook-air-bezel.html"
},
{
« Titre »: "chargeur macbook",
"lien": "https://nl.aliexpress.com/w/wholesale-macbook-oplader.html"
},
{
« Titre »: "pièce détachée usb",
"lien": "https://nl.aliexpress.com/w/wholesale-usb-c-onderdeel.html"
},
{
« Titre »: "clavier macbook air",
"lien": "https://nl.aliexpress.com/w/wholesale-keyboard-bescherming-macbook-air.html"
},
{
« Titre »: "séparateur USB vers type C",
"lien": "https://nl.aliexpress.com/w/wholesale-usb-naar-type-c-splitter.html"
},
{
« Titre »: "Mac Poorten",
"lien": "https://nl.aliexpress.com/w/wholesale-mac-poorten.html"
},
{
« Titre »: « ordinateurs portables Dell »,
"lien": "https://nl.aliexpress.com/w/wholesale-dell-laptops.html"
},
{
« Titre »: "chargeur magsafe macbook pro",
"lien": "https://nl.aliexpress.com/w/wholesale-magsafe-charger-macbook-pro.html"
},
{
« Titre »: "MacBook Pro A1229",
"lien": "https://nl.aliexpress.com/w/wholesale-macbook-pro-a1229.html"
},
{
« Titre »: "macbook air m1 16 16",
"lien": "https://nl.aliexpress.com/w/wholesale-macbook-air-m1-16-512.html"
},
{
« Titre »: "macbook pro a1708 toetsenbord vervanging",
"lien": "https://nl.aliexpress.com/w/wholesale-macbook-pro-a1708-keyboard-replacement.html"
}
],
« Catégories associées »: []
}
}

Étape 7. Enregistrement des données analysées dans un fichier JSON

Bien sûr, nous ne laisserons pas les données se perdre. Dans cette étape, nous ajouterons quelques lignes à notre code afin de pouvoir stocker les données récupérées en toute sécurité pour une utilisation ultérieure. Revenez à votre crawlbase.py fichier à nouveau et collez le code ci-dessous.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
importer demandes
importer json

# remplacez par votre user_token que vous obtenez à partir de votre tableau de bord.
username = 'USER_TOKEN'
mot de passe = '' # le mot de passe est vide, il n'est pas utilisé pour l'authentification.
proxy_auth = f'{Nom d'utilisateur}:{le mot de passe}'

URL = 'https://nl.aliexpress.com/w/wholesale-macbook-pro.html'
url_proxy = f"http://{proxy_auth}@smartproxy.crawlbase.com:8012"
mandataires = {"http": url_proxy, « https »: URL_proxy}

en-têtes = {
« Paramètres de CrawlbaseAPI »: "scraper=aliexpress-serp"
}

réponse = requêtes.get(url=url, proxies=proxies,
en-têtes=en-têtes, vérifier=Faux)

data = json.loads (réponse.text)

avec ouvert('scraped_data.json', 'w') as fichier_json :
json.dump(données, fichier_json)

impression(« Réponse du corps gratté : », json.dumps(données, indent=4))

Traitement et enregistrement de la réponse au format JSON :

  • json.loads(response.text):Cela convertit le texte au format JSON de la réponse en un dictionnaire Python.
  • with open('scraped_data.json', 'w') as json_file:Ouvre un fichier nommé 'scraped_data.json' en mode écriture.
  • json.dump(data, json_file): Écrit le dictionnaire Python (données JSON converties) dans le fichier.

VI. Stratégies pour faire évoluer votre projet Python

La mise à l'échelle de ce projet de scraping Web implique de gérer efficacement un grand nombre de requêtes et de garantir que votre projet reste fiable et conforme aux conditions de service du site Web. Voici quelques stratégies à prendre en compte :

Utiliser des requêtes asynchrones : Au lieu de faire des demandes une par une, pensez à utiliser la programmation asynchrone avec des bibliothèques comme asyncio et aiohttpLes requêtes asynchrones vous permettent d'envoyer plusieurs requêtes simultanément, améliorant ainsi considérablement la vitesse de votre processus de scraping.

Traitement parallèle : Cette stratégie peut être appliquée pour gérer plusieurs URL simultanément, accélérant ainsi le processus global de récupération des données. Python fournit divers mécanismes de traitement parallèle, et une approche courante consiste à utiliser le concurrent.futures module.

Utiliser un pool de proxy : Lorsque vous traitez un grand nombre de requêtes, pensez à utiliser un pool de proxys pour éviter les interdictions d'adresses IP et répartir les requêtes. Smart Proxy résout ce problème pour vous car il effectue une rotation intelligente entre différents proxys pour chaque demande afin d'éviter toute détection.

Scraping distribué : Si le volume d'URL est extrêmement élevé, vous pouvez envisager une architecture distribuée. Divisez la tâche de scraping en parties plus petites et répartissez la charge de travail sur plusieurs machines ou processus.

Gérez les erreurs avec élégance : Implémentez la gestion des erreurs pour gérer les erreurs réseau, les délais d'attente et autres problèmes inattendus. Cela garantit que votre processus de scraping peut récupérer après des échecs sans planter.

Optimiser l'efficacité du code : Vérifiez votre code pour détecter toute inefficacité susceptible d'avoir un impact sur les performances. Optimisez les boucles, minimisez les calculs inutiles et assurez-vous que votre code est aussi efficace que possible.

Optimisation de la base de données : Utilisez une base de données fiable (par exemple, PostgreSQL, MySQL) pour stockage des données récupérées. Implémentez une indexation appropriée pour accélérer les opérations de récupération ou insérez des données par lots dans la base de données pour réduire les frais généraux.

VII. Créer un scraper Web AliExpress avec Crawlbase

Dans ce blog, nous avons approfondi les détails de Smart Proxy et son rôle déterminant dans l'amélioration de l'efficacité du scraping Web d'AliExpress. Nous avons commencé par comprendre les principes fondamentaux de Smart Proxy, a exploré ses applications dans le scraping d'AliExpress, puis a parcouru les aspects pratiques de son utilisation avec les commandes Curl et un scraper Web basé sur Python.

Le guide étape par étape fournit des informations sur la configuration d'un projet Python, la configuration du répertoire du projet, l'installation des dépendances et l'utilisation Smart Proxy en toute transparence avec Python, en exécutant le code et en analysant efficacement les données extraites à l'aide du scraper Web AliExpress. La touche finale consistait à enregistrer les données analysées dans un fichier JSON structuré.

En tant que développeurs, nous reconnaissons l'importance de projets robustes et évolutifs. La dernière partie de notre discussion a étendu notre discussion aux stratégies de mise à l'échelle de votre projet Python. La mise à l'échelle ne consiste pas seulement à gérer davantage de données ; il s'agit d'optimiser votre code, votre architecture et vos ressources pour une croissance durable.

Si vous êtes intéressé par d'autres projets pour le Smart Proxy, vous pouvez explorer plus de sujets à partir des liens ci-dessous :

Scraping Walmart avec Firefox Selenium et Smart Proxy
Suppression de l'ASIN d'Amazon avec Smart Proxy

Si vous souhaitez voir plus de projets pour AliExpress, parcourez les liens ci-dessous :

Scraping du SERP d'AliExpress avec des mots-clés
Scraper AliExpress avec le Crawling API

Nous proposons également une variété de tutoriels couvrant le scraping de données à partir de diverses plateformes de commerce électronique telles que Walmart, eBay et Amazon, ou des plateformes de médias sociaux comme Instagram et Facebook.

Si vous avez des questions ou si vous avez besoin d'aide, n'hésitez pas à nous contacter. équipe de soutien serait ravi de vous aider.

VIII. Questions fréquemment posées

Q: est Smart Proxy capable de gérer des tâches de scraping à grande échelle ?

A: Absolument. Smart Proxy est conçu pour gérer efficacement les tâches de scraping à petite et grande échelle. Son fonctionnement multithread et ses capacités d'équilibrage de charge garantissent que vous pouvez extraire facilement de grandes quantités de données d'AliExpress.

Q: Est-ce que Smart Proxy privilégier la confidentialité et la sécurité lors du scraping Web ?

A: Oui, la confidentialité et la sécurité sont essentielles Smart ProxyLa conception de. En acheminant vos requêtes via plusieurs serveurs proxy, il préserve l'anonymat de votre identité en ligne, vous permettant ainsi d'effectuer du scraping Web avec un niveau élevé de confidentialité et de sécurité.

Q: Peut Smart Proxy être utilisé pour le scraping Web sur d'autres plateformes en plus d'AliExpress ?

A: Smart Proxy est polyvalent et peut être utilisé pour le scraping Web sur la plupart des plateformes en ligne. Il ne se limite pas à AliExpress ; vous pouvez l'utiliser pour améliorer vos activités de scraping sur un large éventail de sites Web tels qu'Amazon, eBay, Facebook, Instagram, etc.

Q : Quels sont les avantages Smart Proxy offre sur l'utilisation d'une seule adresse IP statique pour le scraping Web ?

A: Contrairement à une seule adresse IP statique, Smart Proxy fournit des adresses IP dynamiques et tournantes, ce qui le rend plus résistant aux interdictions et à la détection d'IP. Il améliore également la vitesse et l'efficacité du scraping, vous permettant d'extraire des données plus rapidement, même à grande échelle.

Q : Quels sont les avantages de l'utilisation de Python et Smart Proxy offre par rapport à d'autres langues pour le web scraping ?

A: Python est largement utilisé dans la communauté du scraping Web en raison de sa lisibilité, de ses bibliothèques étendues et de sa facilité d'apprentissage. Lorsqu'il est combiné avec Smart Proxy, vous bénéficiez de la polyvalence de Smart ProxyLes solutions proxy de , garantissant une expérience de scraping Web simplifiée et plus sécurisée.