Noon est l'une des plus grandes plateformes de commerce électronique du Moyen-Orient, avec des millions de clients aux Émirats arabes unis, en Arabie saoudite et en Égypte. Noon dispose d'un vaste catalogue de produits et de milliers de transactions quotidiennes. L'extraction des données de Noon aide les entreprises à suivre les prix, les concurrents et les informations sur le marché.
Mais le scraping de Noon est difficile. Le site Web comporte du contenu dynamique, des éléments basés sur JavaScript et des mesures anti-bot qui peuvent bloquer les méthodes de scraping traditionnelles. Nous utiliserons Base d'exploration Crawling API pour extraire les résultats de recherche et les détails du produit tout en gérant ces défis.
Ce tutoriel vous montrera comment extraire des données Noon à l'aide de Python avec des exemples étape par étape pour l'extraction de données structurées.
Let’s start!
Table des matières
- Pourquoi extraire les données de Noon ?
- Données clés à extraire de Noon
- Les défis à relever lors du grattage de midi
- Configuration de votre environnement Python
- Installation de Python et bibliothèques requises
- Choisir un EDI
- Inspection du code HTML pour les sélecteurs CSS
- Rédaction du Noon Search Listings Scraper
- Gestion de la pagination
- Stockage des données dans un fichier CSV
- Exemple de code complet
- Inspection du code HTML pour les sélecteurs CSS
- Rédaction du scraper de page produit
- Stockage des données dans un fichier CSV
- Exemple de code complet
Pourquoi extraire les données de Noon ?
Avec un vaste catalogue de produits couvrant l'électronique, la mode, la beauté, l'épicerie et bien plus encore, c'est un acteur majeur du secteur du commerce électronique de la région.
Voici pourquoi les gens abandonnent Noon :
- Suivi des prix:Surveillez les prix des concurrents et ajustez votre stratégie de prix.
- La disponibilité des produits:Suivez les niveaux de stock et les tendances de la demande.
- Connaissances des clients :Analysez les avis, les notes et les descriptions de produits pour comprendre les préférences des consommateurs.
- Stratégies SEO et marketing:Obtenez des métadonnées sur les produits et optimisez vos annonces pour plus de visibilité.
- Suivi des ventes et des remises:Suivez les promotions en cours et les offres spéciales.
Données clés à extraire de Noon
Noon propose des millions de produits dans différentes catégories. Pour tirer le meilleur parti du scraping, Noon se concentre sur les points de données les plus importants pour vous aider à prendre des décisions commerciales et obtenir un avantage concurrentiel. L'image ci-dessous montre certains des points de données sur lesquels se concentrer.

Les défis à relever lors du grattage de midi
Scraper Noon peut être une bonne chose, mais vous pouvez rencontrer certains défis. Voici quelques défis courants liés au scraping Noon et leurs solutions :
Contenu dynamique (rendu JavaScript):Noon utilise JavaScript pour charger le contenu dynamique, ce qui le rend plus difficile à récupérer. Sans outils appropriés, le contenu peut ne pas se charger du tout ou se charger de manière incorrecte, ce qui entraîne des données incomplètes ou erronées.
Solution: Utilisez le Base d'exploration Crawling API, qui gère le rendu JavaScript de manière transparente, et vous obtenez le contenu complet de la page, y compris les éléments chargés dynamiquement comme les détails du produit et les prix.
Mesures anti-robots:Les sites Web comme Noon mettent en œuvre des technologies anti-bot comme les CAPTCHA et la limitation de débit pour empêcher le scraping automatisé.
Solution: le Base d'exploration Crawling API contourne ces protections en faisant tourner les adresses IP, en résolvant les CAPTCHA et en imitant le comportement de navigation humain afin que vous ne soyez pas bloqué lors du scraping.
Pagination complexe:La navigation dans les résultats de recherche et les pages de produits implique plusieurs pages de données. Il est important de gérer correctement la pagination pour ne rien manquer.
Solution: Base d'exploration Crawling API fournit différents paramètres pour gérer la pagination afin que vous puissiez extraire toutes les pages de résultats de recherche ou de listes de produits sans avoir à les parcourir manuellement.
Préoccupations juridiques et éthiques:Le scraping de tout site Web, y compris Noon, doit être effectué conformément aux directives légales et éthiques. Vous devez respecter le fichier robots.txt du site, limiter la fréquence de scraping et éviter de scraper des informations sensibles.
Solution:Suivez toujours les meilleures pratiques pour un scraping responsable, comme l'utilisation d'intervalles de délai appropriés et l'anonymisation de vos demandes.
En utilisant les bons outils comme Crawlbase et en suivant des pratiques de scraping éthiques, vous pouvez surmonter ces défis et scraper Noon efficacement.
Configuration de votre environnement Python
Avant de commencer à extraire les données Noon, vous devez configurer votre environnement. Cela inclut l'installation de Python, des bibliothèques requises et le choix du bon IDE pour coder.
Installation de Python et bibliothèques requises
Si vous n'avez pas installé Python, téléchargez la dernière version à partir de python.org et suivez les instructions d'installation de votre système d'exploitation.
Ensuite, installez les bibliothèques requises en exécutant :
1 | pip install crawlbase beautifulsoup4 pandas |
- Base d'exploration – Contourne les protections anti-bot et supprime les pages lourdes en JavaScript.
- BeautifulSoup – Extrait des données structurées du HTML.
- Pandas – Gère et stocke les données au format CSV.
Choisir un IDE pour le scraping
Choisir le bon environnement de développement intégré (IDE) facilite le scraping. Voici quelques bonnes options :
- Code VS – Léger et riche en fonctionnalités avec un excellent support Python.
- PyCharm – Fonctionnalités puissantes de débogage et d’automatisation.
- Jupyter Notebook – Idéal pour le scraping interactif et analyse rapide des données.
Avec Python installé, les bibliothèques configurées et l'IDE prêt, vous êtes maintenant prêt à commencer à extraire les données Noon.
Récupération des résultats de recherche de Noon
L'extraction des résultats de recherche de Noon vous fournira les noms des produits, les prix, les notes et les URL. Ces données sont utiles pour l'analyse de la concurrence, la surveillance des prix et les études de marché. Dans cette section, nous vous guiderons tout au long du processus d'extraction des résultats de recherche de Noon, de gestion de la pagination et de stockage des données dans un fichier CSV.
Inspection du code HTML pour les sélecteurs CSS
Avant de commencer à écrire le scraper, nous devons inspecter la structure HTML de la page de résultats de recherche de Noon. En procédant ainsi, nous pouvons trouver les sélecteurs CSS pour extraire les détails du produit.
- Cliquez sur Midi.com et recherchez un produit (par exemple, « smartphones »).
- Cliquez avec le bouton droit sur n’importe quel produit et choisissez Inspecter ou Inspecter l’élément dans les outils de développement Chrome.

- Identifiez les éléments HTML clés suivants :
- Titre du produit: Trouvé dans le
<div data-qa="product-name">
Étiquette. - Prix: Trouvé dans le
<strong class="amount">
Étiquette. - Devise: Trouvé dans le
<span class="currency">
Étiquette. - Notes: Trouvé dans le
<div class="dGLdNc">
Étiquette. - URL du produit: Trouvé dans le
href
attribut de la<a>
Étiquette.
Une fois que vous avez identifié les éléments pertinents et leurs classes CSS ou ID, vous pouvez procéder à l’écriture du scraper.
Rédaction du Noon Search Listings Scraper
Maintenant que nous avons inspecté la structure HTML, nous pouvons écrire un script Python pour extraire les données produit de Noon. Nous utiliserons Crawlbase Crawling API pour contourner les mesures anti-bot et BeautifulSoup pour analyser le HTML.
1 | de base d'exploration importer API d'exploration |
Nous initialisons d'abord la classe CrawlingAPI avec un jeton pour l'authentification. scrape_noon_search
La fonction récupère le code HTML d'une page de résultats de recherche à partir de Noon en fonction d'une requête et d'un numéro de page, en gérant le chargement du contenu AJAX. extract_product_data
La fonction analyse le code HTML à l'aide de BeautifulSoup, en extrayant des détails tels que les titres des produits, les prix, les notes et les URL. Elle renvoie ensuite ces données dans une liste structurée de dictionnaires.
Gestion de la pagination
Les résultats de recherche de Noon s'étendent sur plusieurs pages. Pour extraire toutes les données, nous devons gérer la pagination et parcourir chaque page. Voici comment procéder :
1 | def gratter_toutes_les_pages(requête, max_pages): |
Cette fonction parcourt le nombre de pages spécifié, récupérant et extrayant les données du produit jusqu'à ce que toutes les pages soient traitées.
Stockage des données dans un fichier CSV
Une fois les détails du produit extraits, nous devons stocker les données dans un format structuré. Le format le plus courant et le plus simple à gérer est le CSV. Vous trouverez ci-dessous le code permettant de sauvegarder les données extraites :
1 | importer csv |
Cette fonction prend la liste des produits et l'enregistre sous forme de fichier CSV, ce qui facilite son analyse ou son importation dans d'autres outils.
Exemple de code complet
Voici le script Python complet pour extraire les résultats de recherche Noon, gérer la pagination et stocker les données dans un fichier CSV :
1 | de base d'exploration importer API d'exploration |
noon_smartphones.csv
Instantané:

Scraping des pages de produits Noon
L'extraction de pages de produits sur Noon vous donnera tous les détails du produit, y compris les descriptions, les spécifications et les avis des clients. Ces données aideront les entreprises à optimiser leurs listes de produits et le comportement des clients. Dans cette section, nous allons passer en revue le processus d'inspection de la structure HTML d'une page de produit, l'écriture de l'extraction et l'enregistrement des données dans un fichier CSV.
Inspection du code HTML pour les sélecteurs CSS
Avant d'écrire le scraper, nous devons inspecter la structure HTML de la page produit pour identifier les sélecteurs CSS appropriés pour les éléments que nous voulons scraper. Voici comment procéder :
- Ouvrez une page produit sur Noon (par exemple, une page de smartphone).
- Cliquez avec le bouton droit sur un détail de produit (par exemple, le nom du produit, le prix, la description) et cliquez sur Inspecter dans les outils de développement Chrome.

- Recherchez les éléments clés, tels que :
- Nom du produit: Trouvé dans le
<h1 data-qa^="pdp-name-">
Étiquette. - Prix: Trouvé dans le
<div data-qa="div-price-now">
Étiquette. - Points forts du produit: Trouvé dans le
<div class="oPZpQ">
balise, en particulier dans une liste non ordonnée (<ul>
). - Spécifications du produit: Trouvé dans le
<div class="dROUvm">
balise, dans une table<tr>
balises contenant<td>
éléments.
Une fois que vous avez identifié les éléments pertinents et leurs classes CSS ou ID, vous pouvez procéder à l’écriture du scraper.
Rédaction du scraper de pages produits Noon
Maintenant, écrivons un script Python pour extraire les détails du produit des pages de produits Noon à l'aide de Crawlbase Crawling API et BeautifulSoup.
1 | de base d'exploration importer API d'exploration |
Stockage des données dans un fichier CSV
Une fois que nous avons extrait les détails du produit, nous devons stocker ces informations dans un format structuré comme CSV pour une analyse facile. Voici une fonction simple pour enregistrer les données extraites :
1 | importer csv |
Exemple de code complet
Maintenant, combinons tout cela dans un script complet. main()
la fonction récupérera les données de plusieurs pages de produits et stockera les résultats dans un fichier CSV.
1 | de base d'exploration importer API d'exploration |
noon_product_details.csv
Instantané:

Réflexions finales
L'extraction des données Noon est idéale pour les entreprises pour suivre les prix, analyser les concurrents et améliorer les listes de produits. Base d'exploration Crawling API facilite ce processus en gérant le rendu JavaScript et les protections CAPTCHA afin que vous obteniez des données complètes et précises sans obstacles.
Avec Python et BeautifulSoup, extraire des données des résultats de recherche et des pages de produits de Noon est facile. Adoptez des pratiques éthiques et configurez le bon environnement, et vous aurez les informations nécessaires pour garder une longueur d'avance dans le jeu concurrentiel du commerce électronique.
Si vous souhaitez récupérer des revenus d'autres plateformes de commerce électronique, consultez ces autres guides.
(I.e. Comment récupérer des données sur Amazon
(I.e. Comment gratter Walmart
(I.e. Comment récupérer des fonds sur AliExpress
(I.e. Comment gratter Zalando
(I.e. Étapes faciles pour extraire des données de Zoro
Contactez notre Support Si vous avez des questions, bon scraping !
FAQ - Foire Aux Questions
Q. Le web scraping est-il légal ?
Le scraping Web est légal à condition de respecter les règles éthiques. Veillez à respecter le fichier robots.txt du site Web, à ne pas surcharger les serveurs de requêtes et à ne pas récupérer de données sensibles. Assurez-vous toujours que vos pratiques de scraping sont conformes aux conditions d'utilisation du site Web et aux lois locales.
Q. Qu'est-ce que Crawlbase Crawling API et comment cela aide-t-il à récupérer Noon ?
Base d'exploration Crawling API est un outil qui permet de contourner les obstacles courants tels que le rendu JavaScript et le CAPTCHA lors de l'extraction de sites Web. Il vous permet d'extraire le contenu dynamique de Noon sans être bloqué. Que vous extrayiez des pages de produits ou des résultats de recherche, Crawlbase gère les aspects techniques afin que vous puissiez obtenir les données facilement.
Q. Puis-je récupérer les prix et la disponibilité des produits à partir de Noon en utilisant cette méthode ?
Oui, vous pouvez extraire les prix des produits, la disponibilité, les notes et d'autres données importantes de Noon. Inspectez la structure HTML pour trouver des sélecteurs CSS et utilisez BeautifulSoap pour l'analyse HTML. Utilisez Base d'exploration Crawling API pour gérer le rendu JS et les CAPTCHA.