Just Eat, l'une des principales plateformes de livraison de repas en ligne au monde, connecte des millions de consommateurs à leurs restaurants préférés. Avec des informations détaillées sur les listes de restaurants, les menus, les notes et les avis, la plateforme est une mine d'or pour les entreprises, les chercheurs et les développeurs qui cherchent à analyser les tendances en matière de livraison de repas ou à créer des solutions basées sur les données.
En 2023, Just Eat a fait 5.2 milliards €, avec plus de 60 millions utilisateurs actifs dans le monde entier. Ils ont plus de 374,000 restaurants partenaires dans le monde entier et un vaste choix de cuisines parmi lesquelles choisir. Le site britannique est n°1 dans la catégorie Restaurants et livraisons, leader du marché.
Dans ce blog, nous allons scrapper Just Eat en utilisant Python et Crawlbase Crawling API. Voici ce que vous apprendrez :
- Extraction des données du restaurant et du menu.
- Gestion de la pagination basée sur le défilement.
- Sauvegarde et structuration des données récupérées.
Voici un petit tutoriel sur la façon de récupérer Just Eat:
Table des matières
- Pourquoi gratter juste manger des données ?
- Données clés à extraire de Just Eat
- Base d'exploration Crawling API pour Just Eat Scraping
- Installation de la bibliothèque Python Crawlbase
- Installation de Python et bibliothèques requises
- Choisir le bon IDE pour le scraping Web
- Inspection du code HTML pour identifier les sélecteurs
- Rédaction du scraper de listes de recherche Just Eat
- Gestion de la pagination par défilement
- Stockage des données récupérées dans un fichier JSON
- Exemple de code Python complet
- Inspection de la page de menu HTML pour les sélecteurs
- Rédaction du Menu Scraper
- Gestion de la pagination des menus
- Stockage des données de menu dans un fichier JSON
- Exemple de code Python complet
Pourquoi gratter juste manger des données ?
Just Eat est un géant du secteur de la livraison de repas, un véritable trésor de données qui peuvent être utilisées à de nombreuses fins. L'image ci-dessous montre certaines des raisons pour lesquelles Just Eat est un géant du secteur de la livraison de repas :

Données clés à extraire de Just Eat
Lorsque vous récupérez des données de Just Eat, vous devez vous concentrer sur les informations les plus précieuses et les plus pertinentes. L'image ci-dessous montre ce que vous pouvez extraire de la plateforme :

Base d'exploration Crawling API pour Just Eat Scraping
Le Base d'exploration Crawling API rend le scraping de Just Eat simple et direct. Voici pourquoi Just Eat Crawling API est idéal pour le scraping Just Eat :
- Gère le contenu rendu par JavaScript: Just Eat utilise JavaScript pour afficher les informations et les menus des restaurants. Crawlbase s'assure que tout le contenu est entièrement chargé avant de le récupérer.
- Rotation IP: Crawlbase fait tourner les adresses IP pour éviter d'être bloqué afin que vous puissiez parcourir plusieurs pages sans atteindre les limites de débit ou les CAPTCHA.
- Requêtes personnalisables:Vous pouvez personnaliser les en-têtes, les cookies et d'autres paramètres en fonction de vos besoins.
- Pagination par défilement: Just Eat utilise un défilement infini pour charger plus de résultats. Crawlbase prend en charge le défilement pendant une longue période, vous obtenez donc toutes les données.
Bibliothèque Python Crawlbase
Crawlbase fournit un Librairie Python pour utiliser ses produits. Grâce à lui, vous pouvez utiliser Crawling API facilement. Pour commencer, vous aurez besoin de votre jeton d'accès Crawlbase, que vous pouvez obtenir en signer pour leur service.
Crawlbase fournit deux types de jetons. Un jeton normal pour les sites statiques et un jeton JS pour les sites rendus en JS. Crawlbase offre 1,000 XNUMX requêtes gratuites pour ses Crawling API. Voir l' Documentation pour plus d'information.
Dans la section suivante, nous verrons comment configurer votre environnement Python pour le scraping Just Eat.
Configuration de votre environnement Python
Avant de commencer à extraire les données de Just Eat, vous devez configurer votre environnement Python. Un bon environnement signifie que vos scripts fonctionneront sans problème.
Installation de Python et bibliothèques requises
Tout d'abord, assurez-vous que Python est installé sur votre système. Vous pouvez télécharger la dernière version de Python à partir du site officiel Python. Une fois installé, vérifiez l'installation en exécutant la commande suivante dans votre terminal ou invite de commande :
1 | python --version |
Ensuite, installez les bibliothèques requises avec pip. Pour ce tutoriel, vous aurez besoin de :
**crawlbase**
:Pour interagir avec Crawlbase Crawling API.**beautifulsoup4**
:Pour analyser le HTML et extraire des données.
Exécutez la commande suivante pour installer toutes les dépendances :
1 | pip installe crawlbase beautifulsoup4 |
Choisir le bon IDE pour le scraping Web
Choisir le bon IDE (environnement de développement intégré) facilite la vie de codeur. Voici quelques exemples populaires pour Python :
- Code VS:Léger, puissant et doté d'excellentes extensions Python.
- PyCharm:Complet avec des outils de débogage et de test avancés.
- Jupyter Notebook:Idéal pour l’analyse exploratoire des données et l’exécution de code étape par étape.
Choisissez celui qui correspond à votre flux de travail. Pour ce blog, nous recommandons VS Code pour plus de simplicité.
Suppression des listes de restaurants Just Eat
Dans cette section, nous allons extraire les listes de restaurants de Just Eat à l'aide de Python et de Crawlbase Crawling APINous allons passer en revue la recherche de sélecteurs HTML, l'écriture du scraper, le défilement de la pagination et le stockage des données dans un fichier JSON.
Inspection du code HTML pour identifier les sélecteurs
Pour extraire des données, vous devez d'abord comprendre la structure du site Web Just Eat. Voici comment vous pouvez inspecter le code HTML :
- Ouvrez le site Web:Accédez à la page de résultats de recherche Just Eat pour une ville spécifique, par exemple, Listes Just Eat pour la région de London Bridge.
- Outils de développement ouverts: Cliquez avec le bouton droit n'importe où sur la page et sélectionnez « Inspecter » (ou appuyez sur
Ctrl + Shift + I
sous Windows ouCmd + Option + I
sur Mac).

- Localiser les éléments clés:
- Nom du restaurant: Extrait de
<div>
avecdata-qa="restaurant-info-name"
. - Type de cuisine: Extrait de
<div>
avecdata-qa="restaurant-cuisine"
. - Note: Extrait de
<div>
avecdata-qa="restaurant-ratings"
. - Lien vers le restaurant:Extraire le
href
du<a>
étiquette à l'intérieur de la carte du restaurant et préfixez-la avechttps://www.just-eat.co.uk
.
Rédaction du scraper de listes de recherche Just Eat
Maintenant que vous avez identifié les sélecteurs, vous pouvez écrire le scraper. Vous trouverez ci-dessous un exemple de script Python permettant de récupérer les listes de restaurants à l'aide de Crawlbase et BeautifulSoup :
1 | de base d'exploration importer API d'exploration |
Gestion de la pagination par défilement
Just Eat utilise une pagination basée sur le défilement pour charger plus de résultats à mesure que vous faites défiler vers le bas. Crawlbase Crawling API prend en charge le défilement automatique, vous n'avez donc pas besoin de le gérer manuellement.
En définissant le scroll
et scroll_interval
dans la requête API, vous récupérerez toutes les listes. Vous n'avez pas besoin d'ajouter page_wait
, comme scroll_interval
fonctionnera de la même manière.
1 | choix = { |
Stockage des données récupérées dans un fichier JSON
Une fois les données extraites, stockez-les dans un fichier JSON pour une analyse plus approfondie. Voici comment enregistrer les résultats :
1 | def enregistrer_dans_json(données, nom de fichier='juste_manger_restaurants.json'): |
Exemple de code Python complet
Vous trouverez ci-dessous le script complet regroupant toutes les étapes :
1 | de base d'exploration importer API d'exploration |
Exemple de sortie :
1 | [ |
Avec ce script, vous pouvez extraire les listes de restaurants de Just Eat. Dans la section suivante, nous allons extraire les menus des restaurants pour plus de détails.
Suppression des menus des restaurants sur Just Eat
L'extraction des menus de restaurants sur Just Eat vous donnera des détails approfondis sur les offres de menu, les prix et les options de personnalisation des repas. Dans cette section, nous vous montrerons comment trouver la structure HTML des pages de menu, écrire le scraper, gérer la pagination et stocker les données du menu dans un fichier JSON.
Inspection de la page de menu HTML pour les sélecteurs
Avant d'écrire le scraper, inspectez la structure HTML de la page de menu pour localiser les éléments clés :
- Ouvrir la page de menu:Cliquez sur la fiche d'un restaurant pour accéder à sa page de menu.
- Inspecter le HTML: Faites un clic droit et sélectionnez « Inspecter » (ou appuyez sur
Ctrl + Shift + I
/Cmd + Option + I
) pour ouvrir les outils de développement.
- Localiser les éléments clés:
- Catégories: Trouvé dans
<section>
avecdata-qa="item-category"
. Le nom est dans<h2>
avecdata-qa="heading"
. - Nom du plat: Inside
<h2>
avecdata-qa="heading"
. - Prix du plat: Inside
<span>
avec une classe commençant par"formatted-currency-style"
. - Description du plat: Inside
<div>
avec une classe commençant par"new-item-style_item-description"
.
Rédaction du Menu Scraper
Après avoir identifié les sélecteurs HTML, écrivez un script Python pour extraire les détails du menu. Voici un exemple d'implémentation :
1 | de base d'exploration importer API d'exploration |
Gestion de la pagination des menus
Comme SERP, la page de menu Just Eat utilise également une pagination basée sur le défilement. Crawling API peut gérer la pagination en activant les options de défilement. Utilisez ces options :
1 | choix = { |
Ajoutez le temps de défilement selon vos besoins pour vous assurer que tous les éléments de menu sont chargés avant le scraping.
Stockage des données de menu dans un fichier JSON
Une fois les données du menu extraites, enregistrez-les dans un fichier JSON pour un accès et une analyse faciles. Voici comment procéder :
1 | def enregistrer_menu_dans_json(données, nom de fichier='just_eat_menu.json'): |
Exemple de code Python complet
Voici le script complet pour récupérer les menus :
1 | de base d'exploration importer API d'exploration |
Exemple de sortie :
1 | [ |
Réflexions finales
Extraction de données Just Eat avec Python et le Base d'exploration Crawling API est un excellent moyen d'obtenir des informations précieuses pour les entreprises, les développeurs et les chercheurs. Des listes de restaurants aux données de menu, il facilite la collecte et l'organisation des données pour l'analyse ou le développement d'applications.
Assurez-vous que vos pratiques de scraping sont conformes aux directives éthiques et aux conditions d'utilisation du site Web. Avec la bonne approche, vous pouvez exploiter les données Web pour prendre des décisions éclairées et créer des solutions efficaces.
Si vous souhaitez effectuer davantage de scraping Web, consultez nos guides sur le scraping d'autres sites Web clés.
(I.e. Comment récupérer des données sur Amazon
(I.e. Comment gratter Walmart
(I.e. Comment récupérer Monster.com
(I.e. Comment récupérer un coupon Groupon
(I.e. Comment récupérer TechCrunch
(I.e. Comment récupérer les données d'un hôtel à partir d'Agoda
Contactez notre Support Si vous avez des questions, bon scraping !
FAQ - Foire Aux Questions
Q. Est-il légal de récupérer des données de Just Eat ?
La légalité du scraping Web dépend des conditions générales du site Web et de l'utilisation que vous comptez faire des données. Assurez-vous de consulter les conditions générales de Just Eat et de ne pas les enfreindre. Assurez-vous toujours que vos activités de scraping sont éthiques et conformes aux réglementations locales en matière de confidentialité des données.
Q. Comment gérer le contenu dynamique et la pagination sur Just Eat ?
Just Eat utilise JavaScript pour afficher le contenu et la pagination basée sur le défilement. Avec Crawlbase Crawling API, les pages sont entièrement rendues et vous pouvez extraire du contenu dynamique. Crawlbase scroll
les paramètres vous permettent de gérer efficacement le défilement infini.
Q. Puis-je extraire des informations de menu pour des restaurants spécifiques sur Just Eat ?
Oui, avec les bons sélecteurs et outils, vous pouvez obtenir des informations sur les menus de chaque restaurant, y compris les noms des plats, les descriptions et les prix. Crawlbase Crawling API garantit que tout le contenu dynamique, y compris les détails du menu, est entièrement rendu pour le scraping.
Q. Comment puis-je éviter que mon grattoir ne soit bloqué ?
Pour ne pas être bloqué, utilisez des techniques telles que la rotation IP, les délais de requête et l'en-tête d'agent utilisateur pour imiter les utilisateurs réels. Crawling API fait tout cela pour vous en gérant la rotation IP, la gestion des agents utilisateurs et les mesures anti-bot.