Tout a commencé avec la sortie de la première version de ChatGPT en 2022. Depuis, l'utilisation de l'IA a connu une croissance exponentielle, un nombre croissant de personnes l'intégrant à leurs tâches quotidiennes, au travail comme dans leur vie personnelle. À ce stade, si vous n'en profitez pas, vous passez à côté de quelque chose.
Dans ce blog, nous allons vous montrer quelques-unes des nombreuses choses que vous pouvez accomplir si vous combinez Crawlbase Extraction de données avec des IA génératives comme ChatGPT. Nous vous expliquerons comment exploiter ses capacités pour synthétiser automatiquement des données web grâce à l'IA et créer des visualisations, telles que des graphiques à secteurs, à barres et linéaires, pour vos reportings de données.
Table des Matières
Comment générer des visualisations à partir de données Web d'IA
Conseils supplémentaires pour automatiser les rapports de données
L'IA générative et ses capacités
Une IA générative ne se limite pas à analyser ou organiser des données ; elle peut effectuer des tâches bien plus complexes, comme la création de nouveaux contenus sous diverses formes : texte, images, code, audio et même vidéos. Cela est rendu possible grâce à l'apprentissage et à la reconnaissance des structures et des modèles issus des données sur lesquelles elle est entraînée, ce qui lui permet de générer des résultats proches de ceux d'une personne réelle.
Les scrapers web traditionnels, quant à eux, s'appuient sur des règles et des sélecteurs statiques, tels que des classes CSS et des identifiants, pour extraire les données des sites web. Ces outils basés sur des règles rencontrent souvent des difficultés avec les sites dynamiques et gourmands en JavaScript, et nécessitent des ajustements manuels fréquents. En revanche, l'IA générative et les outils basés sur l'IA peuvent s'adapter à l'évolution des structures des sites web et gérer plus efficacement le contenu dynamique, surmontant ainsi les limites des scrapers web traditionnels.
Par exemple, lorsqu'il est entraîné sur de grandes quantités de texte, il peut écrire des articles de blog, résumer des articles, répondre à des questions, voire raconter des histoires et des poèmes. Lorsqu'il est entraîné sur des images, il peut créer des œuvres d'art qui rivalisent avec celles de véritables artistes. Il peut produire des photos réalistes de personnes ou d'objets qui n'existent pas réellement.
L'IA générative est déjà utilisée dans de nombreux domaines. Les spécialistes du marketing l'utilisent pour générer des idées de contenu, et les développeurs pour écrire et améliorer du code. Les chercheurs l'utilisent pour explorer des problèmes complexes ou simuler des données lorsque les données réelles ne sont pas disponibles.
Ce qui est vraiment passionnant, c'est la facilité avec laquelle l'IA s'intègre désormais à Python et à d'autres outils de codage. Avec seulement quelques lignes de script, vous pouvez non seulement faire en sorte que l'IA synthétise vos données, mais aussi lui demander de tracer des graphiques à barres, de générer des graphiques à secteurs ou d'automatiser des analyses de routine. L'IA passe ainsi du statut d'assistant virtuel à celui d'analyste de données à part entière, surtout lorsqu'elle est combinée à Crawlbase.
Pourquoi résumer les données Web avec l'IA
Si vous ne consultez qu'une petite quantité de données web, vous pourrez peut-être les synthétiser vous-même sans trop de difficulté. Cependant, lorsque les données deviennent plus volumineuses ou plus complexes, et que vous traitez plus de quelques pages web, tout faire à la main devient épuisant, chronophage et source d'erreurs. Grâce aux progrès de l'IA générative, vous n'avez plus besoin de vous donner autant de mal. Les avantages sont difficiles à ignorer.
- Vitesse et échelle : L'IA peut analyser des milliers de données en quelques secondes seulement. Ce qui prendrait des heures, voire une journée entière, à vous ou à toute une équipe peut être réalisé presque instantanément.
- Cohérence: Les utilisateurs peuvent se fatiguer, commettre des erreurs et parfois percevoir les mêmes données différemment. L'IA applique le même algorithme et les mêmes critères à chaque document, ce qui garantit la cohérence de vos résultats, quelle que soit la fréquence de vos analyses.
- Reconnaître les modèles : Les modèles d'IA sont non seulement rapides, mais excellent également dans la reconnaissance de modèles. Ils peuvent identifier des tendances, des schémas ou des valeurs aberrantes dans vos données que vous ne remarqueriez probablement pas immédiatement. Par exemple, ils peuvent détecter un léger changement dans l'opinion des clients avant qu'il n'affecte votre produit.
- Rapports automatiques : L'un des principaux avantages de l'IA est qu'elle peut compiler des résumés clairs et générer des visuels faciles à comprendre, tels que des tableaux et des graphiques. Ainsi, vous pouvez visualiser immédiatement l'évolution de vos données.
Quel que soit votre domaine d'activité, si vous avez besoin d'extraire des informations précieuses d'un volume important de données web sans passer des heures à travailler sur des feuilles de calcul, l'IA pour synthétiser vos données est une solution innovante. L'IA identifie et extrait automatiquement les données pertinentes de grands ensembles de données, vous permettant ainsi de vous concentrer uniquement sur les informations les plus pertinentes. Grâce aux synthèses et visualisations générées par l'IA, vous pouvez rapidement transformer les données brutes en informations exploitables.
Comment combiner Crawlbase avec l'IA générative
L'IA n'est efficace que si les données qui lui sont fournies le permettent. Voilà pourquoi Crawlbase et l'IA générative, comme ChatGPT, se complètent parfaitement. Crawlbase Vous permet d'extraire des données web à grande échelle, qu'il s'agisse d'informations produit, d'avis ou de contenu public en ligne. Les outils de scraping web, notamment les outils d'IA comme Crawlbase, sont conçus pour extraire efficacement des données d'un large éventail de sites web. Considérez-le comme le moteur qui collecte toutes les informations, tandis que ChatGPT est le cerveau qui les analyse.
Lorsque vous combinez les deux, vous obtenez un système de bout en bout qui peut faire des choses assez étonnantes :
- Crawlbase récupère les données dont vous avez besoin, propres, structurées et rapides.
- Les scripts Python organisent ces données en quelque chose d'utilisable, comme un Cadre de données Pandas.
- ChatGPT (ou tout autre LLM) lit ensuite le tout et vous fournit un résumé en langage naturel, une analyse des tendances ou même des rapports formatés.
- Enfin, vous pouvez générer des visuels et exporter des fichiers (graphiques, graphiques, CSV) avec seulement quelques lignes de code supplémentaires.
Les scrapers Web IA peuvent gérer des structures de sites Web complexes et automatiser le processus d'extraction de données, ce qui facilite l'extraction de données à partir de sites qui utilisent du contenu dynamique ou des mesures anti-scraping.
Si vous savez écrire des scripts Python, vous pouvez commencer à utiliser Crawlbase et ChatGPT pour automatiser les analyses qui nécessitaient auparavant l'intervention d'une équipe entière. Voici comment procéder.
Pour commencer Crawlbase et un compte OpenAI
Étape 1. Commencez par créer un compte gratuit on Crawlbase et connectez-vous à votre tableau de bord. Une fois connecté, vous recevrez automatiquement 1,000 XNUMX requêtes API gratuites, vous permettant de commencer vos tests immédiatement. Ou avant de tester, ajoutez vos informations de facturation pour 9,000 XNUMX crédits gratuits supplémentaires.
Étape 2. Aller au Documentation du compte section et copiez votre jeton de demande normal, car vous en aurez besoin plus tard lorsque nous commencerons à écrire le code.
Étape 3. Inscrivez-vous ou connectez-vous à OpenAIIls offrent des crédits d'essai gratuits lors de votre première inscription, mais cette offre n'est pas garantie et est sujette à changement.
Étape 4. Sous Organisation sur le côté gauche de votre écran, cliquez sur Clés API et vous devriez y voir une option pour "Créer une nouvelle clé secrète".
Note: Si vous n'avez reçu aucun crédit gratuit, vérifiez auprès de votre entreprise ou organisation si elle dispose d'un compte OpenAI payant et peut vous fournir une clé API.
Préparez votre environnement Python
Avec votre Crawlbase Vos identifiants sont prêts ? Concentrons-nous sur la configuration de votre environnement de développement. Suivez les étapes ci-dessous.
Étape 1 : Téléchargez et installez Python 3 depuis python.org.
Étape 2 : Sélectionnez un emplacement sur votre ordinateur et créez un nouveau dossier pour stocker tous les fichiers de ce projet.
Étape 3 : Configurez vos dépendances. Dans le dossier de votre projet, créez un fichier nommé requirements.txt et ajoutez les lignes suivantes :
1 | demandes |
Étape 4 : Ouvrez un terminal ou une invite de commande, accédez au dossier de votre projet et exécutez :
1 | python -m pip install -r requirements.txt |
Cela installera les bibliothèques nécessaires à la collecte, à l'analyse, à la visualisation et au travail avec ChatGPT.
Récupération de données à l'aide de Crawlbase
Dans cet exemple, nous utiliserons Crawlbase pour extraire une liste des produits électroniques les plus vendus d'Amazon.
Nous utiliserons le Amazon Meilleurs vendeurs scraper, qui renvoie du JSON propre et structuré pour que vous n'ayez pas à vous soucier d'une analyse HTML compliquée.
Étape 1 : Créez un nouveau fichier appelé web_data.pyCe script sera responsable de la récupération des données du produit et de la gestion de la pagination.
Étape 2 : Enregistrez le code suivant à l'intérieur web_data.py:
1 | à partir de demandes.exceptions importer DemandeException |
Étape 3 : Pour exécuter le script, ouvrez simplement un terminal, accédez au dossier de votre projet et exécutez :
1 | python web_data.py |
Dans quelques secondes, vous verrez un tableau JSON de produits affiché sur votre terminal. Voici un exemple simplifié :
1 | [ |
Ces données sont maintenant prêtes à être transmises à un DataFrame Pandas, synthétisées avec ChatGPT et visualisées sous forme de graphiques. Nous vous expliquerons comment procéder dans la section suivante.
Utilisation de ChatGPT avec les bibliothèques Python
Notre prochain objectif est de nettoyer et d’organiser les données brutes sur les produits que nous avons collectées à l’aide de CrawlbasePour ce faire, nous utiliserons la bibliothèque pandas, qui facilite l'organisation des données dans un format structuré, nous permettant de filtrer, trier, extraire des valeurs et analyser efficacement les données avec ChatGPT.
Étape 1 : Prenez le produit JSON renvoyé par Crawlbase et chargez-le dans un DataFrame Pandas. Créez un nouveau fichier appelé data_frame.py et ajoutez le code suivant:
1 | à partir de crawl_web_data importer crawl_amazon_best_sellers_produits |
Ce script extrait les données produit de Crawlbase, analyse la note d'évaluation et le prix en valeurs numériques et ajoute une colonne de catégorie simple (que vous pouvez modifier ultérieurement).
Étape 2 : Ouvrez votre terminal et exécutez :
1 | python data_frame.py |
Un tableau structuré s'affichera sur la console. Voici un extrait de la sortie :

Étape 3 : Utilisez le modèle GPT d'OpenAI pour analyser et synthétiser les tendances de vos données. Créez un nouveau fichier appelé summary.py et collez le code suivant :
1 | à partir de ouvert importer OpenAI, OpenAIError, APIStatusError, RateLimitError, BadRequestError, APIConnectionError, Délai d'expiration |
Assurez-vous de remplacer <OpenAI API Key> avec votre clé API actuelle d'OpenAI.
Étape 4. Depuis votre terminal, exécutez :
1 | résumé python.py |
La sortie ressemblera à ceci:
1 | Résumé des tendances générées par l'IA : |
Comment générer des visualisations à partir de données Web d'IA
Après avoir structuré nos données produit dans un Pandas DataFrame, nous pouvons aller plus loin en créant des visualisations qui mettent en évidence les tendances, les modèles et les valeurs aberrantes de manière plus digeste.
Pour notre prochain objectif, nous utiliserons Bibliothèque Python Matplotlib pour créer des graphiques de visualisation de données à partir des données des best-sellers d'Amazon que nous avons récupérées plus tôt.
Étape 1 : Créez un nouveau fichier et nommez-le visualization.py, puis ajoutez le code suivant :
1 | à partir de trame de données importer générer_des_données_cadre |
Le code dans visualization.py a trois parties:
- Il charge les données du produit dans un Pandas DataFrame.
- Crée deux graphiques : un graphique à barres indiquant le nombre d'avis par produit et un nuage de points indiquant la relation entre les notes, le volume d'avis et le prix.
- Enregistre les données sous forme de fichier CSV pour une utilisation ultérieure ou un rapport.
Étape 2 : Exécutez le script.
1 | visualisation python.py |
Cela générera trois sorties :
- reviews_bar_chart.png

- rating_vs_reviews.png

- résumé_des_meilleures_ventes_d'Amazon.csv

Félicitations ! Vous avez réussi à générer des synthèses et des graphiques qui vous permettront d'identifier plus facilement les tendances, de comparer les performances et d'étayer votre analyse avec des visuels clairs et basés sur des données.
Note: Vous pouvez accéder à l'intégralité de la base de code sur GitHub.
Conseils supplémentaires pour automatiser les rapports de données
Planifier la collecte automatisée de données
Utilisez un outil comme Cron (sur Mac ou Linux) ou le Planificateur de tâches (sur Windows). Ainsi, votre code s'exécutera automatiquement chaque jour, chaque semaine ou à votre convenance, sans que vous ayez à lever le petit doigt. Idéal si vous vous intéressez aux tendances ou souhaitez consulter des données actualisées chaque matin.
Utiliser des instructions d'IA pré-invitées
Au lieu de saisir une nouvelle invite à chaque fois, enregistrez des invites d'IA réutilisables dans votre script. Cela permet de générer des résumés cohérents, des rapports de tendances ou même des explications en anglais simple, accessibles aux membres de l'équipe non techniques.
Ajouter des contrôles de qualité des données
Effectuez toujours quelques vérifications de sécurité avant d’enregistrer ou de visualiser les données.
- Votre liste de produits a-t-elle réellement été chargée ou est-elle vide ?
- Des chiffres importants, tels que les prix ou les notes, manquent-ils ?
- Les données sont-elles plus petites que la normale ?
Les sites web modifient souvent leur mise en page sans préavis. Ces vérifications peuvent vous éviter des heures de confusion.
Profitez pleinement de Crawlbase Caractéristiques
Construction Crawling API à partir de Crawlbase est un outil fiable d'extraction de données, garantissant des résultats fiables et précis pour vos projets. Profitez des avantages suivants :
- Requêtes normales et JavaScript - Vous pouvez utiliser deux types de jetons. Utilisez le jeton Normal pour les sites web qui ne requièrent pas JavaScript pour afficher leur contenu. Utilisez le jeton JavaScript lorsque le contenu dont vous avez besoin est généré via JavaScript, soit parce qu'il est créé à l'aide de frameworks comme React ou Angular, soit parce que les données n'apparaissent qu'une fois la page entièrement chargée dans le navigateur. Crawlbase peut gérer des sites Web lourds en JavaScript, ce qui le rend adapté à l'extraction de données à partir de pages dynamiques et riches en JavaScript.
- Scrapers de données - Dans ce blog, nous avons utilisé « meilleures ventes Amazon ». Mais Crawlbase propose de nombreux autres scrapers adaptés à des sites web et types de données spécifiques. Si vous envisagez d'étendre ce projet à d'autres plateformes, consultez la liste complète des scrapers disponibles. grattoirs de données sur vos Crawlbase tableau de bord.
- Obtenez des crédits gratuits supplémentaires - Comme mentionné précédemment, vous pouvez obtenir un total de 10,000 XNUMX crédits gratuitement en vous inscrivant et immédiatement ajouter vos informations de facturationC'est une excellente façon d'explorer Crawlbaseexploiter pleinement son potentiel et effectuer des tests à grande échelle avant de prendre un engagement à long terme.
Pour les besoins de scraping d'entreprise ou complexes, un support dédié est disponible pour vous aider dans la configuration, les solutions personnalisées et la maintenance continue. Inscrivez-vous Crawlbase maintenant!
Foire aux questions
Q : Ai-je besoin d'un OpenAI payant ou Crawlbase Compte?
A: Les deux plateformes proposent une offre gratuite permettant aux utilisateurs de tester leurs services. Pour des limites plus élevées, un nombre illimité de pages ou des fonctionnalités avancées, vous pouvez passer à des forfaits payants, qui incluent des options de tarification personnalisées adaptées aux besoins de l'entreprise.
Q : Puis-je récupérer des données sur d’autres sites Web qu’Amazon ?
A: Oui. Crawlbase Prend en charge le scraping de toute page web publique. Vous pouvez modifier le paramètre d'URL et même personnaliser votre stratégie de scraping en fonction de la structure du site.
Q : Que faire si je souhaite résumer des données non liées au produit, comme des articles de blog ou des critiques ?
A: Cela fonctionne aussi. Si vous pouvez extraire le texte, vous pouvez l'insérer dans ChatGPT et obtenir des résumés, des surlignements ou des suggestions de catégories.
Q : Puis-je l’utiliser dans un contexte professionnel ?
A: Oui, cette configuration est idéale pour divers cas d'utilisation professionnels, tels que les études de marché, l'analyse concurrentielle, la surveillance des prix, le suivi des prix des concurrents, l'analyse des stratégies de tarification, le suivi des offres d'emploi et l'extraction de données de la recherche Google et de Google Maps. Les web scrapers et les analystes de données utilisent ces outils de web scraping pour automatiser des flux de travail complexes, naviguer sur des sites web complexes et gérer des projets de data scraping à grande échelle.
Q : Quelles fonctionnalités techniques et technologies sont prises en charge pour le scraping Web par IA ?
A: Ces plateformes exploitent les technologies web d'IA, notamment l'apprentissage automatique, les grands modèles linguistiques et le traitement du langage naturel, pour automatiser le processus d'extraction et s'adapter aux évolutions du site web. Elles peuvent extraire des données, imiter le comportement humain pour contourner le blocage IP et automatiser l'extraction de données à partir de plusieurs URL. Crawlbase est conçu pour gérer le scraping de données à partir de sites Web complexes, gérer des flux de travail complexes et générer des formats structurés pour une analyse plus approfondie.









