Extraire, analyser et stocker des données n'est pas forcément compliqué. Si vous associez Crawlbase Avec GoogleSQL et BigQuery, connecter directement vos données web à vos analyses devient beaucoup plus simple. Ce guide vous explique étape par étape comment configurer GoogleSQL. Crawlbase, récupérez les données dont vous avez besoin et chargez-les toutes dans Google Cloud SQL, afin de pouvoir commencer à poser des questions plus intelligentes et à obtenir des réponses claires en toute simplicité.

Qu'est-ce que GoogleSQL ?

GoogleSQL fait partie des services de bases de données SQL gérés de Google Cloud, comme Cloud SQL ou BigQuery. Imaginez avoir besoin d'un espace sécurisé dans le cloud pour vos données ? Google Cloud SQL héberge des bases de données comme MySQL, PostgreSQL et SQL Server, toutes gérées par Google. Vous n'avez donc pas à vous soucier du matériel ni de la configuration complexe. Vous importez vos données et Google gère la majeure partie du travail en arrière-plan.

Si vous entendez parler de GoogleSQL, il s'agit souvent du langage SQL utilisé par BigQuery pour le découpage des big data. En clair, « Google SQL » désigne généralement l'utilisation des outils cloud de Google pour stocker les données et exécuter les requêtes SQL, sans avoir à gérer vos propres serveurs ni à installer quoi que ce soit de complexe. Il vous suffit de vous connecter, d'écrire des requêtes et de laisser Google s'occuper du reste.

Étapes pour utiliser GoogleSQL dans Crawlbase

Voici les étapes suivantes pour utiliser Google SQL dans le Crawlbase environnement:

Étape 1: configuration Crawlbase et environnement Python

Maintenant que votre environnement est prêt, récupérons des données réelles. La première chose à faire est de sécuriser votre Crawlbase compte. Alors, n'hésitez pas à suivre les étapes ci-dessous si vous n'avez pas encore de compte.

  1. Créez un compte sur Crawlbase et connectez-vous.
  2. Après votre inscription, vous recevrez 1,000 9,000 demandes gratuites. Pour obtenir XNUMX XNUMX demandes supplémentaires, il vous suffit de ajoutez vos informations de facturation avant de consommer l'un des crédits d'essai gratuits.
  3. Localisez et copiez votre Crawling API Jeton de requêtes normales.

Ensuite, nous devons nous assurer que la version compatible de Python et la bibliothèque Requests sont correctement installées. Suivez les étapes ci-dessous.

  1. Installez Python 3 sur votre ordinateur
  2. Créez un répertoire racine dans notre système de fichiers.
  3. Accédez à votre terminal et exécutez pip install requests

Étape 2 : Explorer les données pour l'importation de la base de données

L'étape suivante consiste à collecter les données à importer dans votre base de données. Vous trouverez ci-dessous un script Python simple utilisant la commande Crawling API pour extraire les données produit Amazon et les enregistrer au format CSV. Copiez le script ci-dessous et enregistrez-le dans crawl_data.py

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
à partir de demandes.exceptions importer DemandeException
importer demandes
importer json
importer csv

def crawl_data(amazon_serp_url: str) -> str:
GRATTOIR = "amazon-serp"
API_TOKEN = "<Crawlbase Jeton de requêtes normales>" #<- remplacez par votre jeton réel
API_ENDPOINT = "https://api.crawlbase.com/"

# Préparer les paramètres de la requête API
paramètres = {
"jeton": API_TOKEN,
"url": amazon_serp_url, # URL de recherche Amazon cible
"grattoir": GRATTOIR
}

# Effectuez la requête API vers Crawlbase
réponse = requêtes.get(API_ENDPOINT, params=params)

# Lever une exception pour les codes d'état HTTP incorrects
réponse.raise_for_status()

# Renvoyer la réponse JSON sous forme de texte
retourner réponse.texte

def enregistrer_dans_csv(données, nom de fichier=« données.csv »):
Essai:
# Extraire les produits des données
produits = data.get('corps', {}).obtenir(« produits », [])

if pas produits:
impression(« Aucun produit trouvé dans les données »)
retourner

# Définir les colonnes CSV en fonction de la structure du produit
noms de champs = [
'nom', 'rawPrice', 'devise', 'offre',
« avis client », « customerReviewCount », « message d'expédition »,
'asin', 'image', 'URL', 'isPrime', 'annonce sponsorisée', 'couponInfo'
]

# Écrire dans un fichier CSV
avec ouvert(nom de fichier, 'w', nouvelle ligne='', encodage=« utf-8 ») as fichier csv:
écrivain = csv.DictWriter(fichier csv, noms de champs=noms de champs)

# Écrivez chaque produit (pas d'en-tête)
pour produits in produits:
# Nettoyer les données pour CSV (gérer les champs manquants)
produit_nettoyé = {}
pour champ in noms de champs :
valeur = produit.get(champ, '')
# Convertir les valeurs booléennes en chaîne
if estinstance(valeur, bool):
valeur = str(valeur)
# Gérer les champs de liste (comme badgesInfo)
Elif estinstance(valeur, liste):
valeur = ','.joindre(str(Objet) pour Articles in valeur) if La valeur d'autre ''
cleaned_product[champ] = valeur

écrivain.writerow(produit_nettoyé)

impression(f"Enregistré avec succès {len(produits)} produits à {nom de fichier}")

sauf Exception as e:
impression(f"Erreur lors de l'enregistrement au format CSV : {e}")

if __nom__ == "__principale__":
Essai:
json_data = crawl_data(« https://www.amazon.com/s?k=iPhone+16 »)
parsed_json = json.loads(json_data)
impression(json.dumps(parsed_json, indent=2))

# Enregistrer au format CSV
enregistrer_dans_csv(analysé_json, « données.csv »)

sauf json.JSONDecodeError as e:
impression(f"Erreur lors de l'analyse de JSON : {e}")
impression(« Réponse brute : »)
impression(crawl_data())

Pour exécuter le script, utilisez simplement la commande ci-dessous :

1
python crawl_data.py

Cela générera un fichier CSV nommé data.csv, que nous utiliserons dans la section suivante.

Étape 3 : Configurer la base de données Google Cloud SQL

Avant de pouvoir analyser vos données extraites, vous devez d'abord configurer une base de données Cloud SQL dans Google Cloud. Voici comment créer une instance, ajouter une base de données et configurer une table où seront stockées vos données produit Amazon extraites.

  1. Allez dans Google Cloud Console.
  2. Créer un nouveau projet ou sélectionnez-en un existant.
  3. Vous devez activer la facturation sur votre projet d'utilisation de Cloud SQL.
  4. Activer Cloud SQL :
  • Rendez-vous dans la section Google Cloud Console
  • Accédez à « API et services » > « Tableau de bord »
  • Cliquez sur « Activer les API et les services »
  • Recherchez « Cloud SQL », sélectionnez-le et cliquez sur « Activer »
  1. Créer une instance Cloud SQL :
  • Rendez-vous dans la section Instances Cloud SQL page dans la console Google Cloud.
  • Cliquez sur « Créer une instance ».
  • Choisissez un moteur de base de données (MySQL, PostgreSQL ou SQL Server), cette fois nous « Choisissons PostgreSQL ».
  • Configurez les paramètres de l'instance (ID d'instance, région, etc.).
  • Définissez un mot de passe pour l'utilisateur root.
  • Cliquez sur « Créer une instance ».
  1. Créer une base de données :
  • Rendez-vous dans la section Instances Cloud SQL .
  • Sélectionnez l’instance que vous souhaitez configurer.
  • Accédez à l’onglet « Bases de données ».
  • Créez une base de données appelée « analytics_example_db ».
  1. Créer un tableau :
  • Accédez à la page Instances Cloud SQL.
  • Sélectionnez l’instance que vous souhaitez configurer.
  • Accédez à l’onglet « Cloud SQL Studio ».
  • Connectez-vous à la base de données « analytics_example_db »
  • Cliquez sur le [+] pour créer un nouvel onglet
  • Collez les scripts SQL ci-dessous et cliquez sur Exécuter
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
CREER LA TABLE "public"."amazon_products" (
"nom" TEXTE,
"prix" DÉCIMAL(10, 2),
"devise" VARCHAR(10),
"offre" VARCHAR(255),
"Avis client" VARCHAR(255),
"nombre d'avis clients" VARCHAR(255),
"message d'expédition" VARCHAR(255),
"asin" VARCHAR(255),
TEXTE "image",
TEXTE "url",
"estPrime" Booléen,
"Annonce sponsorisée" Booléen,
"couponInfo" VARCHAR(255)
);

Cela créera une nouvelle table appelée amazon_products

Une image de l'interface utilisateur Google SQL

Étape 4 : Importer les données explorées dans Crawlbase Base de données

La dernière étape consiste à importer le fichier CSV récupéré dans votre base de données Cloud SQL, une fois la table prête. Suivez ces étapes pour importer les données et les rendre disponibles pour les requêtes avec Google SQL.

  1. Sélectionnez une instance Cloud SQL :
  • Rendez-vous dans la section Page Instances Cloud SQL.
  • Sélectionnez l’instance que vous souhaitez configurer.
  • Accéder à Aperçu → Importer
  • Sélectionnez CSV comme format de fichier
  • Téléchargez des fichiers depuis votre ordinateur en tant que fichier source
  • Naviguez vers le data.csv rampé d'en haut.
  • Créez un nom d’emplacement Cloud Storage unique.
  • Télécharger le data.csv au seau.
  • Choisir analytics_example_db comme base de données de destination
  • Définir le nom de la table sur amazon_products
  • Cliquez sur Importer
Une image montrant des données tabulaires

Vous avez maintenant importé avec succès vos données extraites dans Cloud SQL. Une fois tout en place, vous pouvez commencer à exécuter des requêtes et à explorer les données avec Google SQL pour obtenir des informations précieuses.

Donner Crawlbase un essai maintenant et voyez ce que vous pouvez accomplir !

Foire Aux Questions (FAQ)

Q. Dois-je payer pour utiliser Google Cloud SQL ?

A. Vous devez activer la facturation pour utiliser Cloud SQL, mais la bonne nouvelle est que Google offre des crédits gratuits aux nouveaux utilisateurs. Vous pouvez l'essayer immédiatement sans débourser un centime.

Q. Puis-je utiliser cette méthode pour importer des données d’autres sites Web, pas seulement d’Amazon ?

A. Oui, cette configuration ne se limite pas à Amazon. Vous pouvez récupérer des données depuis n'importe quel site web public grâce à Crawlbase, puis suivez les mêmes étapes pour le stocker et l'analyser dans Google Cloud SQL.

Q. Que se passe-t-il si mon format de données change ultérieurement ?

A. Pas d'inquiétude ! Si vos données récupérées changent (par exemple, si de nouveaux champs sont ajoutés), vous pouvez facilement mettre à jour votre table Cloud SQL. Il vous suffit d'utiliser un ALTER TABLE commande pour ajouter de nouvelles colonnes tout en préservant vos données existantes.