Se connecter
Bientôt disponible - aperçu du fonctionnement

Le connecteur source Airbyte Crawlbase dédié est en cours de développement. La configuration et les streams ci-dessous sont un aperçu du flux final. Écrivez-nous pour être prévenu de sa sortie.

Besoin dès aujourd'hui ? Utilisez la source HTTP API d'Airbyte contre la Crawling API, ou poussez les résultats vers Cloud Storage et ingérez le bucket via la source S3 d'Airbyte - les deux fonctionnent de bout en bout sans le connecteur dédié.

Configuration

  1. Dans votre instance Airbyte, allez dans Sources → New Source.
  2. Recherchez Crawlbase et sélectionnez-le.
  3. Configurez : collez votre token, choisissez un Crawler (la file d'attente vers laquelle vous poussez les URL), sélectionnez les streams à synchroniser.
  4. Testez la connexion, enregistrez et connectez-la à une destination.

Streams

crawl_results
incrémentiel
Chaque crawl terminé, une ligne par URL. Colonnes : rid, url, pc_status, original_status, completed_at, body, headers.
scraper_outputs
incrémentiel
Résultats structurés du scraper, avec des schémas par scraper (Amazon, Google, etc.) inférés automatiquement et exposés sous forme de colonnes imbriquées.
crawler_status
actualisation complète
Instantané de l'état de la file du Crawler : nombre de requêtes en file d'attente, en cours, terminées/échouées par crawler.

Cas d'usage

  • Entrepôt horaire de prix produits : poussez les URL de produits vers un Crawler avec le scraper Amazon. Synchronisez toutes les heures. Construisez un modèle dbt par-dessus pour détecter les baisses de prix.
  • Archive de conformité : crawls quotidiens en pleine page de sites réglementés, synchronisés vers S3 via Airbyte. Horodatés, schématisés, interrogeables.
  • Veille concurrentielle SEO : SERPs scrapées chaque semaine, synchronisées vers BigQuery, mises en tableau de bord dans Looker.