Airbytebientôt
Acheminez les sorties Crawlbase directement vers Snowflake, BigQuery, Redshift ou Postgres. Le connecteur source Airbyte gère la synchronisation incrémentielle et la gestion de schéma.
Le connecteur source Airbyte Crawlbase dédié est en cours de développement. La configuration et les streams ci-dessous sont un aperçu du flux final. Écrivez-nous pour être prévenu de sa sortie.
Besoin dès aujourd'hui ? Utilisez la source HTTP API d'Airbyte contre la Crawling API, ou poussez les résultats vers Cloud Storage et ingérez le bucket via la source S3 d'Airbyte - les deux fonctionnent de bout en bout sans le connecteur dédié.
Configuration
- Dans votre instance Airbyte, allez dans Sources → New Source.
- Recherchez Crawlbase et sélectionnez-le.
- Configurez : collez votre token, choisissez un Crawler (la file d'attente vers laquelle vous poussez les URL), sélectionnez les streams à synchroniser.
- Testez la connexion, enregistrez et connectez-la à une destination.
Streams
rid, url, pc_status, original_status, completed_at, body, headers.Cas d'usage
- Entrepôt horaire de prix produits : poussez les URL de produits vers un Crawler avec le scraper Amazon. Synchronisez toutes les heures. Construisez un modèle dbt par-dessus pour détecter les baisses de prix.
- Archive de conformité : crawls quotidiens en pleine page de sites réglementés, synchronisés vers S3 via Airbyte. Horodatés, schématisés, interrogeables.
- Veille concurrentielle SEO : SERPs scrapées chaque semaine, synchronisées vers BigQuery, mises en tableau de bord dans Looker.