Extracteurs génériques

Aperçu

Les extracteurs génériques comblent les vides entre les scrapers nommés. Lorsque le site dont vous avez besoin ne figure pas encore au catalogue (places de marché de niche, distributeurs régionaux, portails internes), ces deux scrapers vous permettent de décrire vous-même la page et nous exécutons l'extraction.

generic-extractor prend un schéma de sélecteurs CSS (ou notre détection automatique) et retourne les valeurs analysées. email-extractor est conçu pour une tâche courante : extraire toutes les adresses e-mail visibles sur une page, quelle que soit la manière dont la page les masque (liens mailto, texte brut, motifs légèrement obfusqués comme name [at] domain.com).

Cas d'usage courants :

Ingestion de catalogue de longue traîne : déposez un schéma pour un distributeur régional, exécutez des imports nocturnes sans que nous ayons à livrer un scraper dédié.
Génération de leads : parcourez une liste de sites d'entreprises, exécutez email-extractor, constituez une liste de prospects contactables (sous réserve des règles d'e-mailing sortant de votre juridiction).
Pipelines de recherche : extrayez des champs structurés (titres, en-têtes, métadonnées) depuis n'importe quelle page pour du NLP en aval, utile lorsque vous avez besoin d'une entrée normalisée à partir de sources hétérogènes.
Surveillance de site : définissez un schéma une seule fois, surveillez les changements de prix ou de contenu d'un concurrent en comparant le JSON analysé dans le temps.

Les deux scrapers s'appuient sur la même pile anti-bot, de routage résidentiel et de rendu JS que les scrapers nommés : la détection automatique fonctionne donc sur des SPA fortement chargées en JS sans que vous ayez à brancher un navigateur séparé. Si une cible nécessite un jour un parseur dédié, le schéma que vous avez écrit constitue un bon document de transfert pour notre équipe scraper.

Deux blocs de construction universels : l'un pour l'extraction structurée arbitraire, l'autre pour la tâche toujours nécessaire d'extraction d'e-mails. Utilisez-les lorsqu'aucun scraper nommé n'existe pour le site qui vous intéresse.

Generic Extractor - extracteur HTML piloté par schéma. Passez des sélecteurs, recevez du JSON structuré.
Email Extractor - extrait toutes les adresses e-mail visibles sur une page.

Exemple d'appel

Ci-dessous : un appel generic-extractor sur la page d'accueil de Stack Overflow. Sans schéma spécifié, le scraper retourne des métadonnées détectées automatiquement : titre de la page, langue et en-têtes regroupés par niveau. Passez un objet selectors personnalisé (voir la référence complète) pour extraire des champs spécifiques.

      curl 'https://api.crawlbase.com/?token=YOUR_TOKEN' \
  --data-urlencode 'url=https://stackoverflow.com/' \
  --data-urlencode 'scraper=generic-extractor' -G
    

Exemple de réponse

      {
  "url": "https://stackoverflow.com/",
  "title": "Stack Overflow - Where Developers Learn...",
  "language": "en",
  "headings": {
    "h1": ["Where developers grow together"],
    "h2": ["Hot Network Questions"]
  }
}
    

Référence complète (paramètres, les 4 langages SDK, cas particuliers) : Generic Extractor - référence complète