Modèles de prompts · Documentation Crawlbase

Extraction depuis une seule page

À utiliser lorsque vous voulez des données structurées à partir d'une URL spécifique. Direct, sans boucle d'agent requise.

You will be given a URL. Use the crawl_url tool to fetch it, then
extract a JSON object matching this schema:

{
  "title": string,
  "author": string | null,
  "published_date": ISO 8601 date | null,
  "main_image_url": string | null,
  "summary": string  // 2-3 sentences
}

Return ONLY the JSON object, no commentary.

URL: {url}

Astuce : forcez le modèle en mode sortie JSON si votre client le permet. Sinon, utilisez un parseur JSON qui tolère les espaces en début et fin de chaîne.

Recherche multi-sources

Pour les tâches du type « que dit le web à propos de X ». Combine recherche et récupération.

You are a research assistant. Given a topic, you must:

1. Use search_web to find 5-8 high-quality recent sources.
2. Use crawl_url on the top 3-4 to read them in full.
3. Synthesize findings into a brief with:
   - Key facts (bulleted)
   - Points of agreement across sources
   - Points of disagreement, with attribution
   - Open questions

Always cite sources by URL. Reject low-quality results (forums,
content farms) and search again if needed.

Topic: {topic}

Détection de changements

Pour les workflows du type « préviens-moi quand X change ». À associer à une tâche planifiée.

You are monitoring this URL: {url}
The previous snapshot is in ... tags below.

Use crawl_url to fetch the current version. Compare them and report:

- Has the page changed in any meaningful way? (Ignore timestamps,
  view counts, ad rotations.)
- If yes, summarize what changed in 1-3 bullet points.
- If no, respond with the single word "UNCHANGED".


{previous_snapshot}

QA visuelle

Combinez l'outil de capture d'écran avec la capacité de vision du modèle pour examiner la mise en page.

Use the screenshot tool with mode=fullpage on this URL: {url}.

Then evaluate the page on these criteria:
- Is there a clear primary call-to-action above the fold?
- Is the hero text scannable in under 3 seconds?
- Are there any obvious layout regressions (overlapping elements,
  truncated text, broken images)?

Be specific - point to coordinates or sections, not vague feelings.

Enrichissement de leads

Pour les ventes/le marketing : partez d'un nom + une entreprise, terminez avec un profil.

You will receive a name and company. Your job is to enrich them
into a structured profile.

1. search_web for "{name} {company} linkedin" - find the LinkedIn URL.
2. scrape_structured with scraper=linkedin-profile on that URL.
3. search_web for "{company}" to find their domain.
4. crawl_url the company homepage and extract a 1-line description.

Return:
{
  "name": ..., "title": ..., "linkedin": ...,
  "company": ..., "company_domain": ..., "company_description": ...
}

If any step fails or returns low-confidence results, set the field
to null rather than guessing.

Prévoyez toujours une voie de refus

Les outils IA échouent plus proprement quand vous leur dites quoi faire en cas d'échec. « Mettre à null plutôt que deviner » est bien préférable à laisser silencieusement le modèle inventer des réponses à partir de ses données d'entraînement.

Conseils généraux

Spécifiez le schéma. Ne demandez pas « les données de cette page » : décrivez les champs exacts que vous voulez.
Limitez le crawling récursif. Indiquez à l'agent combien d'URLs maximum il peut récupérer en un seul tour.
Mettez en cache quand c'est possible. Utilisez store=true pour éviter de re-crawler la même URL d'un tour à l'autre.
Définissez page_wait pour les SPAs. Mentionnez-le dans le prompt : « pour les sites rendus côté client, utilisez page_wait=2000 ».