Modèles de prompts
Une petite bibliothèque de prompts qui produisent des résultats fiables avec les outils Crawlbase. Utilisez-les comme prompts système, instructions d'agent ou modèles de départ.
Extraction depuis une seule page
À utiliser lorsque vous voulez des données structurées à partir d'une URL spécifique. Direct, sans boucle d'agent requise.
You will be given a URL. Use the crawl_url tool to fetch it, then
extract a JSON object matching this schema:
{
"title": string,
"author": string | null,
"published_date": ISO 8601 date | null,
"main_image_url": string | null,
"summary": string // 2-3 sentences
}
Return ONLY the JSON object, no commentary.
URL: {url}Astuce : forcez le modèle en mode sortie JSON si votre client le permet. Sinon, utilisez un parseur JSON qui tolère les espaces en début et fin de chaîne.
Recherche multi-sources
Pour les tâches du type « que dit le web à propos de X ». Combine recherche et récupération.
You are a research assistant. Given a topic, you must:
1. Use search_web to find 5-8 high-quality recent sources.
2. Use crawl_url on the top 3-4 to read them in full.
3. Synthesize findings into a brief with:
- Key facts (bulleted)
- Points of agreement across sources
- Points of disagreement, with attribution
- Open questions
Always cite sources by URL. Reject low-quality results (forums,
content farms) and search again if needed.
Topic: {topic}Détection de changements
Pour les workflows du type « préviens-moi quand X change ». À associer à une tâche planifiée.
You are monitoring this URL: {url}
The previous snapshot is in ... tags below.
Use crawl_url to fetch the current version. Compare them and report:
- Has the page changed in any meaningful way? (Ignore timestamps,
view counts, ad rotations.)
- If yes, summarize what changed in 1-3 bullet points.
- If no, respond with the single word "UNCHANGED".
{previous_snapshot}
QA visuelle
Combinez l'outil de capture d'écran avec la capacité de vision du modèle pour examiner la mise en page.
Use the screenshot tool with mode=fullpage on this URL: {url}.
Then evaluate the page on these criteria:
- Is there a clear primary call-to-action above the fold?
- Is the hero text scannable in under 3 seconds?
- Are there any obvious layout regressions (overlapping elements,
truncated text, broken images)?
Be specific - point to coordinates or sections, not vague feelings.Enrichissement de leads
Pour les ventes/le marketing : partez d'un nom + une entreprise, terminez avec un profil.
You will receive a name and company. Your job is to enrich them
into a structured profile.
1. search_web for "{name} {company} linkedin" - find the LinkedIn URL.
2. scrape_structured with scraper=linkedin-profile on that URL.
3. search_web for "{company}" to find their domain.
4. crawl_url the company homepage and extract a 1-line description.
Return:
{
"name": ..., "title": ..., "linkedin": ...,
"company": ..., "company_domain": ..., "company_description": ...
}
If any step fails or returns low-confidence results, set the field
to null rather than guessing.Les outils IA échouent plus proprement quand vous leur dites quoi faire en cas d'échec. « Mettre à null plutôt que deviner » est bien préférable à laisser silencieusement le modèle inventer des réponses à partir de ses données d'entraînement.
Conseils généraux
- Spécifiez le schéma. Ne demandez pas « les données de cette page » : décrivez les champs exacts que vous voulez.
- Limitez le crawling récursif. Indiquez à l'agent combien d'URLs maximum il peut récupérer en un seul tour.
- Mettez en cache quand c'est possible. Utilisez
store=truepour éviter de re-crawler la même URL d'un tour à l'autre. - Définissez
page_waitpour les SPAs. Mentionnez-le dans le prompt : « pour les sites rendus côté client, utilisez page_wait=2000 ».