Se connecter

Prérequis

Vous avez besoin d'exactement deux choses :

  • Un compte Crawlbase gratuit - vous obtenez 1 000 requêtes gratuites, sans carte bancaire.
  • Soit curl dans votre shell, soit l'un de nos SDKs officiels dans votre projet.
Deux tokens, un seul compte

Chaque compte dispose d'un Normal token (TCP, le plus rapide) et d'un JavaScript token (rendu Chrome complet). Choisissez en fonction du site : la plupart des APIs et des pages statiques fonctionnent avec le Normal token.

Votre première requête

Le Crawling API ne prend qu'un seul paramètre obligatoire - url : entièrement encodé en URL. Insérez votre token et vous voilà en train de crawler.

GEThttps://api.crawlbase.com/?token=YOUR_TOKEN&url=ENCODED_URL
curl 'https://api.crawlbase.com/?token=YOUR_TOKEN&url=https%3A%2F%2Fhttpbin.org%2Fheaders'
from crawlbase import CrawlingAPI

api = CrawlingAPI({'token': 'YOUR_TOKEN'})
res = api.get('https://httpbin.org/headers')

print(res['status_code'])
print(res['body'])
const { CrawlingAPI } = require('crawlbase');
const api = new CrawlingAPI({ token: 'YOUR_TOKEN' });

const res = await api.get('https://httpbin.org/headers');
console.log(res.statusCode, res.body);
require 'crawlbase'

api = Crawlbase::API.new(token: 'YOUR_TOKEN')
res = api.get('https://httpbin.org/headers')

puts res.status_code
puts res.body
<?php
use Crawlbase\CrawlingAPI;

$api = new CrawlingAPI(['token' => 'YOUR_TOKEN']);
$res = $api->get('https://httpbin.org/headers');

echo $res->statusCode . PHP_EOL;
echo $res->body;
package main

import (
    "fmt"
    "github.com/crawlbase/crawlbase-go"
)

func main() {
    api := crawlbase.NewCrawlingAPI("YOUR_TOKEN")
    res, _ := api.Get("https://httpbin.org/headers")
    fmt.Println(res.StatusCode)
    fmt.Println(res.Body)
}
Invite de commandes Windows

Sur l'invite de commandes Windows (cmd.exe), remplacez les apostrophes simples autour de l'URL par des guillemets doubles : curl "https://api.crawlbase.com/?token=YOUR_TOKEN&url=ENCODED_URL". Les apostrophes simples sont une convention des shells Unix ; cmd.exe les transmet littéralement et la requête échoue. PowerShell, macOS et les shells Linux acceptent la forme avec apostrophes simples ci-dessus.

Vous recevrez en retour le HTML de la page, ainsi que quelques en-têtes décrivant ce qui s'est passé en amont. Les plus importants :

original_status
int
Le statut HTTP renvoyé par le site cible. Utile pour distinguer « le site répond 404 » de « nous n'avons pas pu atteindre le site ».
pc_status
int
Le code de statut Crawlbase. 200 signifie succès. Voir les codes de statut pour la liste complète.
url
string
L'URL finale après les éventuelles redirections. Utile lorsque vous voulez savoir où vous avez réellement atterri.
rid
stringoptionnel
Un identifiant de requête renvoyé lorsque vous utilisez &async=true ou &store=true. Utilisez-le pour retrouver la page dans Cloud Storage.

Besoin du rendu JavaScript ?

Les sites construits avec React, Vue, Angular, ou tout ce qui livre une coquille HTML vide nécessitent un vrai navigateur. Passez à votre JavaScript token : même endpoint, token différent.

curl 'https://api.crawlbase.com/?token=YOUR_JS_TOKEN&url=https%3A%2F%2Freact-app.example.com&page_wait=2000'
from crawlbase import CrawlingAPI

api = CrawlingAPI({'token': 'YOUR_JS_TOKEN'})
res = api.get('https://react-app.example.com', {
    'page_wait': 2000,
    'ajax_wait': True,
})
print(res['body'])

Paramètres utiles pour le rendu JS :

  • page_wait : attend N millisecondes après le chargement (0 par défaut).
  • ajax_wait : attend que le réseau soit inactif.
  • css_click_selector : clique sur un élément avant la capture.

Voir la liste complète dans les paramètres du Crawling API.

Étapes suivantes

Vous crawlez. Maintenant, choisissez votre voie :

Chaque paramètre, chaque en-tête, chaque code de statut.
Évitez le parsing. Les scrapers renvoient du JSON propre.
Envoyez des URLs dans la file d'attente Enterprise Crawler.
Serveur MCP, intégration Claude, modèles de prompts.