Démarrage rapide
Inscrivez-vous, récupérez un token, envoyez votre première requête. De zéro au crawling en moins de temps qu'il n'en faut pour préparer un café.
Prérequis
Vous avez besoin d'exactement deux choses :
- Un compte Crawlbase gratuit - vous obtenez 1 000 requêtes gratuites, sans carte bancaire.
- Soit
curldans votre shell, soit l'un de nos SDKs officiels dans votre projet.
Chaque compte dispose d'un Normal token (TCP, le plus rapide) et d'un JavaScript token (rendu Chrome complet). Choisissez en fonction du site : la plupart des APIs et des pages statiques fonctionnent avec le Normal token.
Votre première requête
Le Crawling API ne prend qu'un seul paramètre obligatoire - url : entièrement encodé en URL. Insérez votre token et vous voilà en train de crawler.
curl 'https://api.crawlbase.com/?token=YOUR_TOKEN&url=https%3A%2F%2Fhttpbin.org%2Fheaders'from crawlbase import CrawlingAPI
api = CrawlingAPI({'token': 'YOUR_TOKEN'})
res = api.get('https://httpbin.org/headers')
print(res['status_code'])
print(res['body'])const { CrawlingAPI } = require('crawlbase');
const api = new CrawlingAPI({ token: 'YOUR_TOKEN' });
const res = await api.get('https://httpbin.org/headers');
console.log(res.statusCode, res.body);require 'crawlbase'
api = Crawlbase::API.new(token: 'YOUR_TOKEN')
res = api.get('https://httpbin.org/headers')
puts res.status_code
puts res.body<?php
use Crawlbase\CrawlingAPI;
$api = new CrawlingAPI(['token' => 'YOUR_TOKEN']);
$res = $api->get('https://httpbin.org/headers');
echo $res->statusCode . PHP_EOL;
echo $res->body;package main
import (
"fmt"
"github.com/crawlbase/crawlbase-go"
)
func main() {
api := crawlbase.NewCrawlingAPI("YOUR_TOKEN")
res, _ := api.Get("https://httpbin.org/headers")
fmt.Println(res.StatusCode)
fmt.Println(res.Body)
}Sur l'invite de commandes Windows (cmd.exe), remplacez les apostrophes simples autour de l'URL par des guillemets doubles : curl "https://api.crawlbase.com/?token=YOUR_TOKEN&url=ENCODED_URL". Les apostrophes simples sont une convention des shells Unix ; cmd.exe les transmet littéralement et la requête échoue. PowerShell, macOS et les shells Linux acceptent la forme avec apostrophes simples ci-dessus.
Vous recevrez en retour le HTML de la page, ainsi que quelques en-têtes décrivant ce qui s'est passé en amont. Les plus importants :
200 signifie succès. Voir les codes de statut pour la liste complète.&async=true ou &store=true. Utilisez-le pour retrouver la page dans Cloud Storage.Besoin du rendu JavaScript ?
Les sites construits avec React, Vue, Angular, ou tout ce qui livre une coquille HTML vide nécessitent un vrai navigateur. Passez à votre JavaScript token : même endpoint, token différent.
curl 'https://api.crawlbase.com/?token=YOUR_JS_TOKEN&url=https%3A%2F%2Freact-app.example.com&page_wait=2000'from crawlbase import CrawlingAPI
api = CrawlingAPI({'token': 'YOUR_JS_TOKEN'})
res = api.get('https://react-app.example.com', {
'page_wait': 2000,
'ajax_wait': True,
})
print(res['body'])Paramètres utiles pour le rendu JS :
page_wait: attend N millisecondes après le chargement (0 par défaut).ajax_wait: attend que le réseau soit inactif.css_click_selector: clique sur un élément avant la capture.
Voir la liste complète dans les paramètres du Crawling API.
Étapes suivantes
Vous crawlez. Maintenant, choisissez votre voie :