# Übertragen de données à die Enterprise Crawler
Avant de cliquer sur les URL et de les cliquer sur la souris CrawlerVous devez commencer Hier einen neuen Crawler ersstellen (öffnet neues Fenster) (ouvre une nouvelle fenêtre).
Um URLs zu pushen, die von der Crawler, vous devez les utiliser Crawling API avec deux paramètres précis :
- Vous devez vous accrocher
&callback=true - Vous devez vous accrocher
&crawler=YourCrawlerNameUtilisez le nom de Crawlers, que vous avez créé werden auf this Seite erläutert (öffnet neues Fenster) (ouvre une nouvelle fenêtre).
In Répondez à votre question Crawler-PousserEnvoyez l'API une création JSON avec une seule prise en charge (RID). Ce RID est unique et prend en charge les services fournis dans le cadre de la période d'identification.
Exemple d'une réponse Push :
{ "rid": "1e92e8bff32c31c2728714d4" }
Standardmäßig können Sie bis zu 30 URLs pro Sekunde an die Crawler.
# Le Enterprise Crawler Limite de taille de chaîne
Le total de tous Crawler Warteschlangen est auf 1 Million Seiten begrenzt. Lorsqu'un ou tous les Warteschlangen zusammen mehr als 1 Million Seiten umfassen, Crawler Appuyez dessus pour mettre en pause et vous pourrez vous connecter par e-mail. Crawler Le Push-Vorgang sera automatiquement fortifié, ce qui signifie que l'analyse de la page dans le Warteschlange (den Warteschlangen) est inférieure à 1 million de dollars.
# Übermittlung zusätzlicher Daten
En option, vous pouvez utiliser l'en-tête défini pour votre appareil lorsque vous le souhaitez. callback_headers Paramètre. C'est idéal, um zusätzliche Daten zu Identifikationszwecken an Ihre Seite weiterzugeben.
Le format est le suivant : HEADER-NAME:VALUE|HEADER-NAME2:VALUE2|etc. Et il faut que ce soit riche en code.
Exemple d'en-tête et de valeur MY-ID 1234, some-other 4321
&callback_headers=MY-ID%3A1234%7Csome-other%3A4321
Cet en-tête est affiché dans le Webhook-Post-Anfrage zurückgegeben.
# Timeout pro Anfrage dans le Warteschlange
Sie können mithilfe der folgenden Funktion steuern, wie long a one bestimmte Anfrage in der Warteschlange verbleiben darf, bevor sie verarbeitet wird: queue_timeout Paramètre. Ce n'est rien pour les Crawls critiques du temps, car un ergebnis n'est pas en mesure de le faire, quand l'intérieur d'une des meilleures fenêtres de temps est geliefert wird.
| Paramètre | Type | Description |
|---|---|---|
queue_timeout | ganze Zahl | Maximale Zeit in Minutes Une réponse peut être donnée dans le langage de guerre, avant de le définir. Valeurs admissibles : 1 zu 10080 (1 Minute jusqu'au 7 Jour). Wird die Anfrage innerhalb ces Zeitraums nicht von einem Mitarbeiter Bearbeitet, wird sie als fehlgeschlagen markiert. Falls nicht angegeben oder auf « false » gesetzt. 0Il s'agit d'un Timeout pro Anfrage in der Warteschlange erzwungen. |
Remarques importantes:
- Das Timeout sera également utile pour la réponse à un moment donné. dans le Warteschlange, avant le début du VerarbeitungSobald ein Mitarbeiter die Anfrage annimmt,
queue_timeoutgilt nicht mehr. - Un délai d'attente maximal peut être atteint par l'Anzahl fehlgeschlagener Anfragen erhöhen. Wählen Sie einen Wert, der widespiegelt, wie lange das Ergebnis für Ihren Anwendungsfall bleibt pertinent.
- Lorsqu'une page est aufgrund von
queue_timeoutVous pouvez utiliser un lien avec le statut HTTP504et Crawlbase Statut de699.
exemple: Une URL avec un délai d'attente de 30 minutes poussé :
curl 'https://api.crawlbase.com/scraper?token=YOUR_TOKEN&callback=true&crawler=YourCrawlerName&queue_timeout=30'