# Übertragen de données à die Enterprise Crawler

Avant de cliquer sur les URL et de les cliquer sur la souris CrawlerVous devez commencer Hier einen neuen Crawler ersstellen (öffnet neues Fenster) (ouvre une nouvelle fenêtre).

Um URLs zu pushen, die von der Crawler, vous devez les utiliser Crawling API avec deux paramètres précis :

In Répondez à votre question Crawler-PousserEnvoyez l'API une création JSON avec une seule prise en charge (RID). Ce RID est unique et prend en charge les services fournis dans le cadre de la période d'identification.

Exemple d'une réponse Push :

{ "rid": "1e92e8bff32c31c2728714d4" }

Standardmäßig können Sie bis zu 30 URLs pro Sekunde an die Crawler.

# Le Enterprise Crawler Limite de taille de chaîne

Le total de tous Crawler Warteschlangen est auf 1 Million Seiten begrenzt. Lorsqu'un ou tous les Warteschlangen zusammen mehr als 1 Million Seiten umfassen, Crawler Appuyez dessus pour mettre en pause et vous pourrez vous connecter par e-mail. Crawler Le Push-Vorgang sera automatiquement fortifié, ce qui signifie que l'analyse de la page dans le Warteschlange (den Warteschlangen) est inférieure à 1 million de dollars.

# Übermittlung zusätzlicher Daten

En option, vous pouvez utiliser l'en-tête défini pour votre appareil lorsque vous le souhaitez. callback_headers Paramètre. C'est idéal, um zusätzliche Daten zu Identifikationszwecken an Ihre Seite weiterzugeben.

Le format est le suivant : HEADER-NAME:VALUE|HEADER-NAME2:VALUE2|etc. Et il faut que ce soit riche en code.

Exemple d'en-tête et de valeur MY-ID 1234, some-other 4321

&callback_headers=MY-ID%3A1234%7Csome-other%3A4321

Cet en-tête est affiché dans le Webhook-Post-Anfrage zurückgegeben.

# Timeout pro Anfrage dans le Warteschlange

Sie können mithilfe der folgenden Funktion steuern, wie long a one bestimmte Anfrage in der Warteschlange verbleiben darf, bevor sie verarbeitet wird: queue_timeout Paramètre. Ce n'est rien pour les Crawls critiques du temps, car un ergebnis n'est pas en mesure de le faire, quand l'intérieur d'une des meilleures fenêtres de temps est geliefert wird.

Paramètre Type Description
queue_timeout ganze Zahl Maximale Zeit in Minutes Une réponse peut être donnée dans le langage de guerre, avant de le définir. Valeurs admissibles : 1 zu 10080 (1 Minute jusqu'au 7 Jour). Wird die Anfrage innerhalb ces Zeitraums nicht von einem Mitarbeiter Bearbeitet, wird sie als fehlgeschlagen markiert. Falls nicht angegeben oder auf « false » gesetzt. 0Il s'agit d'un Timeout pro Anfrage in der Warteschlange erzwungen.

Remarques importantes:

  • Das Timeout sera également utile pour la réponse à un moment donné. dans le Warteschlange, avant le début du VerarbeitungSobald ein Mitarbeiter die Anfrage annimmt, queue_timeout gilt nicht mehr.
  • Un délai d'attente maximal peut être atteint par l'Anzahl fehlgeschlagener Anfragen erhöhen. Wählen Sie einen Wert, der widespiegelt, wie lange das Ergebnis für Ihren Anwendungsfall bleibt pertinent.
  • Lorsqu'une page est aufgrund von queue_timeoutVous pouvez utiliser un lien avec le statut HTTP 504 et Crawlbase Statut de 699.

exemple: Une URL avec un délai d'attente de 30 minutes poussé :

curl 'https://api.crawlbase.com/scraper?token=YOUR_TOKEN&callback=true&crawler=YourCrawlerName&queue_timeout=30'