# Paramètre

L'API contient le paramètre suivant : Le jeton et l'URL sont obligatoires, le reste est facultatif.

# Signer

  • Obligatoire
  • Type string

Ce paramètre est destiné à toutes les analyses.

Dies ist Ihr Authentifizierungstoken. Vous avez deux Tokens : un pour une activation normale et un pour une activation JavaScript.

Lorsque vous utilisez le jeton JavaScript, lorsque vous l'essayez, vous explorez la manière dont JavaScript est généré, et vous avez ainsi une page avec JavaScript créée à la main (React, Angular, etc.) ou bien l'utilisation dynamique du navigateur est générée.

Jeton Normales

_USER_TOKEN_

Jeton JavaScript

_JS_TOKEN_

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# URL

  • Obligatoire
  • Type string

Ce paramètre est destiné à toutes les analyses.

Vous pouvez utiliser une URL pour Crawlen. Assurez-vous de vous assurer que vous êtes avec http ou https au début et à la fin est entièrement codé.

Voir l'URL suivante : https://github.com/crawlbase?tab=repositories L'URL est désormais disponible dans l'API, comme le code ci-dessous : https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# Format

  • Non
  • Type string

Donnez le format de réponse et, entre json or html. La valeur standard est html.

Format Wenn html Il est utilisé et envoie à Crawlbase le paramètre de réponse dans l'en-tête (voir Réponse HTML ci-dessous).

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json"

# assez

  • Non
  • Type boolean

Si vous en attendez un json Répondez à votre question d'optimisation, indépendamment de votre réponse. &pretty=true.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json&pretty=true"

# user_agent

  • Non
  • Type string

Si vous souhaitez obtenir une réponse avec un agent de maintenance bien défini, vous pourrez vous y rendre ici et trouver notre serveur dans l'URL proposée ici.

Nous recommandons PAS Utilisez ces paramètres et überlassen Sie die Handhabung nostlichen Intelligence.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# Contenu de la page

  • Non
  • Type number

Lorsque vous utilisez le jeton JavaScript, vous pouvez utiliser les fonctionnalités facultatives : page_wait Parameter zum Warten einer bestimmten Zeitspanne millisecondes Avant le navigateur, le code HTML résultant est créé.

Celui-ci est tombé rapidement, dans le rendu de la page une seule seconde fois ou pour l'intégration du HTML et c'était Ajax qui devait être utilisé.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# ajax_wait

  • Non
  • Type boolean

Lorsque vous utilisez le jeton JavaScript, vous pouvez utiliser les fonctionnalités facultatives : ajax_wait Paramètre, pour l'abschluss der Ajax-Anfragen zu warten, avant la réponse HTML abgerufen wird.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# Sélecteur de clics CSS

  • Non
  • Type string

# Sélecteur CSS individuel

Lorsque vous utilisez le jeton JavaScript, vous pouvez le faire en option css_click_selector Paramètre, un élément sur la page en cliquant sur le navigateur, qui génère le code HTML résultant.

Ce paramètre est activé avec un large éventail de paramètres et un sélecteur CSS efficace. Vous pouvez utiliser un sélecteur d'identification comme #some-button, un sélecteur de classe comme .some-other-buttonou un sélecteur d'attributs comme [data-tab-item="tab1"]. Pour vous aider, vous devez vous assurer que le sélecteur CSS est riche en code.

Bitte beachten Sie, dass die Anfrage fehlschlägt, wenn le Selector nicht auf der Seite gefunden wird. pc_status 595Une réponse à votre demande, si un sélecteur n'est pas financé, vous pouvez obtenir un sélecteur universel universel, comme body, comme Fallback. Exemple : #some-button,body.

# Plusieurs sélecteurs CSS

Un exemple de visualisation de la situation, dans de nombreux éléments qui ne sont pas visibles, avant que le Seiteninhalt ne soit arrivé, css_click_selector Les paramètres ne peuvent pas être plus activés dans les sélections CSS. Trennen Sie die einzelnen Selektoren durch ein Pipe-Zeichen (|)-Zeichen. Assurez-vous que le code d'URL est un code d'URL simple pour analyser le problème.

Angenommen, Sie möchten auf eine Schaltfläche mit der ID klicken start-button et puis un lien avec la classe next-page-link. Vous le feriez css_click_selector Paramètre comme suit :

  • Sélecteurs originaux : #start-button|.next-page-link
  • URL codée : %23start-button%7C.next-page-link

Placez ces paramètres dans votre réponse API et, pour être sûr, à côté de l'élément dans les différentes réponses possibles.

Bien sûr, vous serez sûr de pouvoir sélectionner tous les sélecteurs et sur la page précédente si vous avez un choix de sélection. Lorsqu'un sélecteur n'est pas utilisé, les réponses aux questions liées à la manipulation des commandes et à la mise en œuvre de ces fonctions sont prises en compte. pc_status 595 C'est là qu'un sélecteur de repli est activé.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%5Bdata-tab-item%3D%22overview%22%5D&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# dispositif

  • Non
  • Type string

Si vous n'utilisez pas User_Agent en option, mais si vous utilisez un meilleur agent, vous pouvez utiliser ce paramètre.

Il y a deux options pour l'utilisation : desktop et mobile.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# get_cookies

  • Non
  • Type boolean

Si les cookies sont facultatifs, vous pouvez les utiliser directement sur le site Web au moyen de la réponse, vous pouvez également les utiliser &get_cookies=true Paramètres

Les cookies sont affichés dans l'en-tête (ou dans la réponse JSON, si vous les utilisez) affichés. &format=json) Comment original_set_cookie.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# get_headers

  • Non
  • Type boolean

Si vous êtes facultatif dans l'en-tête, cliquez sur le site Web disponible dans la réponse, vous pourrez y accéder &get_headers=true Paramètres

L'en-tête est affiché dans la réponse en tant que tel original_header_name standard. Si &format=json übergeben wird, wird der Header zurückgegeben als original_headers.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# En-tête d'exigences

  • Non
  • Type string

Wenn Sie facultative Anforderungsheader an die ursprüngliche Website senden müssen, können Sie den &request_headers=EncodedRequestHeaders Paramètres

Exemples d'en-tête de réponse : Acceptez la langue : en-GB | Enregistrez le code : gzip

Exemple codé : &request_headers=accept-language%3Afr-GB%7Caccept-encoding%3Agzip

Bien sûr, vous ne serez pas en mesure de consulter les informations fournies par l'API. Nous vous proposons d'utiliser l'en-tête créé avec cette URL de test pour tester : https://postman-echo.com/headers

Si vous pouvez utiliser l'en-tête pour l'envoyer, l'API n'est pas disponible, vous devez donc nous donner le nom de l'en-tête et nous autorisons votre jeton.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# Définir des cookies

  • Non
  • Type string

Lorsque vous utilisez des cookies et que le site Web est disponible, vous pouvez les utiliser en option &cookies=EncodedCookies Paramètres

Exemple de cookies : key1=value1; key2=value2; key3=value3

Exemple codé : &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3

Nous vous proposons de créer des cookies avec cette URL de test pour tester : https://postman-echo.com/cookies

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https%3A%2F%2Fpostman-echo.com%2Fcookies"

# cookies_sitzung

  • Non
  • Type string

Lorsque vous utilisez les cookies, vous devez les envoyer directement à tous les utilisateurs potentiels, vous pouvez donc les utiliser &cookies_session= Paramètres

La société &cookies_session= Un paramètre peut être considéré comme plus important. Envoyez simplement un nouveau produit, un nouveau site de cookies à utiliser (vous pouvez donc utiliser les cookies automatiquement au-delà de la création ultérieure avec ce site de cookies et le envoyer ensuite à l'API). Der Wert kann maximum 32 Zeichen lang sein and Sitzungen laufen 300 Sekunden nach dem letzten API-Aufruf ab.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# Capture d'écran

  • Non
  • Type boolean

Si vous utilisez ça Jeton JavaScriptkönnen Sie options supplémentaires en option &screenshot=true Paramètre, une capture d'écran dans JPEG Format de la page d'exploration de la page.

Crawlbase vous envoie ça screenshot_url dans la réponse (ou dans la réponse JSON, si vous &format=json). le screenshot_url vole pendant une heure.

Remarque: Lors de l'utilisation du screenshot=true Vous pouvez utiliser les paramètres pour capturer la capture d'écran avec ces paramètres précis :

  • mode: Réglages viewport um nur den Ansichtsbereich statt der gesamten Seite zu erfassen. Liste standard fullpage.
  • width: Maximale Breite in Pixeln angeben (funktioniert nur mit mode=viewport). Standardmäßig ist die Bildschirmbreite eingestellt.
  • height: Maximale Höhe in Pixeln angeben (funktioniert nur mit mode=viewport). Standardmäßig ist die Bildschirmhöhe eingestellt.

exemple: &screenshot=true&mode=viewport&width=1200&height=800

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# Achetez un

  • Non
  • Type boolean

En option supplémentaire &store=true Paramètres pour répondre à une copie de la réponse API Crawlbase Cloud-Speicher (nouvelles fenêtres) (ouvre une nouvelle fenêtre).

Crawlbase vous envoie ça storage_url dans la réponse (ou dans la réponse JSON, si vous &format=json).

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# grattoir

  • Non
  • Type string

Donnez les informations nécessaires pour que les informations sur le grattoir soient analysées lors de l'analyse. Überprüfen Sie die Liste des nouveaux grattoirs à date (öffnet neues Fenster) (ouvre une nouvelle fenêtre) Liste des différents grattoirs à date, pour voir si vous les utilisez.

La réponse sera comme JSON zurückgegeben.

Veuillez noter: Scraper est un paramètre facultatif. Si vous ne l'utilisez pas, vous aurez le support HTML complet de la page Web, alors vous pourrez le gratter gratuitement.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=amazon-product-details&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# async

  • Non
  • Type boolean
  • Derzeit wird mit ce Parameter nur linkedin.com prend en charge. Sprechen Sie uns an, wenn Sie autres Domänen im asynchronen Modus benötigen.

En option supplémentaire &async=true Paramètre, pour l'URL modifiée asynchrone pour l'exploration. Crawlbase explique les résultats sur cette page Crawlbase Cloud-Speicher (nouvelles fenêtres) (ouvre une nouvelle fenêtre).

En conséquence, un appel à async=true, Crawlbase envoie des informations sur la prise en charge rid dans la réponse JSON. Sie müssen die RID speichern, um das Dokument aus dem Speicher abzurufen. Mit der RID können Sie puis die Cloud Storage API (ouvrir une nouvelle fenêtre) (ouvre une nouvelle fenêtre) um die resultierende Seite abzurufen.

Vous pouvez utiliser ce produit async=true Paramètre dans la combinaison avec d'autres paramètres API comme un exemple &async=true&autoparse=true.

Exemple d'une demande avec async=true Appel :

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2Fcrawlbase"

Exemple d'une réponse avec async=true Appel :

{ "rid": "1e92e8bff32c31c2728714d4" }

# analyse automatique

  • Non
  • Type boolean

Si vous souhaitez en option les données grattées de votre page ci-dessus, vous pourrez obtenir des informations supplémentaires : &autoparse=true Paramètres

La réponse sera comme JSON zurückgegeben. La structure de la réponse varie en fonction de l'URL créée.

Veuillez noter: &autoparse=true Il s'agit d'un paramètre facultatif. Si vous ne l'utilisez pas, vous aurez le support HTML complet de la page Web, alors vous pourrez le gratter gratuitement.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# Pays

  • Non
  • Type string

Si vous êtes à la recherche d'un endroit idéal pour votre région, vous pouvez le faire &country= Paramètre, comme &country=US (code des deux Länder).

Bitte beachten Sie, dass die Angabe eines Landes die Anzahl der erfolgreichen Anfragen verringern kann. Utilisez-vous pour cela avec Bedacht et nur, lorsque Geolokalisierungs-Crawls erforderlich sind.

Beachten Sie aussi, dass einige Websites comme Amazon über verschiedene spezielle Proxys weitergeleitet werden et tous les Länder zugelassen werden, unabhängig davon, ob sie auf der List stehen ou pas.

Vous avez Zugriff dans les différents Länder

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fpostman-echo.com%2Fip"

# tor_netzwerk

  • Non
  • Type boolean

Lorsque vous visitez les sites Web d'Onion sur le réseau Tor, vous pouvez les explorer facilement. &tor_network=true Paramètres

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"

# Blatter

  • Non
  • Type boolean

Si vous utilisez ça Jeton JavaScriptkönnen Sie options supplémentaires en option &scroll=true L'API est normalement configurée pour un intervalle de défilement de 10 secondes seulement.

Si vous restez plus longtemps pendant 10 secondes, faites défiler jusqu'à ce que vous arriviez à la mort. &scroll=true&scroll_interval=20. Ces paramètres sont utilisés dans le navigateur et après le chargement de la page 20 secondes pendant le défilement. L'intervalle de défilement maximal dure 60 secondes. Après 60 secondes, faites défiler le système jusqu'aux dates et apportez-le à votre commande.

L'intervalle de défilement standard dure 10 secondes. Toutes les 5 secondes de défilement se déroulent comme une réponse JS auf der Crawling API, également, vous devrez envoyer un intervalle de défilement de 20. Notre système doit durer au maximum 20 secondes pour le défilement de la page. Lorsqu'il n'y a que 10 secondes, le long défilement se déroule jusqu'à 2 secondes, ce qui indique la fin du processus à partir de 4.

Remarque: Si vous le faites, vous devrez le faire pendant 90 secondes pendant 60 secondes, si vous faites défiler pendant XNUMX secondes.

Important: Un certain nombre de domaines définissent les délais d'attente du système, qui sont automatiquement déclenchés. En combinaison avec scroll et page_wait Paramètre, kann die zu zusätzlichen Anforderungszahlen führen. Si vous êtes avec le support, vous pourrez trouver ces solutions pour optimiser au mieux les domaines.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&url=https%3A%2F%2Fwww.reddit.com%2Fsearch%2F%3Fq%3Dcrawlbase"