# Caractéristiques
L'API contient le paramètre suivant : Le jeton et l'URL sont obligatoires, le reste est facultatif.
# jeton
- Obligatoire
- Type
string
Ce paramètre est destiné à toutes les analyses.
Dies ist Ihr Authentifizierungstoken. Vous avez deux Tokens : un pour une activation normale et un pour une activation JavaScript.
Lorsque vous utilisez le jeton JavaScript, lorsque vous l'essayez, vous explorez la manière dont JavaScript est généré, et vous avez ainsi une page avec JavaScript créée à la main (React, Angular, etc.) ou bien l'utilisation dynamique du navigateur est générée.
Jeton Normales
_USER_TOKEN_
Jeton JavaScript
_JS_TOKEN_
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# url
- Obligatoire
- Type
string
Ce paramètre est destiné à toutes les analyses.
Vous pouvez utiliser une URL pour Crawlen. Assurez-vous de vous assurer que vous êtes avec http ou https début et est entièrement codé.
Voir l'URL suivante : https://github.com/crawlbase?tab=repositories L'URL est désormais disponible dans l'API, comme le code ci-dessous : https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# le format
- Optionnel
- Type
string
Donnez le format de réponse et, entre json or html. La valeur standard est html.
Format Wenn html ça va aller, Crawlbase envoyez les paramètres de réponse dans l'en-tête (voir Réponse HTML ci-dessous).
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json"
# assez
- Optionnel
- Type
boolean
Si vous en attendez un json Répondez à votre question d'optimisation, indépendamment de votre réponse. &pretty=true.
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json&pretty=true"
# user_agent
- Optionnel
- Type
string
Si vous souhaitez obtenir une réponse avec un agent de maintenance bien défini, vous pourrez vous y rendre ici et trouver notre serveur dans l'URL proposée ici.
Nous recommandons PAS Utilisez ces paramètres et überlassen Sie die Handhabung nostlichen Intelligence.
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"
# page_wait
- Optionnel
- Type
number
Lorsque vous utilisez le jeton JavaScript, vous pouvez utiliser les fonctionnalités facultatives : page_wait Parameter zum Warten einer bestimmten Zeitspanne millisecondes Avant le navigateur, le code HTML résultant est créé.
Celui-ci est tombé rapidement, dans le rendu de la page une seule seconde fois ou pour l'intégration du HTML et c'était Ajax qui devait être utilisé.
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# ajax_wait
- Optionnel
- Type
boolean
Lorsque vous utilisez le jeton JavaScript, vous pouvez utiliser les fonctionnalités facultatives : ajax_wait Paramètre, pour l'abschluss der Ajax-Anfragen zu warten, avant la réponse HTML abgerufen wird.
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# css_click_selector
- Optionnel
- Type
string
# Sélecteur CSS unique
Lorsque vous utilisez le jeton JavaScript, vous pouvez le faire en option css_click_selector Paramètre, un élément sur la page en cliquant sur le navigateur, qui génère le code HTML résultant.
Ce paramètre est activé avec un large éventail de paramètres et un sélecteur CSS efficace. Vous pouvez utiliser un sélecteur d'identification comme #some-button, un sélecteur de classe comme .some-other-buttonou un sélecteur d'attributs comme [data-tab-item="tab1"]. Pour vous aider, vous devez vous assurer que le sélecteur CSS est riche en code.
Bitte beachten Sie, dass die Anfrage fehlschlägt, wenn le Selector nicht auf der Seite gefunden wird. pc_status 595Une réponse à votre demande, si un sélecteur n'est pas financé, vous pouvez obtenir un sélecteur universel universel, comme body, comme Fallback. Exemple : #some-button,body.
# Plusieurs sélecteurs CSS
Un exemple de visualisation de la situation, dans de nombreux éléments qui ne sont pas visibles, avant que le Seiteninhalt ne soit arrivé, css_click_selector Les paramètres ne peuvent pas être plus activés dans les sélections CSS. Trennen Sie die einzelnen Selektoren durch ein Pipe-Zeichen (|)-Zeichen. Assurez-vous que le code d'URL est un code d'URL simple pour analyser le problème.
Angenommen, Sie möchten auf eine Schaltfläche mit der ID klicken start-button et puis un lien avec la classe next-page-link. Vous le feriez css_click_selector Paramètre comme suit :
- Sélecteurs originaux :
#start-button|.next-page-link - URL codée :
%23start-button%7C.next-page-link
Placez ces paramètres dans votre réponse API et, pour être sûr, à côté de l'élément dans les différentes réponses possibles.
Bien sûr, vous serez sûr de pouvoir sélectionner tous les sélecteurs et sur la page précédente si vous avez un choix de sélection. Lorsqu'un sélecteur n'est pas utilisé, les réponses aux questions liées à la manipulation des commandes et à la mise en œuvre de ces fonctions sont prises en compte. pc_status 595 C'est là qu'un sélecteur de repli est activé.
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%5Bdata-tab-item%3D%22overview%22%5D&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# dispositif
- Optionnel
- Type
string
Si vous n'utilisez pas User_Agent en option, mais si vous utilisez un meilleur agent, vous pouvez utiliser ce paramètre.
Il y a deux options pour l'utilisation : desktop et mobile.
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# get_cookies
- Optionnel
- Type
boolean
Si les cookies sont facultatifs, vous pouvez les utiliser directement sur le site Web au moyen de la réponse, vous pouvez également les utiliser &get_cookies=true Paramètres
Les cookies sont affichés dans l'en-tête (ou dans la réponse JSON, si vous les utilisez) affichés. &format=json) Comment original_set_cookie.
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# get_headers
- Optionnel
- Type
boolean
Si vous êtes facultatif dans l'en-tête, cliquez sur le site Web disponible dans la réponse, vous pourrez y accéder &get_headers=true Paramètres
L'en-tête est affiché dans la réponse en tant que tel original_header_name standard. Si &format=json übergeben wird, wird der Header zurückgegeben als original_headers.
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# en-têtes de requête
- Optionnel
- Type
string
Wenn Sie facultative Anforderungsheader an die ursprüngliche Website senden müssen, können Sie den &request_headers=EncodedRequestHeaders Paramètres
Exemples d'en-tête de réponse : Acceptez la langue : en-GB | Enregistrez le code : gzip
Exemple codé : &request_headers=accept-language%3Afr-GB%7Caccept-encoding%3Agzip
Bien sûr, vous ne serez pas en mesure de consulter les informations fournies par l'API. Nous vous proposons d'utiliser l'en-tête créé avec cette URL de test pour tester : https://postman-echo.com/headers
Si vous pouvez utiliser l'en-tête pour l'envoyer, l'API n'est pas disponible, vous devez donc nous donner le nom de l'en-tête et nous autorisons votre jeton.
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"
# définir_cookies
- Optionnel
- Type
string
Lorsque vous utilisez des cookies et que le site Web est disponible, vous pouvez les utiliser en option &cookies=EncodedCookies Paramètres
Exemple de cookies : key1=value1; key2=value2; key3=value3
Exemple codé : &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3
Nous vous proposons de créer des cookies avec cette URL de test pour tester : https://postman-echo.com/cookies
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https%3A%2F%2Fpostman-echo.com%2Fcookies"
# cookies_session
- Optionnel
- Type
string
Lorsque vous utilisez les cookies, vous devez les envoyer directement à tous les utilisateurs potentiels, vous pouvez donc les utiliser &cookies_session= Paramètres
La société &cookies_session= Un paramètre peut être considéré comme plus important. Envoyez simplement un nouveau produit, un nouveau site de cookies à utiliser (vous pouvez donc utiliser les cookies automatiquement au-delà de la création ultérieure avec ce site de cookies et le envoyer ensuite à l'API). Der Wert kann maximum 32 Zeichen lang sein and Sitzungen laufen 300 Sekunden nach dem letzten API-Aufruf ab.
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# capture d'écran
- Optionnel
- Type
boolean
Si vous utilisez ça Jeton JavaScriptkönnen Sie options supplémentaires en option &screenshot=true Paramètre, une capture d'écran dans JPEG Format de la page d'exploration de la page.
Crawlbase nous vous enverrons screenshot_url dans la réponse (ou dans la réponse JSON, si vous &format=json). le screenshot_url vole pendant une heure.
Remarque: Lors de l'utilisation du screenshot=true Vous pouvez utiliser les paramètres pour capturer la capture d'écran avec ces paramètres précis :
mode: Réglagesviewportum nur den Ansichtsbereich statt der gesamten Seite zu erfassen. Liste standardfullpage.width: Maximale Breite in Pixeln angeben (funktioniert nur mitmode=viewport). Standardmäßig ist die Bildschirmbreite eingestellt.height: Maximale Höhe in Pixeln angeben (funktioniert nur mitmode=viewport). Standardmäßig ist die Bildschirmhöhe eingestellt.
exemple: &screenshot=true&mode=viewport&width=1200&height=800
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Boutique
- Optionnel
- Type
boolean
En option supplémentaire &store=true Paramètres pour répondre à une copie de la réponse API Crawlbase Cloud Storage (ouvrir une nouvelle fenêtre) (ouvre une nouvelle fenêtre).
Crawlbase nous vous enverrons storage_url dans la réponse (ou dans la réponse JSON, si vous &format=json).
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# grattoir
- Optionnel
- Type
string
Donnez les informations nécessaires pour que les informations sur le grattoir soient analysées lors de l'analyse. Überprüfen Sie die Liste des nouveaux grattoirs à date (öffnet neues Fenster) (ouvre une nouvelle fenêtre) Liste des différents grattoirs à date, pour voir si vous les utilisez.
La réponse sera comme JSON zurückgegeben.
S'il vous plaît noter: Scraper est un paramètre facultatif. Si vous ne l'utilisez pas, vous aurez le support HTML complet de la page Web, alors vous pourrez le gratter gratuitement.
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=amazon-product-details&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"
# async
- Optionnel
- Type
boolean - Derzeit wird mit ce Parameter nur linkedin.com prend en charge. Sprechen Sie uns an, wenn Sie autres Domänen im asynchronen Modus benötigen.
En option supplémentaire &async=true Paramètre, pour l'URL modifiée asynchrone pour l'exploration. Crawlbase Speichert die resultierende Seite im Crawlbase Cloud Storage (ouvrir une nouvelle fenêtre) (ouvre une nouvelle fenêtre).
En conséquence, un appel à async=true, Crawlbase envoyez des informations sur la prise en charge rid dans la réponse JSON. Sie müssen die RID speichern, um das Dokument aus dem Speicher abzurufen. Mit der RID können Sie puis die Stockage cloud (öffnet neues Fenster) (ouvre une nouvelle fenêtre) um die resultierende Seite abzurufen.
Vous pouvez utiliser ce produit async=true Paramètre dans la combinaison avec d'autres paramètres API comme un exemple &async=true&autoparse=true.
Exemple d'une demande avec async=true Appel :
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2Fcrawlbase"
Exemple d'une réponse avec async=true Appel :
{ "rid": "1e92e8bff32c31c2728714d4" }
# analyse automatique
- Optionnel
- Type
boolean
Si vous souhaitez en option les données grattées de votre page ci-dessus, vous pourrez obtenir des informations supplémentaires : &autoparse=true Paramètres
La réponse sera comme JSON zurückgegeben. La structure de la réponse varie en fonction de l'URL créée.
S'il vous plaît noter: &autoparse=true Il s'agit d'un paramètre facultatif. Si vous ne l'utilisez pas, vous aurez le support HTML complet de la page Web, alors vous pourrez le gratter gratuitement.
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"
# Pays
- Optionnel
- Type
string
Si vous êtes à la recherche d'un endroit idéal pour votre région, vous pouvez le faire &country= Paramètre, comme &country=US (code des deux Länder).
Bitte beachten Sie, dass die Angabe eines Landes die Anzahl der erfolgreichen Anfragen verringern kann. Utilisez-vous pour cela avec Bedacht et nur, lorsque Geolokalisierungs-Crawls erforderlich sind.
Beachten Sie aussi, dass einige Websites comme Amazon über verschiedene spezielle Proxys weitergeleitet werden et tous les Länder zugelassen werden, unabhängig davon, ob sie auf der List stehen ou pas.
Vous avez Zugriff dans les différents Länder
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fpostman-echo.com%2Fip"
# réseau tor
- Optionnel
- Type
boolean
Lorsque vous visitez les sites Web d'Onion sur le réseau Tor, vous pouvez les explorer facilement. &tor_network=true Paramètres
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"
# volute
- Optionnel
- Type:
boolean
Ermöglicht automatisiertes Scrollen zum Laden dynamischer Seiteninhalte während a echten Browsersitzung. Nous utilisons le jeton JavaScript.
Caractéristiques
scroll=true:Les défilements sont activés.scroll_interval:Ganzzahl (seconde). Je vais au festival Scrolldauer après le chargement de la page. Standard:10Maximale :60.
exemple: &scroll=true&scroll_interval=20
comportement
Quand
scroll=trueIl s'agit de l'API qui permet d'accéder à l'URL dans un véritable navigateur et de programmer le défilement de la page pour vous.scroll_intervalPendant une seconde, une charge dynamique est exercée par l'utilisateur (par exemple, unendliches Scrollen).Nach dem Scrollen wird der Inhalt erfasst und zurückgegeben.
If
scroll_intervalIl n'y a pas de fête, le standard dure 10 secondes.
Structure de reconnaissance
Pour lancer l'activation du mode Défilement, les serveurs gérés sont définis comme suit :
Ursprüngliche Abrechnungseinheit :
. La
scroll=trueAPI-Aufruf wird abgerechnet als 1 question, le premier secondes 8 der gesamten Verarbeitungszeit (einschließlich Seitenladen und Scrollen).Procédures d'arrêt automatique :
Pour chaque 5 secondes supplémentaires der Verarbeitungszeit über die ersten 8 Sekunden hinaus, 1 zusätzliche in Rechnung gestellte Anfrage ajoutée.
- Beispielrechnung :
- Temps de vérification : 20 secondes
- 1 réponse gratuite pour la première fois 8 secondes
- +1 réponse rapide pour les secondes 9–13
- +1 réponse rapide pour les secondes 14–18
- +1 abgerechnete Anfrage (19-20 s, ce bruchteil wird als ganzer Block abgerechnet)
- Total des réponses : 4 demandes
- 1 réponse gratuite pour la première fois 8 secondes
- Lorsque le Vorgang vor dem eingestellten Scroll-Intervall abgeschlossen est, wird nur die tatsächliche Verarbeitungszeit in Rechnung gestellt.
Notizen
Intervalle de défilement maximal pendant 60 secondes. Après 60 secondes, l'image et la date sont affichées.
Temps de liaison : Si vous l'utilisez
scroll_interval=60, interrompez votre conversation client pendant 90 secondes.Délais d'expiration spécifiques au site : Certains domaines peuvent facilement prolonger les délais d'attente du serveur, qui sont automatiquement gérés.
scrollet sonpage_waitkann die Gesamtverarbeitungszeit verlängern und die Abrechnung beeinflussen.
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&scroll_interval=20&url=https%3A%2F%2Fwww.reddit.com%2Fsearch%2F%3Fq%3Dcrawlbase"
# codes_de_réussite_personnalisés
- Optionnel
- Type
string
Ermöglicht Ihnen, benutzerdefinierte HTTP-Statuscodes anzugeben, die als erfolgreiche Answers behandelt werden sollen. Donc, nous ne savons pas comment utiliser le code d'état actuel dans la réponse.
L'utilisation: custom_success_codes=403,429,503
Ce paramètre est précisément, lorsque les domaines sont pris en compte, les codes d'erreur standard (par exemple 403 ou 500) ne sont pas appliqués pour vos applications spécifiques et les erreurs sont traitées de manière appropriée.
Remarque: Grâce à l'utilisation de ces paramètres, la vérification de la définition a été une réponse simple auf votre réponse.
- boucle
- rubis
- nœud
- php
- python
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&custom_success_codes=403%2C429%2C503&url=https%3A%2F%2Fexample.com%2Fapi"