# Paramètres

L'API comprend les paramètres suivants : Les utilisateurs utilisent seulement un jeton et une URL, остальные необязательны.

# jeton

  • nécessaire
  • type string

Ce paramètre est appliqué à tous vos besoins.

C'est votre authentification par jeton. Vous êtes à la recherche d'une touche : une pour les applications avancées et une application pour les applications JavaScript.

Utilisez le jeton JavaScript, votre contenu, ce que vous ne pouvez pas analyser, générez-le avec JavaScript, votre livre, cette page, votre page Avec JavaScript (React, Angular et autres), vous pouvez créer un contenu dynamique généré par le navigateur.

Tokénose

_USER_TOKEN_

Code JavaScript

_JS_TOKEN_

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# url

  • nécessaire
  • type string

Ce paramètre est appliqué à tous vos besoins.

Vous pouvez fournir une URL pour la numérisation. Indiquez ce qui se trouve sur http ou https et ce полностью закодирован.

Par exemple, dans votre adresse URL suivante : https://github.com/crawlbase?tab=repositories L'adresse URL doit être téléchargée avant d'utiliser l'API : https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# le format

  • à volonté
  • type string

Указывает ответа, либо json or html. Par défaut html.

Ou un formulaire html utilisé Crawlbase отправит вам обратно параметры ответа в заголовках (см. HTML-réponse au dessous de).

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json"

# assez

  • à volonté
  • type boolean

Si vous oubliez json bien sûr, vous pouvez optimiser votre vie en utilisant &pretty=true.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json&pretty=true"

# user_agent

  • à volonté
  • type string

Si vous voulez vous occuper d'un agent privé, vous pouvez vous y rendre et vos serveurs s'en occupent. URL de destination.

Nous recommandons PAS Utilisez ce paramètre et utilisez votre ordinateur pour l'utiliser.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# page_wait

  • à volonté
  • type number

Si vous utilisez le jeton JavaScript, vous pouvez également consulter page_wait paramètre pour la collecte des déchets millisecondes Par ailleurs, le navigateur fournit un code HTML complet.

C'est pourquoi, dans votre vie, la période d'ouverture ne dure pas une seconde ou ne doit pas être enregistrée avec le code ajax avant l'achat. Code HTML.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# ajax_wait

  • à volonté
  • type boolean

Si vous utilisez le jeton JavaScript, vous pouvez également consulter ajax_wait paramètre pour la gestion de la configuration ajax avant la publication html.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# css_click_selector

  • à volonté
  • type string

# Sélecteur CSS unique

Si vous utilisez le jeton JavaScript, vous pouvez également consulter css_click_selector le paramètre pour le paramètre de l'élément de la page, avant que le navigateur n'utilise le code HTML.

Ce paramètre permet de sélectionner le sélecteur CSS le plus puissant et le plus approprié. Par exemple, vous pouvez utiliser l'ID du sélecteur, comme ça #some-button, sélecteur de classe, par exemple .some-other-buttonou le sélecteur d'attributs, такой как [data-tab-item="tab1"]. Vous devez donc utiliser le sélecteur CSS pour que vous puissiez choisir votre ordinateur.

Обратите внимание: если селектор не найден на странице, запрос завершится ошибкой pc_status 595. Si vous souhaitez répondre, si le sélecteur n'est pas disponible, vous pouvez choisir un sélecteur universel universel, par exemple body, как запасной вариант. Par exemple : #some-button,body.

# Plusieurs sélecteurs CSS

Pour chaque scénario, vous pouvez ensuite choisir les éléments suivants avant de les utiliser. страницы, css_click_selector Les paramètres peuvent être utilisés sans sélectionner de CSS. Appuyez sur le sélecteur vertical vert (|) символ. Alors, quelle que soit votre adresse, parmi les utilisateurs connectés à l'URL, vous devez résoudre le problème avec l'analyse.

Avant cela, vous devez appuyer sur le bouton d'identification start-button а затем ссылка на класс next-page-link. Vous avez posté votre message css_click_selector ce paramêtre:

  • Sélecteurs originaux : #start-button|.next-page-link
  • URL codée : %23start-button%7C.next-page-link

Ajoutez ce paramètre à votre API pour garantir que l'élément est sélectionné dans le délai prévu.

Il est important de noter que tous les sélecteurs prédéfinis et les options de paiement doivent être sélectionnées. Si le sélecteur de lecture n'est pas disponible, vous devez vous assurer que votre ordinateur est prêt à l'emploi et que vous l'avez acheté. pc_status 595 sinon vous n’avez pas activé le sélecteur de réservoir.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%5Bdata-tab-item%3D%22overview%22%5D&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# dispositif

  • à volonté
  • type string

Si vous n'avez pas envie d'utiliser user_agent, vous pouvez utiliser les services de votre utilisateur pour l'utiliser. paramêtre.

Options pour la variante : desktop и mobile.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# get_cookies

  • à volonté
  • type boolean

Si vous n'utilisez pas de cookies, vous pouvez les utiliser pour les utiliser. &get_cookies=true Paramêtre.

Il y a des cookies que vous pouvez utiliser dans votre navigateur (ou en utilisant JSON, si vous n'utilisez pas &format=json) comment original_set_cookie.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# get_headers

  • à volonté
  • type boolean

Si vous n'avez pas besoin d'utiliser les machines, vous pouvez les utiliser pour les utiliser. &get_headers=true Paramêtre.

Les boutons sont réglés pour tout le monde original_header_name по умолчанию. Cogda &format=json передан, заголовок вернется как original_headers.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# en-têtes de requête

  • à volonté
  • type string

Si vous n'avez pas besoin d'utiliser les services de votre site, vous pouvez utiliser &request_headers=EncodedRequestHeaders Paramêtre.

Exemples d'utilisation : принять-язык:en-GB|принять-кодирование:gzip

Exemples de codes : &request_headers=accept-language%3Afr-GB%7Caccept-encoding%3Agzip

Veuillez noter que vous n'avez jamais utilisé l'API. Je vous recommande de tester les pages en utilisant cette URL de test : https://postman-echo.com/headers

Si vous ne parvenez pas à utiliser des paramètres supplémentaires, qui ne sont pas définis par l'API, veuillez sélectionner votre nom et les modifier pour vous. tu es en retard.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# définir_cookies

  • à volonté
  • type string

Si vous n'utilisez pas de cookies sur votre site, vous pouvez les utiliser &cookies=EncodedCookies Paramêtre.

Exemples de cookies : key1=value1; key2=value2; key3=value3

Exemples de codes : &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3

Je vous recommande de contester l'utilisation de ces cookies en utilisant cette URL de test : https://postman-echo.com/cookies

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https%3A%2F%2Fpostman-echo.com%2Fcookies"

# cookies_session

  • à volonté
  • type string

Si vous ne souhaitez pas utiliser un cookie, vous devrez le faire avant de l'utiliser, pour que vous puissiez le faire ultérieurement. utiliser &cookies_session= Paramêtre.

&cookies_session= Le paramètre peut définir le niveau de lubrification. Une fois que vous avez activé la nouvelle fonctionnalité, vous devez utiliser un nouveau cookie de saison (vous pouvez ainsi désactiver votre cookie lors de votre prochaine utilisation dans (Si vous utilisez l'API avec ce cookie). Il peut y avoir au maximum 32 symboles et les sessions sont créées pendant 300 secondes après l'utilisation de l'API.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# capture d'écran

  • à volonté
  • type boolean

Si vous utilisez Code JavaScript, vous pouvez le faire avant &screenshot=true paramètres pour la visualisation de l'écran JPEG format de l'appareil.

Crawlbase отправлю вам обратно screenshot_url dans les pages ouvertes (ou dans l'adresse json, si vous utilisez &format=json). screenshot_url истекает через час.

Note: Lorsque vous utilisez le screenshot=true Pour les paramètres, vous pouvez définir votre écran avec les paramètres supplémentaires :

  • mode: Ustanovlen v viewport Pour que cela soit possible, la situation est la plus grande possible. По умолчанию fullpage.
  • width: Sélectionnez le maximum de puces dans les pixels (il suffit de mode=viewport). По умолчанию — ширина экрана.
  • height: Sélectionnez votre maximum dans les pixels (il suffit de mode=viewport). По умолчанию — высота экрана.

Exemple: &screenshot=true&mode=viewport&width=1200&height=800

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# Boutique

  • à volonté
  • type boolean

По желанию пройти &store=true paramètres pour la copie des copies d'API dans Crawlbase Cloud Storage (открывается новое окно) (ouvre une nouvelle fenêtre).

Crawlbase отправлю вам обратно storage_url dans les pages ouvertes (ou dans l'adresse json, si vous utilisez &format=json).

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# grattoir

  • à volonté
  • type string

Возвращает information, проANALYзированную в оответствии суказанным скрапером. Vérifier список всех доступных скребков данных (открывается новое окно) (ouvre une nouvelle fenêtre) Список всех доступных скраперов данных, чтобы увидеть, какой из них выбрать.

Votre budget est toujours au format JSON.

Connecté, veuillez sélectionner: Grattoir — необязательный параметр. Si vous ne l'utilisez pas, vous avez la possibilité d'utiliser des pages HTML complètes, ce que vous avez peut-être à faire est d'écrire votre propre script.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=amazon-product-details&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# async

  • à volonté
  • type boolean
  • À l'heure actuelle, linkedin.com est également autorisé à utiliser ce paramètre. Pensez à votre nom, si vous n'avez pas de maison dans un régime asiatique.

По желанию пройти &async=true paramètre pour l'analyse automatique de l'URL. Crawlbase сохранит полученную страницу в Crawlbase Cloud Storage (открывается новое окно) (ouvre une nouvelle fenêtre).

En conséquence, le bouton est async=true, Crawlbase Ouvrir votre identifiant officiel rid en réponse à json. Vous devez créer RID pour la documentation de votre navigateur. Pour RID, vous pouvez utiliser Облачное хранилище (открывается новое окно) (ouvre une nouvelle fenêtre) для получения результирующей страницы.

vous pouvez utiliser async=true paramètres dans la connexion avec les paramètres API, par exemple &async=true&autoparse=true.

Пример запроса с async=true voix:

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2Fcrawlbase"

Par exemple, async=true voix:

{ "rid": "1e92e8bff32c31c2728714d4" }

# analyse automatique

  • à volonté
  • type boolean

Si vous n'êtes pas en mesure de profiter d'une journée complète pour votre projet, vous pouvez le faire avant &autoparse=true Paramêtre.

Vous devez toujours formater JSON. La structure renvoie à votre URL.

Connecté, veuillez sélectionner: &autoparse=true необязательный параметр. Si vous ne l'utilisez pas, vous pouvez télécharger des pages HTML complètes, vous pouvez alors les analyser.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# Pays

  • à volonté
  • type string

Si vous avez envie de faire des travaux géologiques dans des domaines opérationnels, vous pouvez utiliser &country= paramêtre, comme &country=US (двухбуквенный код страны).

Si vous pensez à l'environnement pour lequel vous pouvez utiliser les articles que vous avez achetés, vous pouvez l'utiliser. Vous devez vous occuper de vous et de vos collègues pour effectuer une analyse géographique.

Assurez-vous d'avoir des clients qui ne sont pas intéressés par Amazon, qui achète des serveurs spéciaux et tous les secteurs. Vous n'avez pas besoin de le faire, mais vous êtes à la recherche d'un homme ou d'un garçon.

Vous êtes en train de le télécharger à votre place

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fpostman-echo.com%2Fip"

# réseau tor

  • à volonté
  • type boolean

Si vous voulez analyser les oignons en même temps que Tor, vous pouvez le faire avant &tor_network=true Paramêtre.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"

# volute

  • à volonté
  • Type: boolean

Déclenchez le processus automatique de démarrage des moteurs dynamiques en utilisant le moteur de la saison réelle. Utiliser JavaScript avec le token.

Paramètres

  • scroll=true: Включает прокрутку.

  • scroll_interval: Целое число (секунды). Réglez les procédures de nettoyage. après les étapes suivantes.Décollet: 10. Maxime : 60.

Exemple: &scroll=true&scroll_interval=20

Comportement

  • Après l'apparition scroll=true En utilisant l'API, vous pouvez télécharger l'URL sur un vrai navigateur et programmer la procédure de saisie. scroll_interval seconde pour l'enregistrement du contenu dynamique (par exemple, бесконечной прокрутки).

  • Une fois les procédures terminées, vous devez vous assurer que le produit est prêt à l'emploi.

  • If scroll_interval не установлено, по умолчанию 10 secondes.

Facturation

Les tarifs d'achat détaillés sont valables pour les différents travaux effectués sur le serveur de stockage :

  • Первоначальная расчетная единица:

  • chaque scroll=true Vos tarifs API 1 réponse, ��хватывающий первый (8%) от общего времени обработки (включая загрузку страницы и прокрутку).

  • Tarifs supplémentaires :

  • Pour chaque дополнительные 5 secondes времени обработки за пределами первых 8 secondes, 1 plan supplémentaire pour votre voyage ajoutée.

    • Exemple de calcul:
    • Temps de travail : 20 secondes
      • 1 tarif pour une période de 8 secondes
        • +1 mise à jour pour les secondes 9–13
        • +1 mise à jour pour les secondes 14–18
        • +1 taux de tarification (19-20 s., c'est un tarif à partir du bloc supérieur)
        • Chaque plan est défini : 4 zaprosa
    • Si le processus consiste à définir scroll_interval, il n'y a que des faits réels dans les travaux.

Remarques

  • Scroll_interval le plus fiable possible 60 secondes. Pendant 60 secondes, la procédure est terminée et la journée est terminée.

  • Время подключения: Lorsque vous utilisez le scroll_interval=60, la durée de la relation client est de 90 secondes.

  • Spécifications pour votre maison : Les domaines d'activité peuvent être configurés en fonction des paramètres de serveur d'exploitation automatiques. Observatoire scroll page_wait Vous pouvez planifier vos travaux et planifier vos tâches.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&scroll_interval=20&url=https%3A%2F%2Fwww.reddit.com%2Fsearch%2F%3Fq%3Dcrawlbase"

# codes_de_réussite_personnalisés

  • à volonté
  • type string

Vous pouvez utiliser le statut de code HTTP HTTP pour obtenir les informations que vous avez envoyées, avant de recevoir des informations supplémentaires. Les pop-ups et les amis sont à la recherche de ce statut de code.

Application: custom_success_codes=403,429,503

Ce paramètre défini pour la configuration des maisons, qui correspond à des codes non standard utilisés (par exemple, 403 ou 500), doit être sélectionné успешными для вашего конкретного варианта использования.

Note: En utilisant ce paramètre, vous aurez la possibilité de vous renseigner sur l'utilisation de ce paramètre, ce qui vous permettra de répondre à vos attentes. запросы.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&custom_success_codes=403%2C429%2C503&url=https%3A%2F%2Fexample.com%2Fapi"