# 参数

Pour plus d'informations sur l'API, consultez la documentation. 只有 token et url 是强制性的,其余的都是可选的。

# jeton

  • autres exigences
  • Type string

所有调用都需要此参数

这是您的身份验证令牌.

Version Javascript Version Javascript (React、Angular)等),或者因为内容是在浏览器上动态生成的。

Le monde est si beau

_USER_TOKEN_

JavaScript est un élément essentiel

_JS_TOKEN_

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# url

  • autres exigences
  • Type string

所有调用都需要此参数

Il s'agit d'une URL de type http et https. Le monde est comme ça.

例如,在以下 URL 中: https://github.com/crawlbase?tab=repositories URL de l'API de l'API : https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# le format

  • Optionnel
  • Type string

Le prix est indiqué, sinon json or html. 默认为 html.

如果格式 html 用来, Crawlbase 将在标头中向您返回响应参数(请参阅 Traduction en HTML (Autre)。

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json"

# assez

  • Optionnel
  • Type boolean

Le meilleur de tous json 响应,您可以通过使用来优化其可读性 &pretty=true.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json&pretty=true"

# user_agent

  • Optionnel
  • Type string

如果您想使用自定义用户代理发出请求,您可以在此处传递它,我们的服务器会将其转发到请求的URL。

Le monde est différent N'est pas 使用这个参数,让我们的人工智能来处理它。

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# page_wait

  • Optionnel
  • Type number

Il s'agit d'une version JavaScript de Javascript. page_wait Le monde est plein de vie 毫秒 Il s'agit d'un document html 代码之前.

html 之前加载一些 ajax 的情况下很有用。

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# ajax_wait

  • Optionnel
  • Type boolean

Il s'agit d'une version JavaScript de Javascript. ajax_wait Il s'agit d'un fichier html et d'un fichier ajax.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# css_click_selector

  • Optionnel
  • Type string

# Sélecteur CSS unique

Il s'agit d'une version JavaScript de Javascript. css_click_selector Il s'agit d'une version HTML de la version HTML.

Il s'agit d'un fichier CSS de type CSS. #some-button, Veuillez noter que le produit n'est pas disponible dans notre boutique. .some-other-button,或属性选择器,例如 [data-tab-item="tab1"]。C'est une application CSS qui contient des fichiers CSS.

请注意,如果页面上找不到选择器,请求将失败并显示 pc_status 595。En savoir plus body, C'est comme ça que ça se passe.: #some-button,body.

# Plusieurs sélecteurs CSS

为了适应在捕获页面内容之前可能需要顺序单击多个元素的场景, css_click_selector Il s'agit d'un fichier CSS de type CSS.|) 特点。确保整个值(包括分隔符)都经过 URL 编码,以避免出现任何解析问题。

假设你想点击一个带有 ID 的按钮 start-button Le nouveau monde est en danger next-page-link。Vous devez vous abonner à ma chaîne YouTube css_click_selector Autres traductions :

  • Autres traductions : #start-button|.next-page-link
  • URL de destination : %23start-button%7C.next-page-link

L'API est une référence en matière d'API, mais elle n'est pas compatible avec les API.

如果未找到任何选择器,请求将遵循上面指定的错误处理,失败并显示 pc_status 595 除非包含后备选择器。

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%5Bdata-tab-item%3D%22overview%22%5D&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# dispositif

  • Optionnel
  • Type string

Il s'agit d'un agent user_agent qui s'appelle user_agent.

Plus de détails sur le film : desktop et mobile.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# get_cookies

  • Optionnel
  • Type boolean

Il s'agit d'un cookie. &get_cookies=true Oui.

cookie 中返回(如果您使用,则在 json 响应中返回) &format=json)comme original_set_cookie.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# get_headers

  • Optionnel
  • Type boolean

或者,如果您需要获取原始网站在响应中设置的标头,您可以使用 &get_headers=true Oui.

标头将在响应中返回为 original_header_name 默认情况下。 什么时候 &format=json 已通过,标题将返回为 original_headers.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# en-têtes de requête

  • Optionnel
  • Type string

或者,如果您需要将请求标头发送到原始网站,您可以使用 &request_headers=EncodedRequestHeaders Oui.

Autres traductions de l'auteur : Nom :en-GB|Modèle :gzip

Autres mots clés : &request_headers=接受语言%3Aen-GB%7C接受编码%3Agzip

API允许。我们试发送的标头:https://postman-echo.com/headers

API de recherche不允许的附加标头,请告诉我们标头名称,我们将为您的令牌授权它们。

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# définir_cookies

  • Optionnel
  • Type string

Il s'agit d'un cookie et d'un cookie. &cookies=EncodedCookies Oui.

Nom du cookie : key1=value1; key2=value2; key3=value3

Autres mots clés : &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3

Cookie de cookie:https://postman-echo.com/cookies

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https%3A%2F%2Fpostman-echo.com%2Fcookies"

# cookies_session

  • Optionnel
  • Type string

Il s'agit d'un cookie et d'un cookie. &cookies_session= Oui.

Celui-là &cookies_session= 参数可以是任何值。 一个新值即可创建一个新的 cookie Un cookie est un cookie et un cookie est une API. 32 versions de l'API Il y a 300 pièces de monnaie.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# capture d'écran

  • Optionnel
  • Type boolean

si vous utilisez JavaScript est un élément essentiel, Le site Web de la société est en construction &screenshot=true 获取屏幕截图的参数 JPEG 整个爬取页面的格式。

Crawlbase 将送回给你 screenshot_url 在响应标头中(或者在 json 响应中,如果您使用 &format=json)。 这 screenshot_url Il y a tellement de choses à faire ici.

请 注意: Traduction en anglais : screenshot=true 参数,您可以使用这些附加参数自定义屏幕截图输出:

  • mode: 调成 viewport 仅捕获视口而不是整个页面。默认为 fullpage.
  • width:指定最大宽度(以像素为单位)(仅适用于 mode=viewport)。默认为屏幕宽度。
  • height:指定最大高度(以像素为单位)(仅适用于 mode=viewport)。默认为屏幕高度。

Traduction en français : &screenshot=true&mode=viewport&width=1200&height=800

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# Boutique

  • Optionnel
  • Type boolean

Le mot clé est &store=true 参数以将 API et les applications Crawlbase Cloud Storage (Le lien est externe) (ouvre une nouvelle fenêtre).

Crawlbase 将送回给你 storage_url 在响应标头中(或者在 json 响应中,如果您使用 &format=json).

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# grattoir

  • Optionnel
  • Type string

返回根据指定刮板解析的信息。 检查 所有可用数据抓取工具的列表 (打开新窗口) (ouvre une nouvelle fenêtre) 所有可用数据抓取工具的列表,以查看选择哪一个。

Utiliser JSON pour créer des liens.

请 注意: Scraper 是一个可选参数.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=amazon-product-details&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# async

  • Optionnel
  • Type boolean
  • Il y a des liens vers linkedin.com.

Le mot clé est &async=true 参数来异步抓取请求的URL。 Crawlbase 将结果页面存储在 Crawlbase Cloud Storage (Le lien est externe) (ouvre une nouvelle fenêtre).

en raison de async=true, Crawlbase 将返回请求标识符 rid Json 响应中。 RID 以从存储中检索文档。 RID , 云储存 (打开新窗口) (ouvre une nouvelle fenêtre) Le film est en cours de préparation.

您 可以 使用 async=true Il s'agit de l'API et de l'API. &async=true&autoparse=true.

请求示例 async=true Plus important encore :

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2Fcrawlbase"

响应示例 async=true Plus important encore :

{ "rid": "1e92e8bff32c31c2728714d4" }

# analyse automatique

  • Optionnel
  • Type boolean

可选地,如果您需要获取您请求的页面的抓取数据,您可以通过 &autoparse=true Oui.

Il s'agit d'une URL JSON et d'une URL.

请 注意: &autoparse=true 是一个可选参数。 以便您可以自由地抓取它。

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# Pays

  • Optionnel
  • Type string

如果您希望从特定国家/地区定位您的请求,您可以使用 &country= D'accord, d'accord &country=US (两个字符的国家代码)。

请注意,指定国家/地区可以减少您返回的成功请求数量,因此请明智地使用它,并且仅在需要进行地理定位爬网时使用。

另请注意,像亚马逊这样的一些网站是通过不同的特殊代理路由的,无论是否在列表中,都允许所有国家/地区。

您可以访问以下国家

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fpostman-echo.com%2Fip"

# réseau tor

  • Optionnel
  • Type boolean

如果你想通过 Tor 网络爬取洋葱网站,你可以通过 &tor_network=true Oui.

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"

# volute

  • Optionnel
  • 类型: boolean

启用自动滚动功能,使用真实浏览器会话加载动态页面内容。与 JavaScript 令牌一起使用。

参数

  • scroll=true: 启用滚动。

  • scroll_interval: 整数(秒)。设置滚动时长 页面加载后. Traduction : 10。 Description du produit : 60.

Traduction en français : &scroll=true&scroll_interval=20

宠物行为研究

  • 在规划婴儿食品行业的工艺要求时,安全性和可靠性是工艺设计中最重要的方面。 scroll=true Description de l'API et URL de l'API scroll_interval 秒来触发动态内容加载(例如无限滚动)。

  • 滚动后,捕获内容并返回。

  • If scroll_interval 不设置的话,默认是10秒。

Détails de la facturation

启用滚动的请求根据服务器端总处理时间计费 :

  • 初始计费单位:

  • chaque scroll=true API 调用计费为 1 article, 涵盖第一个 8 secondes 总处理时间(包括页面加载和滚动)。

  • 附加计费单位:

  • pour chaque 额外 5秒 处理时间超过前 8 秒, 1 个额外计费请求 被添加。

    • 计算示例:
    • 处理时间:20秒
      • Du 1 au 8 个计费请求
        • 1-9 秒的计费请求 +13
        • 1-14 秒的计费请求 +18
        • +1 计费请求(19-20 秒,此部分计费为完整区块)
        • 总计计费:4 个请求
    • Il s'agit d'une question de défilement_interval.

Remarques

  • Fonctionnement de la fonction scroll_interval 为60秒。60秒后,滚动停止并返回数据。

  • 连接时间: Si vous utilisez scroll_interval=60,保持您的客户端连接打开最多 90 秒。

  • 站点特定的超时: 某些域名可能需要更长的服务器超时时间,并自动处理。结合 scroll - page_wait 会增加总处理时间并影响计费。

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&scroll_interval=20&url=https%3A%2F%2Fwww.reddit.com%2Fsearch%2F%3Fq%3Dcrawlbase"

# codes_de_réussite_personnalisés

  • Optionnel
  • Type string

Paramètres de connexion HTTP状态代码,防止不必要的重试,同时仍保留响应中的原始状态代码。

Utilisation: custom_success_codes=403,429,503

当定位返回非标准成功代码(如 403 或500)的域时,此参数很有用,对于您的特定用例,这些代码应被视为成功。

请 注意: 通过使用此参数,您有责任定义什么构成对您的请求的成功响应。

  • boucle
  • rubis
  • nœud
  • php
  • python
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&custom_success_codes=403%2C429%2C503&url=https%3A%2F%2Fexample.com%2Fapi"