# 推送数据至 Enterprise Crawler

在开始将 URL 推送到 Crawler,您首先需要 创建一个新的 Crawler 一个在这里 (打开新窗口) (opens new window).

推送 URL 以供抓取 Crawler,你必须使用 Crawling API 带有两个附加参数:

In 响应您的爬虫推送,API 将返回一个带有唯一请求标识符 RID 的 JSON 表示。 此 RID 是唯一的,将帮助您在将来的任何时候识别请求。

推送响应示例:

{ "rid": "1e92e8bff32c31c2728714d4" }

默认情况下,您每秒最多可以向 Crawler.

# 此 Enterprise Crawler 等待队列限制

总计 Crawler 等待队列的最大页数为 1M。如果任何队列或所有队列的总页数超过 1M,您的 Crawler 推送将暂时暂停,我们将通过电子邮件通知您。 Crawler 一旦等待队列中的页面数量低于 1M 页,推送将自动恢复。

# 发送附加数据

或者,如果您使用 callback_headers 范围。 这非常适合在您身边传递额外的数据以进行识别。

格式如下: HEADER-NAME:VALUE|HEADER-NAME2:VALUE2|etc. 并且必须正确编码。

标题和值的示例 MY-ID 1234, some-other 4321

&callback_headers=MY-ID%3A1234%7Csome-other%3A4321

这些标头将在 webhook 发布请求中返回。

# 每个请求的队列超时

您可以使用以下方法控制特定请求在处理之前可以在队列中保留多长时间: queue_timeout 参数。这对于时间敏感型爬取任务非常有用,因为只有在特定时间窗口内获得的结果才有价值。

参数 类型 描述
queue_timeout 整数 最长持续时间 分钟 请求可能需要在队列中等待一段时间才能被处理。可接受的值: 110080 (1分钟至7天)。如果在此时间内没有工作人员处理请求,则标记为失败。如果未提供或未设置为 0不强制执行每个请求的队列超时。

重要的说明:

  • 超时时间是根据请求所花费的时间来评估的。 在处理开始前已进入队列一旦有工作人员领取了请求, queue_timeout 不再适用。
  • 设置过长的超时时间可能会增加请求失败的概率。请选择一个能够反映结果在您的使用场景中保持有效时长的值。
  • 当请求因以下原因过期时 queue_timeout您将收到一个带有 HTTP 状态的回调。 504 配备 Crawlbase 状态 699.

计费示例: 推送一个 URL,队列超时时间为 30 分钟:

https://api.crawlbase.com/scraper?token=YOUR_TOKEN&callback=true&crawler=YourCrawlerName&queue_timeout=30