# 推送数据至 Crawler
在开始将 URL 推送到 Crawler,您首先需要 创建一个新的 Crawler 一个在这里 (打开新窗口) (opens new window).
要推送要被抓取的 URL Crawler,你必须使用 Crawling API 带有两个附加参数:
- 您必须附加
&callback=true
- 您必须附加
&crawler=YourCrawlerName
使用您创建的爬虫的名称 点击这里 (打开新窗口) (opens new window).
In 响应您的爬虫推送,API 将返回一个带有唯一请求标识符 RID 的 JSON 表示。 此 RID 是唯一的,将帮助您在将来的任何时候识别请求。
推送响应示例:
{ "rid": "1e92e8bff32c31c2728714d4" }
默认情况下,您每秒最多可以推送 30 个 URL 到 Crawler.
# Crawler 等待队列限制
总计 Crawler 等待队列的最大页数为 1M。如果任何队列或所有队列的总页数超过 1M,您的 Crawler 推送将暂时暂停,我们将通过电子邮件通知您。 Crawler 一旦等待队列中的页面数量低于 1M 页,推送将自动恢复。
# 发送附加数据
或者,如果您使用 callback_headers
范围。 这非常适合在您身边传递额外的数据以进行识别。
格式如下: HEADER-NAME:VALUE|HEADER-NAME2:VALUE2|etc.
并且必须正确编码。
标题和值的示例 MY-ID 1234, some-other 4321
&callback_headers=MY-ID%3A1234%7Csome-other%3A4321
这些标头将在 webhook 发布请求中返回。
← Crawler 介绍 Webhook 接收 →