# 爬虫 API
如果您需要通过 API 监控爬虫的统计信息/历史记录、清除爬虫或从特定爬虫中删除作业,请按照以下说明操作:
请注意: 如果您需要在您的 JS 爬虫上执行以下 API 调用,请将 TCP 令牌替换为 JS 令牌。
# 统计 API
要查看抓取工具的摘要,包括并发、等待和重试队列,以及抓取历史记录以及成功和失败的细分:
curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/stats'
要按日期间隔过滤历史统计信息,请发出以下 GET 请求:
curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/stats?history_from=yyyy-mm-dd&history_to=yyyy-mm-dd'
# 清除 API
要清除爬虫,请发出以下 POST 请求,发送正确的爬虫名称和令牌(JS/TCP):
curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/purge'
请注意: 所有页面 在给定的爬虫中将立即被删除。
# 删除作业 API
要从给定爬虫中删除作业,请发出以下 POST 请求,发送正确的请求 RID、令牌 (JS/TCP) 和爬虫名称:
curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/delete_job?rid=RID'
# 找工作 API
要在爬虫队列中按 RID 查找请求,请发出以下 GET 请求,发送正确的请求 RID、令牌 (JS/TCP) 和爬虫名称:
curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/find_by_rid/RID'
如果在队列中: 如果请求在队列中,等待重试或重试集,那么你会得到一个响应 status: QUEUED
.
{
"status": "QUEUED",
"request_info": {
"rid": "YOUR_RID",
"url": "YOUR_URL",
"retry": 3,
"created_at": 1600494969.189415
}
}
如果不在队列中: 如果请求已经被抓取或不在队列中,你会得到 status: NOT_QUEUED
.
{
"status": "NOT_QUEUED",
"request_info": {
"rid": "YOUR_RID"
}
}
← Webhook 接收 几分钟内的智能代理 →