# RID
这款 /rids
端点旨在为客户端提供存储区域中的大量 RID(请求 ID)列表。该API支持通过滚动机制进行分页,从而实现大型数据集的高效数据检索。
# 参数
唯一需要的参数是 token
。请参阅下面用于高效 RID 拉取的附加参数:
limit
(可选):指定要返回的 RID 的最大数量。默认为 10k,最大允许值为 1k。使用此参数来控制返回数据的大小。scroll
(可选):当设置为true
,此参数为请求启用基于滚动的分页。它启动一个滚动会话,提供scroll_id
用于后续请求。scroll_id
(可选):来自先前请求响应的标识符,用于获取下一组 RID。该参数用于分页。scroll_order
(可选):确定返回的 RID 的顺序。可接受的值为asc
(升序)或desc
(降序)。默认顺序是desc
.
# 请求
要检索最新 100 个 RID:
curl 'https://api.crawlbase.com/storage/rids?token=_USER_TOKEN_&limit=100'
# 响应
成功的响应将返回 RID 数组以及(如果适用) scroll_id
进一步分页:
{
"rids": ["RID1", "RID2", ...],
"scroll_id": "dXVlcnlUaGVuRmV0Y2g7NTs1NDpDV..."
}
rids
:包含所请求的 RID 的数组。scroll_id
:用于检索下一组结果的令牌。该值对于分页至关重要,当更多数据超出当前请求的限制时提供。
# 滚动
为了有效地浏览大型数据集,客户可以通过设置来选择基于滚动的分页 scroll
参数 true
。此方法非常适合总数据集大小超过 limit
参数的最大值。
# 带滚动的初始请求
curl 'https://api.crawlbase.com/storage/rids?token=_USER_TOKEN_&limit=100&scroll=true'
此请求启动滚动会话并返回第一批 RID 以及 scroll_id
,这对于获取下一批数据至关重要。
# 获取后续批次
要检索其他 RID,请使用提供的 scroll_id
不指定 scroll
再次参数。这 scroll_id
维护分页的状态。
curl 'https://api.crawlbase.com/storage/rids?token=_USER_TOKEN_&scroll_id=dXVlcnlUaGVuRmV0Y2g7NTs1NDpDV...'
#
为了有效利用 /rids
API请注意以下事项:
这款
limit
参数上限为 10k,可确保最佳的服务器性能和资源管理。分页通过scroll_id
用于访问大型数据集。最初的请求是
scroll=true
启动滚动会话。响应包括scroll_id
以便后续数据检索。这款
scroll_id
对于连续分页至关重要。确保将其包含在后续请求中,直到检索到所有所需数据。滚动会话在不活动 15 秒后过期,之后
scroll_id
变得无效。要访问此时间段之外的更多数据,请使用以下命令发起新请求scroll=true
.如果您收到一条错误消息,指出:
Scroll session has expired or is invalid
,这意味着您尝试使用的滚动上下文不再可用。如果滚动超时已过,通常会发生这种情况。此时,发起新的滚动请求。
通过遵守这些准则并有效利用提供的参数,您可以最大限度地提高实用程序和性能 /rids
满足其数据检索需求的端点。