# 整体

/bulk 端点允许客户端使用请求 ID (RID) 列表批量检索数据。此操作支持对大型数据集进行高效的数据检索,并提供在检索后自动从存储中删除所获取的项目的选项。

# 参数

发送具有以下属性的 JSON 对象:

  • rids (必需):您要检索的数据的 RID 数组。

  • auto_delete (可选):一个布尔参数,当设置为 true,检索到的项目在检索后会自动从存储中删除。默认值为 false,这意味着除非明确要求,否则项目不会被删除。

# 请求

要检索并自动删除三个 RID 的数据:

curl -X POST 'https://api.crawlbase.com/storage/bulk?token=_USER_TOKEN_' \
-H 'Content-Type: application/json' \
-d '{ "rids": ["RID1","RID2","RID3"], "auto_delete": true }'

# 响应

响应是一个 JSON 对象数组,每个对象代表一个 RID 的数据。请注意, body 字段是 base64 编码和 gzip 压缩的。您需要对其进行 Base64 解码,然后进行 gzip 解压缩以检索原始内容。

[
  {
    "stored_at": "2021-03-01T14:22:58+02:00",
    "original_status": 200,
    "pc_status": 200,
    "rid": "RID1",
    "url": "URL1",
    "body": "BODY1"
  },
  {
    "stored_at": "2021-03-01T14:30:51+02:00",
    "original_status": 200,
    "pc_status": 200,
    "rid": "RID2",
    "url": "URL2",
    "body": "BODY2"
  }
]

#

为了有效利用 /bulk API请注意以下事项:

  • 每个请求可处理的最大 RID 数量为 100。如果发送的 RID 超过 100 个,则仅处理前 100 个。

  • auto_delete 该功能对于维护存储效率和管理数据生命周期特别有用,而无需单独的删除请求。明智地使用此功能以避免意外的数据丢失。