# 响应
当执行请求时 Crawlbase 你会得到回复。
此响应将是一个 JSON 对象、页面的 HTML 或 降价 在体内,取决于 格式 你传递(默认值为 html).
# HTML Response
如果您选择了 html 响应格式(这是默认格式),您将收到页面的 html 作为响应。
此 响应参数 将添加到响应标头中。
GET 'https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=html'
Response:
Headers:
url: https://github.com/crawlbase?tab=repositories
original_status: 200
pc_status: 200
'X-Domain-Complexity': standard
Body:
<!doctype html><html class="a-no-js" data-19ax5a9jf="dingo"><!-- sp:feature:head-start -->
<head><script>var aPageStart = (new Date()).getTime();</script><meta charset="utf-8">
... (all the html of the page)
# JSON Response
如果您选择了 json 响应格式,您将收到一个可以解析的 JSON 对象。
此对象包含您需要的所有信息。 读 响应参数 对于所有信息。
GET 'https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json'
Response:
{
"original_status": "200",
"pc_status": 200,
"url": "https://github.com/crawlbase?tab=repositories",
"domain_complexity": "standard",
"body": "\u003C!doctype html\u003E\u003Chtml class=\"a-no-js\" data-19ax5a9jf\n... (all the html of the page)"
}
# Markdown response
如果你设置 format=md响应体是 降价 (GFM)。
内容类型 is text/markdown; charset=utf-8.
元数据标头包括:
X-Markdown-FlavorX-Markdown-FeaturesX-Markdown-Base-URL(已解析 URL 的主机)X-Markdown-Generator有价值ProxyCrawl-API
您还将收到通常的邮件。 Crawlbase 响应参数 在标题中,例如 url, original_status和 pc_status.
绝大部分储备使用 &md_readability=true 当您需要在转换前提取主要内容时;请参阅 md_可读性.
GET 'https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=md'
Response:
Headers:
Content-Type: text/markdown; charset=utf-8
X-Markdown-Flavor: GitHub Flavored Markdown (GFM)
X-Markdown-Features: tables,lists
X-Markdown-Base-URL: github.com
X-Markdown-Generator: ProxyCrawl-API
url: https://github.com/crawlbase?tab=repositories
original_status: 200
pc_status: 200
Body:
(markdown text of the page)
# Headers
如上例所示,响应(json、html 或 md)将返回 json的参数 或 HTML 和 MD 的头部,这将使您知道请求发生了什么。
# URL
请求中发送的原始 URL 或重定向的 URL Crawlbase 紧随其后。
# original_status
我们(的状态响应Crawlbase) 在抓取请求中发送的 URL 时接收。
它可以是任何有效的 http 状态码。
请注意: Crawlbase 仅收取以下请求的费用 original_status 成功 (200, 201, 204),永久重定向 (301),临时重定向 (302) 如果跟随重定向返回内容,未找到 (410, 404)。 什么时候 pc_status 是 200。任何其他 original_status 收到的代码将不收费。
# pc_status
此 Crawlbase (pc) 状态代码可以是任何状态代码,并且它是最终有效的代码。
例如,一个网站可能会返回 original_status 200 带有验证码,在这种情况下, pc_status 将是503。
任何非标准代码(如 601、999 等)均用于内部工程团队,仅用于在联系支持时帮助您调试问题。
请注意: 向 Crawlbase 最终以失败告终 pc_status 代码(与 200 不同)不会收费。
# X-Domain-Complexity
复杂度级别表示抓取或爬取给定域的难度,也反映了相关的资源需求和定价:
standard– 易于抓取或爬取的域名,且保护措施较少。这些域名通常价格最低。moderate– 具有中等反机器人保护措施的域名,需要专门处理。这些域名通常具有中等定价等级,并且处理起来需要更多资源。complex– 拥有高级防护系统的域名,难以抓取或爬取。这类域名需要先进的技术和专业资源,价格也较高。
了解不同域名的复杂程度有助于您估算抓取任务的潜在价格和技术考虑因素。有关基于域名复杂程度的具体价格信息,请参阅您的订阅计划或通过以下方式联系我们的销售团队: 联系页面.
# body
在 JSON 中 格式响应 JSON 包含一个 body 领域。在 html 格式中,页面的 HTML 代码就是 HTTP 请求体。 md 格式部分,正文是 Markdown 格式(参见 Markdown 响应内容总是反映出什么 Crawlbase 通过代理爬取您发送的 URL 时收到。