# Режимы секции мощности
При выполнении запроса Crawlbase вы получите ответ.
В ответе будет представлен JSON-объект, HTML-код страницы или уценка в организме, в зависимости от формат Вы проходите проверку (по умолчанию) html).
# HTML Response
Если вы выбрали формат ответа HTML (который используется по умолчанию), в качестве ответа вы получите HTML-код страницы.
параметры ответа будут добавлены в заголовки ответа.
GET 'https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=html'
Response:
Headers:
url: https://github.com/crawlbase?tab=repositories
original_status: 200
pc_status: 200
'X-Domain-Complexity': standard
Body:
<!doctype html><html class="a-no-js" data-19ax5a9jf="dingo"><!-- sp:feature:head-start -->
<head><script>var aPageStart = (new Date()).getTime();</script><meta charset="utf-8">
... (all the html of the page)
# JSON Response
Если вы выбрали формат ответа JSON, вы получите объект JSON, который можно проанализировать.
Этот объект содержит всю необходимую вам информацию. Читать параметры ответа за всю информацию.
GET 'https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json'
Response:
{
"original_status": "200",
"pc_status": 200,
"url": "https://github.com/crawlbase?tab=repositories",
"domain_complexity": "standard",
"body": "\u003C!doctype html\u003E\u003Chtml class=\"a-no-js\" data-19ax5a9jf\n... (all the html of the page)"
}
# Markdown response
Если вы установите format=md, тело ответа — это уценка (ГФМ).
Content-Type is text/markdown; charset=utf-8.
Метаданные включают в себя:
X-Markdown-FlavorX-Markdown-FeaturesX-Markdown-Base-URL(хост разрешенного URL)X-Markdown-Generatorсо значениемProxyCrawl-API
Вы также получите обычный Crawlbase параметры ответа в заголовках, например: url, original_status и pc_status.
Используйте &md_readability=true когда требуется извлечение основного контента перед преобразованием; см. md_readability.
GET 'https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=md'
Response:
Headers:
Content-Type: text/markdown; charset=utf-8
X-Markdown-Flavor: GitHub Flavored Markdown (GFM)
X-Markdown-Features: tables,lists
X-Markdown-Base-URL: github.com
X-Markdown-Generator: ProxyCrawl-API
url: https://github.com/crawlbase?tab=repositories
original_status: 200
pc_status: 200
Body:
(markdown text of the page)
# Headers
Как вы видели в приведенных выше примерах, в ответ будет возвращен файл в формате JSON, HTML или MD. параметры для json или заголовки для html и md, что позволит вам узнать, что произошло с запросом.
# URL
Исходный URL, который был отправлен в запросе, или URL перенаправления, который Crawlbase последовало.
# original_status
Статус ответа, который мы (Crawlbase) получаем при сканировании URL-адреса, отправленного в запросе.
Это может быть любой действительный код статуса http.
Обратите внимание, что Crawlbase только запросы на оплату, которые имеют original_status успех (200, 201, 204), постоянное перенаправление (301), временное перенаправление (302), если последующее перенаправление вернуло контент, не найдено (410, 404). И когда pc_status 200. Любое другое original_status Полученные коды не будут оплачены.
# pc_status
Crawlbase Код состояния (ПК) может быть любым кодом состояния, и именно этот код в конечном итоге оказывается действительным.
Например, веб-сайт может возвращать original_status 200 с капчей, в таком случае, pc_status будет 503.
Любой код, который не является стандартным, например 601, 999 и т. д., используется внутри компании инженерной группой и предоставляется только для устранения неполадок при обращении в службу поддержки.
пожалуйста, обратите внимание что запросы, сделанные Crawlbase что заканчивается неудачей pc_status код (так отличающийся от 200) не будет списан.
# X-Domain-Complexity
Уровень сложности показывает, насколько сложно сканировать или сканировать определенный домен, а также отражает соответствующие требования к ресурсам и ценам:
standard– Домены, которые легко сканировать или скрейпить, с минимальными мерами защиты. Такие домены обычно имеют самую низкую ценовую категорию.moderate– Домены с умеренной защитой от ботов, требующие специализированной обработки. Такие домены обычно имеют промежуточный ценовой уровень и требуют больше ресурсов для обработки.complex– Домены с передовыми системами защиты, которые сложно сканировать или скрейпить. Для этого требуются передовые методы и специализированные ресурсы, что отражено в самом высоком ценовом уровне.
Понимание уровня сложности различных доменов поможет вам оценить потенциальные цены и технические соображения для ваших задач сканирования. Для получения конкретной информации о ценах на основе уровней сложности домена, пожалуйста, обратитесь к вашему плану подписки или свяжитесь с нашей командой по продажам через Контакт.
# body
В формате JSON форматВ ответ в формате JSON входит body поле. В html В данном формате HTML-код страницы представляет собой тело HTTP-запроса. md формат, тело — это разметка Markdown (см. ответ в формате MarkdownСодержание всегда отражает то, что Crawlbase Получено при обходе прокси-сервером URL-адреса, который вы отправили.