# Режимы секции мощности

При выполнении запроса Crawlbase вы получите ответ.

В ответе будет представлен JSON-объект, HTML-код страницы или уценка в организме, в зависимости от формат Вы проходите проверку (по умолчанию) html).

# HTML Response

Если вы выбрали формат ответа HTML (который используется по умолчанию), в качестве ответа вы получите HTML-код страницы.

параметры ответа будут добавлены в заголовки ответа.

GET 'https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=html'
Response:
  Headers:
    url: https://github.com/crawlbase?tab=repositories
    original_status: 200
    pc_status: 200
    'X-Domain-Complexity': standard

  Body:
    <!doctype html><html class="a-no-js" data-19ax5a9jf="dingo"><!-- sp:feature:head-start -->
    <head><script>var aPageStart = (new Date()).getTime();</script><meta charset="utf-8">
    ... (all the html of the page)

# JSON Response

Если вы выбрали формат ответа JSON, вы получите объект JSON, который можно проанализировать.

Этот объект содержит всю необходимую вам информацию. Читать параметры ответа за всю информацию.

GET 'https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json'
Response:
{
  "original_status": "200",
  "pc_status": 200,
  "url": "https://github.com/crawlbase?tab=repositories",
  "domain_complexity": "standard",
  "body": "\u003C!doctype html\u003E\u003Chtml class=\"a-no-js\" data-19ax5a9jf\n... (all the html of the page)"
}

# Markdown response

Если вы установите format=md, тело ответа — это уценка (ГФМ).

Content-Type is text/markdown; charset=utf-8.

Метаданные включают в себя:

  • X-Markdown-Flavor
  • X-Markdown-Features
  • X-Markdown-Base-URL (хост разрешенного URL)
  • X-Markdown-Generator со значением ProxyCrawl-API

Вы также получите обычный Crawlbase параметры ответа в заголовках, например: url, original_status и pc_status.

Используйте &md_readability=true когда требуется извлечение основного контента перед преобразованием; см. md_readability.

GET 'https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=md'
Response:
  Headers:
    Content-Type: text/markdown; charset=utf-8
    X-Markdown-Flavor: GitHub Flavored Markdown (GFM)
    X-Markdown-Features: tables,lists
    X-Markdown-Base-URL: github.com
    X-Markdown-Generator: ProxyCrawl-API
    url: https://github.com/crawlbase?tab=repositories
    original_status: 200
    pc_status: 200

  Body:
    (markdown text of the page)

# Headers

Как вы видели в приведенных выше примерах, в ответ будет возвращен файл в формате JSON, HTML или MD. параметры для json или заголовки для html и md, что позволит вам узнать, что произошло с запросом.

# URL

Исходный URL, который был отправлен в запросе, или URL перенаправления, который Crawlbase последовало.

# original_status

Статус ответа, который мы (Crawlbase) получаем при сканировании URL-адреса, отправленного в запросе.

Это может быть любой действительный код статуса http.

Обратите внимание, что Crawlbase только запросы на оплату, которые имеют original_status успех (200, 201, 204), постоянное перенаправление (301), временное перенаправление (302), если последующее перенаправление вернуло контент, не найдено (410, 404). И когда pc_status 200. Любое другое original_status Полученные коды не будут оплачены.

# pc_status

Crawlbase Код состояния (ПК) может быть любым кодом состояния, и именно этот код в конечном итоге оказывается действительным.
Например, веб-сайт может возвращать original_status 200 с капчей, в таком случае, pc_status будет 503.

Любой код, который не является стандартным, например 601, 999 и т. д., используется внутри компании инженерной группой и предоставляется только для устранения неполадок при обращении в службу поддержки.

пожалуйста, обратите внимание что запросы, сделанные Crawlbase что заканчивается неудачей pc_status код (так отличающийся от 200) не будет списан.

# X-Domain-Complexity

Уровень сложности показывает, насколько сложно сканировать или сканировать определенный домен, а также отражает соответствующие требования к ресурсам и ценам:

  • standard – Домены, которые легко сканировать или скрейпить, с минимальными мерами защиты. Такие домены обычно имеют самую низкую ценовую категорию.
  • moderate – Домены с умеренной защитой от ботов, требующие специализированной обработки. Такие домены обычно имеют промежуточный ценовой уровень и требуют больше ресурсов для обработки.
  • complex – Домены с передовыми системами защиты, которые сложно сканировать или скрейпить. Для этого требуются передовые методы и специализированные ресурсы, что отражено в самом высоком ценовом уровне.

Понимание уровня сложности различных доменов поможет вам оценить потенциальные цены и технические соображения для ваших задач сканирования. Для получения конкретной информации о ценах на основе уровней сложности домена, пожалуйста, обратитесь к вашему плану подписки или свяжитесь с нашей командой по продажам через Контакт.

# body

В формате JSON форматВ ответ в формате JSON входит body поле. В html В данном формате HTML-код страницы представляет собой тело HTTP-запроса. md формат, тело — это разметка Markdown (см. ответ в формате MarkdownСодержание всегда отражает то, что Crawlbase Получено при обходе прокси-сервером URL-адреса, который вы отправили.