# Передача данных в Enterprise Crawler

Прежде чем начать отправлять URL-адреса на Crawler, вам сначала нужно create a new crawler here (открывается новое окно) (opens new window).

Чтобы передать URL-адреса для сканирования Crawler, вы должны использовать Crawling API с двумя дополнительными параметрами:

In ответ на ваш push-уведомление от поискового робота, API отправит обратно JSON-представление с уникальным идентификатором запроса RID. Этот RID уникален и поможет вам идентифицировать запрос в любой момент в будущем.

Пример ответа на push-уведомление:

{ "rid": "1e92e8bff32c31c2728714d4" }

По умолчанию вы можете отправлять до 30 URL-адресов каждую секунду на Crawler.

# Enterprise Crawler лимит ожидания в очереди

Общая сумма для всех Crawler ожидание очередей ограничено 1 млн страниц. Если любая из очередей или все очереди вместе превышают 1 млн страниц, ваш Crawler push-уведомления будут временно приостановлены, и мы уведомим вас по электронной почте. Crawler push-загрузка автоматически возобновится, как только количество страниц в очереди ожидания станет меньше 1 млн.

# Отправка дополнительных данных

При желании вы можете получать пользовательские заголовки для обратного вызова, если используете callback_headers параметр. Это отлично подходит для передачи дополнительных данных в целях идентификации на вашей стороне.

Формат следующий: HEADER-NAME:VALUE|HEADER-NAME2:VALUE2|etc. И он должен быть правильно закодирован.

Пример заголовков и значений MY-ID 1234, some-other 4321

&callback_headers=MY-ID%3A1234%7Csome-other%3A4321

Эти заголовки будут возвращены в запросе публикации веб-хука.

# Тайм-аут очереди для каждого запроса

Вы можете контролировать, как долго конкретный запрос может оставаться в очереди до его обработки, используя следующие параметры: queue_timeout Этот параметр полезен для сканирования данных, требующего оперативного выполнения, когда результат ценен только в том случае, если он получен в течение определенного временного окна.

Параметр Тип Описание
queue_timeout Целое Максимальное время в минут Запрос может ожидать обработки в очереди. Допустимые значения: 1 в 10080 (от 1 минуты до 7 дней). Если запрос не обрабатывается сотрудником в течение этого времени, он помечается как неудачный. Если значение не указано или не задано. 0При этом тайм-аут для каждого запроса не устанавливается.

Важные замечания:

  • Время ожидания рассчитывается относительно времени, затраченного на выполнение запроса. в очереди до начала обработкиПосле того, как сотрудник примет запрос, queue_timeout больше не применяется.
  • Установка слишком большого тайм-аута может увеличить количество неудачных запросов. Выберите значение, которое отражает, как долго результат остается полезным для вашего сценария использования.
  • Когда срок действия запроса истекает из-за queue_timeoutВ результате вы получите обратный вызов со статусом HTTP. 504 и еще один Crawlbase статус 699.

Пример: Отправьте URL-адрес с таймаутом ожидания в очереди 30 минут:

curl 'https://api.crawlbase.com/scraper?token=YOUR_TOKEN&callback=true&crawler=YourCrawlerName&queue_timeout=30'