# Передача данных в Crawler

Прежде чем начать отправлять URL-адреса на Crawler, вам сначала нужно создать новый Crawler один здесь (открывается новое окно) (opens new window).

Чтобы передать URL-адреса для сканирования Crawler, вы должны использовать Crawling API с двумя дополнительными параметрами:

Вы должны добавить &callback=true
Вы должны добавить &crawler=YourCrawlerName используя имя созданного вами поискового робота здесь (открывается новое окно) (opens new window).

In ответ на ваш push-уведомление от поискового робота, API отправит обратно JSON-представление с уникальным идентификатором запроса RID. Этот RID уникален и поможет вам идентифицировать запрос в любой момент в будущем.

Пример ответа на push-уведомление:

{ "rid": "1e92e8bff32c31c2728714d4" }

По умолчанию вы можете отправлять до 30 URL-адресов каждую секунду на Crawler.

# Crawler лимит ожидания в очереди

Общая сумма для всех Crawler ожидание очередей ограничено 1 млн страниц. Если любая из очередей или все очереди вместе превышают 1 млн страниц, ваш Crawler push-уведомления будут временно приостановлены, и мы уведомим вас по электронной почте. Crawler push-загрузка автоматически возобновится, как только количество страниц в очереди ожидания станет меньше 1 млн.

# Отправка дополнительных данных

При желании вы можете получать пользовательские заголовки для обратного вызова, если используете callback_headers параметр. Это отлично подходит для передачи дополнительных данных в целях идентификации на вашей стороне.

Формат следующий: HEADER-NAME:VALUE|HEADER-NAME2:VALUE2|etc. И он должен быть правильно закодирован.

Пример заголовков и значений MY-ID 1234, some-other 4321

&callback_headers=MY-ID%3A1234%7Csome-other%3A4321

Эти заголовки будут возвращены в запросе публикации веб-хука.

← Crawler Введение Получение веб-хука →