# Передача данных в Crawler
Прежде чем начать отправлять URL-адреса на Crawler, вам сначала нужно создать новый Crawler один здесь (открывается новое окно) (opens new window).
Чтобы передать URL-адреса для сканирования Crawler, вы должны использовать Crawling API с двумя дополнительными параметрами:
- Вы должны добавить
&callback=true
- Вы должны добавить
&crawler=YourCrawlerName
используя имя созданного вами поискового робота здесь (открывается новое окно) (opens new window).
In ответ на ваш push-уведомление от поискового робота, API отправит обратно JSON-представление с уникальным идентификатором запроса RID. Этот RID уникален и поможет вам идентифицировать запрос в любой момент в будущем.
Пример ответа на push-уведомление:
{ "rid": "1e92e8bff32c31c2728714d4" }
По умолчанию вы можете отправлять до 30 URL-адресов каждую секунду на Crawler.
# Crawler лимит ожидания в очереди
Общая сумма для всех Crawler ожидание очередей ограничено 1 млн страниц. Если любая из очередей или все очереди вместе превышают 1 млн страниц, ваш Crawler push-уведомления будут временно приостановлены, и мы уведомим вас по электронной почте. Crawler push-загрузка автоматически возобновится, как только количество страниц в очереди ожидания станет меньше 1 млн.
# Отправка дополнительных данных
При желании вы можете получать пользовательские заголовки для обратного вызова, если используете callback_headers
параметр. Это отлично подходит для передачи дополнительных данных в целях идентификации на вашей стороне.
Формат следующий: HEADER-NAME:VALUE|HEADER-NAME2:VALUE2|etc.
И он должен быть правильно закодирован.
Пример заголовков и значений MY-ID 1234, some-other 4321
&callback_headers=MY-ID%3A1234%7Csome-other%3A4321
Эти заголовки будут возвращены в запросе публикации веб-хука.