# Crawler API

Для мониторинга статистики работы поискового робота, управления заданиями, очистки поискового робота через API, приостановки/возобновления работы поискового робота следуйте инструкциям ниже:

Примечание: Для сканеров JS замените токен TCP на токен JS во всех вызовах API.

# API статистики

Получите сводку по вашим сканерам, включая параллелизм, статус очереди и историю сканирования (разбивка успешных и неудачных операций):

curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/stats'

Фильтровать историю по диапазону дат:

curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/stats?history_from=yyyy-mm-dd&history_to=yyyy-mm-dd'

# API очистки

Чтобы удалить определенный поисковый робот, выполните следующий запрос POST с именем поискового робота и токеном (JS/TCP):

curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/purge'

Примечание: Это немедленно удалит все страницы с гусеничного трактора.

# API удаления задания

Чтобы удалить задание из сканера, отправьте этот POST-запрос с RID запроса, именем сканера и токеном (JS/TCP):

curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/delete_job?rid=RID'

# API поиска работы

Чтобы найти запрос по RID в очереди вашего сканера, используйте следующий GET-запрос (JS/TCP):

curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/find_by_rid/RID'

Ответы:

  • Если В ОЧЕРЕДИ:
{
  "status": "QUEUED",
  "request_info": {
    "rid": "YOUR_RID",
    "url": "YOUR_URL",
    "retry": 3,
    "created_at": 1600494969.189415
  }
}
  • Если НЕ В ОЧЕРЕДИ: Если запрос уже просканирован или не находится в очереди.
{
  "status": "NOT_QUEUED",
  "request_info": {
    "rid": "YOUR_RID"
  }
}

# Пауза API

Чтобы приостановить работу сканера, используйте этот POST-запрос с именем сканера и токеном (JS/TCP):

curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/pause'

# API отмены паузы

Чтобы возобновить работу сканера, отправьте следующий запрос POST с именем сканера и токеном (JS/TCP):

curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/unpause'