# Crawler API
Для мониторинга статистики работы поискового робота, управления заданиями, очистки поискового робота через API, приостановки/возобновления работы поискового робота следуйте инструкциям ниже:
Примечание: Для сканеров JS замените токен TCP на токен JS во всех вызовах API.
# API статистики
Получите сводку по вашим сканерам, включая параллелизм, статус очереди и историю сканирования (разбивка успешных и неудачных операций):
curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/stats'
Фильтровать историю по диапазону дат:
curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/stats?history_from=yyyy-mm-dd&history_to=yyyy-mm-dd'
# API очистки
Чтобы удалить определенный поисковый робот, выполните следующий запрос POST с именем поискового робота и токеном (JS/TCP):
curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/purge'
Примечание: Это немедленно удалит все страницы с гусеничного трактора.
# API удаления задания
Чтобы удалить задание из сканера, отправьте этот POST-запрос с RID запроса, именем сканера и токеном (JS/TCP):
curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/delete_job?rid=RID'
# API поиска работы
Чтобы найти запрос по RID в очереди вашего сканера, используйте следующий GET-запрос (JS/TCP):
curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/find_by_rid/RID'
Ответы:
- Если В ОЧЕРЕДИ:
{
"status": "QUEUED",
"request_info": {
"rid": "YOUR_RID",
"url": "YOUR_URL",
"retry": 3,
"created_at": 1600494969.189415
}
}
- Если НЕ В ОЧЕРЕДИ: Если запрос уже просканирован или не находится в очереди.
{
"status": "NOT_QUEUED",
"request_info": {
"rid": "YOUR_RID"
}
}
# Пауза API
Чтобы приостановить работу сканера, используйте этот POST-запрос с именем сканера и токеном (JS/TCP):
curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/pause'
# API отмены паузы
Чтобы возобновить работу сканера, отправьте следующий запрос POST с именем сканера и токеном (JS/TCP):
curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/unpause'