# Crawler-APIs
Um Crawler-Statistiken zu überwachen, Jobs zu verwalten, einen Crawler über die API zu bereinigen oder einen Crawler anzuhalten/fortzusetzen, folgen Sie bitte den nachstehenden Anweisungen:
Hinweis: Ersetzen Sie bei JS-Crawlern in allen API-Aufrufen das TCP-Token durch das JS-Token.
# Statistik-API
Erhalten Sie eine Zusammenfassung Ihrer Crawler, einschließlich Parallelität, Warteschlangenstatus und Crawling-Verlauf (Aufschlüsselung nach Erfolg und Fehler):
curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/stats'
Verlauf nach Datumsbereich filtern:
curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/stats?history_from=yyyy-mm-dd&history_to=yyyy-mm-dd'
# Bereinigungs-API
Um einen bestimmten Crawler zu löschen, stellen Sie diese POST-Anfrage mit dem Crawler-Namen und dem Token (JS/TCP):
curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/purge'
Hinweis: Dadurch wird sofort entfernt alle Seiten vom Crawler.
# API zum Löschen von Jobs
Um einen Job aus einem Crawler zu löschen, senden Sie diese POST-Anfrage mit der Anfrage-RID, dem Crawler-Namen und dem Token (JS/TCP):
curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/delete_job?rid=RID'
# API „Job finden“
Um eine Anfrage per RID in der Warteschlange Ihres Crawlers zu finden, verwenden Sie die folgende GET-Anfrage (JS/TCP):
curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/find_by_rid/RID'
Antworten:
- Wenn in der Warteschlange:
{
"status": "QUEUED",
"request_info": {
"rid": "YOUR_RID",
"url": "YOUR_URL",
"retry": 3,
"created_at": 1600494969.189415
}
}
- Wenn NICHT_IN DER QUEUED: Ob die Anfrage bereits gecrawlt wurde oder sich nicht in der Warteschlange befindet.
{
"status": "NOT_QUEUED",
"request_info": {
"rid": "YOUR_RID"
}
}
# API anhalten
Um einen Crawler anzuhalten, verwenden Sie diese POST-Anfrage mit dem Crawler-Namen und dem Token (JS/TCP):
curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/pause'
# API fortsetzen
Um einen Crawler fortzusetzen, stellen Sie diese POST-Anfrage mit dem Crawler-Namen und dem Token (JS/TCP):
curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/unpause'