# Crawler-APIs

Um Crawler-Statistiken zu überwachen, Jobs zu verwalten, einen Crawler über die API zu bereinigen oder einen Crawler anzuhalten/fortzusetzen, folgen Sie bitte den nachstehenden Anweisungen:

Hinweis: Ersetzen Sie bei JS-Crawlern in allen API-Aufrufen das TCP-Token durch das JS-Token.

# Statistik-API

Erhalten Sie eine Zusammenfassung Ihrer Crawler, einschließlich Parallelität, Warteschlangenstatus und Crawling-Verlauf (Aufschlüsselung nach Erfolg und Fehler):

curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/stats'

Verlauf nach Datumsbereich filtern:

curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/stats?history_from=yyyy-mm-dd&history_to=yyyy-mm-dd'

# Bereinigungs-API

Um einen bestimmten Crawler zu löschen, stellen Sie diese POST-Anfrage mit dem Crawler-Namen und dem Token (JS/TCP):

curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/purge'

Hinweis: Dadurch wird sofort entfernt alle Seiten vom Crawler.

# API zum Löschen von Jobs

Um einen Job aus einem Crawler zu löschen, senden Sie diese POST-Anfrage mit der Anfrage-RID, dem Crawler-Namen und dem Token (JS/TCP):

curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/delete_job?rid=RID'

# API „Job finden“

Um eine Anfrage per RID in der Warteschlange Ihres Crawlers zu finden, verwenden Sie die folgende GET-Anfrage (JS/TCP):

curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/find_by_rid/RID'

Antworten:

  • Wenn in der Warteschlange:
{
  "status": "QUEUED",
  "request_info": {
    "rid": "YOUR_RID",
    "url": "YOUR_URL",
    "retry": 3,
    "created_at": 1600494969.189415
  }
}
  • Wenn NICHT_IN DER QUEUED: Ob die Anfrage bereits gecrawlt wurde oder sich nicht in der Warteschlange befindet.
{
  "status": "NOT_QUEUED",
  "request_info": {
    "rid": "YOUR_RID"
  }
}

# API anhalten

Um einen Crawler anzuhalten, verwenden Sie diese POST-Anfrage mit dem Crawler-Namen und dem Token (JS/TCP):

curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/pause'

# API fortsetzen

Um einen Crawler fortzusetzen, stellen Sie diese POST-Anfrage mit dem Crawler-Namen und dem Token (JS/TCP):

curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/unpause'