# Antwort

Wenn Sie eine Anfrage an Crawlbase Sie erhalten eine Antwort.

Diese Antwort ist ein JSON-Objekt oder der HTML-Code der Seite, abhängig von der Option, die Sie mit dem Format Parameter (Standard ist html).

# HTML Response

Wenn Sie das HTML-Antwortformat ausgewählt haben (was die Standardeinstellung ist), erhalten Sie das HTML der Seite als Antwort.

Der Antwortparameter wird den Antwortheadern hinzugefügt.

GET 'https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=html'
Response:
  Headers:
    url: https://github.com/crawlbase?tab=repositories
    original_status: 200
    pc_status: 200
    'X-Domain-Complexity': standard

  Body:
    <!doctype html><html class="a-no-js" data-19ax5a9jf="dingo"><!-- sp:feature:head-start -->
    <head><script>var aPageStart = (new Date()).getTime();</script><meta charset="utf-8">
    ... (all the html of the page)

# JSON Response

Wenn Sie das JSON-Antwortformat ausgewählt haben, erhalten Sie ein JSON-Objekt, das Sie analysieren können.

Dieses Objekt enthält alle Informationen, die Sie benötigen. Lesen Sie Antwortparameter für alle Informationen.

GET 'https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json'
Response:
{
  "original_status": "200",
  "pc_status": 200,
  "url": "https://github.com/crawlbase?tab=repositories",
  "domain_complexity": "standard",
  "body": "\u003C!doctype html\u003E\u003Chtml class=\"a-no-js\" data-19ax5a9jf\n... (all the html of the page)"
}

# Headers

Wie Sie in den obigen Beispielen gesehen haben, wird die Antwort, JSON oder HTML zurückgegeben Parameter für JSONoder Header für HTML, damit Sie erfahren, was mit der Anfrage passiert ist.

# URL

Die ursprüngliche URL, die in der Anfrage gesendet wurde oder die URL der Weiterleitung, die Crawlbase gefolgt.

# original_status

Die Statusantwort, die wir (Crawlbase) beim Crawlen der in der Anfrage gesendeten URL erhalten.

Es kann jeder gültige HTTP-Statuscode sein.

Bitte beachten Sie, dass Crawlbase Es werden nur Anfragen berechnet, die original_status Erfolg (200, 201, 204), permanente Weiterleitung (301), temporäre Weiterleitung (302), wenn die folgende Weiterleitung Inhalt zurückgegeben hat, nicht gefunden (410, 404). Und wenn pc_status ist 200. Alle anderen original_status Für die erhaltenen Codes fallen keine Gebühren an.

# pc_status

Der Crawlbase (PC) Der Statuscode kann jeder beliebige Statuscode sein und es ist der Code, der letztendlich gültig ist.
Beispielsweise könnte eine Website original_status 200 mit einem Captcha, in diesem Fall, pc_status wird 503 sein.

Jeder Code, der nicht dem Standard entspricht, wie etwa 601, 999 usw., wird intern vom Engineering-Team verwendet und nur angezeigt, um Ihnen bei der Fehlerbehebung zu helfen, wenn Sie sich an den Support wenden.

Bitte beachten Sie dass Anfragen an Crawlbase das endet mit einem erfolglosen pc_status Code (also anders als 200) wird nicht berechnet.

# X-Domain-Complexity

Der Komplexitätsgrad gibt an, wie schwierig das Crawlen oder Scrapen einer bestimmten Domäne ist, und spiegelt auch den damit verbundenen Ressourcenbedarf und die Preise wider:

  • standard – Domains, die leicht zu crawlen oder zu scrapen sind und nur minimale Schutzmaßnahmen erfordern. Diese Domains haben in der Regel die niedrigste Preisstufe.
  • moderate – Domänen mit moderatem Anti-Bot-Schutz, die eine spezielle Behandlung erfordern. Diese Domänen haben typischerweise eine mittlere Preisstufe und sind ressourcenintensiver zu verarbeiten.
  • complex – Domänen mit erweiterten Schutzsystemen, die schwer zu crawlen oder zu scrapen sind. Diese erfordern fortgeschrittene Techniken und spezialisierte Ressourcen, was sich in der höchsten Preisstufe widerspiegelt.

Das Verständnis des Komplexitätsgrads verschiedener Domänen hilft Ihnen, potenzielle Preise und technische Aspekte für Ihre Crawling-Aufgaben abzuschätzen. Spezifische Preisinformationen basierend auf Domänenkomplexitätsstufen finden Sie in Ihrem Abonnementplan oder kontaktieren Sie unser Vertriebsteam über die Kontaktseite.

# body

Dieser Parameter ist nur in JSON verfügbar Format, in html format wird der Hauptteil der Antwort selbst sein.

Der Inhalt der Seite, die Crawlbase gefunden als Ergebnis des Proxy-Crawlings der in der Anfrage gesendeten URL.