# Kenngrößen

Die API hat die folgenden Parameter: Nur das Token und die URL sind obligatorisch, der Rest ist optional.

# token

Erforderlich
Typ string

Dieser Parameter ist für alle Anrufe erforderlich

Dies ist Ihr Authentifizierungstoken. Sie haben zwei Token: einen für normale Anfragen und einen für JavaScript-Anfragen.

Verwenden Sie das JavaScript-Token, wenn der Inhalt, den Sie crawlen müssen, über JavaScript generiert wird, entweder weil es sich um eine mit JavaScript erstellte Seite handelt (React, Angular usw.) oder weil der Inhalt dynamisch im Browser generiert wird.

Normales Token

_USER_TOKEN_

JavaScript-Token

_JS_TOKEN_

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# url

Erforderlich
Typ string

Dieser Parameter ist für alle Anrufe erforderlich

Sie benötigen eine URL zum Crawlen. Stellen Sie sicher, dass sie mit http oder https beginnt und ist vollständig kodiert.

Beispielsweise in der folgenden URL: https://github.com/crawlbase?tab=repositories die URL sollte beim Aufruf der API wie folgt codiert werden: https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# format

Optional
Typ string

Gibt das Antwortformat an, entweder json or html. Der Standardwert ist html.

Wenn Format html wird genutzt, Crawlbase sendet Ihnen die Antwortparameter in den Headern zurück (siehe HTML-Antwort unten).

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json"

# pretty

Optional
Typ boolean

Wenn Sie erwarten eine json Antwort können Sie die Lesbarkeit optimieren, indem Sie &pretty=true.

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json&pretty=true"

# user_agent

Optional
Typ string

Wenn Sie die Anfrage mit einem benutzerdefinierten Benutzeragenten stellen möchten, können Sie ihn hier übergeben und unsere Server leiten ihn an die angeforderte URL weiter.

Wir empfehlen zu NICHT Verwenden Sie diesen Parameter und überlassen Sie die Handhabung unserer künstlichen Intelligenz.

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# page_wait

Optional
Typ number

Wenn Sie das JavaScript-Token verwenden, können Sie optional Folgendes übergeben: page_wait Parameter zum Warten einer bestimmten Zeitspanne Millisekunden bevor der Browser den resultierenden HTML-Code erfasst.

Dies ist in Fällen nützlich, in denen das Rendern der Seite einige Sekunden dauert oder vor der Erfassung des HTML etwas Ajax geladen werden muss.

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# ajax_wait

Optional
Typ boolean

Wenn Sie das JavaScript-Token verwenden, können Sie optional Folgendes übergeben: ajax_wait Parameter, um auf den Abschluss der Ajax-Anfragen zu warten, bevor die HTML-Antwort abgerufen wird.

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# css_click_selector

Optional
Typ string

# Single CSS Selector

Wenn Sie das JavaScript-Token verwenden, können Sie optional das css_click_selector Parameter, um auf ein Element auf der Seite zu klicken, bevor der Browser den resultierenden HTML-Code erfasst.

Dieser Parameter akzeptiert einen vollständig angegebenen und gültigen CSS-Selektor. Sie können beispielsweise einen ID-Selektor wie #some-button, ein Klassenselektor wie .some-other-buttonoder ein Attributselektor wie [data-tab-item="tab1"]. Um Fehler zu vermeiden, muss sichergestellt werden, dass der CSS-Selektor richtig codiert ist.

Bitte beachten Sie, dass die Anfrage fehlschlägt, wenn der Selektor nicht auf der Seite gefunden wird. pc_status 595Um eine Antwort zu erhalten, auch wenn ein Selektor nicht gefunden wird, können Sie einen universell gefundenen Selektor anhängen, wie body, als Fallback. Beispiel: #some-button,body.

# Multiple CSS Selectors

Um Szenarien zu berücksichtigen, in denen mehrere Elemente nacheinander angeklickt werden müssen, bevor der Seiteninhalt erfasst wird, css_click_selector Parameter können nun mehrere CSS-Selektoren akzeptieren. Trennen Sie die einzelnen Selektoren durch ein Pipe-Zeichen (|)-Zeichen. Stellen Sie sicher, dass der gesamte Wert, einschließlich Trennzeichen, URL-codiert ist, um Analyseprobleme zu vermeiden.

Angenommen, Sie möchten auf eine Schaltfläche mit der ID klicken start-button und dann ein Link mit der Klasse next-page-link. Sie würden Ihre css_click_selector Parameter wie folgt:

Ursprüngliche Selektoren: #start-button|.next-page-link
URL-kodiert: %23start-button%7C.next-page-link

Hängen Sie diesen Parameter an Ihre API-Anfrage an, um sicherzustellen, dass beide Elemente in der angegebenen Reihenfolge angeklickt werden.

Bitte stellen Sie sicher, dass alle angegebenen Selektoren gültig und auf der Seite vorhanden sind, um Fehler zu vermeiden. Wenn ein Selektor nicht gefunden wird, folgt die Anfrage der oben angegebenen Fehlerbehandlung und schlägt fehl mit pc_status 595 es sei denn, ein Fallback-Selektor ist enthalten.

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%5Bdata-tab-item%3D%22overview%22%5D&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# device

Optional
Typ string

Wenn Sie optional keinen User_Agent angeben möchten, aber die Anfragen von einem bestimmten Gerät erhalten möchten, können Sie diesen Parameter verwenden.

Es stehen zwei Optionen zur Verfügung: desktop und mobile.

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# get_cookies

Optional
Typ boolean

Wenn Sie optional die Cookies abrufen möchten, die die ursprüngliche Website auf die Antwort setzt, können Sie die &get_cookies=true Parameters.

Die Cookies werden im Header (oder in der JSON-Antwort, wenn Sie verwenden) zurückgegeben. &format=json) wie original_set_cookie.

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# get_headers

Optional
Typ boolean

Wenn Sie optional die Header abrufen möchten, die die ursprüngliche Website in der Antwort festlegt, können Sie den &get_headers=true Parameters.

Die Header werden in der Antwort zurückgegeben als original_header_name standardmäßig. Wenn &format=json übergeben wird, wird der Header zurückgegeben als original_headers.

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# request_headers

Optional
Typ string

Wenn Sie optional Anforderungsheader an die ursprüngliche Website senden müssen, können Sie den &request_headers=EncodedRequestHeaders Parameters.

Beispiele für Anforderungsheader: Akzeptieren Sie die Sprache: en-GB | Akzeptieren Sie die Kodierung: gzip

Beispiel codiert: &request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip

Bitte beachten Sie, dass nicht alle Anforderungsheader von der API zugelassen werden. Wir empfehlen Ihnen, die gesendeten Header mit dieser Test-URL zu testen: https://postman-echo.com/headers

Wenn Sie zusätzliche Header senden müssen, die von der API nicht zugelassen werden, teilen Sie uns bitte die Header-Namen mit und wir autorisieren sie für Ihr Token.

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# set_cookies

Optional
Typ string

Wenn Sie Cookies an die ursprüngliche Website senden müssen, können Sie optional die &cookies=EncodedCookies Parameters.

Beispiel-Cookies: key1=value1; key2=value2; key3=value3

Beispiel codiert: &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3

Wir empfehlen Ihnen, die gesendeten Cookies mit dieser Test-URL zu testen: https://postman-echo.com/cookies

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https%3A%2F%2Fpostman-echo.com%2Fcookies"

# cookies_session

Optional
Typ string

Wenn Sie die Cookies, die bei jeder Anfrage zurückkommen, an alle nachfolgenden Aufrufe senden müssen, können Sie den &cookies_session= Parameters.

Die &cookies_session= Parameter kann ein beliebiger Wert sein. Senden Sie einfach einen neuen Wert, um eine neue Cookies-Sitzung zu erstellen (so können Sie die zurückgegebenen Cookies aus den nachfolgenden Aufrufen mit diesem Cookies-Sitzungswert an die nächsten API-Aufrufe senden). Der Wert kann maximal 32 Zeichen lang sein und Sitzungen laufen 300 Sekunden nach dem letzten API-Aufruf ab.

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# screenshot

Optional
Typ boolean

Wenn Sie das verwenden JavaScript-Tokenkönnen Sie optional weitergeben &screenshot=true Parameter, um einen Screenshot im JPEG Format der gesamten gecrawlten Seite.

Crawlbase senden wir Ihnen die screenshot_url in den Antwortheadern (oder in der JSON-Antwort, wenn Sie &format=json). Der screenshot_url läuft in einer Stunde ab.

Hinweis: Bei Verwendung der screenshot=true Parameter können Sie die Screenshot-Ausgabe mit diesen zusätzlichen Parametern anpassen:

mode: Einstellen viewport um nur den Ansichtsbereich statt der gesamten Seite zu erfassen. Standard ist fullpage.
width: Maximale Breite in Pixeln angeben (funktioniert nur mit mode=viewport). Standardmäßig ist die Bildschirmbreite eingestellt.
height: Maximale Höhe in Pixeln angeben (funktioniert nur mit mode=viewport). Standardmäßig ist die Bildschirmhöhe eingestellt.

Ejemplo: &screenshot=true&mode=viewport&width=1200&height=800

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# store

Optional
Typ boolean

Optional weitergeben &store=true Parameter zum Speichern einer Kopie der API-Antwort im Crawlbase Cloud Storage (öffnet neues Fenster) (opens new window).

Crawlbase senden wir Ihnen die storage_url in den Antwortheadern (oder in der JSON-Antwort, wenn Sie &format=json).

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# scraper

Optional
Typ string

Gibt die Informationen zurück, die gemäß dem angegebenen Scraper analysiert wurden. Überprüfen Sie die Liste aller verfügbaren Daten-Scraper (öffnet neues Fenster) (opens new window) Liste aller verfügbaren Daten-Scraper, um zu sehen, welchen Sie wählen sollten.

Die Antwort wird als JSON zurückgegeben.

Bitte beachten Sie: Scraper ist ein optionaler Parameter. Wenn Sie ihn nicht verwenden, erhalten Sie das vollständige HTML der Seite zurück, sodass Sie es frei scrapen können.

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=amazon-product-details&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# async

Optional
Typ boolean
Derzeit wird mit diesem Parameter nur linkedin.com unterstützt. Sprechen Sie uns an, wenn Sie andere Domänen im asynchronen Modus benötigen.

Optional weitergeben &async=true Parameter, um die angeforderte URL asynchron zu crawlen. Crawlbase speichert die resultierende Seite im Crawlbase Cloud Storage (öffnet neues Fenster) (opens new window).

Als Ergebnis eines Anrufs mit async=true, Crawlbase sendet Ihnen die Anforderungskennung zurück rid in der JSON-Antwort. Sie müssen die RID speichern, um das Dokument aus dem Speicher abzurufen. Mit der RID können Sie dann die Cloud Storage (öffnet neues Fenster) (opens new window) um die resultierende Seite abzurufen.

Sie können die Verwendung async=true Parameter in Kombination mit anderen API-Parametern wie zum Beispiel &async=true&autoparse=true.

Beispiel einer Anfrage mit async=true Anruf:

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2Fcrawlbase"

Beispiel einer Antwort mit async=true Anruf:

{ "rid": "1e92e8bff32c31c2728714d4" }

# autoparse

Optional
Typ boolean

Wenn Sie optional die Scraped-Daten der von Ihnen angeforderten Seite abrufen möchten, können Sie Folgendes weitergeben: &autoparse=true Parameters.

Die Antwort wird als JSON zurückgegeben. Die Struktur der Antwort variiert je nach der von Ihnen gesendeten URL.

Bitte beachten Sie: &autoparse=true ist ein optionaler Parameter. Wenn Sie ihn nicht verwenden, erhalten Sie das vollständige HTML der Seite zurück, sodass Sie es frei scrapen können.

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# country

Optional
Typ string

Wenn Sie möchten, dass Ihre Anfragen von einem bestimmten Land aus geolokalisiert werden, können Sie die &country= Parameter, wie &country=US (zweistelliger Ländercode).

Bitte beachten Sie, dass die Angabe eines Landes die Anzahl der erfolgreichen Anfragen verringern kann. Verwenden Sie es daher mit Bedacht und nur, wenn Geolokalisierungs-Crawls erforderlich sind.

Beachten Sie auch, dass einige Websites wie Amazon über verschiedene spezielle Proxys weitergeleitet werden und alle Länder zugelassen werden, unabhängig davon, ob sie auf der Liste stehen oder nicht.

Sie haben Zugriff auf folgende Länder

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fpostman-echo.com%2Fip"

# tor_network

Optional
Typ boolean

Wenn Sie Onion-Websites über das Tor-Netzwerk crawlen möchten, können Sie die &tor_network=true Parameters.

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"

# scroll

Optional
Typ: boolean

Ermöglicht automatisiertes Scrollen zum Laden dynamischer Seiteninhalte während einer echten Browsersitzung. Wird mit dem JavaScript-Token verwendet.

Kenngrößen

scroll=true: Aktiviert das Scrollen.
scroll_interval: Ganzzahl (Sekunden). Legt die Scrolldauer fest nach dem Laden der Seite. Standard: 10Maximal: 60.

Ejemplo: &scroll=true&scroll_interval=20

Verhalten

Wann scroll=true gesetzt ist, lädt die API die URL in einem echten Browser und scrollt programmgesteuert die Seite für bis zu scroll_interval Sekunden, um das dynamische Laden von Inhalten auszulösen (z. B. unendliches Scrollen).
Nach dem Scrollen wird der Inhalt erfasst und zurückgegeben.
If scroll_interval ist nicht festgelegt, der Standardwert beträgt 10 Sekunden.

Rechnungsstellung

Für Anfragen mit aktiviertem Scroll-Modus wird die gesamte serverseitige Verarbeitungszeit berechnet:

Ursprüngliche Abrechnungseinheit:
. Der scroll=true API-Aufruf wird abgerechnet als 1 Anfrage, die den ersten 8 Sekunden der gesamten Verarbeitungszeit (einschließlich Seitenladen und Scrollen).
Zusätzliche Abrechnungseinheiten:
Für jeden zusätzliche 5 Sekunden der Verarbeitungszeit über die ersten 8 Sekunden hinaus, 1 zusätzliche in Rechnung gestellte Anfrage hinzugefügt.
- Beispielrechnung:
- Verarbeitungszeit: 20 Sekunden
  - 1 kostenpflichtige Anfrage für die ersten 8 Sekunden
    - +1 abgerechnete Anfrage für Sekunden 9–13
    - +1 abgerechnete Anfrage für Sekunden 14–18
    - +1 abgerechnete Anfrage (19–20 s, dieser Bruchteil wird als ganzer Block abgerechnet)
    - Gesamtbetrag: 4 Anfragen
- Wenn der Vorgang vor dem eingestellten Scroll-Intervall abgeschlossen ist, wird nur die tatsächliche Verarbeitungszeit in Rechnung gestellt.

Notizen

Maximal zulässiges Scrollintervall beträgt 60 Sekunden. Nach 60 Sekunden wird der Bildlauf beendet und die Daten werden zurückgegeben.
Verbindungszeit: Wenn Sie verwenden scroll_interval=60, halten Sie Ihre Clientverbindung bis zu 90 Sekunden lang offen.
Site-spezifische Timeouts: Einige Domänen benötigen möglicherweise längere Server-Timeouts, die automatisch gehandhabt werden. scroll mit page_wait kann die Gesamtverarbeitungszeit verlängern und die Abrechnung beeinflussen.

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&scroll_interval=20&url=https%3A%2F%2Fwww.reddit.com%2Fsearch%2F%3Fq%3Dcrawlbase"

# custom_success_codes

Optional
Typ string

Ermöglicht Ihnen, benutzerdefinierte HTTP-Statuscodes anzugeben, die als erfolgreiche Antworten behandelt werden sollen. So werden unnötige Wiederholungsversuche vermieden, während der ursprüngliche Statuscode in der Antwort erhalten bleibt.

Verwendung: custom_success_codes=403,429,503

Dieser Parameter ist nützlich, wenn Sie Domänen ansprechen, die nicht standardmäßige Erfolgscodes (wie 403 oder 500) zurückgeben, die für Ihren spezifischen Anwendungsfall als erfolgreich betrachtet werden sollten.

Hinweis: Durch die Verwendung dieses Parameters übernehmen Sie die Verantwortung für die Definition, was eine erfolgreiche Antwort auf Ihre Anfragen darstellt.

curl
ruby
node
php
python
go

curl "https://api.crawlbase.com/?token=_USER_TOKEN_&custom_success_codes=403%2C429%2C503&url=https%3A%2F%2Fexample.com%2Fapi"

← Headless-Browser (JavaScript-Rendering) Antwort →