# Übertragen von Daten an die Enterprise Crawler

Bevor Sie mit dem Pushen von URLs an die Crawlermüssen Sie zuerst Hier einen neuen Crawler erstellen (öffnet neues Fenster) (opens new window).

Um URLs zu pushen, die von der Crawler, müssen Sie die verwenden Crawling API mit zwei zusätzlichen Parametern:

In Antwort auf Ihren Crawler-Pushsendet die API eine JSON-Darstellung mit einer eindeutigen Anforderungskennung (RID) zurück. Diese RID ist eindeutig und hilft Ihnen, die Anforderung in Zukunft jederzeit zu identifizieren.

Beispiel einer Push-Antwort:

{ "rid": "1e92e8bff32c31c2728714d4" }

Standardmäßig können Sie bis zu 30 URLs pro Sekunde an die Crawler.

# Die Enterprise Crawler Warteschlangenlimit

Die Gesamtsumme aller Crawler Warteschlangen sind auf 1 Million Seiten begrenzt. Wenn eine oder alle Warteschlangen zusammen mehr als 1 Million Seiten umfassen, Crawler Push wird vorübergehend pausiert und wir benachrichtigen Sie per E-Mail. Crawler Der Push-Vorgang wird automatisch fortgesetzt, sobald die Anzahl der Seiten in der Warteschlange (den Warteschlangen) unter 1 Million liegt.

# Übermittlung zusätzlicher Daten

Optional können Sie benutzerdefinierte Header für Ihren Rückruf erhalten, wenn Sie den callback_headers Parameter. Das ist ideal, um zusätzliche Daten zu Identifikationszwecken an Ihre Seite weiterzugeben.

Das Format ist das folgende: HEADER-NAME:VALUE|HEADER-NAME2:VALUE2|etc. Und es muss richtig codiert sein.

Beispiel für Header und Werte MY-ID 1234, some-other 4321

&callback_headers=MY-ID%3A1234%7Csome-other%3A4321

Diese Header werden in der Webhook-Post-Anfrage zurückgegeben.

# Timeout pro Anfrage in der Warteschlange

Sie können mithilfe der folgenden Funktion steuern, wie lange eine bestimmte Anfrage in der Warteschlange verbleiben darf, bevor sie verarbeitet wird: queue_timeout Parameter. Dies ist nützlich für zeitkritische Crawls, bei denen ein Ergebnis nur dann wertvoll ist, wenn es innerhalb eines bestimmten Zeitfensters geliefert wird.

Parameter Typ Beschreibung
queue_timeout ganze Zahl Maximale Zeit in Minuten Eine Anfrage kann in der Warteschlange verbleiben, bevor sie verarbeitet wird. Zulässige Werte: 1 zu 10080 (1 Minute bis 7 Tage). Wird die Anfrage innerhalb dieses Zeitraums nicht von einem Mitarbeiter bearbeitet, wird sie als fehlgeschlagen markiert. Falls nicht angegeben oder auf „false“ gesetzt. 0Es wird kein Timeout pro Anfrage in der Warteschlange erzwungen.

Wichtige Hinweise:

  • Das Timeout wird anhand der für die Anfrage benötigten Zeit bewertet. in der Warteschlange, bevor die Verarbeitung beginntSobald ein Mitarbeiter die Anfrage annimmt, queue_timeout gilt nicht mehr.
  • Ein zu kurzer Timeout kann die Anzahl fehlgeschlagener Anfragen erhöhen. Wählen Sie einen Wert, der widerspiegelt, wie lange das Ergebnis für Ihren Anwendungsfall relevant bleibt.
  • Wenn eine Anfrage aufgrund von queue_timeoutSie erhalten einen Rückruf mit dem HTTP-Status 504 und einem Crawlbase Status von 699.

Ejemplo: Eine URL mit einem Warteschlangen-Timeout von 30 Minuten pushen:

curl 'https://api.crawlbase.com/scraper?token=YOUR_TOKEN&callback=true&crawler=YourCrawlerName&queue_timeout=30'