# Daten an den Crawler übertragen
Bevor Sie URLs an den Crawler senden, müssen Sie zunächst Erstellen Sie hier einen neuen Crawler (öffnet neues Fenster) (opens new window).
Um URLs zum Crawlen durch den Crawler zu pushen, müssen Sie den [Crawling-API]/de/crawling-api/) mit zwei zusätzlichen Parametern:
- Sie müssen anhängen
&callback=true
- Sie müssen anhängen
&crawler=YourCrawlerName
Verwenden Sie den Namen des Crawlers, den Sie erstellt haben Hier (öffnet neues Fenster) (opens new window).
In Antwort auf Ihren Crawler-Pushsendet die API eine JSON-Darstellung mit einer eindeutigen Anforderungskennung (RID) zurück. Diese RID ist eindeutig und hilft Ihnen, die Anforderung in Zukunft jederzeit zu identifizieren.
Beispiel einer Push-Antwort:
{ "rid": "1e92e8bff32c31c2728714d4" }
Standardmäßig können Sie bis zu 30 URLs pro Sekunde an den Crawler senden.
# Crawler-Warteschlangenlimit
Die Gesamtsumme aller Crawler-Warteschlangen ist auf 1 Million Seiten begrenzt. Wenn eine oder alle Warteschlangen zusammen mehr als 1 Million Seiten umfassen, wird Ihr Crawler-Push vorübergehend angehalten und Sie werden per E-Mail benachrichtigt. Der Crawler-Push wird automatisch fortgesetzt, sobald die Anzahl der Seiten in den Warteschlangen unter 1 Million Seiten liegt.
# Übermittlung zusätzlicher Daten
Optional können Sie benutzerdefinierte Header für Ihren Rückruf erhalten, wenn Sie den callback_headers
Parameter. Das ist ideal, um zusätzliche Daten zu Identifikationszwecken an Ihre Seite weiterzugeben.
Das Format ist das folgende: HEADER-NAME:VALUE|HEADER-NAME2:VALUE2|etc.
Und es muss richtig codiert sein.
Beispiel für Header und Werte MY-ID 1234, some-other 4321
&callback_headers=MY-ID%3A1234%7Csome-other%3A4321
Diese Header werden in der Webhook-Post-Anfrage zurückgegeben.