# Envoi de données vers le Crawler
Avant de commencer à envoyer des URL vers le Crawler, vous devez d'abord créer un nouveau Crawler un ici (ouvre une nouvelle fenêtre) (opens new window).
Pour pousser les URL à être explorées par le Crawler, vous devez utiliser le Crawling API avec deux paramètres supplémentaires :
- Vous devez ajouter
&callback=true
- Vous devez ajouter
&crawler=YourCrawlerName
en utilisant le nom du robot que vous avez créé ici (ouvre une nouvelle fenêtre) (opens new window).
In réponse à votre push crawler, l'API renverra une représentation JSON avec un identifiant de requête unique RID. Ce RID est unique et vous aidera à identifier la requête à tout moment dans le futur.
Exemple de réponse push :
{ "rid": "1e92e8bff32c31c2728714d4" }
Par défaut, vous pouvez envoyer jusqu'à 30 URL par seconde au Crawler.
# Crawler limite de file d'attente
Le total combiné pour tous Crawler Les files d'attente sont limitées à 1 million de pages. Si l'une des files d'attente ou toutes les files d'attente combinées dépassent 1 million de pages, votre Crawler Le push sera temporairement suspendu et nous vous en informerons par e-mail. Crawler le push reprendra automatiquement une fois que les pages dans la ou les files d'attente seront inférieures à 1 M de pages.
# Envoi de données supplémentaires
En option, vous pouvez recevoir des en-têtes personnalisés pour votre rappel si vous utilisez le callback_headers
paramètre. C'est idéal pour transmettre des données supplémentaires à des fins d'identification à vos côtés.
Le format est le suivant : HEADER-NAME:VALUE|HEADER-NAME2:VALUE2|etc.
Et il doit être codé correctement.
Exemple pour les en-têtes et les valeurs MY-ID 1234, some-other 4321
&callback_headers=MY-ID%3A1234%7Csome-other%3A4321
Ces en-têtes reviendront dans la demande de publication du webhook.