# Envoi de données au robot d'exploration
Avant de commencer à envoyer des URL au Crawler, vous devez d'abord créer un nouveau Crawler ici (ouvre une nouvelle fenêtre) (opens new window).
Pour pousser les URL à être explorées par le Crawler, vous devez utiliser le [API d'exploration]/fr/crawling-api/) avec deux paramètres supplémentaires :
- Vous devez ajouter
&callback=true
- Vous devez ajouter
&crawler=YourCrawlerName
en utilisant le nom du robot que vous avez créé ici (ouvre une nouvelle fenêtre) (opens new window).
In réponse à votre push crawler, l'API renverra une représentation JSON avec un identifiant de requête unique RID. Ce RID est unique et vous aidera à identifier la requête à tout moment dans le futur.
Exemple de réponse push :
{ "rid": "1e92e8bff32c31c2728714d4" }
Par défaut, vous pouvez envoyer jusqu'à 30 URL par seconde au Crawler.
# Limite de la file d'attente du robot d'exploration
Le total combiné de toutes les files d'attente du Crawler est plafonné à 1 million de pages. Si l'une des files d'attente ou toutes les files d'attente combinées dépassent 1 million de pages, votre push du Crawler sera temporairement suspendu et nous vous en informerons par e-mail. Le push du Crawler reprendra automatiquement une fois que les pages dans la ou les files d'attente seront inférieures à 1 million de pages.
# Envoi de données supplémentaires
En option, vous pouvez recevoir des en-têtes personnalisés pour votre rappel si vous utilisez le callback_headers
paramètre. C'est idéal pour transmettre des données supplémentaires à des fins d'identification à vos côtés.
Le format est le suivant : HEADER-NAME:VALUE|HEADER-NAME2:VALUE2|etc.
Et il doit être codé correctement.
Exemple pour les en-têtes et les valeurs MY-ID 1234, some-other 4321
&callback_headers=MY-ID%3A1234%7Csome-other%3A4321
Ces en-têtes reviendront dans la demande de publication du webhook.