# Envoi de données vers le Enterprise Crawler

Avant de commencer à envoyer des URL vers le Crawler, vous devez d'abord créer un nouveau Crawler un ici (ouvre une nouvelle fenêtre) (opens new window).

Pour pousser les URL à être explorées par le Crawler, vous devez utiliser le Crawling API avec deux paramètres supplémentaires :

Vous devez ajouter &callback=true
Vous devez ajouter &crawler=YourCrawlerName en utilisant le nom du robot que vous avez créé ici (ouvre une nouvelle fenêtre) (opens new window).

In réponse à votre push crawler, l'API renverra une représentation JSON avec un identifiant de requête unique RID. Ce RID est unique et vous aidera à identifier la requête à tout moment dans le futur.

Exemple de réponse push :

{ "rid": "1e92e8bff32c31c2728714d4" }

Par défaut, vous pouvez envoyer jusqu'à 30 URL par seconde au Crawler.

# L'espace Enterprise Crawler limite de file d'attente

Le total combiné pour tous Crawler Les files d'attente sont limitées à 1 million de pages. Si l'une des files d'attente ou toutes les files d'attente combinées dépassent 1 million de pages, votre Crawler Le push sera temporairement suspendu et nous vous en informerons par e-mail. Crawler le push reprendra automatiquement une fois que les pages dans la ou les files d'attente seront inférieures à 1 M de pages.

# Envoi de données supplémentaires

En option, vous pouvez recevoir des en-têtes personnalisés pour votre rappel si vous utilisez le callback_headers paramètre. C'est idéal pour transmettre des données supplémentaires à des fins d'identification à vos côtés.

Le format est le suivant : HEADER-NAME:VALUE|HEADER-NAME2:VALUE2|etc. Et il doit être codé correctement.

Exemple pour les en-têtes et les valeurs MY-ID 1234, some-other 4321

&callback_headers=MY-ID%3A1234%7Csome-other%3A4321

Ces en-têtes reviendront dans la demande de publication du webhook.

← Crawler Introduction Réception de Webhook →