# Envoi de données vers le Enterprise Crawler

Avant de commencer à envoyer des URL vers le Crawler, vous devez d'abord créer un nouveau robot d'exploration ici (ouvre une nouvelle fenêtre) (opens new window).

Pour pousser les URL à être explorées par le Crawler, vous devez utiliser le Crawling API avec deux paramètres supplémentaires :

Vous devez ajouter &callback=true
Vous devez ajouter &crawler=YourCrawlerName en utilisant le nom du robot que vous avez créé ici (ouvre une nouvelle fenêtre) (opens new window).

In réponse à votre push crawler, l'API renverra une représentation JSON avec un identifiant de requête unique RID. Ce RID est unique et vous aidera à identifier la requête à tout moment dans le futur.

Exemple de réponse push :

{ "rid": "1e92e8bff32c31c2728714d4" }

Par défaut, vous pouvez envoyer jusqu'à 30 URL par seconde au Crawler.

# Le Enterprise Crawler limite de file d'attente

Le total combiné pour tous Crawler Les files d'attente sont limitées à 1 million de pages. Si l'une des files d'attente ou toutes les files d'attente combinées dépassent 1 million de pages, votre Crawler Le push sera temporairement suspendu et nous vous en informerons par e-mail. Crawler le push reprendra automatiquement une fois que les pages dans la ou les files d'attente seront inférieures à 1 M de pages.

# Envoi de données supplémentaires

En option, vous pouvez recevoir des en-têtes personnalisés pour votre rappel si vous utilisez le callback_headers paramètre. C'est idéal pour transmettre des données supplémentaires à des fins d'identification à vos côtés.

Le format est le suivant : HEADER-NAME:VALUE|HEADER-NAME2:VALUE2|etc. Et il doit être codé correctement.

Exemple pour les en-têtes et les valeurs MY-ID 1234, some-other 4321

&callback_headers=MY-ID%3A1234%7Csome-other%3A4321

Ces en-têtes reviendront dans la demande de publication du webhook.

# Délai d'attente de la file d'attente par requête

Vous pouvez contrôler la durée pendant laquelle une requête spécifique reste dans la file d'attente avant d'être traitée en utilisant le queue_timeout Ce paramètre est utile pour les analyses urgentes où un résultat n'a de valeur que s'il est fourni dans un délai précis.

Paramètre	Type	Description
`queue_timeout`	Entier	Durée maximale de séjour minutes Une requête peut rester en attente dans la file d'attente avant d'être traitée. Valeurs acceptées : `1` à `10080` (1 minute à 7 jours). Si la requête n'est pas prise en charge par un agent dans ce délai, elle est considérée comme ayant échoué. Si aucune valeur n'est fournie ou si la valeur n'est pas définie, `0`Aucun délai d'expiration n'est imposé pour chaque requête dans la file d'attente.

Remarques importantes:

Le délai d'attente est évalué par rapport au temps passé par la requête. dans la file d'attente avant le début du traitementUne fois qu'un travailleur prend en charge la demande, queue_timeout ne s'applique plus.
Définir un délai d'attente trop long peut augmenter le taux d'échecs des requêtes. Choisissez une valeur adaptée à la durée pendant laquelle le résultat reste exploitable pour votre cas d'utilisation.
Lorsqu'une requête expire en raison de queue_timeout, vous recevrez un rappel avec un statut HTTP de 504 , l’aspect économique Crawlbase statut de 699.

Exemple : Envoyer une URL avec un délai d'expiration de la file d'attente de 30 minutes :

curl 'https://api.crawlbase.com/scraper?token=YOUR_TOKEN&callback=true&crawler=YourCrawlerName&queue_timeout=30'

← Crawler Introduction Réception de Webhook →