# Envoi de données vers le Enterprise Crawler

Avant de commencer à envoyer des URL vers le Crawler, vous devez d'abord créer un nouveau robot d'exploration ici (ouvre une nouvelle fenêtre) (opens new window).

Pour pousser les URL à être explorées par le Crawler, vous devez utiliser le Crawling API avec deux paramètres supplémentaires :

In réponse à votre push crawler, l'API renverra une représentation JSON avec un identifiant de requête unique RID. Ce RID est unique et vous aidera à identifier la requête à tout moment dans le futur.

Exemple de réponse push :

{ "rid": "1e92e8bff32c31c2728714d4" }

Par défaut, vous pouvez envoyer jusqu'à 30 URL par seconde au Crawler.

# Le Enterprise Crawler limite de file d'attente

Le total combiné pour tous Crawler Les files d'attente sont limitées à 1 million de pages. Si l'une des files d'attente ou toutes les files d'attente combinées dépassent 1 million de pages, votre Crawler Le push sera temporairement suspendu et nous vous en informerons par e-mail. Crawler le push reprendra automatiquement une fois que les pages dans la ou les files d'attente seront inférieures à 1 M de pages.

# Envoi de données supplémentaires

En option, vous pouvez recevoir des en-têtes personnalisés pour votre rappel si vous utilisez le callback_headers paramètre. C'est idéal pour transmettre des données supplémentaires à des fins d'identification à vos côtés.

Le format est le suivant : HEADER-NAME:VALUE|HEADER-NAME2:VALUE2|etc. Et il doit être codé correctement.

Exemple pour les en-têtes et les valeurs MY-ID 1234, some-other 4321

&callback_headers=MY-ID%3A1234%7Csome-other%3A4321

Ces en-têtes reviendront dans la demande de publication du webhook.

# Délai d'attente de la file d'attente par requête

Vous pouvez contrôler la durée pendant laquelle une requête spécifique reste dans la file d'attente avant d'être traitée en utilisant le queue_timeout Ce paramètre est utile pour les analyses urgentes où un résultat n'a de valeur que s'il est fourni dans un délai précis.

Paramètre Type Description
queue_timeout Entier Durée maximale de séjour minutes Une requête peut rester en attente dans la file d'attente avant d'être traitée. Valeurs acceptées : 1 à 10080 (1 minute à 7 jours). Si la requête n'est pas prise en charge par un agent dans ce délai, elle est considérée comme ayant échoué. Si aucune valeur n'est fournie ou si la valeur n'est pas définie, 0Aucun délai d'expiration n'est imposé pour chaque requête dans la file d'attente.

Remarques importantes:

  • Le délai d'attente est évalué par rapport au temps passé par la requête. dans la file d'attente avant le début du traitementUne fois qu'un travailleur prend en charge la demande, queue_timeout ne s'applique plus.
  • Définir un délai d'attente trop long peut augmenter le taux d'échecs des requêtes. Choisissez une valeur adaptée à la durée pendant laquelle le résultat reste exploitable pour votre cas d'utilisation.
  • Lorsqu'une requête expire en raison de queue_timeout, vous recevrez un rappel avec un statut HTTP de 504 , l’aspect économique Crawlbase statut de 699.

Exemple : Envoyer une URL avec un délai d'expiration de la file d'attente de 30 minutes :

curl 'https://api.crawlbase.com/scraper?token=YOUR_TOKEN&callback=true&crawler=YourCrawlerName&queue_timeout=30'