# Envoi de données vers le Enterprise Crawler
Avant de commencer à envoyer des URL vers le Crawler, vous devez d'abord créer un nouveau robot d'exploration ici (ouvre une nouvelle fenêtre) (opens new window).
Pour pousser les URL à être explorées par le Crawler, vous devez utiliser le Crawling API avec deux paramètres supplémentaires :
- Vous devez ajouter
&callback=true - Vous devez ajouter
&crawler=YourCrawlerNameen utilisant le nom du robot que vous avez créé ici (ouvre une nouvelle fenêtre) (opens new window).
In réponse à votre push crawler, l'API renverra une représentation JSON avec un identifiant de requête unique RID. Ce RID est unique et vous aidera à identifier la requête à tout moment dans le futur.
Exemple de réponse push :
{ "rid": "1e92e8bff32c31c2728714d4" }
Par défaut, vous pouvez envoyer jusqu'à 30 URL par seconde au Crawler.
# Le Enterprise Crawler limite de file d'attente
Le total combiné pour tous Crawler Les files d'attente sont limitées à 1 million de pages. Si l'une des files d'attente ou toutes les files d'attente combinées dépassent 1 million de pages, votre Crawler Le push sera temporairement suspendu et nous vous en informerons par e-mail. Crawler le push reprendra automatiquement une fois que les pages dans la ou les files d'attente seront inférieures à 1 M de pages.
# Envoi de données supplémentaires
En option, vous pouvez recevoir des en-têtes personnalisés pour votre rappel si vous utilisez le callback_headers paramètre. C'est idéal pour transmettre des données supplémentaires à des fins d'identification à vos côtés.
Le format est le suivant : HEADER-NAME:VALUE|HEADER-NAME2:VALUE2|etc. Et il doit être codé correctement.
Exemple pour les en-têtes et les valeurs MY-ID 1234, some-other 4321
&callback_headers=MY-ID%3A1234%7Csome-other%3A4321
Ces en-têtes reviendront dans la demande de publication du webhook.
# Délai d'attente de la file d'attente par requête
Vous pouvez contrôler la durée pendant laquelle une requête spécifique reste dans la file d'attente avant d'être traitée en utilisant le queue_timeout Ce paramètre est utile pour les analyses urgentes où un résultat n'a de valeur que s'il est fourni dans un délai précis.
| Paramètre | Type | Description |
|---|---|---|
queue_timeout | Entier | Durée maximale de séjour minutes Une requête peut rester en attente dans la file d'attente avant d'être traitée. Valeurs acceptées : 1 à 10080 (1 minute à 7 jours). Si la requête n'est pas prise en charge par un agent dans ce délai, elle est considérée comme ayant échoué. Si aucune valeur n'est fournie ou si la valeur n'est pas définie, 0Aucun délai d'expiration n'est imposé pour chaque requête dans la file d'attente. |
Remarques importantes:
- Le délai d'attente est évalué par rapport au temps passé par la requête. dans la file d'attente avant le début du traitementUne fois qu'un travailleur prend en charge la demande,
queue_timeoutne s'applique plus. - Définir un délai d'attente trop long peut augmenter le taux d'échecs des requêtes. Choisissez une valeur adaptée à la durée pendant laquelle le résultat reste exploitable pour votre cas d'utilisation.
- Lorsqu'une requête expire en raison de
queue_timeout, vous recevrez un rappel avec un statut HTTP de504, l’aspect économique Crawlbase statut de699.
Exemple : Envoyer une URL avec un délai d'expiration de la file d'attente de 30 minutes :
curl 'https://api.crawlbase.com/scraper?token=YOUR_TOKEN&callback=true&crawler=YourCrawlerName&queue_timeout=30'