XO Search API outage - 7th March - Résolu – Rezolve Ai Support Portal

SOMMAIRE

Date de l'incident : 7 mars 2023
Impact sur le client : aucun élément renvoyé par l'API de recherche XO

Jeudi 9 mars

Veuillez trouver ci-joint le document RCA à cet article.

La cause profonde et les actions d'amélioration sont ajoutées à la section ci-dessous.

Mardi 7 mars 17h13 CET

Le problème a été résolu par l'équipe Cloud.

La capacité de base de l'API XO Search a été augmentée.

Ils vont travailler à l'amélioration de la politique de scaling pour éviter des situations similaires à l'avenir.

Mardi 7 mars 16h11 CET

Attraqt a identifié un nouveau outage dans l'API XO Search.

L'équipe Cloud travaille toujours pour l'atténuer.

Nous ajouterons une mise à jour ici dès que nous aurons plus d'informations.

Mardi 7 mars 13h12 CET

Attraqt a connu un outage dans l'API XO Search en raison d'une capacité surchargée. L'autoscaling a été activé mais il a fallu quelques minutes pour ajouter de la capacité supplémentaire. Pendant ce temps, nous avons envoyé beaucoup d'erreurs (429) à nos clients et n'avons pas été en mesure de répondre aux requêtes entrantes.

Le outage a duré 12 minutes.

RAPPORT D'ANALYSE DES CAUSES FONDAMENTALES

Le 7 mars 2023 vers 12h12 UTC, il y a eu un pic inattendu et significatif de requêtes vers notre API XO Search. Cela s'est traduit par environ 12 minutes pendant lesquelles les API XO Search ont renvoyé une réponse d'erreur tandis que la mise à la scale automatique a démarré et a ajouté la capacité nécessaire pour résoudre le problème automatiquement.
À 15 h 10 UTC, un deuxième pic de requêtes beaucoup plus grand a été reçu, entraînant une fois de plus les API de recherche XO renvoyant des erreurs. Le problème a été étudié plus en détail par l'équipe Attraqt et la cause du pic a été identifiée comme un appel d'API malveillant envoyant un certain nombre de requêtes, d'un ordre de grandeur supérieur au trafic de vente maximal, à l'API XO Search. Pour atténuer ce problème, l'origine des appels d'API malveillants a été bloquée manuellement, ce qui a permis au service de commencer à se rétablir et nous avons observé des taux d'erreur passer d'environ 100 % à 30 % entre 15h30 UTC et 15h55 UTC.
À partir de 16h00 UTC, les opérations de service régulières ont repris.

Étant donné que le produit XO est une plate-forme multi-tenant, tous les pics de trafic mineurs ou attendus (comme pendant les périodes de pointe des ventes) des locataires sont gérés par la mise en œuvre de la mise à la scale automatique, garantissant une capacité suffisante pour que le service fonctionne normalement pour tous les clients. Cependant, dans les cas où un pic plus grand et inattendu de requêtes est reçu, l'autoscaling n'est pas en mesure d'évoluer assez rapidement, ce qui perturbe tous les locataires.

Options d'amélioration et éléments d'action

Attraqt d'améliorer la politique de mise à la scale automatique du service XO afin d'évoluer plus rapidement dans les cas où un grand nombre de requêtes arrivent de manière inattendue. Ces travaux sont programmés et devraient être achevés avant la fin du mois de mars.
Attraqt a augmenté la capacité de base du service XO.
Attraqt d'étudier les moyens de mieux protéger les locataires contre les interruptions de service en dehors de leur propre instance. En raison des premières étapes de cette enquête, nous ne sommes actuellement pas en mesure de partager plus de détails à ce sujet.

POUR PLUS D'INFORMATIONS

Toutes les informations actuellement disponibles sont incluses dans cet article. Nous continuerons à fournir des mises à jour sur le problème ici pendant que nous nous efforçons de résoudre l'incident.

Si vous avez enregistré un ticket avec nous, nous vous fournirons les mêmes informations dès que possible.

Le rapport de notre enquête d'analyse des causes profondes est généralement publié ici quelques jours après la résolution de l'incident. Si vous avez d'autres questions sur cet incident, veuillez créer un ticket avec nous.