RÉSUMÉ
Date de l'incident : 9 juin 2023
Impact client :
- Les recommandations de batch email ne s'exécutent pas
- La possibilité de lancer un recalcul des tags depuis la console XO ne fonctionne pas
- L'import de nouveaux éléments du Catalogue pour XO Search. La Search fonctionne toujours mais les mises à jour sur les produits ne seront pas prises en compte
10 juin, 14h00 UTC
Tous les services sont revenus à la normale. Notre équipe de développement a appliqué les correctifs nécessaires, et l'environnement est stable et fonctionne à nouveau.
Une analyse des causes profondes sera fournie la semaine suivante.
10 juin, 11h45 UTC
De plus, notre équipe de développement a signalé qu'aucune recommandation n'avait été renvoyée entre 8h00 et 10h30 UTC.
Ils travaillent toujours vers une résolution complète.
10 juin, 11h25 UTC
Notre équipe a appliqué un correctif sur le bouton Recalculer les tags et il fonctionne à nouveau comme prévu.
Un taux d'erreur accru sur l'API Recs peut être observé lors de la mise à niveau du système.
Nous ajouterons une mise à jour une fois le problème entièrement résolu sur notre site.
9 juin, 19h20 UTC
Un correctif a été appliqué et les fonctionnalités suivantes ont été restaurées :
- Les recommandations de batch email sont de retour en ligne
- Les imports de XO Search sont à nouveau opérationnelles
Notre équipe est toujours en train de finaliser le correctif du bouton Recalculer les tags. Il est prévu que le correctif soit appliqué pendant le week-end.
Une mise à jour sera également ajoutée lors de sa restauration.
9 juin, 17h15 UTC
Notre équipe travaille toujours pour résoudre le problème. Ils travaillent sur l'atténuation, mais cela pourrait prendre quelques heures. Une mise à jour sera ajoutée ici, une fois qu'il y aura des progrès sur notre site.
9 juin, 14h30 UTC
L'équipe de Crownpeak a identifié un problème avec un composant interne de la plate-forme XO, affectant à la fois Search XO et XO.
L'impact est comme indiqué ci-dessus :
- Les recommandations de batch email ne s'exécutent pas
- La possibilité de lancer un recalcul des tags depuis la console XO ne fonctionne pas
- L'import de nouveaux éléments du Catalogue pour XO Search. La Search fonctionne toujours mais les mises à jour sur les produits ne seront pas prises en compte
Notre équipe de développement travaille à la résolution. Une mise à jour sera bientôt ajoutée ici.
RAPPORT D'ANALYSE DES CAUSES FONDAMENTALES
Le 5 juin, la rotation obligatoire des certificats a eu lieu, le cluster ayant temporairement les nouveaux et les anciens certificats en place. Pour terminer la rotation des certificats (supprimer les anciens certificats), chaque partie des ressources dédiées est automatiquement recréée et mise à niveau pour utiliser la dernière version. Lorsque l'ancien certificat a expiré, il a été identifié que certaines des ressources n'avaient pas été recréées automatiquement, ce qui a entraîné l'utilisation par certains composants d'un certificat expiré et des échecs. À ce stade, cela a provoqué une interruption de XO Search, des recalculs de tags et des recommandations de batch email. Le 10 juin, des mesures manuelles ont été prises pour rétablir le service et terminer la rotation des certificats. Au cours de ces étapes manuelles, le processus a provoqué des échecs inattendus, y compris des échecs de proxy entre l'API XO et les recommandations XO, entraînant le non-retour des recommandations XO.
Options d'amélioration et éléments d'action
- Améliorer le suivi pour détecter l'absence de recommandations pour tous les locataires
- Améliorer le processus de mise à niveau des certificats pour gérer ce scénario avant de terminer la rotation des informations d'identification
Le document RCA complet est joint ci-dessous.
POUR PLUS D'INFORMATIONS
Toutes les informations actuellement disponibles sont incluses dans cet article. Nous continuerons à fournir des mises à jour sur le problème ici pendant que nous nous efforçons de résoudre l'incident.
Si vous avez enregistré un ticket avec nous, nous vous fournirons les mêmes informations dès que possible.
Le rapport de notre enquête d'analyse des causes profondes est généralement publié ici quelques jours après la résolution de l'incident. Si vous avez d'autres questions sur cet incident, veuillez créer un ticket avec nous.
Commentaires
0 commentaire
Cet article n'accepte pas de commentaires.