message posté le 8 mars 2013 à 01h45édité le 18 mars 2013 à 21h22 par dave8888
Comment appeler ca? Un foirage magistral? Un Waterloo titanesque ? Une apocalypse biblique numérique?
La situation actuelle peut se décrire en un seul mot : Catastrophique.
EA n'arrive tout simplement pas à corriger les problèmes de serveurs sur SimCity.
Pourtant plusieurs décisions "majeures" ont été prises.
La première d'entre tous, et celle qui a l'impact le plus important aux yeux EA : la limitation des ventes afin de ralentir autant que possible l'arrivée de nouveaux joueurs. Sachant que pour une boite comme EA, la magie de la vente à lieu les premières semaines, une telle décision révèle l'état de panique général dans l'état major. Sans parler que les chiffres de ventes de la première semaine à un impact psychologique sur les consommateurs. Ce sont des centaines de milliers de dollars qui foutent le camp tout simplement.
Cette décision n’a pas été prise à la légère, elle est remontée dans les plus hautes strates de la direction et inutile de vous dire que des gens vont être virés pour ca ! Ainsi donc, au vu de l’incapacité à gérer la situation, la décision fut prise de ne plus livrer les boutiques tierces en clés numériques. L’information a été envoyée à tout le monde par un simple mail : on ne vous livrera pas de nouvelles clés et nous ne savons pas quand nous pourrons vous en donner plus. Alors n’en vendez plus !
Sans concertation, sans excuse. Cette décision n’a pas pu être appliquée immédiatement, certains sites ont mis du temps à réagir, et ont vendu un stock qu’ils n’avaient pas. Pire, certains de ses sites ont commandés des clés… il y a plusieurs jours déjà se retrouve embarqués dans cette histoire car EA ne les livrera pas non plus.
Résultat : Panique chez les distributeurs. Car rembourser un client est une chose… en rembourser des centaines ou des milliers… ce n’est pas pareil. Un remboursement, c’est l’une des choses les plus compliqué en entreprise… alors là c’est le jackpot pour les comptables qui vont avoir pas mal d’heures sup’ pour revoir cela!
Inutile d’ajouter que cette décision va avoir un impact sur les relations entre les distributeurs et EA. Et bien que EA a sans doute limité sa responsabilité avec nombres d’entre eux, il n’y a pas de doute à avoir sur le fait que certains distributeurs vont lui faire payer chèrement ces retours, et lui enverrons la note des remboursements et du coût des ventes ratées en conséquence.
La deuxième décision majeure est la mise en place de la nouvelle mise à jour de SimCity (la 1.2, déjà), qui est comme aimait le dire Jacques Chirac : Abracadabrantesque.
Afin de limiter le plus possible l'utilisation des ressources, EA vient simplement de désactiver plusieurs fonctions du jeu.
Les filtres de région, le classement mondial.
Mais plus curieux, la vitesse "cheeta" (la plus rapide du jeu) a été désactivée. Pourquoi? Et bien lorsque vous êtes en mode cheeta, vous avancez rapidement... ce qui fait que le jeu doit envoyer plus de données à chaque itération (Rappel : le jeu ne sauvegarde pas en local, mais sur les serveurs EA).
On bride donc votre évolution en espérant que cela allégera le nombre de données à renvoyer au serveur. Cela tient simplement de la croyance… car en fait les techniciens ont déjà tout tentés… et à moins de rajouter plus de serveurs, plus de bande passante… il n’y a rien de plus à faire. Alors quitte à tenter le tout pour le tout… limitons la vitesse et coupons les aspects multijoueurs, avec l’espoir que les joueurs ne changeront pas trop vite leur ville que les ressources réclamés par joueur coté serveur baisse.
Revenons sur cette incroyable faillite pour EA.
Un coup de malchance? Une jonction incroyable d'emmerdement? Car à l'origine, le problème SimCity n'était pas seul. Il est arrivé en même temps qu'un bug sur le logiciel Origin.
Pour rappel, Origin est la plateforme EA qui permet la vente de jeu, la communication entre joueur et... le point d'entrée pour pouvoir jouer.
Le problème, c'est que, par une bourde de quelqu'un, et alors qu’il s’agit d’un jeu « AAA » comme aime le dire les anglo-saxon, un gros jeu qui va drainer beaucoup de monde, il n’y a pas eu de pré-téléchargement pour ce jeu. Résultats, des milliers de joueurs ont débutés leur téléchargement à la même seconde au lieu d’étaler cela sur plusieurs heures ou jour.
A partir de cette fameuse seconde, la machine s’emballe, et en quelques heures les serveurs sont tombés et Origin s’est mis hors ligne empêchant n’importe qui de débuter un jeu ou un téléchargement, que celui-ci concerne SimCity ou pas. L’effondrement a touché en particulier le système de validation, ainsi, alors que les clés devaient débloquer le jeu à minuit et une minute, comme le système était mort, certains n’ont pu débuter le téléchargement avant que quelqu’un relance le système…. Approximativement 10h plus tard. De nombreux joueurs quant à eux se sont retrouvés dans l’incapacité de débuter une partie, leur jeu refusant de démarrer.
Quoi qu’il en soit, des milliers de joueurs ont quand même plus débutés le téléchargement avant que le système d’authentification des jeux s’effondre.
Et cette vague de joueurs s’est retrouvée ensuite sur les serveurs largement sous dimensionnés de SimCity, qui comme ceux d’Origin… se sont effondrées en quelques heures à leur tour.
L’autre bug qui est arrivé avec Origin était malheureusement présent plusieurs jours avant. En effet les besoins de ressources par joueurs ont été très sous-estimés par Maxis.
Cette forte sous estimation semble venir du jeu lui-même qui par de nombreux bugs sollicitent trop souvent les serveurs, trop fréquemment. Qui est responsable ? Maxis avec une erreur de programmation ? EA qui a demandé justement que le système surveille tout les x temps le serveur ?
Il n’y a pas si longtemps, lors d’une session Reedit les développeurs avaient expliqués que SimCity serait en mesure de supporter une perte de connexion à internet. Or il est avéré que ce n’est pas le cas. Si une déconnexion est découverte, dans le meilleur des cas, votre partie s’interrompt et vous devez reprendre depuis votre dernière sauvegarde, et dans le pire cas… le jeu plante simplement.
Le code permettant d’éviter cela fonctionne t-il ? Voir existe-t-il ? Je l’ignore. Mais il est clair qu’une procédure de test capitale a été oubliée.
Comment Maxis n’a-t-il pas pu le voir durant la bêta ? Et bien la réponse est oui, Maxis ne l’a pas vu car durant la bêta, il n’y a pas eu de sauvegarde vers les serveurs, il n’y avait que l’authentification qui était actif. Et c’est là le problème… Maxis n’a jamais testé en grandeur nature la phase la plus « critique » : la sauvegarde, c’est pourtant elle qui bouffe les ressources serveurs.
Ainsi, comment expliquer que si le serveur et le jeu se désynchronise, le serveur ne soit plus en mesure de vous récupérer à la synchronisation suivante et qu’on ne vous propose que deux choix : relancer votre partie depuis la dernière sauvegarde ? Comment une telle aberration à telle pu ne pas se voir ? C’est ahurissant.
Après, il y a aussi des problèmes chez EA, et leurs fermes de serveurs. Certains appelleront ca de l’amateurisme. D’autres diront : gérer les clusters de serveurs c’est un métier. Le système qui gère les serveurs de SimCity semble aussi être erroné.
Dans le monde magique des fermes de serveurs, les serveurs sont regroupés par « pole ». Ces pôles sont supervisés par des programmes de contrôles qui doivent gérer la charge de ses pôles et savoir quoi faire quand un serveur ne fonctionne plus.
Dans la théorie : lorsqu’un serveur crash, ce programme de contrôle l’indique hors ligne, renvoie vers plus haut en indiquant qu’à partir de maintenant le pole X acceptera moins de personnes, et enfin envoie un mail pour qu’un technicien passe regarder le serveur en panne.
Au passage et c’est le plus important, le programme de contrôle tâche de repartir la charge des joueurs déjà présent sur le pôle en utilisant les serveurs restants du même pole, augmentant alors la charge de ses autres serveurs déjà fort occupés.
Or ici, il semble que des serveurs ont crashés… le programme à fait son boulot, et a tenter de se débrouiller avec les serveurs restants… qui ont lâchés à leur tour, logique quand on sait que Maxis s’est planté dans les besoins par utilisateurs. Et rapidement c’est tout un pôle qui s’est désactivé, le programme annonçant : « erreur majeure », puis en fait beaucoup d’autres pôles ont fait de même. Résultat globalement, ce sont des fermes de serveurs qui se sont retrouvés en infériorité numérique très importante, alors que le nombre de joueurs était constant : c’est l’effet domino.
Alors si d’une part, Maxis a sous estimé les besoins, et que de l’autre, les fermes présentes ne sont pas tous opérationnel… la situation est simplement inextricable.
De ce que j’ai compris, EA a mobilisé les équipes de techniciens… qui je pense ont simplement dit quelque chose dans ce genre : si les serveurs crashent, c’est parce qu’ils sont trop sollicités. Si on veut éviter cela, il faut réduire le nombre de joueurs par serveur en attendant que Maxis trouve une solution.
Les équipes techniques ont passé la journée, et sans doute le week end, à ajouter de nouveaux serveurs et pôles de serveurs, à reconfigurer les serveurs existants, et à redémarrer ceux qui crashent régulièrement. Petite pensée à eux donc, qui vont passer un remarquable week end de merde en perspective.
Voilà donc la situation actuelle : des bourdes en cascades qui amènent fatalement au fiasco actuel.
Qui est responsable ? Maxis pour ne pas avoir fait des tests suffisant sur la sauvegarde et n’avoir pas pris la mesure de ces trop nombreuses demandes réalisée
EA, pour ne pas avoir pris des mesures de précaution alors que la gestion des serveurs est devenue leur cœur de métier. On ne peut pas se vanter d’être une société de jeu « multijoueur » quand on ne vérifie pas non plus ce que fournie les équipes de développement en terme de ressources serveurs.
Origin, qui par une bourde, a permis aux bugs d’arriver plus vite qu’il ne l’aurait été dans une autre configuration.
La situation actuelle peut se décrire en un seul mot : Catastrophique.
EA n'arrive tout simplement pas à corriger les problèmes de serveurs sur SimCity.
Pourtant plusieurs décisions "majeures" ont été prises.
La première d'entre tous, et celle qui a l'impact le plus important aux yeux EA : la limitation des ventes afin de ralentir autant que possible l'arrivée de nouveaux joueurs. Sachant que pour une boite comme EA, la magie de la vente à lieu les premières semaines, une telle décision révèle l'état de panique général dans l'état major. Sans parler que les chiffres de ventes de la première semaine à un impact psychologique sur les consommateurs. Ce sont des centaines de milliers de dollars qui foutent le camp tout simplement.
Cette décision n’a pas été prise à la légère, elle est remontée dans les plus hautes strates de la direction et inutile de vous dire que des gens vont être virés pour ca ! Ainsi donc, au vu de l’incapacité à gérer la situation, la décision fut prise de ne plus livrer les boutiques tierces en clés numériques. L’information a été envoyée à tout le monde par un simple mail : on ne vous livrera pas de nouvelles clés et nous ne savons pas quand nous pourrons vous en donner plus. Alors n’en vendez plus !
Sans concertation, sans excuse. Cette décision n’a pas pu être appliquée immédiatement, certains sites ont mis du temps à réagir, et ont vendu un stock qu’ils n’avaient pas. Pire, certains de ses sites ont commandés des clés… il y a plusieurs jours déjà se retrouve embarqués dans cette histoire car EA ne les livrera pas non plus.
Résultat : Panique chez les distributeurs. Car rembourser un client est une chose… en rembourser des centaines ou des milliers… ce n’est pas pareil. Un remboursement, c’est l’une des choses les plus compliqué en entreprise… alors là c’est le jackpot pour les comptables qui vont avoir pas mal d’heures sup’ pour revoir cela!
Inutile d’ajouter que cette décision va avoir un impact sur les relations entre les distributeurs et EA. Et bien que EA a sans doute limité sa responsabilité avec nombres d’entre eux, il n’y a pas de doute à avoir sur le fait que certains distributeurs vont lui faire payer chèrement ces retours, et lui enverrons la note des remboursements et du coût des ventes ratées en conséquence.
La deuxième décision majeure est la mise en place de la nouvelle mise à jour de SimCity (la 1.2, déjà), qui est comme aimait le dire Jacques Chirac : Abracadabrantesque.
Afin de limiter le plus possible l'utilisation des ressources, EA vient simplement de désactiver plusieurs fonctions du jeu.
Les filtres de région, le classement mondial.
Mais plus curieux, la vitesse "cheeta" (la plus rapide du jeu) a été désactivée. Pourquoi? Et bien lorsque vous êtes en mode cheeta, vous avancez rapidement... ce qui fait que le jeu doit envoyer plus de données à chaque itération (Rappel : le jeu ne sauvegarde pas en local, mais sur les serveurs EA).
On bride donc votre évolution en espérant que cela allégera le nombre de données à renvoyer au serveur. Cela tient simplement de la croyance… car en fait les techniciens ont déjà tout tentés… et à moins de rajouter plus de serveurs, plus de bande passante… il n’y a rien de plus à faire. Alors quitte à tenter le tout pour le tout… limitons la vitesse et coupons les aspects multijoueurs, avec l’espoir que les joueurs ne changeront pas trop vite leur ville que les ressources réclamés par joueur coté serveur baisse.
Revenons sur cette incroyable faillite pour EA.
Un coup de malchance? Une jonction incroyable d'emmerdement? Car à l'origine, le problème SimCity n'était pas seul. Il est arrivé en même temps qu'un bug sur le logiciel Origin.
Pour rappel, Origin est la plateforme EA qui permet la vente de jeu, la communication entre joueur et... le point d'entrée pour pouvoir jouer.
Le problème, c'est que, par une bourde de quelqu'un, et alors qu’il s’agit d’un jeu « AAA » comme aime le dire les anglo-saxon, un gros jeu qui va drainer beaucoup de monde, il n’y a pas eu de pré-téléchargement pour ce jeu. Résultats, des milliers de joueurs ont débutés leur téléchargement à la même seconde au lieu d’étaler cela sur plusieurs heures ou jour.
A partir de cette fameuse seconde, la machine s’emballe, et en quelques heures les serveurs sont tombés et Origin s’est mis hors ligne empêchant n’importe qui de débuter un jeu ou un téléchargement, que celui-ci concerne SimCity ou pas. L’effondrement a touché en particulier le système de validation, ainsi, alors que les clés devaient débloquer le jeu à minuit et une minute, comme le système était mort, certains n’ont pu débuter le téléchargement avant que quelqu’un relance le système…. Approximativement 10h plus tard. De nombreux joueurs quant à eux se sont retrouvés dans l’incapacité de débuter une partie, leur jeu refusant de démarrer.
Quoi qu’il en soit, des milliers de joueurs ont quand même plus débutés le téléchargement avant que le système d’authentification des jeux s’effondre.
Et cette vague de joueurs s’est retrouvée ensuite sur les serveurs largement sous dimensionnés de SimCity, qui comme ceux d’Origin… se sont effondrées en quelques heures à leur tour.
L’autre bug qui est arrivé avec Origin était malheureusement présent plusieurs jours avant. En effet les besoins de ressources par joueurs ont été très sous-estimés par Maxis.
Cette forte sous estimation semble venir du jeu lui-même qui par de nombreux bugs sollicitent trop souvent les serveurs, trop fréquemment. Qui est responsable ? Maxis avec une erreur de programmation ? EA qui a demandé justement que le système surveille tout les x temps le serveur ?
Il n’y a pas si longtemps, lors d’une session Reedit les développeurs avaient expliqués que SimCity serait en mesure de supporter une perte de connexion à internet. Or il est avéré que ce n’est pas le cas. Si une déconnexion est découverte, dans le meilleur des cas, votre partie s’interrompt et vous devez reprendre depuis votre dernière sauvegarde, et dans le pire cas… le jeu plante simplement.
Le code permettant d’éviter cela fonctionne t-il ? Voir existe-t-il ? Je l’ignore. Mais il est clair qu’une procédure de test capitale a été oubliée.
Comment Maxis n’a-t-il pas pu le voir durant la bêta ? Et bien la réponse est oui, Maxis ne l’a pas vu car durant la bêta, il n’y a pas eu de sauvegarde vers les serveurs, il n’y avait que l’authentification qui était actif. Et c’est là le problème… Maxis n’a jamais testé en grandeur nature la phase la plus « critique » : la sauvegarde, c’est pourtant elle qui bouffe les ressources serveurs.
Ainsi, comment expliquer que si le serveur et le jeu se désynchronise, le serveur ne soit plus en mesure de vous récupérer à la synchronisation suivante et qu’on ne vous propose que deux choix : relancer votre partie depuis la dernière sauvegarde ? Comment une telle aberration à telle pu ne pas se voir ? C’est ahurissant.
Après, il y a aussi des problèmes chez EA, et leurs fermes de serveurs. Certains appelleront ca de l’amateurisme. D’autres diront : gérer les clusters de serveurs c’est un métier. Le système qui gère les serveurs de SimCity semble aussi être erroné.
Dans le monde magique des fermes de serveurs, les serveurs sont regroupés par « pole ». Ces pôles sont supervisés par des programmes de contrôles qui doivent gérer la charge de ses pôles et savoir quoi faire quand un serveur ne fonctionne plus.
Dans la théorie : lorsqu’un serveur crash, ce programme de contrôle l’indique hors ligne, renvoie vers plus haut en indiquant qu’à partir de maintenant le pole X acceptera moins de personnes, et enfin envoie un mail pour qu’un technicien passe regarder le serveur en panne.
Au passage et c’est le plus important, le programme de contrôle tâche de repartir la charge des joueurs déjà présent sur le pôle en utilisant les serveurs restants du même pole, augmentant alors la charge de ses autres serveurs déjà fort occupés.
Or ici, il semble que des serveurs ont crashés… le programme à fait son boulot, et a tenter de se débrouiller avec les serveurs restants… qui ont lâchés à leur tour, logique quand on sait que Maxis s’est planté dans les besoins par utilisateurs. Et rapidement c’est tout un pôle qui s’est désactivé, le programme annonçant : « erreur majeure », puis en fait beaucoup d’autres pôles ont fait de même. Résultat globalement, ce sont des fermes de serveurs qui se sont retrouvés en infériorité numérique très importante, alors que le nombre de joueurs était constant : c’est l’effet domino.
Alors si d’une part, Maxis a sous estimé les besoins, et que de l’autre, les fermes présentes ne sont pas tous opérationnel… la situation est simplement inextricable.
De ce que j’ai compris, EA a mobilisé les équipes de techniciens… qui je pense ont simplement dit quelque chose dans ce genre : si les serveurs crashent, c’est parce qu’ils sont trop sollicités. Si on veut éviter cela, il faut réduire le nombre de joueurs par serveur en attendant que Maxis trouve une solution.
Les équipes techniques ont passé la journée, et sans doute le week end, à ajouter de nouveaux serveurs et pôles de serveurs, à reconfigurer les serveurs existants, et à redémarrer ceux qui crashent régulièrement. Petite pensée à eux donc, qui vont passer un remarquable week end de merde en perspective.
Voilà donc la situation actuelle : des bourdes en cascades qui amènent fatalement au fiasco actuel.
Qui est responsable ? Maxis pour ne pas avoir fait des tests suffisant sur la sauvegarde et n’avoir pas pris la mesure de ces trop nombreuses demandes réalisée
EA, pour ne pas avoir pris des mesures de précaution alors que la gestion des serveurs est devenue leur cœur de métier. On ne peut pas se vanter d’être une société de jeu « multijoueur » quand on ne vérifie pas non plus ce que fournie les équipes de développement en terme de ressources serveurs.
Origin, qui par une bourde, a permis aux bugs d’arriver plus vite qu’il ne l’aurait été dans une autre configuration.
Jeux de gestion addict!