Wpis z mikrobloga

#devops #docker
Siema Mirki! W robocie korzystamy z Docker Swarm i ostatnio pojawił się dosyć uciążliwy problem. Nasz stack składa się z kilku naszych serwisów + monitoring (Consul, Prometheus). Co jakiś czas niektóre z serwisów zaczynają nagle zużywać 100% CPU i sprawiają wrażenie jakby się zawiesiły. Zrestartowanie dockera z poziomu systemu (lub nawet całego serwera) pomaga na jakiś czas, ale problem ciągle wraca. Z racji braku doświadczenia w administracji serwerami, nie za bardzo wiem jak można by ugryźć szukanie przyczyny tych zdarzeń. Czy macie może jakieś sugestie?
  • 2
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@Klicker: Problem w tym, że z zewnątrz to wygląda jakby te aplikacje zaczynały się zawieszać przypadkowo. Tym bardziej, że są to zarówno serwisu monitorujące, jak i leciutkie serwisy przetwarzające eventy. Swarmpit nie pokazuje nic nadzwyczajnego jeżeli chodzi o parametry chociażby pamięci. Logi tez nie mówią nic konkretnego. Jakieś pomysły może w jaki sposób monitorować to dla samego serwera?
  • Odpowiedz