Wpis z mikrobloga

Jakby kogoś interesowało to facebook chwilił się trzy miesiące temu jak działa ich obecnie niedziałający routing BGP

https://web.archive.org/web/20210519182333/https://engineering.fb.com/2021/05/13/data-center-engineering/bgp/

Ciekawy fragment:

To support the growing scale and evolving routing requirements, our switch-level BGP agent needs periodic updates to add new features, optimization, and bug fixes. To optimize this process (i.e., to ensure fast, frequent changes to the network infrastructure to support good route processing performance), we implemented an in-house BGP agent. We keep the codebase simple and implement only the necessary protocol features required in our data center, but we do not deviate from the BGP specifications.

To minimize impact on production traffic while achieving high release velocity for the BGP agent, we built our own testing and incremental deployment framework, consisting of unit testing, emulation, and canary testing. We use a multi-phase deployment pipeline to push changes to agents.


Mają na przełącznikach (routerach) własnego agenta BGP którego sami tworzą, ale modyfikują go często, więc stworzyli automatyczny mechanizm który buduje i testuje, a potem dostarcza kod na produkcję.

Moja hipoteza: Automatyczne testy były dziurawe i ich własny agent BGP przeszedł testy, ale się posypał gdy trafił na produkcję.

#siecikomputerowe #sieci #it #facebook
  • 9
  • Odpowiedz
@maniac777: Bardzo możliwe. Ja myślę, że awaria mogła pójść też na ich wewnętrzne systemy np. komunikator, source control, przez co naprawa jest znacznie utrudniona. Praca zdalna i śmierć głównego środka komunikacji między pracownikami to nic dobrego.
  • Odpowiedz
@Czarku: Jest chyba jeszcze gorzej. Jeżeli wierzyć randomom z Twitera pracownicy Facebook nie mogą dostać się do biur bo system kontroli dostępu też im padł i nie czyta ich kart.
  • Odpowiedz
Jeżeli wierzyć randomom z Twitera pracownicy Facebook nie mogą dostać się do biur bo system kontroli dostępu też im padł i nie czyta ich kart.


@maniac777: Jestem ubawiona. A jakby tak był blackout?
  • Odpowiedz
@maniac777: Raczej wątpie. Nawet jak BGP zawiedzie - to zaterminowanie sesji BGP odbywa się zawsze z użyciem jakiegoś router-servera. Problem polega na tym, że wszystkie sesje BGP poszły się paść w tym samym momencie. A wątpie, żeby ktoś odważył się tego nie testować i puścić aktualizację automatyczną dla wszystkich sesji BGP na całym świecie.
  • Odpowiedz
@brokenik: Pisałem pod względem sieciowym. Sprawdziłem kilka adresów z niewycofanych prefiksów i tam coś faktycznie nawet czasem odpowiada więc sieciowo przynajmniej do poziomu L3 prawdopodobnie w większości stoją. Ale od DNS będzie w takiej infrastrukturze zależne niemal wszystko począwszy od dostępu do LDAPa, Radiusa, TACACS'a czy czego tam używają w celu uwierzytelnienia się na przełącznikach, przez LB do serwerów aplikacyjnych czy łączność aplikacji z innymi komponentami, po głupie karty dostępu
  • Odpowiedz