Cloud hosting Enterprise - Beberapa hari yang lalu cloud milik Google offline, di
mana-mana selama 18 menit. Sekarang anak Alphabet telah menjelaskan mengapa hal
itu terjadi dan meminta maaf secara pribadi yang ditulis dengan judul " Veep
for 24x7" oleh Benjamin Treynor
Sloss.
Dan benar saja hal itu adalah judul nyata dari postingan Sloss.
Sloss mengatakan masalah dimulai ketika "insinyur menghapus
sebuah Google Compute Engine (GCE) blok IP yang tidak terpakai dari konfigurasi
jaringan kami, dan menginstruksikan sistem otomatis Google untuk menyebarkan
konfigurasi baru di seluruh jaringan kami. Compute Engine adalah layanan cloud bahwa Google telah diluncurkan untuk bersaing head-to-head dengan Amazon Web Services EC2, di mana perusahaan dapat menyewa ruang pada komputer Google yang dapat diakses melalui internet. Google mengumumkan blok IP itu
digunakan untuk membantu lalu lintas ke awan.
Pada kesempatan ini, propagasi gagal karena penghapusan
kekhasan waktu di IP blok. Blok IP telah dihapus dari satu file konfigurasi,
tetapi perubahan ini belum disebarkan ke file konfigurasi kedua yang juga digunakan dalam manajemen
konfigurasi jaringan.
Ketika propagasi gagal, Google biasanya gagal ke konfigurasi
di tempat sebelum blok baru ditambahkan. Namun pada kesempatan ini perangkat lunak bug sebelumnya tak terlihat dipicu, dan bukannya
mempertahankan konfigurasi sebelumnya yang dikenal bagus, manajemen perangkat
lunak justru menghapus semua blok di GCE IP dari konfigurasi baru dan mulai mendorong konfigurasi
lengkap ini ke jaringan. "
Google mengatakan ia memiliki "langkah kenari"
yang dirancang untuk menangkap messes yang telah dijelaskan sebelumnya. Tapi kenari memiliki bug dan dengan demikian sistem
dorong menyimpulkan bahwa konfigurasi baru telah berlaku dan mulai melakukan rollout
progresif.
Setelah konfigurasi baru mencapai bit Google di seluruh dunia orang-orang yang menerima
informasi tak berguna berhenti menginformasikan blok IP mereka, yang membuatnya agak
sulit untuk menjangkau mereka. Pada titik ini, cloud dari Google bekerja dengan baik
karena lalu lintas dari pusat data tidak terjangkau dan dialihkan ke yang lain.
Tapi informasi konfigurasi IP telah bergerak dari gudang bit ke gudang bit
lainnya, serta menariknya dari net.
Pemadaman selama 18 menit merupakan sejarah pemadaman awan yang
tidak disangka-sangka.
Google mengatakan dengan kejadian ini menemukan bug di software
konfigurasi jaringan yang bertanggung jawab atas kekacauan ini, yang telah membuat 14 perubahan rekayasa yang berbeda yang direncanakan
untuk mencakup pencegahan, deteksi dan mitigasi.
0 komentar:
Posting Komentar