Dapatkan Info Terbaru

Pelajaran dari Gangguan Massal Internet pada Operator Optus Australia

Nov, 17 2023|Aris C. Risdianto

Apakah Anda mengetahui bagaimana kejadian Internet outage atau gangguan Internet dari operator telekomunikasi terbesar di Australia yaitu Optus Network (AS4804)?

Gangguan ini menyebabkan hilangnya koneksi Internet bagi jutaan pelanggan Internet di hampir seluruh Australia, loh! Yang kemungkinan besar disebabkan karena adanya masalah kebocoran perutean atau Route Leak yang tidak bisa ditangani oleh jaringan internal mereka. Berikut adalah sepenggal penjelasan resmi dikeluarkan operator tersebut untuk menjelaskan penyebab gangguan:

“Hari rabu pagi sekitar pukul 4:05, jaringan Optus menerima perubahan informasi perutean dari jaringan peering internasional setelah adanya pembaharuan software secara rutin. Perubahan informasi perutean ini menyebar melalui beberapa lapisan dalam jaringan kami dan melampaui tingkat keamanan yang telah ditetapkan pada perangkat router utama yang tidak dapat menangani besarnya perubahan ini. Hal ini mengakibatkan router tersebut terputus dari jaringan utama dari Optus IP Core untuk melindungi dirinya sendiri dari kegagalan.”

Ada beberapa sumber informasi jaringan eksternal yang dapat digunakan untuk memverifikasi kronologi atau penyebab gangguan tersebut. Pertama, informasi tentang trafik Internet ke jaringan internal Optus (AS4804) seperti yang disediakan oleh penyedia layanan monitoring Kentik, yang memperlihatkan bahwa gangguan dimulai sekitar pukul 17.04 UTC, dimana trafik ke semua lokasi jaringan Optus mengalami penurunan yang signifikan (mendekati 90%) dan berakhir setelah enam jam kemudian.

Kemudian karena gangguan bersifat sangat masif dan hampir terjadi disemua jaringan yang dikelola oleh Optus maka informasi selanjutnya yang perlu didapatkan adalah kondisi perutean BGP pada saat itu seperti yang dapat diperoleh melalui layanan dari Kentik dan IODA tool. Informasi dari Kentik menunjukkan bahwa prefiks dari Optus (AS4804) ditarik (withdrawn) atau tidak di advertise ke jaringan eksternal melalui protokol BGP. Namun anehnya hal itu tidak terjadi pada semua prefiks, ada prefiks yang ditarik seperti prefik 49.2.0.0/15, namun ada juga yang tidak ditarik seperti prefik 49.3.0.0/17. Silahkan melihat gambar dibawah ini sebagai perbandingan bagaimana kondisi perutean kedua prefiks tersebut pada saat terjadinya gangguan.

Oleh karena itu, langkah selanjutnya adalah mencari kemungkinan adanya anomali perilaku dari protokol BGP AS4804 pada waktu terjadinya gangguan. Data yang dapat digunakan antara lain data dari CloudFlare Radar yang menunjukkan adanya lonjakan rute advertisement dari AS4804 seperti yang ditunjukkan dalam gambar dibawah ini.

Namun seperti yang dijelaskan dalam artikel sumber bahwa lonjakan ini bukanlah penyebab utama gangguan, namun justru merupakan konsekuensi dari adanya penarikan rute dari AS4804. Karena secara kinerja dari BGP, setiap adanya perubahan perutean (baik yang ditarik atau yang ditambah) maka akan menyebabkan perangkat router BGP mengirimkan pesan BGP announcement (atau BGP UPDATE untuk lebih tepatnya) agar router BGP lainnya bisa menerima rute baru atau memberikan rute terkini yang hilang. 

Nah, secara umum kesimpulan dari kronologi gangguan dan pelajaran yang bisa diambil dari kejadian gangguan jaringan Optus AS4804 adalah:

  1. Selalu adanya kemungkinan bahwa jaringan eksternal yang terhubung ke sebuah jaringan internal akan mengirimkan informasi rute yang sangat besar ke jaringan internal dan membebani router internal sehingga dapat mematikan jaringan mereka.
  2. Jaringan manapun yang bertukar lalu lintas di Internet harus mampu menangani kemungkinan skenario kebocoran rute dari rekanan ke jaringan tersebut (bahkan jika jaringan tersebut merupakan anak perusahaan lain dari perusahaan induknya, kesalahan seperti ini tetap selalu bisa terjadi).
  3. Selain memfilter rute yang diterima dari rekanan, setiap jaringan setidaknya harus menggunakan semacam pengaturan pemutus sirkuit pada BGP (atau yang dikenal sebagai maksimum prefiks atau MAXPREF) untuk mematikan sesi BGP jika jumlah rute melebihi jumlah yang telah ditentukan.
  4. Meskipun ada kemungkinan jaringan internal sudah menggunakan MAXPREF tetapi menggunakan batas yang lebih tinggi pada border router dibandingkan batas untuk router internal bisa menyebabkan lonjakan rute melalui border router akan menghapus sesi BGP di jaringan internal. Selain itu pada saat nilai MAXPREF tercapai, router dapat dikonfigurasi untuk secara otomatis membangun kembali sesi BGP setelah menunggu interval percobaan ulang atau akan dimatikan “selamanya” dan menunggu intervensi manual. Ada juga beberapa perangkat router (seperti Cisco) yang memiliki perilaku bawaan untuk mematikan sesi BGP selamanya jika nilai MAXPREF tercapai.
  5. Kesalahan akan sering terjadi dalam perutean internet. Oleh karena itu, setiap jaringan harus melakukan pemeriksaan untuk mencegah kegagalan yang sangat besar (misalnya dengan mengikuti panduan MANRS), dan nampaknya jaringan Optus AS4804 terlewat untuk melakukan hal tersebut.

Sumber:
https://www.kentik.com/blog/digging-into-the-optus-outage/
https://www.reuters.com/business/media-telecom/singtel-owned-optus-says-massive-australia-outage-was-after-software-upgrade-2023-11-13/
https://ioda.inetintel.cc.gatech.edu/
https://radar.cloudflare.com/

Kontributor: Aris C. Risdianto