ইন্টারনেট থেকে আমাদের ডেটা সেন্টার বিচ্ছিন্ন হয়েছেঃ ফেসবুক
ফেসবুক বলেছে যে একটি কনফিগারেশন ত্রুটি একটি মূল নেটওয়ার্ক মেরুদণ্ডের সাথে তার সংযোগ ভেঙে দিয়েছে, ইন্টারনেট থেকে তার সমস্ত ডেটা সেন্টার সংযোগ বিচ্ছিন্ন করেছে এবং এর DNS সার্ভারগুলিকে নাগালের বাইরে রেখেছে।
ত্রুটির অস্বাভাবিকতায় ফেসবুক, ইনস্টাগ্রাম এবং হোয়াটসঅ্যাপের ওয়েব অপারেশনকে ব্যাপক বিভ্রান্তির মধ্যে ফেলে দেয় যা পাঁচ ঘন্টারও বেশি সময় ধরে চলে। কার্যত, ফেসবুক বলেছে, একক ত্রুটিপূর্ণ কমান্ড বিশ্বব্যাপী 7 বিলিয়নেরও বেশি অ্যাকাউন্ট দ্বারা ব্যবহৃত ওয়েব পরিষেবাগুলি বন্ধ করে দিয়েছে।
আউটেজের প্রাথমিক বাহ্যিক বিশ্লেষণ অনুযায়ী ইন্টারনেট রেকর্ড থেকে স্পষ্টভাবে দেখা গেছে ফেসবুকের ব্যাকবোন আউটেজের কারণে ফেসবুকের ডোমেইন নেম সার্ভার (DNS) এবং বর্ডার গেটওয়ে প্রোটোকল (BGP) -এর নেটওয়ার্ক রুট পরিবর্তন।
পরিকল্পিত নেটওয়ার্ক রক্ষণাবেক্ষণের সময়, "গ্লোবাল ব্যাকবোন ক্যাপাসিটির প্রাপ্যতা যাচাই করার উদ্দেশ্যে একটি কমান্ড জারি করা হয়েছিল, যা অনিচ্ছাকৃতভাবে আমাদের ব্যাকবোন নেটওয়ার্কের সমস্ত সংযোগ বিচ্ছিন্ন করে, বিশ্বব্যাপী ফেসবুক ডেটা সেন্টারগুলিকে কার্যকরভাবে বিচ্ছিন্ন করে দেয়," ফেসবুক ভিপি -র একটি ব্লগ পোস্ট থেকে জানা গেছে।
ভুল আদেশটি সাধারণত একটি অডিটিং টুল দ্বারা ধরা পড়ে, "কিন্তু সেই অডিট টুলের মধ্যে একটি বাগ সঠিকভাবে কমান্ডটি বন্ধ করে দেয়নি," ফেসবুক বলেছে।
ফেসবুক বিভ্রাটের প্রযুক্তিগত ওভারভিউ
এখানে ব্লগ পোস্টের বিভাগটি এই সমস্যাটি সম্পূর্ণভাবে ব্যাখ্যা করে যা আরও পরিস্কার ভাবে জানা যায়ঃ
এই সমস্ত কম্পিউটিং সুবিধার মধ্যে ডেটা ট্রাফিক রাউটার দ্বারা পরিচালিত হয়, যা সমস্ত ইনকামিং এবং আউটগোয়িং ডেটা কোথায় পাঠাতে হবে তা নির্ধারণ করে। এবং এই অবকাঠামো রক্ষণাবেক্ষণের কাজে, আমাদের প্রকৌশলীদের প্রতিনিয়ত রক্ষণাবেক্ষণের জন্য অফলাইনে অংশ নিতে হয় - ফাইবার লাইন মেরামত করা, আরও ক্ষমতা যোগ করা, অথবা রাউটারে সফ্টওয়্যার আপডেট করা।
এটি ছিল গতকালের বিভ্রান্তির উৎস। এই রুটিন রক্ষণাবেক্ষণের একটি কাজের সময়, গ্লোবাল ব্যাকবোন ক্যাপাসিটি প্রাপ্যতা যাচাই করার উদেস্যে একটি কমান্ড জারি করা হয়েছিল, যা অনিচ্ছাকৃতভাবে আমাদের ব্যাকবোন নেটওয়ার্কের সমস্ত সংযোগ বিচ্ছিন্ন করে, বিশ্বব্যাপী ফেসবুক ডেটা সেন্টারগুলিকে কার্যকরভাবে বিচ্ছিন্ন করে দেয়। আমাদের সিস্টেমগুলি এইরকম ভুলগুলি রোধ করার জন্য এইরকম কমান্ড অডিট করার জন্য ডিজাইন করা হয়েছে, কিন্তু সেই অডিট টুলের একটি বাগ সঠিকভাবে কমান্ডটি বন্ধ করেনি।
এই পরিবর্তনের ফলে আমাদের ডেটা সেন্টার এবং ইন্টারনেটের মধ্যে আমাদের সার্ভার সংযোগ সম্পূর্ণ বিচ্ছিন্ন হয়ে যায়। এবং যার ফলে একটি দ্বিতীয় সমস্যা সৃষ্টি করে যা জিনিসগুলিকে আরও খারাপ করে তোলে।
আমাদের ছোট সুবিধাগুলির দ্বারা সম্পাদিত কাজগুলির মধ্যে একটি হল ডিএনএস যোগাযোগ। ডিএনএস হল ইন্টারনেটের ঠিকানা, যা আমরা ব্রাউজারে টাইপ করা সাধারণ ওয়েব নামগুলিকে নির্দিষ্ট সার্ভার আইপি ঠিকানায় অনুবাদ করতে সক্ষম করে। সেই অনুবাদ প্রশ্নের উত্তরগুলি আমাদের অনুমোদিত নাম সার্ভারগুলির দ্বারা দেওয়া হয় যা নিজেরাই সুপরিচিত আইপি ঠিকানাগুলি দখল করে, যা অন্য ইন্টারনেটে সীমান্ত গেটওয়ে প্রোটোকল (BGP) নামে অন্য প্রোটোকলের মাধ্যমে কল দেওয়া হয়।
নির্ভরযোগ্য ক্রিয়াকলাপ নিশ্চিত করার জন্য, আমাদের DNS সার্ভারগুলি সেই BGP কল গুলিকে অক্ষম করে দেয় যদি তারা নিজেরাই আমাদের ডেটা সেন্টারগুলিতে প্রভাবিত করতে না পারে, কারণ এটি একটি অপিরিচিত নেটওয়ার্ক সংযোগের ইঙ্গিত। সাম্প্রতিক বিভ্রাটে পুরো গ্লোবাল ব্যাকবোন ক্যাপাসিটির থেকে সরিয়ে দেওয়া হয়েছিল, যার ফলে এই জায়গাগুলি নিজেদেরকে অপিরিচিত ঘোষণা করে এবং সেই বিজিপি কল গুলি প্রত্যাহার করে। শেষ ফলাফল হল যে আমাদের DNS সার্ভারগুলি বিছিন্ন হয়ে ওঠে যদিও তারা এখনও চালু ছিল। এর ফলে বাকি ইন্টারনেটের জন্য আমাদের সার্ভার খুঁজে পাওয়া অসম্ভব হয়ে পড়ে।
ম্যানুয়াল রিস্টার্ট আরও বিলম্ব বাড়ায়
পুনরুদ্ধার করা কঠিন হয়ে পড়ে কারণ সমস্ত ফেসবুকের ডেটা সেন্টার অ্যাক্সেসযোগ্য ছিল না, এবং ডিএনএস আউটেজ অনেক নেটওয়ার্ক টুলসকে আটকে রেখেছিল যা সাধারণত সমস্যাগুলি সমাধান করতে কঠিন হয়ে পড়ে।
রিমোট কানেকশন টুলস গুল উপলব্ধ ছিলনা, থাকায়, যার জন্য সিস্টেমগুলিকে ম্যানুয়ালি ডিবাগ এবং রিস্টার্ট করতে হয়। “সার্ভারে কাজ করতে সক্ষম হওয়ার জন্য প্রয়োজনীয় নিরাপদ অ্যাক্সেস প্রোটোকল সক্রিয় করতে অতিরিক্ত সময় লেগেছে । সার্ভারে কাজ করতে সক্ষম হলে তবেই আমরা বিষয়টি নিশ্চিত করতে পারব এবং আমাদের গ্লোবাল ব্যাকবোন অনলাইনে ফিরিয়ে আনতে পারব, ”বলেন জনার্দন।
একটি চূড়ান্ত সমস্যা হল কিভাবে ফেসবুকের বিশাল গ্লোবাল ডেটা সেন্টার নেটওয়ার্ক পুনরায় চালু করা যায় এবং অবিলম্বে অসংখ্য ট্রাফিক সামলাতে পারে। এটি একটি চ্যালেঞ্জ যা নেটওয়ার্ক লগজ্যামের ডাটা সেন্টার হার্ডওয়্যার এবং পাওয়ার সিস্টেমের বাইরে চলে যায়।
"এইরকম প্রতিটি ব্যর্থতা শেখার এবং আরও ভাল হওয়ার সুযোগ আনে, এবং এই থেকে আমাদের অনেক কিছু শেখার আছে," জনার্দন বলেছিলেন।