SRE ต้องดูทุกอย่าง กูเกิลเล่าประสบการณ์ดูแลศูนย์ข้อมูลพบเซิร์ฟเวอร์ "ล้อแตก"

Steve McGhee วิศวกรตำแหน่ง Solutions Architect เล่าถึงการทำงานของตำแหน่งงาน site reliability engineering (SRE) ใน Google Cloud โดยเล่าถึงเหตุการณ์เซิร์ฟเวอร์ load balancer หรือ GFE (Google front end) เริ่มทำงานผิดพลาด ทำให้ SRE ที่เข้าเวรได้รับการแจ้งเตือน

SRE ที่เข้าเวรดึงทราฟิกทั้งหมดออกจากเซิร์ฟเวอร์ที่มีปัญหาทันที จากนั้นไล่ตรวจสาเหตุตั้งแต่เน็ตเวิร์คไปจนถึงตัวเซิร์ฟเวอร์ พบข้อความแจ้งเตือนว่าเครื่องร้อนผิดปกติ ทำให้ซีพียูลดสัญญาณนาฬิกาลงเพื่อลดความร้อน เมื่อไล่ตรวจสอบกลุ่มเครื่องที่มีปัญหาพบว่าทั้งหมดอยู่ในตู้เดียวกัน ไม่มีปัญหากับเครื่องอื่น เมื่อไม่มีอะไรให้ตรวจสอบแล้ว SRE ก็แจ้งไปยังทีมจัดการฮาร์ดแวร์ ที่ส่งคนไปตรวจสอบเครื่อง และพบว่าตู้เซิร์ฟเวอร์ที่อัดเซิร์ฟเวอร์อยู่เต็มนั้น "ล้อแตก" จนทำให้เครื่องเอียง และระบบหล่อเย็นด้วยของเหลวไม่ทำงาน

ทีมฮาร์ดแวร์ซ่อมล้อและนำเซิร์ฟเวอร์กลับที่เดิม แต่งานของ SRE ยังคงทำต่อไปด้วยการตั้งคำว่าถามว่าปัญหานี้เกิดได้อย่างไร และแก้ไขได้อย่างไรบ้าง ทีมงานวิเคราะห์ว่ามีล้อที่มีความเสี่ยงแบบเดียวกันอยู่จำนวนเท่าใด และหลังจากนั้นก็ตัดสินใจส่งล้อชุดใหม่ออกไปซ่อมตู้เซิร์ฟเวอร์ทั้งหมดก่อนเกิดปัญหาอีก

McGhee สรุปแนวทางของ SRE ว่า "เหตุการณ์ที่ก่อปัญหาควรเป็นเหตุการณ์ใหม่" เสมอ ปัญหาทุกอย่างไม่ควรเป็นปัญหาที่เกิดซ้ำ และระบบตรวจสอบที่ครอบคลุม มีการความรับผิดชอบต่อปัญหาทำให้ศูนย์ข้อมูลมีเสถียรภาพมากขึ้น

ที่มา - Google Cloud Blog

No Description

No Description



from Blognone https://www.blognone.com/node/115247
via IFTTT