Những lý do dẫn đến sập Data Center

Các nhà khai thác dữ liệu đôi khi mắc phải các lỗi có thể dẫn đến việc toàn bộ trung tâm dữ liệu dừng hoạt động. Tuy nhiên, hầu hết các sự cố này đều có thể tránh được thông qua các biện pháp bảo trì, thủ tục kiểm tra và bởi chính cảm giác và kinh nghiệm của những người vận hành hệ thống.

Một "trung tâm dữ liệu bị mất điện ngoài ý muốn" là một cách nói lịch sự khi nói về việc một trung tâm dữ liệu gặp trục trặc dẫn đến ngừng hoạt động. Cho dù nguyên nhân gốc rễ là bắt nguồn từ lỗi phần cứng, lỗi phần mềm hay lỗi của con người đi chăng nữa thì hầu hết các lỗi này đều có thể, và nên được ngăn chặn từ trước. Với mức độ dự phòng rủi ro cao được áp dụng trong các trung tâm dữ liệu ngày nay, việc phòng ngừa trước các sự cố là hoàn toàn khả thi.

Có một điều thú vị là, các lỗi to nhỏ vẫn có thể xảy ra mọi lúc trong một trung tâm dữ liệu, và những thiệt hại gây ra khi các trung tâm dữ liệu ngừng hoạt động là không hề nhỏ, dù là chỉ trong một phút. Theo một nghiên cứu của Data Center Knowledge, việc ngừng hoạt động của trung tâm dữ liệu có thể khiến doanh nghiệp tốn khoảng 7.900 USD mỗi phút. Trong thực tế, 93% các công ty có trung tâm dữ liệu bị downtime trong 10 ngày hoặc hơn đều phá sản trong vòng một năm và 40% sụp đổ ngay lập tức. Và một nghiên cứu khác trên 41 trung tâm dữ liệu được đánh giá cho thấy thiệt hại trung bình của các sự cố dừng hoạt động ngoài ý muốn bao gồm hơn 179 nghìn đô la trong gián đoạn kinh doanh, khoảng 118 nghìn đô la trong doanh thu bị mất và khoảng 42 nghìn đô la về hiệu suất làm việc. Nếu các nhà quản lý trung tâm dữ liệu chỉ đơn giản là tập trung hơn vào việc nghiên cứu và khắc phục các nguyên nhân chính gây ra các lỗi thường gặp, họ sẽ làm giảm được đáng kể những nguy cơ tiềm ẩn.

Trung tâm dữ liệu

Vấn đề là ở chỗ rất nhiều nhà khai thác và vận hành trung tâm dữ liệu thường chỉ tập trung nhiều vào tăng trưởng, doanh thu thay vì bảo trì và củng cố những gì đã có sẵn. Nếu bạn để ý các quản trị viên ở nhiều trung tâm dữ liệu công cộng và riêng tư ngày nay, bạn sẽ thấy rằng họ gần như chỉ quan tâm đến việc làm sao để tăng dung lượng lưu trữ, tăng mật độ máy chủ, và trang bị thêm cho các cụm máy chủ đã lỗi thời thành các cơ sở hiện đại hơn với hệ thống làm mát hiệu quả hơn chẳng hạn. Tuy rằng tất cả điều này là rất tốt, rất cần thiết và cho thấy sự tăng trưởng đáng kinh ngạc trong ngành công nghiệp lưu trữ dữ liệu, nó cũng cho ta thấy lý do tại sao hiện tượng các trung tâm dữ liệu gặp sự cố ngày càng xảy ra phổ biến hơn.

Ở trong bài viết này, chúng ta sẽ tìm hiểu những lý do phổ biến dẫn đến việc các trung tâm dữ liệu bị vô hiệu hóa, đồng thời nêu lên những gì các nhà quản trị có thể làm để giảm thiểu hoặc thậm chí loại bỏ hoàn toàn những sự cố này, cũng như nâng cao tính ổn định cho hệ thống của mình.

Lỗi do con người gây ra

Đây là những nguyên nhân đơn giản nhất và cũng là một trong những điều khó tránh nhất. Nói một cách đơn giản, mọi người đều có thể mắc lỗi. Với 22% sự cố ngừng hoạt động xuất phát từ lỗi của con người, nguyên nhân này rất đáng được xem xét một cách cẩn thận và quan trọng là các lỗi này đều có thể được phòng ngừa tương đối dễ dàng.

Ủy quyền hệ thống không đúng cách

Ủy quyền hệ thống không đúng cách

Trên thực tế, có rất ít quản trị viên có quyền truy cập đầy đủ và không hạn chế vào tất cả các hệ thống trong trung tâm dữ liệu. Thay vì cấp quyền này cho nhiều người hơn, truy cập phải được quản lý chặt chẽ. Nếu không, việc xảy ra lỗi nghiêm trong trên hệ thống là hoàn toàn khả thi. Đơn cử như vụ Joyent trong năm 2014, một quản trị viên có kinh nghiệm đã vô tình khởi động lại tất cả các máy ảo trong trung tâm dữ liệu phía đông của công ty chỉ với một vài cú nhấp chuột.

Thủ tục dự phòng kém

Thủ tục dự phòng kém

Khi lập kế hoạch cho các nhiệm vụ bảo trì, một bước quan trọng nhưng thường bị quên lãng nhất là quy trình dự phòng. Thông thường, các quy trình tuy được ghi lại nhưng không được xem xét kỹ lưỡng và nhiều khi người ta lại không hoàn toàn hoàn nguyên mọi thứ về hình thức ban đầu sau khi bảo trì.

Thực hiện quá nhiều những sự thay đổi

Thực hiện quá nhiều những sự thay đổi

Trong thời gian bảo trì, nếu quản trị viên cố gắng thực hiện quá nhiều thay đổi cùng một lúc thì điều này hoàn toàn có thể gây ra một vài vấn đề. Đầu tiên, các quản trị viên thường có tâm lý vội vã vì họ phải hoàn thành một số lượng lớn các nhiệm vụ trong một khoảng thời gian ngắn, điều này thường dẫn đến những sai lầm. Thứ hai, bởi vì rất nhiều thay đổi đang xảy ra trong cùng một khung thời gian, nó làm cho các vấn đề sau xử lý sự cố trước thay đổi trở thành một nhiệm vụ khó khăn hơn nhiều.

Lỏng lẻo trong quản lý nhân sự

Lỏng lẻo trong quản lý nhân sự

Nghe có vẻ hơi khắc nghiệt, nhưng các nhân viên cần phải biết tuân thủ chặt chẽ nội quy trong trung tâm và phải bị kỷ luật nặng khi vi phạm. Ví dụ, không có trung tâm dữ liệu nào cho phép nhân viên được ăn uống khi đang làm việc hay công tắc khẩn cấp phải được dán nhãn rõ ràng và được bảo vệ. Những điều này tưởng chừng nhỏ nhưng đều có thể dẫn đến các sự cố lớn, vì vậy hãy đảm bảo nội quy luôn được chấp hành nghiêm ngặt..

Lỗi do hệ thống

Năng lượng dự phòng không đảm bảo, trang thiết bị cũ kỹ hoặc bị định sai cấu hình.

Sức mạnh sao lưu không đảm bảo, trang thiết bị cũ kỹ hoặc bị định sai cấu hình.

Lý do phổ biến nhất khiến một trung tâm dữ liệu phải ngừng hoạt động là do mất điện. Mất điện có thể xảy ra mọi lúc. Do đó, các trung tâm dữ liệu được thiết kế với các nguồn năng lượng dự phòng trong trường hợp nguồn chính bị ngắt. Pin hoặc hệ thống máy phát điện thường được sử dụng làm nguồn dự phòng. Vấn đề là, pin có thể không được thay thế kịp thời, máy phát điện không được kiểm tra, bảo dưỡng dẫn đến trục trặc khi có sự cố mất điện xảy ra. Tất cả những điều này có nghĩa là các khả năng dự phòng của bạn có thể không khả dụng khi bạn cần đến chúng nhất.

Trong trường hợp cúp điện, hệ thống UPS sử dụng pin làm năng lượng dự phòng, làm cho chúng trở thành một phần thiết yếu để duy trì thời gian hoạt động cho các trung tâm dữ liệu. Tuy nhiên, pin không phải lúc nào cũng hoạt động tốt. Thực hiện bảo trì được khuyến nghị bởi chính các nhà sản xuất để kiểm tra tình trạng pin. Ít nhất hàng quý, pin phải được kiểm tra để lắp đặt, xả và sạc đúng cách. Điều này bao gồm kiểm tra trực quan, kiểm tra dung lượng và giám sát thường xuyên thông qua phần mềm hoặc chính đơn vị cung cấp UPS.

Ngoài ra nhiệt độ cao có thể rút ngắn tuổi thọ pin của hệ thống. Xây dựng một phòng UPS chuyên dụng có thể giúp giảm bớt tình trạng hao mòn tuổi thọ pin. Bạn cũng nên tránh xả pin thường xuyên và kiểm soát tốt các kết nối lỏng lẻo hoặc các đầu nối bị mòn. Tóm lại, UPS là một hệ thống đặc biệt quan trọng, nó đòi hỏi phải được thiết kế hợp lý, sử dụng đúng cách và bảo dưỡng nghiêm ngặt.

Trục trặc trong hệ thống làm mát

Trục trặc trong hệ thống làm mát

Các hệ thống máy móc trong một trung tâm dữ liệu tiêu tốn rất nhiều điện năng, đồng nghĩa với việc chúng tỏa ra một lượng nhiệt rất lớn trong khi vận hành. Một trung tâm dữ liệu có thể trở thành một cái lò thiêu sau một phút vận hành. Đó là lý do tại sao hệ thống làm mát đóng vai trò tối quan trọng. Và ngay cả khi bạn có cảm biến nhiệt độ đọc và cảnh báo gửi đến quản trị viên, bạn phải chắc chắn rằng bạn có đủ thời gian để thực hiện các thủ tục làm mát dự phòng của trung tâm trước khi mọi thứ bị “tan chảy”.

Ngoài ra, nhiều hệ thống làm mát không thực sự được thiết kế để theo kịp với mức độ nhiệt tăng lên trong một trung tâm dữ liệu hiện đại công suất lớn. Một lần nữa, việc vạch ra những tình huống trung tâm dữ liệu của bạn hoạt động với 100% công suất có thể giúp lên kế hoạch xây dựng những hệ thống làm mát tốt hơn trong tương lai. Việc thiết lập các hệ thống cảnh báo những bất ổn trong nhiệt độ của hệ thống cũng rất cần thiết. Bạn có thể sử dụng một số phần mềm mô hình hóa nhiệt và một số hệ thống DCIM. Ngoài ra, các chất làm lạnh hóa học là một lựa chọn tốt hơn so với các hệ thống dựa trên nước.

Quy trình tự động chuyển đổi không đúng chức năng

Quy trình tự động chuyển đổi không đúng chức năng

Hầu hết các nhà cung cấp dịch vụ và tổ chức, doanh nghiệp đều có trung tâm dữ liệu dự phòng sử dụng cho các trung tâm dữ liệu về sản xuất. Trong trường hợp xảy ra sự cố mất điện tại trung tâm dữ liệu chính, trung tâm dữ liệu dự phòng sẽ tự động được khởi động và tất cả lưu lượng truy cập sẽ được chuyển đến cơ sở dự phòng đó. Nếu được thực hiện đúng cách, quy trình phải diễn ra liền mạch cho đến người dùng cuối cùng. Thật không may, các failover tự động thường không hoạt động như mong đợi. Nguyên nhân thông thường cho sự cố này là việc thiếu kiểm tra thường xuyên. Ngay cả những thay đổi nhỏ trong cơ sở hạ tầng sản xuất cũng có thể có tác động lớn đến quá trình chuyển đổi dự phòng tự động. Vì vậy, khi thực hiện bất kỳ thay đổi vào đối với cơ sở hạ tầng, các thủ tục chuyển đổi dự phòng tự động sẽ phải được kiểm tra để đảm bảo không có gì đi lệch khỏi quy trình.

Phần cứng lỗi thời

Phần cứng lỗi thời

Tất cả phần cứng của mỗi hệ thống đều có tuổi thọ nhất định. Và nếu bạn sử dụng một phần cứng càng lâu thì càng có nhiều khả năng gặp phải sự cố. Mọi người đều biết điều này, nhưng trường hợp một ứng dụng quan trọng gặp trục trặc chỉ vì nó đang chạy trên phần cứng 10 năm tuổi vẫn thường xảy ra. Những vấn đề này thường phát sinh do thiếu kế hoạch thay thế và nâng cấp toàn diện đối với nền tảng phần cứng hoặc phần mềm mới, hoặc do thiếu ngân sách. Nếu đó là vấn đề về tiền bạc, bạn không thể làm được gì hơn. Nhưng nếu bạn chỉ đơn giản là cố gắng tận dụng được càng lâu càng tốt, sự cố có thể xảy ra bất cứ lúc nào, và khi đó, thiệt hại gây ra bởi sự cố có thể còn lớn hơn rất nhiều.

Hệ thống chữa cháy gặp vấn đề về rò rỉ nước

Hệ thống chữa cháy gặp vấn đề về rò rỉ nước

Hầu hết các trung tâm dữ liệu hiện đại đều sử dụng các hệ thống chống cháy không sử dụng nước để chúng không làm hỏng thiết bị nếu được kích hoạt có mục đích hoặc do vô tình. Nhưng nhiều cơ sở cũ vẫn sử dụng hệ thống chống cháy truyền thống trong các trung tâm dữ liệu của họ. Nhiều trường hợp rò rỉ nước đã gây ra những sự cố ngừng hoạt động lớn.

Tắt nguồn khẩn cấp bị kích hoạt ngẫu nhiên

Tắt nguồn khẩn cấp bị kích hoạt ngẫu nhiên

Mức độ bảo mật vật lý cao được áp dụng tại hầu hết các trung tâm dữ liệu không đơn giản là ngăn ngừa bọn trộm. Chúng cũng được đặt ra để tránh những nhân viên không hiểu về cách một trung tâm dữ liệu hoạt động. Ví dụ như một quản trị viên ứng dụng đi vào trung tâm dữ liệu và vô tình kích hoạt tắt nguồn khẩn cấp (EPO). EPO là một nút lớn màu đỏ, có nhiệm vụ cắt điện cho toàn bộ hệ thống. Và rõ ràng, đối với những người không hiểu, không có chuyên môn, những sự nhầm lẫn như vậy là hoàn toàn có thể xảy ra.

Bị tấn công mạng, ddos

Ddos

Trong những năm qua, các vụ tấn công mạng đã trở thành một trong những nguyên nhân hàng đầu của những vụ “sập” trung tâm dữ liệu, chỉ từ 2% trong năm 2010 lên đến 22% trong năm 2016. Các nhà khai thác trung tâm dữ liệu phải hành động để thiết lập hệ thống phát hiện và giảm thiểu sớm những nguy cơ bị tấn công.

Các trung tâm dữ liệu khó có thể phòng thủ trước một cuộc tấn công DDoS có quy mô lớn. Hầu hết các ISP cung cấp một số bảo vệ ở lớp 3 và lớp 4 của hệ thống mạng, nhưng các dịch vụ của bạn cần bảo vệ thêm ở lớp 7, có thể được nhắm mục tiêu cụ thể thông qua HTTP GET hoặc các cuộc tấn công tương tự. Các dịch vụ giúp giảm nhẹ thiệt hại như tường lửa, IPS/IDS và DDoS có thể được kết hợp để định tuyến lại lưu lượng.

Thảm họa thiên nhiên

Các cơn bão, lũ lụt gia tăng trong thời gian vừa qua có thể gây ra những tê liệt đáng kể cho các trung tâm dữ liệu. Hơn 250 thảm họa tự nhiên đã xảy ra vào năm 2010 ở nước Mỹ. Theo các thống kê, bang New Jersey, Mỹ đã phải chịu 63,9 tỷ USD tổn thất do gián đoạn kinh doanh gây ra bởi siêu bão Sandy vào năm 2012.

Các bước hạn chế những thiệt hại do sự cố “sập” trung tâm dữ liệu

Nếu thời gian tạm ngừng để bảo dưỡng định kỳ được lên kế hoạch cẩn thận và các khách hàng đã được cảnh báo trước về thời gian ngừng hoạt động của trung tâm, đặc biệt là trong một khoảng thời gian mà lưu lượng truy cập thấp, khách hàng sẽ dễ dàng thông cảm hơn và những thiệt hại cũng được giảm đi đáng kể. Thiệt hại lớn xảy ra là khi nó diễn ra bất ngờ, và đặc biệt là khi tồn tại kéo dài, và có thêm những vấn đề phát sinh. Giữ cho hệ thống tài nguyên của toàn bộ công ty ổn định để các nhân viên có thể thực hiện công việc của mình một cách hiệu quả, giảm bớt gánh nặng lên vai của các bộ phận CNTT.

Cụ thể:

  • Sao lưu dữ liệu của bạn: Trong trường hợp bạn phải đối mặt với sự cố ngừng hoạt động trung tâm dữ liệu, dữ liệu của mình (và quan trọng hơn là dữ liệu khách hàng của bạn) sẽ phải luôn sẵn sàng khi bạn bắt đầu khắc phục sự cố và chạy lại. Thực hiện sao lưu thường xuyên làm hạn chế nguy cơ của một cuộc khủng hoảng thực sự. Nếu công ty của bạn có đủ khả năng tài chính, một số sản phẩm như dòng sản phẩm VPLEX của EMC hoặc phần mềm Backup and Replication của VEEAM hoàn toàn có thể giúp giảm thiểu thời gian sự cố bằng cách tự động chuyển sang vị trí sao lưu dự phòng.
  • Duy trì sự giám sát thường xuyên đối với hệ thống máy chủ: Giám sát là dịch vụ bạn có thể thực hiện thường xuyên và thường không tốn quá nhiều chi phí. Dịch vụ giám sát của bên thứ 3 sẽ thông báo cho những nguy cơ khi máy chủ có thể ngừng hoạt động để bạn có thể xử lý vấn đề ngay lập tức.
  • Giảm thiểu lỗi do con người gây ra: Hãy thận trọng khi làm việc hoặc đi bộ xung quanh hệ thống máy chủ hoặc dây điện để tránh vô tình làm hỏng hay đơn giản là đừng chạm vào những công tắc bí ẩn khi bạn không có chuyên môn. Giữ cho chất lỏng tránh xa khỏi hệ thống máy móc. Gọi cho chuyên gia bảo vệ dữ liệu bất cứ lúc nào máy chủ cần nâng cấp hoặc bảo trì, và tuân thủ nội quy của trung tâm.

Mỗi trung tâm dữ liệu, từ các trung tâm nhỏ cho đến các cơ sở có quy mô doanh nghiệp và nhà cung cấp dịch vụ, phải cố gắng 100% khả năng để cung cấp các dịch vụ đáng tin cậy cho người dùng. Bằng cách dành thời gian lên kế hoạch cho tương lai, tuân thủ những nguyên tắc về duy trì, bảo dưỡng và cả những yếu tố con người, trung tâm dữ liệu của bạn có thể tránh được một số nguyên nhân phổ biến nhất dẫn đến sự cố ngừng hoạt động.

Xem thêm

Thứ Năm, 22/11/2018 13:40
4,412 👨 2.335
0 Bình luận
Sắp xếp theo