Kiến trúc lưu trữ dữ liệu

Xét trên khía cạnh công nghệ thông tin (CNTT), điều cốt lõi trong hoạt động của doanh nghiệp là các quá trình lưu trữ, xử lý và trao đổi dữ liệu. Liên quan đến các quá trình này là hệ thống lưu trữ – một trong những thành phần quan trọng nhất của cơ sở hạ tầng CNTT. Vì thế, các giám đốc CNTT (CIO) luôn tìm mọi cách để đơn giản hóa hệ thống lưu trữ của công ty nhằm tiết giảm tối đa chi phí điều hành và xử lý dữ liệu có hiệu quả hơn.

Khi Marty Garrison đảm nhận chức vụ giám đốc công nghệ của ChoicePoint Inc. – một công ty chuyên về tích hợp dữ liệu có trụ sở ở Alpharetta, bang Georgia (Mỹ) – cách nay ba năm, việc lưu trữ dữ liệu ở đây khá hỗn độn. Công ty phải quản lý hơn hai triệu gigabyte dữ liệu của 16 tỷ bản ghi.

Garrison nhớ lại: “Việc lưu trữ lúc bấy giờ gia tăng theo từng dự án, và nó không được quản lý về mặt chi phí. Chúng tôi có 8-10 mạng lưu trữ (Storage Area Network – SAN) hoạt động độc lập với nhau. Vì thế, chúng tôi không thể chia sẻ không gian lưu trữ giữa các mạng này cũng như phân cấp dữ liệu.”

Để quản lý một cách thống nhất và giảm số lượng nhân viên điều hành, Garrison đã thiết lập một kiến trúc lưu trữ tập trung, kết hợp các SAN hiện hữu thành một SAN duy nhất. Việc phân cấp dữ liệu cho phép ông sử dụng những ổ đĩa rẻ tiền hơn cho những dữ liệu không đòi hỏi tốc độ truy cập cao. Ông cũng chỉ ký hợp đồng với hai nhà cung cấp thiết bị. Nhờ vậy ông đã giảm được 40 % chi phí lưu trữ ở cả khâu mua sắm thiết bị lẫn công tác quản lý.

Các chuyên gia trong ngành cho biết doanh nhgiệp phải hướng đến một kiến trúc lưu trữ đơn giản để giảm tổng chi phí sở hữu (Total Cost of Ownership – TCO). Theo Steward Buchanan, chuyên viên phân tích của hãng nghiên cứu thị trường Gartner, cho dù chi phí lưu trữ thông tin mới giảm đến 34 % mỗi năm, chi phí để đáp ứng các yêu cầu về mức độ dịch vụ và mở rộng khả năng lưu trữ có thể vượt quá 60 %. Ông nói: “Các doanh nghiệp cần có nhiều quy định hơn về việc quản lý thiết bị lưu trữ.”

Kiến trúc phân cấp dữ liệu

So với cách nay vài năm thì các CIO hiện có nhiều chọn lựa hơn về mặt công nghệ lưu trữ. Một trong những công nghệ phổ biến là dùng đĩa thay cho băng từ để lưu dự phòng những dữ liệu quan trọng.

Hệ thống lưu trữ là gì?

Hệ thống lưu trữ là tập hợp tất cả tài nguyên trong một tổ chức, sử dụng cho mục đích lưu trữ dữ liệu của hệ thống. Nó bao gồm:
• Các thiết bị lưu trữ, như băng từ, đĩa CD, các ổ đĩa cứng trong các máy chủ và các tủ đĩa ngoài.
• Các phần mềm quản lý, điều khiển hay cung cấp những tính năng phụ trợ như sao chép (copy), sao lưu dự phòng (backup)… cho các thiết bị lưu trữ.
• Các giao thức và thiết bị hỗ trợ việc kết nối và trao đổi dữ liệu giữa các thiết bị lưu trữ.

Tuy nhiên, theo Buchanan, kiến trúc phân cấp (tiered architecture) mang lại nhiều lợi ích. Nó không chỉ cho phép bạn gia tăng mức độ sử dụng các loại thiết bị lưu trữ rẻ tiền dành cho những dữ liệu ít quan trọng hay ít được truy xuất mà còn buộc bạn phải hiểu cấp độ dịch vụ của tất cả các dữ liệu, quản lý lưu trữ theo vòng đời dữ liệu (Information Lifecycle Management – ILM). Nhờ vậy, bạn có thể giảm chi phí bằng cách xóa hoặc không lưu dự phòng những dữ liệu không cần thiết. Bạn cũng có thể chuyển những dữ liệu ít sử dụng sang khu vực lưu trữ ngoại tuyến (offline storage) để kiểm soát luồng lưu thông của dữ liệu trên mạng. Ông nói: “Tiering cho phép bạn nhìn thấy được tổng chi phí sở hữu của mạng lưu trữ.”

Tiered architecture là sự phân bổ các loại dữ liệu vào những thiết bị lưu trữ khác nhau. Việc phân loại dữ liệu có thể dựa trên mức độ bảo vệ dữ liệu, các yêu cầu về hiệu suất truy cập, tần suất sử dụng hoặc các yêu cầu khác. Số tầng càng cao thì thiết bị sử dụng càng đỡ tốn kém. Vì công việc phân loại có thể phức tạp và đòi hỏi phải thực hiện liên tục, nhiều nhà cung cấp đã đưa ra những phần mềm tự động phân loại dựa trên những tiêu chí do doanh nghiệp đưa ra.

Một trong những kiến trúc thường được sử dụng là kiến trúc ba tầng (three-tier architecture); trong đó tầng 1 dùng để lưu trữ những dữ liệu quan trọng, thường được truy cập. Tầng này sử dụng những thiết bị đắt tiền, có chất lượng và độ bảo mật cao như hệ thống đĩa dự phòng RAID cấp 6 (Double Parity Redundant Array of Independent Drives). Tầng 2 dành cho những dữ liệu liên quan đến tài chính, các tập tin đã được phân loại hoặc ít truy cập. Thiết bị cho tầng này là những loại ổ đĩa rẻ tiền hơn dùng trong mạng SAN. Tầng 3 dành cho những tập tin chưa được phân loại hay ít truy cập, lưu trong đĩa CD hoặc băng từ.

Sự ra đời của các công nghệ ổ đĩa mới như ổ đĩa quang (có tốc độ đọc, viết nhanh), ổ đĩa SCSI, SATA (Serial ATA), FATA (Fibre Channel ATA)… đã giúp cho việc triển khai kiểu kiến trúc lưu trữ ba tầng trở nên khả thi hơn.

Theo Nik Simpson, chuyên viên phân tích của Burton Group, một công ty nghiên cứu và tư vấn về lĩnh vực bảo mật và mạng ở Midvale, bang Utah (Mỹ), một doanh nghiệp có thể lưu trữ khoảng 30 % dữ liệu của mình ở tầng 1, phần còn lại ở các tầng 2, 3...

Chuyên viên Buchanan của hãng Gartner nói: “Việc xác định các yêu cầu về dữ liệu không thuộc về nhiệm vụ của các nhân viên lưu trữ. Nó thuộc về cấp điều hành doanh nghiệp.” Các CIO phải thiết lập một nền tảng quản lý tài sản có hiệu quả, phù hợp với quy mô của công ty.

iSCSI

Trong những công nghệ mới giúp giảm chi phí lưu trữ, đáng chú ý nhất là iSCSI (Internet Small Computer System Interface). Đây là một chuẩn lưu trữ dựa trên địa chỉ IP do Ủy ban chuyên trách về Internet (Internet Engineering Task Force – IETF) đưa ra. Nó cho phép kết nối các ổ đĩa với nhau và với các máy chủ (server) thông qua giao thức SCSI.

Vì các mạng IP có mặt ở khắp mọi nơi, iSCSI có thể được dùng để truyền tải dữ liệu trên mạng cục bộ (intranet), LAN, WAN hay Internet và quản lý việc lưu trữ từ xa. Các doanh nghiệp có quy mô từ nhỏ đến lớn đều có thể xây dựng mạng SAN dựa trên công nghệ này. Trước iSCSI, SAN thường được triển khai với mạng cáp quang (fibre channel), nhưng mạng cáp quang không thích hợp khi triển khai ở bên ngoài các doanh nghiệp lớn vì nó phức tạp và có chi phí quản lý cao.

Theo công ty nghiên cứu thị trường IDC, sự đơn giản và phù hợp của iSCSI đối với các doanh nghiệp có quy mô lớn khiến công nghệ này phát triển nhanh. IDC dự báo đến năm 2011 sẽ có 25 % hệ thống lưu trữ bên ngoài doanh nghiệp sử dụng iSCSI.

Ngân hàng cổ phần Associated Bank của Mỹ cách nay hai năm cũng đã chuyển sang sử dụng iSCSI trong mạng SAN của họ để có thể lưu trữ tốt hơn các thông tin của khách hàng, kể cả hình ảnh. Đến nay, dung lượng của mạng này đã tăng từ 20 ngàn gigabyte lên 300 ngàn gigabyte. Ngân hàng cũng tiết kiệm được khoảng 30 % chi phí so với mạng SAN cũ.

Chuẩn bị cho làn sóng mới

Các chuyên gia trong ngành đang đưa ra hai công nghệ mới: ảo hóa hệ thống lưu trữ (Network Storage Virtualization) và lưu trữ đơn lẻ (Single-Instance Storage).

Trong Network Storage Virtualization, tất cả các hệ thống lưu trữ khác nhau về phiên bản, xuất xứ, nguyên lý hoạt động được hợp nhất ở mức lôgic thành một nguồn lưu trữ duy nhất. Việc hợp nhất này được gọi là quá trình ảo hóa lưu trữ, được thực hiện bởi những phần mềm chuyên dụng. Các phần mềm này có thể được cài đặt hoặc tích hợp trên các máy chủ hoặc thiết bị lưu trữ. Xu hướng hiện nay là cài đặt chúng vào các bộ chuyển mạch hoặc các máy chủ chuyên dụng.

Công nghệ này có ưu điểm là đơn giản hóa việc quản lý cơ sở hạ tầng và góp phần nâng cao hiệu quả sử dụng dữ liệu. Tuy nhiên, nó cũng còn khá phức tạp cho việc quản lý. Ví dụ, mỗi hệ điều hành cần phải có một phần mềm điều khiển riêng biệt và việc lưu trữ chỉ được tối ưu hóa trên từng thiết bị.

Single-Instance Storage (SIS) là một phương pháp giúp hệ thống chỉ lưu trữ một bản sao duy nhất của nội dung của một tập tin mà nhiều người hay nhiều máy tính cùng sử dụng; nhờ đó tiết kiệm được không gian lưu trữ. Ví dụ, trong một hệ thống thư điện tử (e-mail) có thể chứa 100 thư có cùng một tập tin đính kèm có dung lượng 1 MB. Nếu lưu trữ bình thường thì hệ thống cần phải có 100 MB để lưu tất cả 100 e-mail đó. Với SIS, chỉ có một tập tin đính kèm được lưu trữ, và tất cả những e-mail có tập tin đính kèm đó đều có phần tham chiếu đến tập tin đã lưu. Tuy nhiên, nguy cơ mất dữ liệu vì chỉ sao lưu có một lần là vấn đề khiến nhiều người quan tâm.

Tốc độ tăng trưởng của các loại dữ liệu ở các doanh nghiệp là rất nhanh, cả về dung lượng (30 %-70 % mỗi năm) lẫn về mức độ phức tạp. Vì vậy, việc ứng dụng những công nghệ lưu trữ mới, phù hợp với quy mô hoạt động sẽ mang lại hiệu quả cao hơn cho hoạt động của các doanh nghiệp.

Đăng Thiều

Thứ Ba, 14/08/2007 10:50
31 👨 448