Lưu trữ dữ liệu ở quy mô lớn không giống như lưu một file trên ổ cứng của bạn. Nó yêu cầu người quản lý phần mềm theo dõi tất cả các bit tạo nên các file. Đó là lý do các hệ thống quản lý lưu trữ phân tán như Ceph và Gluster ra đời.
Ceph và Gluster đều là các hệ thống được sử dụng để quản lý lưu trữ phân tán. Cả hai hệ thống lưu trữ này đều được điều khiển bằng phần mềm, không phụ thuộc vào phần cứng. Chúng tổ chức các bit tạo nên dữ liệu của bạn bằng cơ sở hạ tầng của riêng nó. Vậy bạn nên chọn hệ thống lưu trữ nào?
Quyết định nằm ở loại dữ liệu bạn cần lưu trữ, cách dữ liệu được truy cập và dữ liệu này đến từ đâu. Ceph và GlusterFS đều là những lựa chọn tốt, hãy cùng so sánh hai hệ thống lưu trữ dữ liệu này và đưa ra quyết định của riêng bạn nhé.
- 8 phần mềm quản lý và giám sát lưu trữ tốt nhất
- Làm thế nào để lưu trữ dữ liệu mãi mãi?
- Sao lưu và lưu trữ có phải là một?
Ceph - Hệ thống lưu trữ dựa trên đối tượng cho dữ liệu phi cấu trúc
Ceph là một hệ thống dựa trên đối tượng, có nghĩa là nó quản lý dữ liệu được lưu trữ dưới dạng đối tượng thay vì phân cấp file, phân tán dữ liệu nhị phân trên cụm (cluster). Phương pháp lưu trữ đối tượng này cũng được Facebook sử dụng để lưu trữ hình ảnh và Dropbox sử dụng cho lưu trữ file máy khách. Nói chung, lưu trữ đối tượng hỗ trợ dữ liệu phi cấu trúc, do đó nó thích hợp để lưu trữ dữ liệu quy mô lớn. Hệ thống được bảo trì bởi một mạng các daemon (trình nền) dưới dạng các công cụ theo dõi cụm, máy chủ siêu dữ liệu và lưu trữ được ghi nhật ký. Những thứ này kết hợp lại khiến Ceph có nhiều tính năng nhưng phức tạp hơn so với đối thủ.
Ceph sử dụng công cụ của nó để quản lý việc lưu trữ trên hệ thống của nó, do đó các quản trị viên hệ thống cần phải làm quen với các công cụ của Ceph. Về cơ bản bạn cần phải học cách làm việc của nó để có thể sử dụng cũng như tận dụng được ưu điểm của hệ thống lưu trữ tập tin này. Hệ thống tự quản lý, tự phục hồi sẽ giúp giảm chi phí hoạt động liên tục theo thời gian. Ngoài ra, Ceph có thể chạy trên phần cứng máy chủ tiêu chuẩn công nghiệp.
Hệ thống cũng có thể tạo lưu trữ khối, cung cấp quyền truy cập để chặn các hình ảnh thiết bị bị sao chép trên toàn cụm. Các ứng dụng có thể truy cập Ceph Object Storage thông qua giao diện RESTful hỗ trợ API Amazon S3 và Openstack Swift. Tóm lại, hệ thống lưu trữ tập tin Ceph này hiệu suất cao, dung lượng lớn và tương thích với code cũ.
GlusterFS - Hệ thống lưu trữ dựa trên khối, phân cấp dữ liệu
GlusterFS, còn được gọi là Gluster, là hệ thống lưu trữ file truyền thông hơn. GlusterFS rất dễ dàng để thiết lập và bạn có thể sử dụng bản build được biên dịch đúng trên bất cứ hệ thống nào có thư mục. Tính linh hoạt và dễ sử dụng là ưu điểm lớn nhất của hệ thống này. Đi ngược với tính mở rộng linh hoạt là hiệu suất có xu hướng giảm. Hệ thống này thích hợp lưu trữ các file có kích thước trung bình (hơn 4 MB) và truy cập một cách tuần tự. Cụm có thể trải rộng trên các server đám mây, ảo và server vật lý, cho phép ảo hóa lưu trữ (storage virtualization) linh hoạt.
Gluster sử dụng kiểu lưu trữ khối, có nghĩa là các khối dữ liệu được lưu trữ trong không gian mở trên các thiế bị cụm được kết nối. Gluster sử dụng hệ thống file để sắp xếp dữ liệu theo thứ bậc. Nó gom các server khác biệt về mặt địa lý qua Ethernet để tạo một hệ thống file mạng song song có thể mở rộng. Về cơ bản, Gluster là phiên bản dựa trên cụm của FUSE và NFS, do đó các quản trị viên sẽ cảm thấy quen thuộc với cấu trúc này. Nói chung, hệ thống lưu trữ tập tin Gluster đơn giản, có thể bảo trì và được sử dụng rộng rãi nhưng tốc độ truy cập không bằng Ceph.
Kết luận
Ceph thích hợp cho việc truy cập nhanh dữ liệu phi cấu trúc trong khi Gluster dành cho truy cập dữ liệu tuần tự như stream video, sao lưu dữ liệu.