Sao lưu và lưu trữ có phải là một?

Nếu muốn khiến cho nhân viên sao lưu dữ liệu phát khùng, hãy gọi một bản sao lưu là bản lưu trữ. Không quá khi nói rằng chạy RAID là đủ rồi không cần sao lưu nữa. Nhưng cũng may là sự khác biệt giữa bản sao lưu (backup) và bản lưu trữ (archive) khá là rõ ràng và dễ hiểu.

Các hoạt động sao lưu và lưu trữ dữ liệu đều hàm chứa những chức năng riêng biệt. Sẽ có những rắc rối và thậm chí cả những vấn đề về mặt pháp lý xảy ra nếu người sử dụng không nắm rõ được bản chất của chúng.

Sao lưu là gì?

Sao lưu là bản sao của dữ liệu, được tạo ra với mục đích khôi phục lại dữ liệu đó trong trường hợp chúng bị hư hại hoặc mất mát. Dữ liệu gốc sẽ không bị xóa đi sau khi quá trình sao lưu được thực hiện.

Các ví dụ thường thấy của hoạt động sao lưu dữ liệu có thể kể đến như các tệp trên laptop hay máy tính để bàn của bạn được sao lưu mỗi đêm. Hay việc tất cả ảnh trong iPhone của bạn đều được sao chép sang iCloud phòng khi bạn gặp vấn đề với chiếc điện thoại của mình.

Chúng ta cũng thường sao lưu các máy chủ tệp (các dữ liệu phi cấu trúc) và các cơ sở dữ liệu (dữ liệu có cấu trúc). Một bản sao lưu có thể tập trung vào các dữ liệu, tương tự như một kho chứa cơ sở dữ liệu. Hoặc cũng có thể tập trung vào hệ điều hành của máy chủ, tương tự như một bản sao lưu ảo hóa. Hoặc cũng có thể tập trung vào cả dữ liệu cũng như hệ điều hành với file .VMDK của phần mềm VMware.

Về bản chất, định nghĩa của hoạt động sao lưu gắn liền với mục đích mà nó được tạo ra và mục đích của một mỗi bản sao lưu luôn giống nhau: Nhằm khôi phục dữ liệu trong các trường hợp cần thiết. Giả sử một hệ thống đĩa dự phòng RAID 6 có thể bị lỗi ở ba đĩa và các dữ liệu trong đĩa cần phải được khôi phục. Hay một hoặc một số máy ảo VMware, Hyper-V và AWS EC2 của bạn bị ai đó vô tình hoặc cố ý xóa mất, và bạn cần phải khôi phục lại chúng. Cũng có thể một ngày nào đó bạn chợt phát hiện ra rằng tất cả các tệp tin của mình đã bị ransomware mã hóa. Nếu không sở hữu một hệ thống sao lưu tốt, bạn sẽ chỉ có một lựa chọn duy nhất đó là rút hầu bao để chuộc lại dữ liệu của chính mình. Nhưng ngược lại, với một hệ thống sao lưu hiệu quả, bạn hoàn toàn có thể tìm ra được gốc rễ của phần mềm tống tiền, vô hiệu hóa nó, sau đó khôi phục lại toàn bộ dữ liệu của mình mà không phải mất một đồng nào cho các hacker.

Sao lưu và lưu trữ

Lưu trữ là gì?

Bản lưu trữ là bản sao dữ liệu được tạo ra phục vụ mục đích tham khảo. Và bản gốc thường bị xóa sau khi lưu trữ mặc dù không bắt buộc.

Nếu một bản sao lưu dùng để khôi phục lại hiện trạng của dữ liệu, thường là trạng thái dữ liệu của ngày trước đó, thì một bản lưu trữ có thể được sử dụng với nhiều mục đích hơn. Một trong những chức năng phổ biến nhất của một bản lưu trữ đó là giúp người dùng tìm thấy tìm thấy những dữ liệu được lưu trữ trong khoảng thời gian dài trước đây. Đó có thể là một tập tin độc bản chứa thông tin quan trọng, chẳng hạn như một hợp đồng được ký từ vài năm trước. Hay cũng có thể là một nhóm các dữ liệu có liên quan đến nhau, chẳng hạn như toàn bộ các bản vẽ cấu trúc của một tòa nhà vừa bị sập. Hoặc các bản vẽ CAD về các tiện ích mà công ty của bạn đã từng sử dụng, chúng tưởng như đã lỗi thời nhưng bỗng nhiên lại phù hợp trở lại.

Cũng có thể là các dữ liệu liên quan như toàn bộ email/tệp tin có thể dùng chứng minh một vấn đề nào đó. Chẳng hạn như một nhân viên tin rằng họ đã được phép làm đêm ngoài giờ, nhưng sau đó bị sa thải vì lý do đó. Trong vụ kiện, một cuộc điều tra điện tử có thể được tiến hành liên quan đến các email đến và đi có chứa từ khóa “làm đêm ngoài giờ”, “sau giờ làm”, hay tên của công ty mà các nhân viên đó đang làm thêm ngoài ca. Ngoài ra, một người nào đó muốn chứng minh rằng anh ta đang làm việc trong một môi trường không thân thiện và muốn được xem toàn bộ email từ một nhóm những người quản lý cụ thể có chứa những từ ngữ nhất định mô tả cho điều đó.

Các vấn đề nêu trên sẽ được giải quyết nếu bạn có trong tay một kho lưu trữ. Bạn có thể sở hữu bản lưu trữ các đơn hàng, hóa đơn hoặc hợp đồng mà công ty của bạn đã thực hiện. Bạn có thể lưu trực tuyến các hợp đồng và đơn đặt hàng hiện tại, nhưng việc giữ tất cả chúng trong kho lưu trữ sẽ giúp bạn có chỉ mục cụ thể để truy xuất đơn đặt hàng và hợp đồng thông qua nội dung của các đơn đặt hàng đó. Bạn cũng có thể lưu trữ tất cả các email mà công ty của bạn gửi hoặc nhận.

Một số hệ thống lưu trữ email có thể lọc từ máy chủ các email đã được lưu trữ có kích cỡ lớn hơn một kích cỡ nhất định và/hoặc chưa được truy cập trong một khoảng thời gian hơn n ngày. Điều này không chỉ giúp tiết kiệm tài nguyên lưu trữ và giúp giữ cho hệ thống email gọn gàng hơn mà còn khiến cho việc sao lưu trở nên dễ dàng hơn.

Khôi phục và truy xuất

Ngay cả khi mục đích của một kho lưu trữ là để tiết kiệm không gian trên kho lưu trữ chính, thì việc có thể thực hiện truy xuất so với khôi phục là vô cùng cần thiết đối với mỗi kho lưu trữ. Hệ thống sao lưu giúp khôi phục và hệ thống lưu trữ giúp truy xuất.

Dữ liệu được khôi phục thường là một tập tin đơn lẻ, máy chủ hoặc cơ sở dữ liệu. Còn thông tin được truy xuất thường là một tập hợp các dữ liệu liên quan, có thể có hoặc không được lưu trữ trên cùng một máy chủ hoặc thậm chí ở cùng một định dạng. Việc khôi phục cũng chỉ được áp dụng cho một thời điểm nhất định chẳng hạn như khôi phục cơ sở dữ liệu trở về với hiện trạng của ngày hôm trước. Còn việc truy xuất được áp dụng cho một khoảng thời gian, ví dụ như truy xuất tất cả các email trong ba năm qua.

Để phục hồi dữ liệu, bạn cần phải nắm được vị trí các tập tin/dữ liệu được sao lưu, nếu không bạn không thể tìm thấy chúng. Ngoài ra bạn cũng cần phải biết được tên của máy chủ mà cơ sở dữ liệu hoặc thư mục mà dữ liệu đó được lưu, tên của tập tin hoặc bảng biểu mà bạn muốn khôi phục và ngày cuối cùng nó được mở.

Trong khi đó việc truy xuất hoàn toàn không cần đến các thông tin trên, người dùng chỉ cần tất cả các tệp hoặc bản ghi khớp với một tập hợp các tham số, hoặc toàn bộ email chứa các cụm từ nhất định hoặc được gửi từ một người cụ thể trong vòng ba năm qua.

Lý do nào kiến sự khác biệt này trở lên quan trọng?

Nhiều người đang cố gắng sử dụng hệ thống sao lưu của họ như một hệ thống lưu trữ. Điều này thể hiện qua việc những bản sao lưu được họ giữ trong nhiều năm hoặc thậm chí là mãi mãi. Trong lần đầu tiên thực hiện việc truy xuất dữ liệu chắc chắn bạn sẽ gặp phải rất nhiều khó khăn. Hơn nữa quá trình truy xuất sẽ mất nhiều thời gian hơn, có thể là vài tháng thay vì vài phút - và tốn nhiều, rất nhiều tiền - hàng triệu thay vì vài đô la.

Nếu việc truy xuất dữ liệu là yêu cầu được coi là đơn giản trong một vụ kiện và bạn không thể thực hiện trong thời gian cho phép, thẩm phán sẽ cho rằng bạn đang cố che giấu điều gì đó, và họ nói điều đó với bồi thẩm đoàn. Kết quả là bạn sẽ thua kiện. Vụ kiện Morgan Stanley là một trong những ví dụ kinh điển về sự tai hại của vấn đề này. Trong vụ đó, bên thua kiện đã mất hàng tỷ.

Đừng sử dụng những bản sao lưu như những bản lưu trữ. Nếu bạn có nhu cầu lưu trữ trong khoảng thời gian dài, hãy đầu tư một hệ thống lưu trữ thực sự. Tất nhiên bạn sẽ tốn chi phí đầu tư ban đầu, nhưng xét về lâu dài thì đây là một khoản đầu tư xứng đáng.

Chủ Nhật, 22/07/2018 08:17
53 👨 7.040
0 Bình luận
Sắp xếp theo
    ❖ Kiến thức cơ bản