Cứu thành công dữ liệu máy chủ chạy RAID 5, 8 HDD SAS 1.2TB

Đầu tháng 6, mình nhận được cuộc gọi khẩn cấp của khách hàng:

“Hệ thống máy chủ chạy RAID 5: 8 HDD hoạt động bình thường. Buổi sáng, máy chủ báo đèn vàng HDD 05; Bộ phân IT thông báo và dự tính buổi chiều sẽ thay HDD sau khi được duyệt mua HDD thay thế.

Đến 11h, cả hệ thống treo, máy chủ báo đèn vàng HDD 05 và thêm HDD 06.”

Mình có khuyên bên IT làm một số thao tác như sau trước khi đem qua cho mình:

– Chụp ảnh toàn bộ, chi tiết máy chủ khi đang hoạt động, màu sắc của đèn báo HDD đang hiển thị.

– Ngắt điện hệ thống, tháo lần lượt từng HDD, đánh dấu, ghi lại SN của từng HDD theo đúng vị trí đang cắm trên máy chủ.

– Cắm lại các HDD theo đúng thứ tự mang máy chủ lên bên mình.

21h tối, máy chủ được mang từ Hải Dương lên đến Trung tâm.

 

Hệ thống máy chủ RAID 5 chạy 8 HDD

Hệ thống máy chủ chạy RAID 5, 8 HDD SAS 1.2TB

Hệ thống máy chủ RAID 5 chạy 8 HDD

Công cuộc cứu dữ liệu hệ thống máy chủ này bắt đầu:

Khi nhận được các HDD, việc cần tiến hành xử lý ngay:

– Bước 1: Tạo ảnh các HDD còn tốt: HDD 00, 01, 02, 03, 04, 07

– Bước 2: Xử lý các HDD lỗi: 05, 06

– Bước 3: Xây dựng lại RAID để lấy dữ liệu ra.

Nghe thì có vẻ đơn giản nhưng thực tế thì luôn phũ phàng và khó khăn hơn nhiều so với tưởng tượng.

Với việc tạo file ảnh 6 HDD còn tốt: Giới hạn về tốc độ sao chép qua thiết bị đọc trực tiếp HDD SAS, giới hạn của tốc độ đọc ghi HDD, giới hạn của phần mềm, giới hạn của đủ thứ linh tinh khác làm cho tốc độ đọc ghi mỗi HDD nó vào khoảng 30-40MB/s. Mình mất 2 ngày để tạo được file ảnh của 6 HDD này và cùng với đó, mình phát hiện ra hầu như hdd nào cũng đang có bad sector và có khả năng đi cùng 02 HDD lỗi kia bất cứ lúc nào.

HDD 00

HDD 00

HDD 01

HDD 01

HDD 02

HDD 02

HDD 03

HDD 03

HDD 04

HDD 04

HDD 07

HDD 07

Với hai HDD 05 và 06: Hai HDD này lỗi nặng, HDD 05 cắm không nhận, HDD 06 cắm nhận nhưng nhận sau 60-75s kể từ khi cắm điện.

HDD 05: Cố gắng xử lý để tạo được file ảnh. Quá trình tạo file ảnh phát hiện thấy số lượng bad sector quá nhiều nên mình hủy, không tiếp tục cố gắng xử lý HDD này nữa dù vẫn có thể tạo file ảnh thành công.

HDD 06: Nhận chậm nhưng vẫn có thể đọc được HDD ID, nhận đủ dung lượng và không có quá nhiều bad sector. Mình đã clone thành công HDD này.

HDD 06

HDD 06

Việc xây dựng lại RAID tưởng chừng là công việc đơn giản nhưng trong case này hóa ra nó lại là cái phức tạp nhất và khiến mình tốn nhiều thời gian nhất.

Với thứ tự HDD như ban đầu, dù cố gắng thế nào đi chăng nữa mình cũng không thể xây dựng được đúng RAID để lấy dữ liệu ra. Thậm chí anh em IT còn nghi ngờ có người phá hoại đổi vị trí HDD trước khi đánh dấu nên về kiểm tra lại cả camera an ninh nhưng không phát hiện được bất cứ dấu hiệu nghi vấn nào.

Không thể xây dựng được đúng Raid để lấy dữ liệu ra

Mình có tham vấn một vài chuyên gia về máy chủ cũng như kiểm tra lại thực tế vị trí HDD trên khay và trong BIOS xem có trùng nhau không thì phát hiện ra sự thay đổi.

Tiến hành sắp xếp lại thứ tự HDD theo những gì đã tìm được, mình build lại RAID cho hệ thống. Sau 2 ngày tiến hành xử lý, dữ liệu đã thành hình.

 

Sắp xếp lại thứ tự HDD

Tiến hành sắp xếp lại thứ tự HDD

Cứu lại thành công toàn bộ dữ liệu

Một pha phục hồi dữ liệu đáng đi vào lịch sử của Tạ Thanh Data. Gần 2 tuần dồn mọi tâm huyết, vắt óc suy nghĩ, mọi ưu tiên đều được đổ dồn về đây vì cả hàng nghìn công nhân đang chờ dữ liệu được khôi phục lại để có thể trở lại làm việc. Sau lần cứu dữ liệu này, mình đã phải ghi riêng thêm cho mình một lưu ý: “Luôn kiểm tra lại thứ tự HDD dù ở ngoài server hay trong BIOS. Điều đó sẽ tiết kiệm được rất, rất nhiều thời gian cho việc phục hồi dữ liệu.”

Tham khảo Bảng giá Phục hồi dữ liệu: https://tathanh.net/bao-gia-phuc-hoi-du-lieu-ssd-hdd.html

Xem thêm:

Cứu dữ liệu Server bị chập điện: https://tathanh.net/cuu-du-lieu-server-bi-chap-dien.html

Khôi phục dữ liệu hệ thống RAID 5 chạy 4 HDD: https://tathanh.net/khoi-phuc-du-lieu-he-thong-raid-5-chay-4-hdd.html

Tạ Thanh

, , ,

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *