Forum Discussion

Aspirant

Mar 13, 2011

Disk Failure Detected...

I've recently purchased a ReadyNAS Ultra 6 along with 6 2 Tb Seagate ST2000DL003 disks (which are on the HCL).

I've set up the NAS in a dual redundancy X-RAID2 configuration and have starting copying all the data over the network from my old ReadyNAS NV to the new ultra 6...

About half way through copying (on 6th March), I got a disk failure detected (on channel 4). I powered down the NAS took the disk out and reinserted it, assuming there might be some kind of connection problem... When I powered back up it detected the disk, tested it and started to resync (which takes about 24 hours)... I left it alone while it did that and then it seemed to be ok, so I started copying the rest of my data across. There is nothing in the SMART+ log for disk 4 which would indicate that there was ever a problem with that disk.

A few minutes ago, I just got another disk failure (this time on channel 2). Exactly the same story... powered down and then back up again, the disk comes back to life and the NAS starts testing it and resyncing it... again, there is nothing in the SMART+ log for disk 2 which indicates (to me at least) that there was ever a problem.

After both occasions, I've downloaded the system logs from the NAS, but I'm not sure what to do with them. Is there something in the log which would show what exactly failed?

Any idea what's going on here? Have I got a couple of dud disks which need to be sent back, or is there something else going on? If they are dud, I'd need to be able to prove to the retailer that they were... the only indication I have of a problem is that the ReadyNAS ultra 6 _said_ that they had failed... but they both seem to be working fine now.

Thanks,
Ash.

P.S. Here's the SMART+ report from disk 2:


SMART Information for Disk 2

Model:	ST2000DL003-9VT166
Serial:	5YD2196G
Firmware:	CC32
SMART Attribute
Spin Up Time	0
Start Stop Count	12
Reallocated Sector Count	0
Power On Hours	151
Spin Retry Count	0
Power Cycle Count	12
Reported Uncorrect	0
High Fly Writes	0
Airflow Temperature Cel	42
G-Sense Error Rate	0
Power-Off Retract Count	6
Load Cycle Count	12
Temperature Celsius	42
Current Pending Sector	0
Offline Uncorrectable	0
UDMA CRC Error Count	0
Head Flying Hours	221474283585687
ATA Error Count	0

This looks like the appropriate section of system.log for the failure which occurred today:


Mar 13 20:00:09 ultranas ntpdate[11162]: step time server 194.238.48.3 offset 0.310812 sec
Mar 13 20:16:27 ultranas kernel: ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Mar 13 20:16:27 ultranas kernel: ata2.00: failed command: FLUSH CACHE EXT
Mar 13 20:16:27 ultranas kernel: ata2.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Mar 13 20:16:27 ultranas kernel:          res 40/00:ff:00:00:00/00:00:00:00:00/40 Emask 0x4 (timeout)
Mar 13 20:16:27 ultranas kernel: ata2.00: status: { DRDY }
Mar 13 20:16:27 ultranas kernel: ata2: hard resetting link
Mar 13 20:16:33 ultranas kernel: ata2: link is slow to respond, please be patient (ready=0)
Mar 13 20:16:37 ultranas kernel: ata2: COMRESET failed (errno=-16)
Mar 13 20:16:37 ultranas kernel: ata2: hard resetting link
Mar 13 20:16:43 ultranas kernel: ata2: link is slow to respond, please be patient (ready=0)
Mar 13 20:16:47 ultranas kernel: ata2: COMRESET failed (errno=-16)
Mar 13 20:16:47 ultranas kernel: ata2: hard resetting link
Mar 13 20:16:53 ultranas kernel: ata2: link is slow to respond, please be patient (ready=0)
Mar 13 20:17:23 ultranas kernel: ata2: COMRESET failed (errno=-16)
Mar 13 20:17:23 ultranas kernel: ata2: limiting SATA link speed to 1.5 Gbps
Mar 13 20:17:23 ultranas kernel: ata2: hard resetting link
Mar 13 20:17:28 ultranas kernel: ata2: COMRESET failed (errno=-16)
Mar 13 20:17:28 ultranas kernel: ata2: reset failed, giving up
Mar 13 20:17:28 ultranas kernel: ata2.00: disabled
Mar 13 20:17:28 ultranas kernel: ata2.00: device reported invalid CHS sector 0
Mar 13 20:17:28 ultranas kernel: ata2: EH complete
Mar 13 20:17:28 ultranas kernel: end_request: I/O error, dev sdb, sector 0
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] Unhandled error code
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 00 90 00 50 00 00 02 00
Mar 13 20:17:28 ultranas kernel: end_request: I/O error, dev sdb, sector 9437264
Mar 13 20:17:28 ultranas kernel: end_request: I/O error, dev sdb, sector 9437264
Mar 13 20:17:28 ultranas kernel:  **************** super written barrier kludge on md2: error==IO 0xfffffffb
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] Unhandled error code
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 00 00 00 48 00 00 02 00
Mar 13 20:17:28 ultranas kernel: end_request: I/O error, dev sdb, sector 72
Mar 13 20:17:28 ultranas kernel: end_request: I/O error, dev sdb, sector 72
Mar 13 20:17:28 ultranas kernel:  **************** super written barrier kludge on md0: error==IO 0xfffffffb
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] Unhandled error code
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] CDB: Read(10): 28 00 00 51 8f 30 00 00 28 00
Mar 13 20:17:28 ultranas kernel: end_request: I/O error, dev sdb, sector 5345072
Mar 13 20:17:28 ultranas kernel: raid1: sdb1: rescheduling sector 5342960
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] Unhandled error code
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 00 90 00 50 00 00 02 00
Mar 13 20:17:28 ultranas kernel: end_request: I/O error, dev sdb, sector 9437264
Mar 13 20:17:28 ultranas kernel: md: super_written gets error=-5, uptodate=0
Mar 13 20:17:28 ultranas kernel: raid5: Disk failure on sdb5, disabling device.
Mar 13 20:17:28 ultranas kernel: raid5: Operation continuing on 5 devices.
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] Unhandled error code
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 00 00 00 48 00 00 02 00
Mar 13 20:17:28 ultranas kernel: end_request: I/O error, dev sdb, sector 72
Mar 13 20:17:28 ultranas kernel: md: super_written gets error=-5, uptodate=0
Mar 13 20:17:28 ultranas kernel: raid1: Disk failure on sdb1, disabling device.
Mar 13 20:17:28 ultranas kernel: raid1: Operation continuing on 5 devices.
Mar 13 20:17:28 ultranas kernel: RAID5 conf printout:
Mar 13 20:17:28 ultranas kernel:  --- rd:6 wd:5
Mar 13 20:17:28 ultranas kernel:  disk 0, o:1, dev:sda5
Mar 13 20:17:28 ultranas kernel:  disk 1, o:0, dev:sdb5
Mar 13 20:17:28 ultranas kernel:  disk 2, o:1, dev:sdc5
Mar 13 20:17:28 ultranas kernel:  disk 3, o:1, dev:sdd5
Mar 13 20:17:28 ultranas kernel:  disk 4, o:1, dev:sde5
Mar 13 20:17:28 ultranas kernel:  disk 5, o:1, dev:sdf5
Mar 13 20:17:28 ultranas kernel: RAID5 conf printout:
Mar 13 20:17:28 ultranas kernel:  --- rd:6 wd:5
Mar 13 20:17:28 ultranas kernel:  disk 0, o:1, dev:sda5
Mar 13 20:17:28 ultranas kernel:  disk 2, o:1, dev:sdc5
Mar 13 20:17:28 ultranas kernel:  disk 3, o:1, dev:sdd5
Mar 13 20:17:28 ultranas kernel:  disk 4, o:1, dev:sde5
Mar 13 20:17:28 ultranas kernel:  disk 5, o:1, dev:sdf5
Mar 13 20:17:28 ultranas kernel: RAID1 conf printout:
Mar 13 20:17:28 ultranas kernel:  --- wd:5 rd:6
Mar 13 20:17:28 ultranas kernel:  disk 0, wo:0, o:1, dev:sda1
Mar 13 20:17:28 ultranas kernel:  disk 1, wo:1, o:0, dev:sdb1
Mar 13 20:17:28 ultranas kernel:  disk 2, wo:0, o:1, dev:sdc1
Mar 13 20:17:28 ultranas kernel:  disk 3, wo:0, o:1, dev:sdd1
Mar 13 20:17:28 ultranas kernel:  disk 4, wo:0, o:1, dev:sde1
Mar 13 20:17:28 ultranas kernel:  disk 5, wo:0, o:1, dev:sdf1
Mar 13 20:17:28 ultranas kernel: RAID1 conf printout:
Mar 13 20:17:28 ultranas kernel:  --- wd:5 rd:6
Mar 13 20:17:28 ultranas kernel:  disk 0, wo:0, o:1, dev:sda1
Mar 13 20:17:28 ultranas kernel:  disk 2, wo:0, o:1, dev:sdc1
Mar 13 20:17:28 ultranas kernel:  disk 3, wo:0, o:1, dev:sdd1
Mar 13 20:17:28 ultranas kernel:  disk 4, wo:0, o:1, dev:sde1
Mar 13 20:17:28 ultranas kernel:  disk 5, wo:0, o:1, dev:sdf1
Mar 13 20:17:28 ultranas kernel: raid1: sdf1: redirecting sector 5342960 to another mirror
Mar 13 20:17:32 ultranas RAIDiator: Disk failure detected.\n\nIf the failed disk is used in a RAID level 1, 5, or X-RAID volume, please note that volume is now unprotected, and an additional disk failure may render that volume dead.  If this disk is a part of a RAID 6 volume, your volume is still protected if this is your first failure.  A 2nd disk failure will make your volume unprotected.  It is recommended that you replace the failed disk as soon as possible to maintain optimal protection of your volume.\n\n[Sun Mar 13 20:17:29 WET 2011]
Mar 13 20:20:24 ultranas kernel: program smartctl is using a deprecated SCSI ioctl, please convert it to SG_IO

and here is what looks like the relevant part of the log from the failure on 6th March:


Mar  6 16:00:07 nas-EA-A6-42 ntpdate[12452]: step time server 62.84.188.34 offset -0.103568 sec
Mar  6 18:48:21 nas-EA-A6-42 kernel: ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Mar  6 18:48:22 nas-EA-A6-42 kernel: ata4.00: failed command: FLUSH CACHE EXT
Mar  6 18:48:22 nas-EA-A6-42 kernel: ata4.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Mar  6 18:48:22 nas-EA-A6-42 kernel:          res 40/00:00:b8:f7:0e/00:00:00:00:00/40 Emask 0x4 (timeout)
Mar  6 18:48:22 nas-EA-A6-42 kernel: ata4.00: status: { DRDY }
Mar  6 18:48:22 nas-EA-A6-42 kernel: ata4: hard resetting link
Mar  6 18:48:27 nas-EA-A6-42 kernel: ata4: link is slow to respond, please be patient (ready=0)
Mar  6 18:48:32 nas-EA-A6-42 kernel: ata4: COMRESET failed (errno=-16)
Mar  6 18:48:32 nas-EA-A6-42 kernel: ata4: hard resetting link
Mar  6 18:48:37 nas-EA-A6-42 kernel: ata4: link is slow to respond, please be patient (ready=0)
Mar  6 18:48:42 nas-EA-A6-42 kernel: ata4: COMRESET failed (errno=-16)
Mar  6 18:48:42 nas-EA-A6-42 kernel: ata4: hard resetting link
Mar  6 18:48:47 nas-EA-A6-42 kernel: ata4: link is slow to respond, please be patient (ready=0)
Mar  6 18:49:17 nas-EA-A6-42 kernel: ata4: COMRESET failed (errno=-16)
Mar  6 18:49:17 nas-EA-A6-42 kernel: ata4: limiting SATA link speed to 1.5 Gbps
Mar  6 18:49:17 nas-EA-A6-42 kernel: ata4: hard resetting link
Mar  6 18:49:22 nas-EA-A6-42 kernel: ata4: COMRESET failed (errno=-16)
Mar  6 18:49:22 nas-EA-A6-42 kernel: ata4: reset failed, giving up
Mar  6 18:49:22 nas-EA-A6-42 kernel: ata4.00: disabled
Mar  6 18:49:22 nas-EA-A6-42 kernel: ata4: EH complete
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Write(10): 2a 00 00 00 00 48 00 00 02 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 72
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 72
Mar  6 18:49:22 nas-EA-A6-42 kernel:  **************** super written barrier kludge on md0: error==IO 0xfffffffb
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Write(10): 2a 00 00 93 9e 80 00 00 08 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 9674368
Mar  6 18:49:22 nas-EA-A6-42 kernel: raid5: Disk failure on sdd5, disabling device.
Mar  6 18:49:22 nas-EA-A6-42 kernel: raid5: Operation continuing on 5 devices.
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Write(10): 2a 00 34 c5 68 48 00 00 80 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 885352520
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Write(10): 2a 00 34 c6 f0 c8 00 00 50 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 885453000
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Read(10): 28 00 00 91 28 c8 00 00 38 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 9513160
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Read(10): 28 00 00 91 29 10 00 00 10 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 9513232
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Read(10): 28 00 00 91 29 28 00 00 10 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 9513256
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Read(10): 28 00 00 91 29 40 00 00 08 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 9513280
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Read(10): 28 00 00 93 88 48 00 00 08 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 9668680
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Read(10): 28 00 00 93 a1 90 00 00 10 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 9675152
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Read(10): 28 00 34 c5 38 48 00 00 08 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 885340232
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Read(10): 28 00 34 c5 64 48 00 00 80 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 885351496
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Read(10): 28 00 34 c6 f1 18 00 00 30 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 885453080
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Write(10): 2a 00 00 80 00 48 00 00 02 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 8388680
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 8388680
Mar  6 18:49:22 nas-EA-A6-42 kernel:  **************** super written barrier kludge on md1: error==IO 0xfffffffb
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Read(10): 28 00 00 31 8d 58 00 00 28 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 3247448
Mar  6 18:49:22 nas-EA-A6-42 kernel: raid1: sdd1: rescheduling sector 3245336
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: 
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Write(10)Write(10): 2a 00 00 00 00 48 00 00 02 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 72
Mar  6 18:49:22 nas-EA-A6-42 kernel: :md: super_written gets error=-5, uptodate=0
Mar  6 18:49:22 nas-EA-A6-42 kernel:  2a
Mar  6 18:49:22 nas-EA-A6-42 kernel: raid1: Disk failure on sdd1, disabling device.
Mar  6 18:49:22 nas-EA-A6-42 kernel: raid1: Operation continuing on 5 devices.
Mar  6 18:49:22 nas-EA-A6-42 kernel:  00 00 80 00 48 00 00 02 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 8388680
Mar  6 18:49:22 nas-EA-A6-42 kernel: md: super_written gets error=-5, uptodate=0
Mar  6 18:49:22 nas-EA-A6-42 kernel: raid5: Disk failure on sdd2, disabling device.
Mar  6 18:49:22 nas-EA-A6-42 kernel: raid5: Operation continuing on 5 devices.
Mar  6 18:49:23 nas-EA-A6-42 kernel: RAID1 conf printout:
Mar  6 18:49:23 nas-EA-A6-42 kernel:  --- wd:5 rd:6
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 0, wo:0, o:1, dev:sda1
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 1, wo:0, o:1, dev:sdb1
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 2, wo:0, o:1, dev:sdc1
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 3, wo:1, o:0, dev:sdd1
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 4, wo:0, o:1, dev:sde1
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 5, wo:0, o:1, dev:sdf1
Mar  6 18:49:23 nas-EA-A6-42 kernel: RAID1 conf printout:
Mar  6 18:49:23 nas-EA-A6-42 kernel:  --- wd:5 rd:6
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 0, wo:0, o:1, dev:sda1
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 1, wo:0, o:1, dev:sdb1
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 2, wo:0, o:1, dev:sdc1
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 4, wo:0, o:1, dev:sde1
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 5, wo:0, o:1, dev:sdf1
Mar  6 18:49:23 nas-EA-A6-42 kernel: RAID5 conf printout:
Mar  6 18:49:23 nas-EA-A6-42 kernel:  --- rd:6 wd:5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 0, o:1, dev:sda5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 1, o:1, dev:sdb5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 2, o:1, dev:sdc5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 3, o:0, dev:sdd5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 4, o:1, dev:sde5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 5, o:1, dev:sdf5
Mar  6 18:49:23 nas-EA-A6-42 kernel: RAID5 conf printout:
Mar  6 18:49:23 nas-EA-A6-42 kernel:  --- rd:6 wd:5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 0, o:1, dev:sda5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 1, o:1, dev:sdb5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 2, o:1, dev:sdc5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 4, o:1, dev:sde5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 5, o:1, dev:sdf5
Mar  6 18:49:23 nas-EA-A6-42 kernel: RAID5 conf printout:
Mar  6 18:49:23 nas-EA-A6-42 kernel:  --- rd:6 wd:5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 0, o:1, dev:sda2
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 1, o:1, dev:sdb2
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 2, o:1, dev:sdc2
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 3, o:0, dev:sdd2
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 4, o:1, dev:sde2
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 5, o:1, dev:sdf2
Mar  6 18:49:23 nas-EA-A6-42 kernel: raid1: sdb1: redirecting sector 3245336 to another mirror
Mar  6 18:49:23 nas-EA-A6-42 kernel: RAID5 conf printout:
Mar  6 18:49:23 nas-EA-A6-42 kernel:  --- rd:6 wd:5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 0, o:1, dev:sda2
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 1, o:1, dev:sdb2
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 2, o:1, dev:sdc2
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 4, o:1, dev:sde2
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 5, o:1, dev:sdf2
Mar  6 18:49:53 nas-EA-A6-42 RAIDiator: Disk failure detected.\n\nIf the failed disk is used in a RAID level 1, 5, or X-RAID volume, please note that volume is now unprotected, and an additional disk failure may render that volume dead.  If this disk is a part of a RAID 6 volume, your volume is still protected if this is your first failure.  A 2nd disk failure will make your volume unprotected.  It is recommended that you replace the failed disk as soon as possible to maintain optimal protection of your volume.\n\n[Sun Mar  6 18:49:51 WET 2011]

Installation & Upgrade

144 Replies

Replies have been turned off for this discussion

skywalker1215
Aspirant
Mar 14, 2012
The suggestions you made didn't seem to apply to my device. My NV+ V2 didn't have those options available anywhere.

Anyway, i'm using a ST33000651AS, ST3000DM001, and HDS723030ALA640. All of which are on the HCL of course. I've verified them with the manufacturer diag tools with the advanced/long tests. I had to warranty one of the drives because of a diag failure so i've been waiting on the new disk. But now they're finally all good and pass the tests.

I am still getting the random drive fail issue though. I contacted netgear support and they suggested i do the OS reinstall on the device. I thought that worked because after resyncing, it never sent me an email about a drive issue. After i got home from work, i was all excited to find that the drives still listed as redundant and active. But about 10 seconds after accessing the Health page, Drive 1 flipped to inactive and failed.

I'm assuming that this means that the drive went to sleep or went into a power-save mode, and due to inactivity the NAS had not checked it until i called up the Health page.

Is it possible that ReadyNAS is completely intolerant of having to wait for a drive to spin up?

I've warrantied the device once, factory reset it who knows how many times, replaced and tested all the drives, and ran the OS reinstall. What else could it be?
Fairperson
Aspirant
Mar 15, 2012
Hi,

I too have a NV+ V2 and constantly get a drive reported as "dead". I have 4x 1TB drives either WD or Seagate and a simple re-boot will normally restore all the NAS drive(s) to operation. Sometimes I can go a week or two without any "failures" and then it will happen to drive 4 and the next day to drive 2. When the drive dies the system reports the array as non-redundant until I re-boot and then it seems happy again. Sometimes it will re-sync and sometimes not, no real pattern that I can detect.

Like everyone here I suspect the NV+ V2 of intolerance when waiting for a drive to spin up after "sleeping" but....

This weekend I am planning to do a factory re-set and begin the long process of restoring, but I'm loosing faith with my V2 system. (incidentally I have a V1 NV+ that works a dream and has done for years, so I am a little disapointed to experience so many problems with the V2) I was hoping for more.
PiddeP
Aspirant
Mar 16, 2012
bokvast wrote:
Got an answer from a l3 that they are working on a fix and it is expected to arrive in Q1 2012

Soon Q1 has passed without a fix being released. I have installed the latest update but no luck - the problem persists on my Ultra 2.

I have got a feeling that the error only exists on some layers - for instance the leds on the front panel light up as if both disks are online and redundant, and each time I remove the faulty disk, shut down, replace it and power up again I receive the status message "Data volume will be rebuilt with disk 1". Still the Frontview displays the disk as dead.

When I connect the drive to my PC it is possible to access without problems...
mdgm-ntgr
NETGEAR Employee Retired
Mar 16, 2012
Does the disk pass both short and long SeaTools tests?
skywalker1215
Aspirant
Mar 16, 2012
I spoke with support last night and after about 30 minutes of discussion, the L2 tech concluded the same as I did, that there is some sort of software/firmware issue.

The only problem he can see is that when the device or drives go into a power saving mode, it does not give them enough time to spin back up before claiming drive death.

He escalated my case to the developers/engineers. So now I'm just waiting. I'll let you all know when/what i hear back.
PiddeP
Aspirant
Mar 19, 2012
mdgm wrote:
Does the disk pass both short and long SeaTools tests?

My disk? I have not tried to run any of them. Should I?
PiddeP
Aspirant
Mar 26, 2012
mdgm wrote:
Does the disk pass both short and long SeaTools tests?

I've tested the disk now, and it passed both short and long SeaTool as well as WDC tests without detected errors. It still shows up as 'dead' in Frontview.
ReadySECURE
Apprentice
Mar 28, 2012
PiddeP
If you have owned the Ultra for less than 3 years, you should still be covered under hardware warranty, and you should contact support with this issue. If you have owned it for longer than that, I would still recommend using the email support option to get the issue resolved.

bokvast wrote:
Got an answer from a l3 that they are working on a fix and it is expected to arrive in Q1 2012

mdgm wrote:
Does the disk pass both short and long SeaTools tests?

mdgm wrote:
Does the disk pass both short and long SeaTools tests?

PiddeP

Aspirant

Mar 31, 2012

readysecure1985 wrote:
PiddeP
If you have owned the Ultra for less than 3 years, you should still be covered under hardware warranty, and you should contact support with this issue. If you have owned it for longer than that, I would still recommend using the email support option to get the issue resolved.

readysecure1985 wrote:
PiddeP If you have owned the Ultra for less than 3 years, you should still be covered under hardware warranty, and you should contact support with this issue. If you have owned it for longer than that, I would still recommend using the email support option to get the issue resolved.

I've contacted support now, they responded with some tips that I had already tried and said that I should keep an eye open for new firmware updates...

But as Q1 ends today it should be a short wait :/

JafoNut
Aspirant
May 06, 2012
I too was receiving drive failures on my Ready NAS, they were alternating between drive 1 and 2. This started about a week after initial setup of my NAS in early March of this year. I have since switched it over to Flex-raid and I have not received any drive failures in the past month.

Config:
Netgear ReadyNAS NV+ V2
Radiator 5.3.4
256MB RAM
4 3TB Seagate Barracuda 7200.14 ST3000DM001
Flex-raid 5