Forum Discussion

Aspirant

Mar 13, 2011

Disk Failure Detected...

I've recently purchased a ReadyNAS Ultra 6 along with 6 2 Tb Seagate ST2000DL003 disks (which are on the HCL).

I've set up the NAS in a dual redundancy X-RAID2 configuration and have starting copying all the data over the network from my old ReadyNAS NV to the new ultra 6...

About half way through copying (on 6th March), I got a disk failure detected (on channel 4). I powered down the NAS took the disk out and reinserted it, assuming there might be some kind of connection problem... When I powered back up it detected the disk, tested it and started to resync (which takes about 24 hours)... I left it alone while it did that and then it seemed to be ok, so I started copying the rest of my data across. There is nothing in the SMART+ log for disk 4 which would indicate that there was ever a problem with that disk.

A few minutes ago, I just got another disk failure (this time on channel 2). Exactly the same story... powered down and then back up again, the disk comes back to life and the NAS starts testing it and resyncing it... again, there is nothing in the SMART+ log for disk 2 which indicates (to me at least) that there was ever a problem.

After both occasions, I've downloaded the system logs from the NAS, but I'm not sure what to do with them. Is there something in the log which would show what exactly failed?

Any idea what's going on here? Have I got a couple of dud disks which need to be sent back, or is there something else going on? If they are dud, I'd need to be able to prove to the retailer that they were... the only indication I have of a problem is that the ReadyNAS ultra 6 _said_ that they had failed... but they both seem to be working fine now.

Thanks,
Ash.

P.S. Here's the SMART+ report from disk 2:


SMART Information for Disk 2

Model:	ST2000DL003-9VT166
Serial:	5YD2196G
Firmware:	CC32
SMART Attribute
Spin Up Time	0
Start Stop Count	12
Reallocated Sector Count	0
Power On Hours	151
Spin Retry Count	0
Power Cycle Count	12
Reported Uncorrect	0
High Fly Writes	0
Airflow Temperature Cel	42
G-Sense Error Rate	0
Power-Off Retract Count	6
Load Cycle Count	12
Temperature Celsius	42
Current Pending Sector	0
Offline Uncorrectable	0
UDMA CRC Error Count	0
Head Flying Hours	221474283585687
ATA Error Count	0

This looks like the appropriate section of system.log for the failure which occurred today:


Mar 13 20:00:09 ultranas ntpdate[11162]: step time server 194.238.48.3 offset 0.310812 sec
Mar 13 20:16:27 ultranas kernel: ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Mar 13 20:16:27 ultranas kernel: ata2.00: failed command: FLUSH CACHE EXT
Mar 13 20:16:27 ultranas kernel: ata2.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Mar 13 20:16:27 ultranas kernel:          res 40/00:ff:00:00:00/00:00:00:00:00/40 Emask 0x4 (timeout)
Mar 13 20:16:27 ultranas kernel: ata2.00: status: { DRDY }
Mar 13 20:16:27 ultranas kernel: ata2: hard resetting link
Mar 13 20:16:33 ultranas kernel: ata2: link is slow to respond, please be patient (ready=0)
Mar 13 20:16:37 ultranas kernel: ata2: COMRESET failed (errno=-16)
Mar 13 20:16:37 ultranas kernel: ata2: hard resetting link
Mar 13 20:16:43 ultranas kernel: ata2: link is slow to respond, please be patient (ready=0)
Mar 13 20:16:47 ultranas kernel: ata2: COMRESET failed (errno=-16)
Mar 13 20:16:47 ultranas kernel: ata2: hard resetting link
Mar 13 20:16:53 ultranas kernel: ata2: link is slow to respond, please be patient (ready=0)
Mar 13 20:17:23 ultranas kernel: ata2: COMRESET failed (errno=-16)
Mar 13 20:17:23 ultranas kernel: ata2: limiting SATA link speed to 1.5 Gbps
Mar 13 20:17:23 ultranas kernel: ata2: hard resetting link
Mar 13 20:17:28 ultranas kernel: ata2: COMRESET failed (errno=-16)
Mar 13 20:17:28 ultranas kernel: ata2: reset failed, giving up
Mar 13 20:17:28 ultranas kernel: ata2.00: disabled
Mar 13 20:17:28 ultranas kernel: ata2.00: device reported invalid CHS sector 0
Mar 13 20:17:28 ultranas kernel: ata2: EH complete
Mar 13 20:17:28 ultranas kernel: end_request: I/O error, dev sdb, sector 0
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] Unhandled error code
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 00 90 00 50 00 00 02 00
Mar 13 20:17:28 ultranas kernel: end_request: I/O error, dev sdb, sector 9437264
Mar 13 20:17:28 ultranas kernel: end_request: I/O error, dev sdb, sector 9437264
Mar 13 20:17:28 ultranas kernel:  **************** super written barrier kludge on md2: error==IO 0xfffffffb
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] Unhandled error code
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 00 00 00 48 00 00 02 00
Mar 13 20:17:28 ultranas kernel: end_request: I/O error, dev sdb, sector 72
Mar 13 20:17:28 ultranas kernel: end_request: I/O error, dev sdb, sector 72
Mar 13 20:17:28 ultranas kernel:  **************** super written barrier kludge on md0: error==IO 0xfffffffb
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] Unhandled error code
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] CDB: Read(10): 28 00 00 51 8f 30 00 00 28 00
Mar 13 20:17:28 ultranas kernel: end_request: I/O error, dev sdb, sector 5345072
Mar 13 20:17:28 ultranas kernel: raid1: sdb1: rescheduling sector 5342960
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] Unhandled error code
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 00 90 00 50 00 00 02 00
Mar 13 20:17:28 ultranas kernel: end_request: I/O error, dev sdb, sector 9437264
Mar 13 20:17:28 ultranas kernel: md: super_written gets error=-5, uptodate=0
Mar 13 20:17:28 ultranas kernel: raid5: Disk failure on sdb5, disabling device.
Mar 13 20:17:28 ultranas kernel: raid5: Operation continuing on 5 devices.
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] Unhandled error code
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar 13 20:17:28 ultranas kernel: sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 00 00 00 48 00 00 02 00
Mar 13 20:17:28 ultranas kernel: end_request: I/O error, dev sdb, sector 72
Mar 13 20:17:28 ultranas kernel: md: super_written gets error=-5, uptodate=0
Mar 13 20:17:28 ultranas kernel: raid1: Disk failure on sdb1, disabling device.
Mar 13 20:17:28 ultranas kernel: raid1: Operation continuing on 5 devices.
Mar 13 20:17:28 ultranas kernel: RAID5 conf printout:
Mar 13 20:17:28 ultranas kernel:  --- rd:6 wd:5
Mar 13 20:17:28 ultranas kernel:  disk 0, o:1, dev:sda5
Mar 13 20:17:28 ultranas kernel:  disk 1, o:0, dev:sdb5
Mar 13 20:17:28 ultranas kernel:  disk 2, o:1, dev:sdc5
Mar 13 20:17:28 ultranas kernel:  disk 3, o:1, dev:sdd5
Mar 13 20:17:28 ultranas kernel:  disk 4, o:1, dev:sde5
Mar 13 20:17:28 ultranas kernel:  disk 5, o:1, dev:sdf5
Mar 13 20:17:28 ultranas kernel: RAID5 conf printout:
Mar 13 20:17:28 ultranas kernel:  --- rd:6 wd:5
Mar 13 20:17:28 ultranas kernel:  disk 0, o:1, dev:sda5
Mar 13 20:17:28 ultranas kernel:  disk 2, o:1, dev:sdc5
Mar 13 20:17:28 ultranas kernel:  disk 3, o:1, dev:sdd5
Mar 13 20:17:28 ultranas kernel:  disk 4, o:1, dev:sde5
Mar 13 20:17:28 ultranas kernel:  disk 5, o:1, dev:sdf5
Mar 13 20:17:28 ultranas kernel: RAID1 conf printout:
Mar 13 20:17:28 ultranas kernel:  --- wd:5 rd:6
Mar 13 20:17:28 ultranas kernel:  disk 0, wo:0, o:1, dev:sda1
Mar 13 20:17:28 ultranas kernel:  disk 1, wo:1, o:0, dev:sdb1
Mar 13 20:17:28 ultranas kernel:  disk 2, wo:0, o:1, dev:sdc1
Mar 13 20:17:28 ultranas kernel:  disk 3, wo:0, o:1, dev:sdd1
Mar 13 20:17:28 ultranas kernel:  disk 4, wo:0, o:1, dev:sde1
Mar 13 20:17:28 ultranas kernel:  disk 5, wo:0, o:1, dev:sdf1
Mar 13 20:17:28 ultranas kernel: RAID1 conf printout:
Mar 13 20:17:28 ultranas kernel:  --- wd:5 rd:6
Mar 13 20:17:28 ultranas kernel:  disk 0, wo:0, o:1, dev:sda1
Mar 13 20:17:28 ultranas kernel:  disk 2, wo:0, o:1, dev:sdc1
Mar 13 20:17:28 ultranas kernel:  disk 3, wo:0, o:1, dev:sdd1
Mar 13 20:17:28 ultranas kernel:  disk 4, wo:0, o:1, dev:sde1
Mar 13 20:17:28 ultranas kernel:  disk 5, wo:0, o:1, dev:sdf1
Mar 13 20:17:28 ultranas kernel: raid1: sdf1: redirecting sector 5342960 to another mirror
Mar 13 20:17:32 ultranas RAIDiator: Disk failure detected.\n\nIf the failed disk is used in a RAID level 1, 5, or X-RAID volume, please note that volume is now unprotected, and an additional disk failure may render that volume dead.  If this disk is a part of a RAID 6 volume, your volume is still protected if this is your first failure.  A 2nd disk failure will make your volume unprotected.  It is recommended that you replace the failed disk as soon as possible to maintain optimal protection of your volume.\n\n[Sun Mar 13 20:17:29 WET 2011]
Mar 13 20:20:24 ultranas kernel: program smartctl is using a deprecated SCSI ioctl, please convert it to SG_IO

and here is what looks like the relevant part of the log from the failure on 6th March:


Mar  6 16:00:07 nas-EA-A6-42 ntpdate[12452]: step time server 62.84.188.34 offset -0.103568 sec
Mar  6 18:48:21 nas-EA-A6-42 kernel: ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Mar  6 18:48:22 nas-EA-A6-42 kernel: ata4.00: failed command: FLUSH CACHE EXT
Mar  6 18:48:22 nas-EA-A6-42 kernel: ata4.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Mar  6 18:48:22 nas-EA-A6-42 kernel:          res 40/00:00:b8:f7:0e/00:00:00:00:00/40 Emask 0x4 (timeout)
Mar  6 18:48:22 nas-EA-A6-42 kernel: ata4.00: status: { DRDY }
Mar  6 18:48:22 nas-EA-A6-42 kernel: ata4: hard resetting link
Mar  6 18:48:27 nas-EA-A6-42 kernel: ata4: link is slow to respond, please be patient (ready=0)
Mar  6 18:48:32 nas-EA-A6-42 kernel: ata4: COMRESET failed (errno=-16)
Mar  6 18:48:32 nas-EA-A6-42 kernel: ata4: hard resetting link
Mar  6 18:48:37 nas-EA-A6-42 kernel: ata4: link is slow to respond, please be patient (ready=0)
Mar  6 18:48:42 nas-EA-A6-42 kernel: ata4: COMRESET failed (errno=-16)
Mar  6 18:48:42 nas-EA-A6-42 kernel: ata4: hard resetting link
Mar  6 18:48:47 nas-EA-A6-42 kernel: ata4: link is slow to respond, please be patient (ready=0)
Mar  6 18:49:17 nas-EA-A6-42 kernel: ata4: COMRESET failed (errno=-16)
Mar  6 18:49:17 nas-EA-A6-42 kernel: ata4: limiting SATA link speed to 1.5 Gbps
Mar  6 18:49:17 nas-EA-A6-42 kernel: ata4: hard resetting link
Mar  6 18:49:22 nas-EA-A6-42 kernel: ata4: COMRESET failed (errno=-16)
Mar  6 18:49:22 nas-EA-A6-42 kernel: ata4: reset failed, giving up
Mar  6 18:49:22 nas-EA-A6-42 kernel: ata4.00: disabled
Mar  6 18:49:22 nas-EA-A6-42 kernel: ata4: EH complete
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Write(10): 2a 00 00 00 00 48 00 00 02 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 72
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 72
Mar  6 18:49:22 nas-EA-A6-42 kernel:  **************** super written barrier kludge on md0: error==IO 0xfffffffb
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Write(10): 2a 00 00 93 9e 80 00 00 08 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 9674368
Mar  6 18:49:22 nas-EA-A6-42 kernel: raid5: Disk failure on sdd5, disabling device.
Mar  6 18:49:22 nas-EA-A6-42 kernel: raid5: Operation continuing on 5 devices.
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Write(10): 2a 00 34 c5 68 48 00 00 80 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 885352520
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Write(10): 2a 00 34 c6 f0 c8 00 00 50 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 885453000
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Read(10): 28 00 00 91 28 c8 00 00 38 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 9513160
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Read(10): 28 00 00 91 29 10 00 00 10 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 9513232
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Read(10): 28 00 00 91 29 28 00 00 10 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 9513256
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Read(10): 28 00 00 91 29 40 00 00 08 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 9513280
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Read(10): 28 00 00 93 88 48 00 00 08 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 9668680
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Read(10): 28 00 00 93 a1 90 00 00 10 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 9675152
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Read(10): 28 00 34 c5 38 48 00 00 08 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 885340232
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Read(10): 28 00 34 c5 64 48 00 00 80 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 885351496
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Read(10): 28 00 34 c6 f1 18 00 00 30 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 885453080
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Write(10): 2a 00 00 80 00 48 00 00 02 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 8388680
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 8388680
Mar  6 18:49:22 nas-EA-A6-42 kernel:  **************** super written barrier kludge on md1: error==IO 0xfffffffb
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Read(10): 28 00 00 31 8d 58 00 00 28 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 3247448
Mar  6 18:49:22 nas-EA-A6-42 kernel: raid1: sdd1: rescheduling sector 3245336
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: 
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Unhandled error code
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Mar  6 18:49:22 nas-EA-A6-42 kernel: sd 3:0:0:0: [sdd] CDB: Write(10)Write(10): 2a 00 00 00 00 48 00 00 02 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 72
Mar  6 18:49:22 nas-EA-A6-42 kernel: :md: super_written gets error=-5, uptodate=0
Mar  6 18:49:22 nas-EA-A6-42 kernel:  2a
Mar  6 18:49:22 nas-EA-A6-42 kernel: raid1: Disk failure on sdd1, disabling device.
Mar  6 18:49:22 nas-EA-A6-42 kernel: raid1: Operation continuing on 5 devices.
Mar  6 18:49:22 nas-EA-A6-42 kernel:  00 00 80 00 48 00 00 02 00
Mar  6 18:49:22 nas-EA-A6-42 kernel: end_request: I/O error, dev sdd, sector 8388680
Mar  6 18:49:22 nas-EA-A6-42 kernel: md: super_written gets error=-5, uptodate=0
Mar  6 18:49:22 nas-EA-A6-42 kernel: raid5: Disk failure on sdd2, disabling device.
Mar  6 18:49:22 nas-EA-A6-42 kernel: raid5: Operation continuing on 5 devices.
Mar  6 18:49:23 nas-EA-A6-42 kernel: RAID1 conf printout:
Mar  6 18:49:23 nas-EA-A6-42 kernel:  --- wd:5 rd:6
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 0, wo:0, o:1, dev:sda1
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 1, wo:0, o:1, dev:sdb1
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 2, wo:0, o:1, dev:sdc1
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 3, wo:1, o:0, dev:sdd1
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 4, wo:0, o:1, dev:sde1
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 5, wo:0, o:1, dev:sdf1
Mar  6 18:49:23 nas-EA-A6-42 kernel: RAID1 conf printout:
Mar  6 18:49:23 nas-EA-A6-42 kernel:  --- wd:5 rd:6
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 0, wo:0, o:1, dev:sda1
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 1, wo:0, o:1, dev:sdb1
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 2, wo:0, o:1, dev:sdc1
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 4, wo:0, o:1, dev:sde1
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 5, wo:0, o:1, dev:sdf1
Mar  6 18:49:23 nas-EA-A6-42 kernel: RAID5 conf printout:
Mar  6 18:49:23 nas-EA-A6-42 kernel:  --- rd:6 wd:5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 0, o:1, dev:sda5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 1, o:1, dev:sdb5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 2, o:1, dev:sdc5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 3, o:0, dev:sdd5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 4, o:1, dev:sde5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 5, o:1, dev:sdf5
Mar  6 18:49:23 nas-EA-A6-42 kernel: RAID5 conf printout:
Mar  6 18:49:23 nas-EA-A6-42 kernel:  --- rd:6 wd:5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 0, o:1, dev:sda5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 1, o:1, dev:sdb5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 2, o:1, dev:sdc5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 4, o:1, dev:sde5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 5, o:1, dev:sdf5
Mar  6 18:49:23 nas-EA-A6-42 kernel: RAID5 conf printout:
Mar  6 18:49:23 nas-EA-A6-42 kernel:  --- rd:6 wd:5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 0, o:1, dev:sda2
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 1, o:1, dev:sdb2
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 2, o:1, dev:sdc2
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 3, o:0, dev:sdd2
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 4, o:1, dev:sde2
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 5, o:1, dev:sdf2
Mar  6 18:49:23 nas-EA-A6-42 kernel: raid1: sdb1: redirecting sector 3245336 to another mirror
Mar  6 18:49:23 nas-EA-A6-42 kernel: RAID5 conf printout:
Mar  6 18:49:23 nas-EA-A6-42 kernel:  --- rd:6 wd:5
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 0, o:1, dev:sda2
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 1, o:1, dev:sdb2
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 2, o:1, dev:sdc2
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 4, o:1, dev:sde2
Mar  6 18:49:23 nas-EA-A6-42 kernel:  disk 5, o:1, dev:sdf2
Mar  6 18:49:53 nas-EA-A6-42 RAIDiator: Disk failure detected.\n\nIf the failed disk is used in a RAID level 1, 5, or X-RAID volume, please note that volume is now unprotected, and an additional disk failure may render that volume dead.  If this disk is a part of a RAID 6 volume, your volume is still protected if this is your first failure.  A 2nd disk failure will make your volume unprotected.  It is recommended that you replace the failed disk as soon as possible to maintain optimal protection of your volume.\n\n[Sun Mar  6 18:49:51 WET 2011]

Installation & Upgrade

144 Replies

Replies have been turned off for this discussion

paul4321
Aspirant
Jun 08, 2011
So i have been running into the exact same issues, error logs and lack of solid evidence showing that the disks are bad.
However, im not running Netgear at all. I created my own Linux based NAS solution (based on some specs of commercial NAS solutions).

Hardware specs:
Supermicro X7SPA-H-D525 integrated D525 processor
Intel® ICH9R Express Chipset
4 x 2 TB ST2000DL003-9VT1 disks
Raid 5

I have had two failures in the past 3 weeks, and in both situations, I could shutdown the box, re-insert the disk and start it up again.
This would trigger a resync and everything looks fine.
Other sites I have read have made the following recomendataions:
Try new SATA cables
Try a more powerfull power supply (this wouldnt apply for Netgear users)
Try new disks
Check for overheating

I have been monitoring the heat of the disks, and all 4 are below 40 deg C (within appropreate ranges).

Another site mentioned that each disk would fail once, and only once. So once they all failed for the first time, you should not see any more issues.

My take on all this...
Switching disks would probably fix this issue. Since these disks are classified as "low power/green" disks, it could be that under increased stress, the disks dont draw enough power to compensate causing a temporary hardware failure in the drive. Future smart and manufacturer test don't stress the power of the disk the same way.

So if it continues, I will buy new SATA cables... if it still continues, I will buy new drives...
imlucid
Aspirant
Jun 08, 2011
Well I've had the same disk reporting failures more than once so I don't think its a matter of fail once and your good...
paul4321
Aspirant
Jun 09, 2011
So last night when my 4th disk was re-syncing, I decided to tax the system as heavily as possible. Within 30 min disks 2 and 3 both failed at the same time. A hard reboot (and a completely lost raid array) and all 4 disks looked, acted and tested normal (minus all my lost data which was ok because I have it backed up).
paul4321
Aspirant
Jun 09, 2011
Similar threads:
http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=625922
http://forum.qnap.com/viewtopic.php?f=182&t=39893&start=30

Some strong words on the Seagate site itself:
http://forums.seagate.com/t5/Barracuda-XT-Barracuda-Barracuda/ST2000DL003-Barracuda-Green-not-detected-at-BIOS/td-p/87154/page/7
Royan
Aspirant
Jun 17, 2011
Add another case...

ReadyNas Pro 2 (RAIDiator-x86 4.2.17)
two Seagate ST2000DL003-9VT166 (CC32) disks.
One disk reported itself as dead and 'SMART+' greyed out

In my case it happened while runnning the 'bliss' plugin.
The plugin had a lot to do, and there was a lot of disk activity when it happened.

I didn't have to yank the drive.
After a restart and running smartctl from the shell, it all of a sudden decided the disk was ok, and started rebuilding the volume.

Now I'm thinking of replacing both disks (3 weeks old!), just in case it happens again...
So then it's just a case of finding a set of disks that are on the HCL, available from my retailers and doesn't have any black marks against them in the forum...:)

Edit:
Oh, and I'm not running a mac, and there was no errors in the smart data/logs...

brgds
Royan

Upstate

Aspirant

Aug 03, 2011

...and add another one.

The Google gods led me here and I just had this same exact issue on a month old 2100.

Disk 2 gave up the ghost, hot swapped in another disk that wasn't recognized. Swapped in the reported Dead disk and with a cold restart was happily resyncing. A warm reboot did not do a thing.

My unit has the ST32000644NS and like everyone else FV reported the drive as dead, with no SMART errors and this is on 4.2.17.

And in keeping with the theme of the thread, I also have these same errors repeating in the system log:


Aug  2 16:44:04 HPNAS1 kernel: ata2: hard resetting link
Aug  2 16:44:04 HPNAS1 kernel: ata2: link is slow to respond, please be patient (ready=0)
Aug  2 16:44:04 HPNAS1 kernel: ata2: COMRESET failed (errno=-16)

And for the final kicker, we are also running OSX and AFP. Timemachine was enabled on 7/29 and the dying disk issue occured on 8/2.

Judging from the similarities posted I have disabled TM on our macs and will also do so on the NAS. Interestingly my other 2100 that is RSync'd with the first has no issues at all and is also not using AFP or Timemachine.

I am going to pilfer through the logs on the macs and see what TM was doing at the time of the supposed disk failure and wil report back any interesting findings.

Fits in nicely with:

CitizenPlain wrote:
Reading back through this, there seems to be a commonality in our disks being erroneously reported as dead and the use of OSX.

Summary: (user: details)

bluewombie: Ultra 6 (not plus), OSX Snowleopard, AFP
imlucid: Pro Pioneer, OSX Snow Leopard and Leopard, Time Machine
citizenplain (me): Ultra 6 Plus, OSX Snow Leopard, AFP file transfer, Time Machine
evanhatesspam: Ultra 6 Plus

None of us have had abnormal results from any disk checks. All of us are having trouble with the Seagate ST2000DL003-9VT166 drives.

Didn't catch if user bluewombie has Time Machine enabled. Not sure how evanhatesspam is accessing his NAS.

I updated to the new firmware (RAIDiator-x86 4.2.16) recently, but haven't had a need to do a large file transfer since updating. The updates described in the change log for this version didn't sound like they specifically address this problem. We'll see if it makes a difference.

Anything I'm missing here or any other details we could add to this? Bluewombie, did you ever get anywhere with tech support?

CitizenPlain wrote:
Reading back through this, there seems to be a commonality in our disks being erroneously reported as dead and the use of OSX. Summary: (user:* details)* bluewombie: Ultra 6 (not plus), OSX Snowleopard, AFP imlucid: Pro Pioneer, OSX Snow Leopard and Leopard, Time Machine citizenplain (me): Ultra 6 Plus, OSX Snow Leopard, AFP file transfer, Time Machine evanhatesspam: Ultra 6 Plus None of us have had abnormal results from any disk checks. All of us are having trouble with the Seagate ST2000DL003-9VT166 drives. Didn't catch if user bluewombie has Time Machine enabled. Not sure how evanhatesspam is accessing his NAS. I updated to the new firmware (RAIDiator-x86 4.2.16) recently, but haven't had a need to do a large file transfer since updating. The updates described in the change log for this version didn't sound like they specifically address this problem. We'll see if it makes a difference. Anything I'm missing here or any other details we could add to this? Bluewombie, did you ever get anywhere with tech support?

Updated...

Summary: (user: details)

bluewombie: Ultra 6 (not plus), OSX Snowleopard, AFP
imlucid: Pro Pioneer, OSX Snow Leopard and Leopard, Time Machine
citizenplain (me): Ultra 6 Plus, OSX Snow Leopard, AFP file transfer, Time Machine
evanhatesspam: Ultra 6 Plus
upstate: 2100 v2, OSX Snow Leopard and Leopard, AFP file transfer, Time Machine

PiddeP
Aspirant
Aug 11, 2011
I've experienced the exact same problem, but with another Seagate model (ST31500341AS). They worked flawlessly with my Duo but when I switched to an Ultra 2 the problems started.

My system.log is filed with cycles like this one:
Aug 11 10:48:06 nas-8B-21-2C kernel: ata1: limiting SATA link speed to 1.5 Gbps
Aug 11 10:48:06 nas-8B-21-2C kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Aug 11 10:48:06 nas-8B-21-2C kernel: ata1.00: failed command: FLUSH CACHE EXT
Aug 11 10:48:06 nas-8B-21-2C kernel: ata1.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Aug 11 10:48:06 nas-8B-21-2C kernel: res 40/00:01:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Aug 11 10:48:06 nas-8B-21-2C kernel: ata1.00: status: { DRDY }
Aug 11 10:48:06 nas-8B-21-2C kernel: ata1: hard resetting link
Aug 11 10:48:06 nas-8B-21-2C kernel: ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Aug 11 10:48:06 nas-8B-21-2C kernel: ata1.00: configured for UDMA/133
Aug 11 10:48:06 nas-8B-21-2C kernel: ata1.00: retrying FLUSH 0xea Emask 0x4
Aug 11 10:48:06 nas-8B-21-2C kernel: ata1.00: device reported invalid CHS sector 0
Aug 11 10:48:06 nas-8B-21-2C kernel: ata1: EH complete

Two days ago disk 2 turned "dead"/grey in Frontview, but came back alive after I pulled it out, rebooted and then put it back in. After a few hours it hade re-synced.

This has now happened again, but now disk 2 is still showing in Frontview as dead, without being present in the system! I can't make the system identify the slot as empty, and then re-sync as I insert the drive.

What should I do? Could a reboot with both of the inserted do any harm?

Cheers,

Peter

PiddeP

Aspirant

Aug 15, 2011

PiddeP wrote:

This has now happened again, but now disk 2 is still showing in Frontview as dead, without being present in the system! I can't make the system identify the slot as empty, and then re-sync as I insert the drive.
r

PiddeP wrote:
This has now happened again, but now disk 2 is still showing in Frontview as dead, without being present in the system! I can't make the system identify the slot as empty, and then re-sync as I insert the drive. r

Update: I booted up with only disk 1 inserted, inserted a new WDC-disk, which seem to re-sync correctly.

jah313
Tutor
Aug 29, 2011
You can add me as well...

Ultra 6+

with 6: ST2000DL003

DISK 4 failed today while copying data from an NV+. I am sending them all back to Newegg and getting Hitachi drives.
ferg1
Guide
Sep 01, 2011
I've got six x ST2000DL003 in a new Pro 6. Two from one supplier and four from another. One failed within 3 hours of adding the drive and a second failed within 48 hours of adding it. Both were from separate batches. Either this drive has a pretty poor reliability status (and if so what's it doing on the HCL) or there is something wrong with it (and in which case what's it doing on the HCL!).