Répondre

RN104: volume inactif

Willo6942
Aspirant

RN104: volume inactif

Bonjour,

 

J'ai actuellement un serveur ReadyNAS 104 avec 4 * 3To de disques.

Suite à une defaillance du disque 2, j'ai entrepris son remplacement et ai commencé la resynchronisation du raid avec le disque de rechange. Procédure que j'ai déjà eu à faire dans le passé sans soucis.

 

Malheureusement, cette fois-ci, après 2 jours de synchronisation (il en restait 1 à faire!), le disque 3 est passé en erreur!

Ca a eu pour conséquence de stopper la resynchronisation du disque 2 et de rendre totalement inaccessible mes fichiers.

M'affichant sur la page d'administration que j'avais des volumes inactifs et qu'il fallait que je les supprime pour avoir accès à mes disques 1, 2, 3 et 4.

 

Le probleme est que si je supprime ces volumes inactifs, je vais en fait perdre l'ensemble de mes donnees...ce que je voudrais eviter, d'ou mon message ici!

 

Je ne sais pas si depuis le disque 3 n'est plus pris en compte par l'interface d'administration mais dans le journal je n'ai plus aucun message d'erreur le concernant. Je me demandais donc pourquoi le raid ne pourrait pas refonctionner si ce disque n'est pas mort...

 

Apres un redémarrage du serveur en read-only qui n'a rien changé au status de mon raid, j'ai entrepris de me connecter en ssh sur le device juste pour pouvoir faire des commandes de visualisation du raid (bien plus précis que la page d'administration).

Il s'avère qu'actuellement mon raid est venu comme configuré avec seulement 2 disque (les 1 et 4), un disque spare (le disque 2 qui n'avait pas sa resynchro de fini) et c'est tout!

Aucune info sur le disque 3! Evidemment avec seulement 2 disques correctement synchronisés, le raid5 ne peut se faire.

Ce que je ne pige pas c'est pourquoi mon disque 3 pourtant visible point de vue file system, ne se remet pas automatiquement dans le raid?

Est-ce qu'au moment ou il y a eut l'erreur sur le disque 3, celui-ci a été marqué d'une certaine manière comme inutilisable?

Est-ce qu'en procédant depuis un pc externe à une copie bas niveau du disque 3 vers un tout nouveau disque et en installant ensuite ce nouveau disque dans le nas, ca permettrait au raid de se remettre en état de fonctionnement dégradé (3 disques sur 4) me permettant, à minima, de récupérer mes données?

 

Si quelqu'un a une idée et pourrait m'aider, je suis preneur.

Merci beaucoup!!!

 

 

Model: RN104|ReadyNAS 100 Series 4- Bay
Message 1 sur 3

Solutions approuvées
Willo6942
Aspirant

Re: RN104: volume inactif

Bonjour,

 

Au final je n'ai pas contacté l'équipe technique car d'après les informations données par le suite je ne suis plus sous garantie ni sous support. J'aurais donc eu a payer une prestation de support + une prestation de recovery sans garantie de ne pas perdre mes données.

En tout cas c'est ce que j'ai lu sur différents thread!

 

Bref, après plusieurs jours de recherches etc, j'ai enfin réussi à solutionner mon problème!

Si jamais d'autres personnes sont dans le même cas que moi, je vais essayer d'être le plus clair possible pour qu'ils puissent s'inspirer de mes démarches et solutions.

Je tiens néanmoins a bien précisé que toutes mes recherches ont abouti à la meme conclusion: il faut très très bien analyser quel est son problème de l'état du raid car toute manipulation peut être fatale si ce n'était pas la bonne analyse initiale.

 

 

SOLUTION:

Première chose, mon disque 3 ayant toujours l'air de tourner malgré les erreurs de secteurs que j'ai trouvé dans le journal de log, j'ai fait une copie bas niveau avec ddrescue vers un nouveau disque. J'ai ensuite remplacé le disque défectueux par ce nouveau disque.

J'aurais aimé qu'à ce moment là, tout refonctionne direct mais ce n'était pas le cas.

J'ai donc entrepris une analyse en ssh sur le serveur.

 

Voici les différentes analyses prealables que j'ai faites:

# cat /proc/mdstat
Personalities : [raid0] [raid1] [raid10] [raid6] [raid5] [raid4]
md1 : active raid10 sda2[0] sdd2[3] sdc2[2] sdb2[1]
1046528 blocks super 1.2 512K chunks 2 near-copies [4/4] [UUUU]

md0 : active raid1 sdd1[4] sdc1[6] sdb1[5] sda1[3]
4192192 blocks super 1.2 [4/4] [UUUU]

unused devices: <none>

 

=> Je ne voir pas mon raid5!

 

# cat /run/mdadm/map
md0 1.2 b5d7f763:73d8b1e2:a1373b39:b1b40d63 /dev/md/0
md1 1.2 a2149090:ace670ad:fbb4b13a:c3a80330 /dev/md/1
md127 1.2 b3b1a892:5c92cf2e:4ac2634e:081ac2ec /dev/md127

 

=>Pourtant il devrait bien il y avoir un md127 d'après la conf!

 

#dmesg -T

md/raid:md127: device sdd3 operational as raid disk 0
md/raid:md127: device sda3 operational as raid disk 3
md/raid:md127: allocated 4294kB
md/raid:md127: not enough operational devices (2/4 failed)

 

=> Je comprends donc qu'il manque 2 disques, celui qui était en cours de resynchro + celui qui a eu un souci pendant la synchro

 

#ls -la /dev/

# mdadm --detail /dev/md0

# mdadm --detail /dev/md1

 

Je comprends rapidement que j'ai donc différents raid sur le serveur et que mon raid 5 est en fait composé de partitions et n'ont pas de disques entier et que ce sont les partitions /dev/sd[abcd]3

Il faut donc que j'analyse en détail chacune de ces partitions avec:

#mdadm --examine /dev/sd[abcd]3

[...]

Array UUID : 92a8b1b3:2ecf925c:4e63c24a:ecc21a08

[..]

Raid Level : raid5
Raid Devices : 4

[...]

=>Je vais en extraire les infos les plus importantes:

# mdadm --examine /dev/sd*3 | grep "Events"

Events : 6348

Events : 6328

Events : 6348

Events : 6348

# mdadm --examine /dev/sd*3 | grep "Role"

Device Role : Active device 3
Device Role : Active device 2
Device Role : spare
Device Role : Active device 0

# mdadm --examine /dev/sd*3 | grep "State"

Array State : A..A ('A' == active, '.' == missing, 'R' == replacing)

Array State : AAAA ('A' == active, '.' == missing, 'R' == replacing)

Array State : A..A ('A' == active, '.' == missing, 'R' == replacing)

Array State : A..A ('A' == active, '.' == missing, 'R' == replacing)

 

Je vois donc que mon disque 2 en cours de synchro (appelé ici "spare") était vu comme missing mais que le disque 3 (qui est en fait "Active device 2") était aussi vu comme missing mais surtout pour lui tout était normal dans l'état du raid et son numéro d'évènement n'était pas le même que les autres (mais pas très éloigné!).

 

J'ai donc cherché un moyen pour remonter le raid malgré ces évènements non synchronisés mais sans reussite car je n'ai pas de /dev/md127 et beaucoup de commande devant afficher des états de raid doivent avoir en paramètre ce /dev/md127 sauf qu'à chaque fois j'ai le droit à une erreur "No such file or directory".

Il fallait donc que je retrouve ce md127...

 

En cherchant sur le net, j'ai réussi à trouver l'unique commande nécessaire à mon bonheur: forcer que le "Active device 2" soit de nouveau dans le raid avec le bon event.

#mdadm --assemble /dev/md127 --uuid=92a8b1b3:2ecf925c:4e63c24a:ecc21a08

mdadm: /dev/md127 assembled from 2 drives and 1 spare - not enough to start the array.

#mdadm --assemble /dev/md127 --force --uuid=92a8b1b3:2ecf925c:4e63c24a:ecc21a08

mdadm: NOT forcing event count in /dev/sdb3(2) from 6328 up to 6348
mdadm: You can use --really-force to do that (DANGEROUS)
mdadm: /dev/md127 assembled from 2 drives and 1 spare - not enough to start the array.

# mdadm --assemble /dev/md127 --really-force --uuid=92a8b1b3:2ecf925c:4e63c24a:ecc21a08
mdadm: forcing event count in /dev/sdb3(2) from 6328 upto 6348
mdadm: clearing FAULTY flag for device 2 in /dev/md127 for /dev/sdb3
mdadm: Marking array /dev/md127 as 'clean'
mdadm: /dev/md127 has been started with 3 drives (out of 4) and 1 spare.

#dmesg -T

md/raid:md127: device sdd3 operational as raid disk 0
md/raid:md127: device sda3 operational as raid disk 3
md/raid:md127: device sdb3 operational as raid disk 2
md/raid:md127: allocated 4294kB
md/raid:md127: raid level 5 active with 3 out of 4 devices, algorithm 2

 

Cette fois, je retrouvé mon /dev/md127.

Dans l'interface d'administration Netgear, mes volumes ne sont plus en inactifs c'est passé en dégradé le temps de synchroniser le disque 2 (spare) qui n'avait pu finir la dernière fois.

Mon partage réseau sur mon PC refonctionne et j'ai accès à l'ensemble de mes fichiers!

 

Je donne ici 2 liens très utiles qui m'ont permis d'avancer et d'arriver à ce resultat:

http://fibrevillage.com/storage/676-how-to-fix-linux-mdadm-inactive-array

https://raid.wiki.kernel.org/index.php/RAID_Recovery

 

Voila, en esperant que ca puisse un jour aider quelqu'un qui se retrouve dans le même cas que moi et qui pense qu'il a definitivement tout perdu. Mais encore une fois faites attention car suivant les commandes que vous faites, vous pouvez définitivement tout perdre!

 

Voir la solution dans l'envoi d'origine

Message 3 sur 3

Toutes les réponses
PatrycjaG
NETGEAR Moderator

Re: RN104: volume inactif

Bonjour @Willo6942

 

Bienvenue sur le forum Netgear et félicitations pour votre premier message 🙂

 

Le mieux dans votre cas afin d'éviter de perdre des données est de contacter mes collègues du support technique.

 

Bonne journée à vous,

Patrycja

Equipe Netgear

Message 2 sur 3
Willo6942
Aspirant

Re: RN104: volume inactif

Bonjour,

 

Au final je n'ai pas contacté l'équipe technique car d'après les informations données par le suite je ne suis plus sous garantie ni sous support. J'aurais donc eu a payer une prestation de support + une prestation de recovery sans garantie de ne pas perdre mes données.

En tout cas c'est ce que j'ai lu sur différents thread!

 

Bref, après plusieurs jours de recherches etc, j'ai enfin réussi à solutionner mon problème!

Si jamais d'autres personnes sont dans le même cas que moi, je vais essayer d'être le plus clair possible pour qu'ils puissent s'inspirer de mes démarches et solutions.

Je tiens néanmoins a bien précisé que toutes mes recherches ont abouti à la meme conclusion: il faut très très bien analyser quel est son problème de l'état du raid car toute manipulation peut être fatale si ce n'était pas la bonne analyse initiale.

 

 

SOLUTION:

Première chose, mon disque 3 ayant toujours l'air de tourner malgré les erreurs de secteurs que j'ai trouvé dans le journal de log, j'ai fait une copie bas niveau avec ddrescue vers un nouveau disque. J'ai ensuite remplacé le disque défectueux par ce nouveau disque.

J'aurais aimé qu'à ce moment là, tout refonctionne direct mais ce n'était pas le cas.

J'ai donc entrepris une analyse en ssh sur le serveur.

 

Voici les différentes analyses prealables que j'ai faites:

# cat /proc/mdstat
Personalities : [raid0] [raid1] [raid10] [raid6] [raid5] [raid4]
md1 : active raid10 sda2[0] sdd2[3] sdc2[2] sdb2[1]
1046528 blocks super 1.2 512K chunks 2 near-copies [4/4] [UUUU]

md0 : active raid1 sdd1[4] sdc1[6] sdb1[5] sda1[3]
4192192 blocks super 1.2 [4/4] [UUUU]

unused devices: <none>

 

=> Je ne voir pas mon raid5!

 

# cat /run/mdadm/map
md0 1.2 b5d7f763:73d8b1e2:a1373b39:b1b40d63 /dev/md/0
md1 1.2 a2149090:ace670ad:fbb4b13a:c3a80330 /dev/md/1
md127 1.2 b3b1a892:5c92cf2e:4ac2634e:081ac2ec /dev/md127

 

=>Pourtant il devrait bien il y avoir un md127 d'après la conf!

 

#dmesg -T

md/raid:md127: device sdd3 operational as raid disk 0
md/raid:md127: device sda3 operational as raid disk 3
md/raid:md127: allocated 4294kB
md/raid:md127: not enough operational devices (2/4 failed)

 

=> Je comprends donc qu'il manque 2 disques, celui qui était en cours de resynchro + celui qui a eu un souci pendant la synchro

 

#ls -la /dev/

# mdadm --detail /dev/md0

# mdadm --detail /dev/md1

 

Je comprends rapidement que j'ai donc différents raid sur le serveur et que mon raid 5 est en fait composé de partitions et n'ont pas de disques entier et que ce sont les partitions /dev/sd[abcd]3

Il faut donc que j'analyse en détail chacune de ces partitions avec:

#mdadm --examine /dev/sd[abcd]3

[...]

Array UUID : 92a8b1b3:2ecf925c:4e63c24a:ecc21a08

[..]

Raid Level : raid5
Raid Devices : 4

[...]

=>Je vais en extraire les infos les plus importantes:

# mdadm --examine /dev/sd*3 | grep "Events"

Events : 6348

Events : 6328

Events : 6348

Events : 6348

# mdadm --examine /dev/sd*3 | grep "Role"

Device Role : Active device 3
Device Role : Active device 2
Device Role : spare
Device Role : Active device 0

# mdadm --examine /dev/sd*3 | grep "State"

Array State : A..A ('A' == active, '.' == missing, 'R' == replacing)

Array State : AAAA ('A' == active, '.' == missing, 'R' == replacing)

Array State : A..A ('A' == active, '.' == missing, 'R' == replacing)

Array State : A..A ('A' == active, '.' == missing, 'R' == replacing)

 

Je vois donc que mon disque 2 en cours de synchro (appelé ici "spare") était vu comme missing mais que le disque 3 (qui est en fait "Active device 2") était aussi vu comme missing mais surtout pour lui tout était normal dans l'état du raid et son numéro d'évènement n'était pas le même que les autres (mais pas très éloigné!).

 

J'ai donc cherché un moyen pour remonter le raid malgré ces évènements non synchronisés mais sans reussite car je n'ai pas de /dev/md127 et beaucoup de commande devant afficher des états de raid doivent avoir en paramètre ce /dev/md127 sauf qu'à chaque fois j'ai le droit à une erreur "No such file or directory".

Il fallait donc que je retrouve ce md127...

 

En cherchant sur le net, j'ai réussi à trouver l'unique commande nécessaire à mon bonheur: forcer que le "Active device 2" soit de nouveau dans le raid avec le bon event.

#mdadm --assemble /dev/md127 --uuid=92a8b1b3:2ecf925c:4e63c24a:ecc21a08

mdadm: /dev/md127 assembled from 2 drives and 1 spare - not enough to start the array.

#mdadm --assemble /dev/md127 --force --uuid=92a8b1b3:2ecf925c:4e63c24a:ecc21a08

mdadm: NOT forcing event count in /dev/sdb3(2) from 6328 up to 6348
mdadm: You can use --really-force to do that (DANGEROUS)
mdadm: /dev/md127 assembled from 2 drives and 1 spare - not enough to start the array.

# mdadm --assemble /dev/md127 --really-force --uuid=92a8b1b3:2ecf925c:4e63c24a:ecc21a08
mdadm: forcing event count in /dev/sdb3(2) from 6328 upto 6348
mdadm: clearing FAULTY flag for device 2 in /dev/md127 for /dev/sdb3
mdadm: Marking array /dev/md127 as 'clean'
mdadm: /dev/md127 has been started with 3 drives (out of 4) and 1 spare.

#dmesg -T

md/raid:md127: device sdd3 operational as raid disk 0
md/raid:md127: device sda3 operational as raid disk 3
md/raid:md127: device sdb3 operational as raid disk 2
md/raid:md127: allocated 4294kB
md/raid:md127: raid level 5 active with 3 out of 4 devices, algorithm 2

 

Cette fois, je retrouvé mon /dev/md127.

Dans l'interface d'administration Netgear, mes volumes ne sont plus en inactifs c'est passé en dégradé le temps de synchroniser le disque 2 (spare) qui n'avait pu finir la dernière fois.

Mon partage réseau sur mon PC refonctionne et j'ai accès à l'ensemble de mes fichiers!

 

Je donne ici 2 liens très utiles qui m'ont permis d'avancer et d'arriver à ce resultat:

http://fibrevillage.com/storage/676-how-to-fix-linux-mdadm-inactive-array

https://raid.wiki.kernel.org/index.php/RAID_Recovery

 

Voila, en esperant que ca puisse un jour aider quelqu'un qui se retrouve dans le même cas que moi et qui pense qu'il a definitivement tout perdu. Mais encore une fois faites attention car suivant les commandes que vous faites, vous pouvez définitivement tout perdre!

 

Message 3 sur 3
Statistiques de discussion
  • 2 réponses
  • 2216 visites
  • 0 compliments
  • 2 en conversation