Du machine learning chez Google et Seagate pour prédire la panne d'un disque dur |
————— 19 Mai 2021 à 08h47 —— 11611 vues
Du machine learning chez Google et Seagate pour prédire la panne d'un disque dur |
————— 19 Mai 2021 à 08h47 —— 11611 vues
Contrairement au SSD, il est beaucoup plus difficile d'estimer l'usure et d'anticiper la panne d'un disque dur, un vrai défi pour les centres de données, dont il est un équipement crucial. Qu'à cela ne tienne, Google et Seagate se sont associés pour tenter de remédier à ce problème ! L'expérience s'est traduite par le développement d'un modèle de machine learning pour prédire le moment où un disque dur serait susceptible de rendre l'âme. Une tâche plus difficile qu'elle pourrait en avoir l'air, même pour Google et en dépit d'avoir accès à plus de 20 ans de données sur les comportements de millions de disques durs dans les datacenters. Plus exactement, il s'agit dans le cadre de cette expérience d'exploiter une importante quantité (volume non spécifié) de données tirées du SMART de chaque disque, combinée avec les données des systèmes hôtes, de leurs logs (OVD, FARM) et des informations de fabrication, notamment le numéro du modèle et son lot.
Pour l'anecdote, en 2016, Backblaze avait déjà tenté une expérience un peu semblable, avec le suivi sur une période fixe de 5 attributs spécifiques de SMART, afin de tenter de prédire la panne d'un disque, mais établir des corrélations entre ces 5 éléments fut complexe et parfois impossible. De plus, Backblaze avait conclu que les modèles de pannes étaient différents entre un lecteur où les erreurs s'étaient accumulées lentement au fil du temps et un disque sur lequel les erreurs étaient apparues soudainement.
Cette fois-ci, deux approches différentes ont été utilisées pour tenter de percer le secret, l'une via le classificateur AutoML Tables, et l'autre avec un modèle TensorFlow personnalisé Transformer-based, dans les deux cas via Google Cloud. Les modèles ont ensuite été évalués selon deux mesures, la précision (la valeur prédictive positive) et le rappel (Ia sensibilité), en retenant pour le premier la proportion d'identifications positives correctes, et pour le second la proportion de positifs réels correctement identifiés. À ce jeu, c'est l'AutoML Tables qui s'en est sorti le mieux, avec une précision de 98 % et un rappel de 35 %, contre 70-80 % et 20-25 % pour le modèle custom. Google n'a pas vraiment précisé si ces niveaux de résultats étaient déjà satisfaisants, mais précise qu'ils ont été en mesure de déterminer par ce moyen les causes principales des pannes de disque dur, ce qui a déjà permis d'entreprendre des actions préventives dans l'anticipation de la panne.
Quoiqu'il en est, le projet n'est apparemment pas prévu pour s'arrêter là (ce serait bien dommage). En effet, Google songe déjà à d'améliorer le système pour être compatible avec tous les disques de chez Seagate et entend bien convaincre les OEM et ses clients de l'adopter. Il faut bien l'avouer, nul doute qu'un système de détection permettant de tacler la panne avec précision avant même qu'elle ne se produise peut avoir du succès dans bien des entreprises ! Minority Report, mais pour les disques durs, en somme ! (Source : Google, via ExtremeTech)
Un poil avant ?Le nouvel AIO d'In Win fait "brrr" aussi pour l'environnement du socket | Un peu plus tard ...Un refresh à venir pour les processeurs AMD Ryzen 5000 ? |