I computer di oggi non sono abbastanza precisi: gli errori aritmetici si verificano sempre di più e Google e Facebook stanno esortando le aziende tecnologiche a lavorare insieme per capire meglio perché e come possono essere combattuti.
Gli errori ci sono sempre stati
La tecnologia di cui ci fidiamo ora è troppo avanzata e, se vogliamo credere ai rapporti di aziende come Google e Facebook, è diventata così avanzata che non possiamo più fidarci che esegua i calcoli che aggiungiamo in modo prevedibile. Gli errori nelle CPU ci accompagnano da quando abbiamo le CPU e possono verificarsi per molte ragioni diverse e non sono limitate solo a errori di progettazione, ma anche a condizioni ambientali come la temperatura o errori fisici nei chip che a loro volta danno errori nei calcoli.
In passato accadeva che solo gli account più sensibili fossero sottoposti a controlli anche se i sistemi sembravano funzionare come avrebbero dovuto, in altre parole, trattavamo i computer come infallibili. Ma di recente, alcuni dei maggiori consumatori mondiali di potenza di calcolo, Facebook e Google, hanno scoperto errori di grandezza che ora stanno spingendo un’industria tecnologica unificata a riunirsi per vedere cosa si può fare per migliorare la situazione.
L’intero concetto che vediamo ora è così nuovo che non si ha ancora una parola separata per questo, Google ha scelto di nominare i core che si comportano in questo modo come “mercurio”, che in norvegese può essere tradotto in core incoerenti.
“La nostra avventura inizia con team di produzione vigili che si lamentano sempre più della frequenza con cui le macchine distruggono i dati”, ha dichiarato Peter Hochschild, un ingegnere di Google, in un video presentato questa settimana nell’ambito della conferenza HotOS (20) del 2021.
Hochschild aggiunge anche che “queste macchine sono state accusate in modo credibile di aver distrutto molte applicazioni grandi, stabili e ben corrette. Ogni macchina è stata ripetutamente accusata da team indipendenti, ma la diagnostica tradizionale non trova nulla di sbagliato in loro”.
Possono verificarsi errori fatali
entrambi Il Google E il Sito di social network Facebook Ho pubblicato rapporti sull’argomento e sul problema, ma c’è ancora molto lavoro da fare prima che si possa sperare di trovare una soluzione. Il report di Facebook sulla questione si chiama “Corruzione silenziosa dei dati su larga scala“Mentre viene nominato un rapporto di Google”Nuclei che non contano“
Una delle situazioni descritte da Hochschild è quella in cui uno dei core testati e recensiti ha fallito nei calcoli relativi alla crittografia. Lo ha fatto in modo tale da poter solo decrittare nuovamente i dati.
Il dipendente di Google Hochschild ha descritto il problema come “un attacco ransomware automatico irregolare”.
Idealmente, Google vorrebbe mettere in atto modi automatizzati per identificare questi core incoerenti e ha suggerito strategie come i test della CPU durante l’intero ciclo di vita del chip, piuttosto che affidarsi esclusivamente ai test pre-rilascio. Il gigante della tecnologia attualmente si basa su test condotti dall’uomo, che non sono particolarmente accurati, perché gli strumenti e le tecniche per identificare i core incoerenti sono ancora qualcosa da determinare.
“La nostra recente esperienza è che circa la metà di questi nuclei identificati dall’uomo si è dimostrato incompatibile con indagini approfondite: dobbiamo estrarre ‘confessioni’ con ulteriori test (spesso dopo che è stato sviluppato un nuovo test automatizzato), i ricercatori di Google spiegare.” Half The other è un misto di falsi positivi e un’opportunità limitata di riprodurre errori.”
Cosa ne pensi di questo? Sentiti libero di condividere i tuoi pensieri sull’argomento con altri lettori nella sezione commenti!
“Esperto di social media. Pluripremiato fanatico del caffè. Esploratore generale. Risolutore di problemi.”