November 23, 2024

PAPERS

A volte la vita ti colpirà alla testa con un mattone

IBM svela Telum per combattere le frodi finanziarie in tempo reale

IBM ha presentato un nuovo processore, nome in codice Telum, che si dice accelererà l’elaborazione dell’intelligenza artificiale (AI) sui suoi mainframe della serie Z. Sviluppato negli ultimi tre anni da IBM Research AI Hardware Center, il chip contiene otto core del processore con una pipeline di istruzioni out-of-order super-scalare, in esecuzione con una frequenza di clock superiore a 5 GHz. IBM ha affermato che Telum è ottimizzato per le esigenze di carichi di lavoro eterogenei di classe enterprise.

Telum utilizza una cache riprogettata e un’infrastruttura di interconnessione di chip, che ora fornisce 32 MB di cache per core e può scalare fino a 32 chip Telum. Il design del modulo a doppio chip contiene 22 miliardi di transistor e 19 miglia di filo su 17 strati metallici.

A causa dei requisiti di latenza, il rilevamento di frodi complesse spesso non può essere completato in tempo reale, il che significa che un malintenzionato potrebbe aver già acquistato con successo beni con una carta di credito rubata prima che il rivenditore venga a conoscenza dell’avvenuta frode. Telum è il primo processore IBM che contiene l’accelerazione su chip per l’inferenza AI durante una transazione.

Christian Jacobi, chief architect di IBM per i processori Z, ha affermato che IBM voleva fornire i suoi clienti bancari, finanziari e assicurativi con la possibilità di eseguire l’intelligenza artificiale in tempo reale con un volume di transazioni compreso tra 10.000 e 50.000 al secondo. “È costruito per l’inferenza nelle transazioni e progettato utilizzando un core AI del centro di ricerca IBM AI”, ha affermato. “Abbiamo lavorato con il team Z per renderlo accessibile per gestire transazioni elevate”.

L’accelerazione viene fornita tramite una nuova istruzione, che è programmata sotto il core del processore Z, ha affermato Jacobi. “Non c’è alcun intervento del sistema operativo.”

A differenza dell’accelerazione AI basata su GPU, ha affermato, “non è necessario inviare dati attraverso un bus PCI, il che aumenta la latenza”.

Secondo Jacobi, il nuovo chip acceleratore AI è ottimizzato per fornire accesso diretto alla memoria in cui sono archiviati i dati. Quando non viene utilizzato per l’elaborazione dell’intelligenza artificiale, Telum può passare all’esecuzione delle normali funzioni di elaborazione, ha affermato.

IBM ha affermato che a livello di socket, i nuovi chip offriranno un aumento delle prestazioni del 40% rispetto al sistema Z15e Jacobi ha affermato che IBM prevede di sviluppare un’ulteriore ottimizzazione nello stack software.

“Ci sono strati di codice coinvolti nella fornitura dell’intera soluzione”, ha affermato. “Inizia con il silicio e il firmware che gira sui core del processore e sull’acceleratore AI. Questo firmware implementa varie operazioni, come “Moltiplicazione matrice”. Inoltre, esegue il sistema operativo e il software del framework AI, sfruttando la nuova istruzione Neural Network Processing Assist che è la vista a livello di software sull’acceleratore su chip.

“Con questo approccio, i clienti possono creare modelli di intelligenza artificiale ovunque, su IBM Z, IBM Power o altri sistemi di loro scelta, quindi esportare tali modelli nell’Open Neural Network Exchange. [ONNX] formato. Quindi il compilatore IBM Deep Learning compilerà e ottimizzerà i modelli ONNX per l’implementazione su IBM Z. I modelli compilati verranno quindi eseguiti su Telum, sfruttando direttamente l’acceleratore di intelligenza artificiale di Telum attraverso quello stack hardware/firmware/software.