January 28, 2022

PAPERS

A volte la vita ti colpirà alla testa con un mattone

In che modo lo storage computazionale offre i vantaggi del data center

L’obiettivo di a architettura di archiviazione computazionale è ridurre la necessità di spostare set di dati di grandi dimensioni o alleviare i vincoli sulle risorse di elaborazione o di archiviazione esistenti, ad esempio in una distribuzione edge.

Un fattore che guida lo sviluppo dello storage computazionale sono i dati o, per essere più precisi, i crescenti volumi di dati con cui le organizzazioni devono sempre più fare i conti. Le organizzazioni si stanno rivolgendo alla scienza dei dati, all’analisi dei dati e all’apprendimento automatico per raccogliere informazioni da tutti questi dati, ma questi sono ad alta intensità di dati e tendono a essere vincolati dalle velocità di input / output (I / O) o sono sensibili alla latenza. Ha più senso, quindi, elaborare i dati il ​​più vicino possibile a dove sono archiviati, piuttosto che mischiare gigabyte o terabyte in memoria e viceversa.

Le aziende che stanno sviluppando prodotti di storage computazionale hanno adottato approcci architetturali diversi, dall’integrazione dei processori nelle unità agli acceleratori che si collegano a uno slot PCIe e accedono agli archivi di dati esistenti tramite NVMe.

Per evitare una balcanizzazione del nascente ecosistema di archiviazione computazionale in linee di prodotti reciprocamente incompatibili, il Associazione del settore delle reti di archiviazione (SNIA) formato a Gruppo di lavoro tecnico sull’archiviazione computazionale (TWG). Il gruppo sta lavorando per definire standard e sviluppare un modello di programmazione comune che consentirà alle applicazioni di scoprire e utilizzare qualsiasi risorsa di archiviazione computazionale che può essere collegata a un sistema informatico.

La SNIA ha diviso il definizione di memoria computazionale dispositivi in ​​processori di archiviazione computazionale (CSP), unità di archiviazione computazionale (CSD) e array di archiviazione computazionale (CSA). Un CSP contiene un motore di calcolo, ma in realtà non contiene alcuno spazio di archiviazione. Un CSD (in genere un’unità a stato solido/SSD) contiene sia l’elaborazione che l’archiviazione. Un CSA contiene uno o più motori di calcolo e dispositivi di archiviazione.

Il modello SNIA include un elenco di funzioni di archiviazione computazionale che potrebbero essere eseguite da dispositivi di archiviazione computazionale, come la compressione e la decompressione. Alcuni prodotti di archiviazione computazionale sono stati progettati per svolgere funzioni specifiche, come la codifica o la decodifica video, mentre altri sono stati progettati per essere programmabili dall’utente.

Fornitori notevoli

NGD Systems è uno dei fornitori di storage computazionale più importanti. I suoi prodotti sono CSD secondo la definizione SNIA, che integrano l’elaborazione di elaborazione in un SSD NVMe. Ciò si ottiene utilizzando un circuito integrato specifico per l’applicazione (ASIC) che incorpora sia le funzioni del controller SSD sia un blocco CPU Arm Cortex-A53 quad-core.

Ci sono diversi vantaggi di questa architettura. L’ASIC ha accesso diretto ai chip flash Nand nell’unità tramite i canali CFI (Common Flash Interface) e questi forniscono accesso ai dati con larghezza di banda elevata e bassa latenza, rispetto al trasferimento dei dati in memoria per l’elaborazione da parte della CPU host .

Grazie all’incorporato Arm core, i dispositivi di NGD possono eseguire una versione di Ubuntu Linux, che semplifica lo sviluppo e la distribuzione di applicazioni, o Azure IoT Edge di Microsoft. L’unità stessa è accessibile anche come semplice SSD standard.

Questo tipo di architettura è particolarmente adatto alle implementazioni edge, dove potrebbe esserci spazio sufficiente o potenza sufficiente solo per un singolo server edge, ma con requisiti impegnativi per analizzare i dati in tempo reale, come un feed video da una telecamera di sicurezza. NGD ha un Breve soluzione sul suo sito Web che descrive come un database MongoDB può essere sharded su più SSD CSD all’interno di un singolo server anziché su più nodi server, riducendo l’ingombro del data center e il costo complessivo offrendo una latenza inferiore durante la replica dei dati.

NGD cita anche come casi d’uso l’intelligenza artificiale (AI) automobilistica, le reti di distribuzione di contenuti e data center iperscalabilie offre un ISDP (In-Situ Processing Development System) completamente integrato che consente a sviluppatori e integratori di creare e distribuire applicazioni.

Samsung ha un prodotto CSD simile, ma il suo SmartSSD integra un Xilinx field-programmable gate array (FPGA) e un controller SSD Samsung NVMe all’interno di un fattore di forma SSD standard da 2,5 pollici (U.2) con una capacità fino a 4 TB. Il prodotto risultante è commercializzato da Xilinx.

Xilinx fornisce una piattaforma di sviluppo, Vitis, che consente lo sviluppo in C, C++ o OpenCL. Consente inoltre alle organizzazioni di creare applicazioni accelerate tramite una serie di librerie open source ottimizzate per l’FPGA Xilinx nello SmartSSD. Sono disponibili librerie Vitis per accelerare l’inferenza AI, l’analisi dei dati, la finanza quantitativa e altri. Xilinx afferma che utilizzando il livello di iperaccelerazione di Bigstream, SmartSSD può rendere le analisi di Apache Spark 10 volte più veloci.

Nel frattempo, i prodotti NoLoad di Eideticom sono CSP, in quanto contengono un motore acceleratore ma non lo storage. Al contrario, si connettono allo storage e alla CPU host tramite NVMe, che consente di scalare in modo indipendente il calcolo e lo storage. Infatti, con il supporto per NVMe-oF, i dati potrebbero essere ugualmente conservati in array di archiviazione esterni.

I dispositivi NoLoad utilizzano un FPGA come acceleratore e sono disponibili come scheda PCIe, fattore di forma U.2 come un involucro di unità o formato EDSFF, basato sul formato Intel Ruler SSD. NoLoad può supportare una gamma di funzioni, come compressione, crittografia, codifica di cancellazione, deduplicazione, analisi dei dati e apprendimento automatico (ML).

I dispositivi NoLoad sono già stati schierato presso il Los Alamos National Laboratory (LANL) come parte di un sistema di storage di nuova generazione per calcolo ad alte prestazioni (HPC). Ciò ha visto i dispositivi NoLoad utilizzati per scaricare le attività di archiviazione chiave in un file system Lustre/ZFS, portando a prestazioni migliorate e costi ridotti per il sistema di archiviazione.

Anche lo storage è destinato a Pliops, che utilizza una scheda PCIe con un FPGA per accelerare le operazioni chiave-valore utilizzate in applicazioni come i database. Il Pliops Storage Processor (PSP) implementa una struttura dati ottimizzata per le operazioni di archiviazione relative al database, come l’indicizzazione, la ricerca o l’ordinamento, e le accelera senza richiedere modifiche software all’applicazione. Lo fa sostituendo il sottostante motore di archiviazione chiave-valore, come InnoDB, l’opzione predefinita per MySQL, con il suo acceleratore hardware. Pliops afferma che questa implementazione può fornire 10 volte il numero di query al secondo, facendo un uso più efficiente dello spazio di archiviazione SSD, offrendo un valore aziendale immediato.

Le GPU possono fare anche l’archiviazione computazionale

Forse l’esempio di acceleratore di archiviazione computazionale più estremo è Nyriad. L’azienda ha sviluppato un archiviazione definita dal software piattaforma chiamata Nsulate che utilizza una GPU Nvidia per accelerare codifica di cancellazione funzioni. È inteso come un’alternativa al RAID per implementazioni di storage scale-out ad alte prestazioni che richiedono un alto livello di affidabilità.

In effetti, si afferma che sia in grado di far fronte a dozzine di guasti simultanei dei dispositivi in ​​tempo reale, senza alcun degrado delle prestazioni, poiché Nsulate può ricostruire i dati mancanti più velocemente di quanto i dati possano essere recuperati dallo storage. Ciò significa che la sostituzione di un’unità guasta non deve essere una priorità elevata per il team IT. Nyriad afferma che la GPU può essere utilizzata contemporaneamente per altri carichi di lavoro come l’apprendimento automatico.

Nsulate è attualmente disponibile come parte di sistemi predefiniti da partner come Boston Limited, che offre un server di archiviazione Nsulate basato su Supermicro.

Lo storage computazionale è ancora in una fase iniziale di sviluppo, sebbene alcuni fornitori offrano prodotti distribuibili da diversi anni. Le organizzazioni che lo valutano per il proprio data center devono quindi prestare attenzione, ma ci sono già vantaggi dall’utilizzo di prodotti di storage computazionale in determinate applicazioni. Ad esempio, possono portare a un consumo energetico complessivo inferiore e alla necessità di un minor numero di core CPU per nodo server, oltre a fornire un significativo aumento delle prestazioni in molti casi.