L’apprendimento federato e la lotta alle minacce nella posta elettronica

Il nostro metodo di creazione dei modelli per filtrare lo spam consente di salvaguardare la privacy senza ridurne la loro efficacia.

Qual è il modo più semplice per trovare una minaccia nelle vostre e-mail (che si tratti di spam o phishing)? Una varietà di intestazioni tecniche e altri marcatori indiretti di un messaggio indesiderato possono indicarci la strada, ma non dobbiamo dimenticare la parte più ovvia: il contenuto del messaggio. Si potrebbe pensare che sia la prima cosa da analizzare; dopotutto, il testo è ciò che i criminali informatici o gli inserzionisti senza scrupoli usano per manipolare i destinatari. La realtà non è così semplice, però; mentre in passato l’analisi delle firme poteva far fronte a questo compito, ora è necessario analizzare il testo utilizzando algoritmi di apprendimento automatico. E se il modello di apprendimento automatico deve essere adattato per classificare correttamente i messaggi, deve basarsi su grandi quantità di messaggi e questo non è sempre pratico, anche per ragioni di privacy. Tuttavia, abbiamo trovato una soluzione.

Perché l’analisi delle firme non è più efficace?

Dieci anni fa, catturare un’enorme percentuale di e-mail indesiderate basate esclusivamente sul contenuto del messaggio era relativamente facile perché i criminali informatici utilizzavano gli stessi modelli, il testo dei messaggi di spam (e di phishing) non cambiava quasi mai. Oggi, i criminali informatici migliorano continuamente l’efficienza dei loro messaggi e utilizzano milioni di esche: nuovi videogiochi, serie TV o modelli di smartphone, notizie politiche, persino emergenze (si pensi, ad esempio, all’abbondanza di phishing e spam relativi al COVID-19). L’enorme varietà di argomenti complica il processo di rilevamento. Inoltre, i cybercriminali possono anche variare il testo all’interno di un’unica ondata di mailing per eludere i filtri di posta elettronica.

Naturalmente gli approcci basati sulle firme sono ancora in uso, anche se il loro successo dipende fondamentalmente dall’incontro con un messaggio che qualcuno ha già classificato come indesiderato o dannoso. Non possono funzionare in modo proattivo perché gli spammer possono aggirarli apportando modifiche al testo. L’unico modo per affrontare questo problema è l’apprendimento automatico.

Qual è il problema dell’apprendimento automatico?

Negli ultimi anni, i metodi di apprendimento automatico hanno mostrato buoni risultati nella soluzione di molti problemi. Analizzando una grande quantità di dati, i modelli imparano a prendere decisioni e a trovare caratteristiche comuni non banali in un flusso di informazioni. Utilizziamo reti neurali addestrate sugli header tecnici di posta elettronica, insieme al protocollo DMARC, per rilevare le minacce nella posta elettronica. Quindi, perché non possiamo fare la stessa cosa con il contenuto dei messaggi?

Come abbiamo già detto, i modelli hanno bisogno di un’enorme quantità di dati. In questo caso, i dati sono costituiti da e-mail, e non solo da quelle dannose, abbiamo bisogno anche di messaggi legittimi. Senza di essi, insegnare al modello a distinguere un attacco da e-mail legittime sarebbe impossibile. Abbiamo a disposizione numerose trappole e-mail che catturano ogni sorta di messaggi indesiderati (le usiamo per le firme), ma ottenere messaggi legittimi per l’apprendimento è un compito più complicato.

Di solito i dati vengono raccolti su server per l’apprendimento centralizzato. Ma quando si parla di testo, sorgono ulteriori difficoltà: le e-mail possono contenere dati privati, per cui la loro memorizzazione ed elaborazione nella loro forma originale non sarebbe possibile. Quindi, come possiamo ottenere una raccolta abbastanza ampia di e-mail legittime?

L’apprendimento federato

Risolviamo il problema utilizzando il metodo dell’apprendimento federato, eliminando in tronco la necessità di raccogliere e-mail legittime e creando invece modelli di allenamento in modo decentralizzato. La creazione dei modelli si svolge direttamente sui server del client di posta e il server centrale riceve solo i dati formati dai modelli di apprendimento automatico, non accede al contenuto del messaggio. Sul server centrale, gli algoritmi combinano i dati con la versione risultante del modello, e poi li rimandano alle soluzioni client, dove il modello procede di nuovo ad analizzare il flusso delle e-mail.

Abbiamo presentato un quadro leggermente semplificato: prima che il modello appena formato si occupi di e-mail reali, passa attraverso diverse iterazioni di formazione supplementare. In altre parole, due modelli lavorano contemporaneamente sul server di posta elettronica: uno in modalità di formazione, l’altro in modalità attiva. Dopo diversi viaggi sul server centrale, il modello allenato sostituisce quello attivo.

È impossibile recuperare il testo di specifiche e-mail dai dati del modello; in questo modo la privacy durante l’elaborazione è garantita. Tuttavia, la formazione su delle e-mail reali migliora notevolmente la qualità del modello di rilevamento.

Al momento, stiamo già utilizzando questo approccio nella classificazione dello spam, in modalità di prova, su Kaspersky Security for Microsoft Office 365 e offre risultati eccezionali. Presto sarà applicato più ampiamente e utilizzato per identificare altre minacce come phishing, attacchi BEC e altro ancora.

Consigli