Gli assistenti vocali ascoltano anche ciò che noi non riusciamo a sentire

Gli ultrasuoni e le audio registrazioni nascoste tra i rumori di sottofondo possono essere utilizzati per prendere il controllo degli assistenti vocali. Vediamo come.

Le nostre interazioni con la tecnologia presto si baseranno soprattutto sulla voce: chiedere qualcosa ad alta voce e ricevere una risposta è il sistema più semplice e intuitivo, basti guardare con quanta facilità viene utilizzato dai bambini.

Eppure, le nuove tecnologie sono sempre sinonimo di nuove minacce, e quella alla base degli assistenti vocali non fa eccezione. I ricercatori esperti in cybersicurezza provano senza sosta dispositivi su dispositivi per far sì che le case produttrici prendano le misure adeguate ed evitino che diventino reali delle minacce potenziali. In questo post analizzeremo un paio di scoperte da tenere sott’occhio per i problemi di sicurezza che potrebbero creare: anche se al momento non hanno un’estesa applicazione pratica, potrebbero averla in futuro.

I dispositivi intelligenti ascoltano e obbediscono

Secondo il report della rivista specializzata voicebot.ai, nel mondo si utilizzano già un miliardo di dispositivi attivabili con la voce. La maggior parte sono smartphone, ma ci sono altri dispositivi con riconoscimento vocale che stanno diventando sempre più popolari. Negli Stati Uniti, ad esempio, in una casa su cinque si trova già un altoparlante smart che risponde ai nostri comandi verbali.

Tali comandi possono essere utilizzati per controllare la musica che si sta ascoltando, effettuare ordini online, gestire il GPS dell’automobile, aggiornarsi sul meteo o sulle notizie, puntare la sveglia e tanto altro. Le case produttrici per cavalcare l’onda di questo successo stanno aggiungendo i comandi vocali a una vasta gamma di dispositivi. Ad esempio, Amazon di recente ha messo in vendita un microonde che può essere collegato all’altoparlante smart Echo: quando si pronunciano le parole magiche “Scalda il caffè”, il microonde calcola il tempo necessario e si accende. È vero, vi tocca comunque percorrere il lungo cammino che vi porta alla cucina per mettere la tazza nel microonde e, visto che siete lì, potreste schiacciare un paio di tasti per impostare l’elettrodomestico, ma perché fermare il progresso con queste piccolezze?

Inoltre, ricordiamo che i sistemi per smart home propongono controlli vocali per l’accensione delle luci e dell’aria condizionata o anche per la chiusura della porta d’ingresso. Come potete vedere, gli assistenti vocali sono piuttosto avanzati e sicuramente non vorreste che qualche malintenzionato possa approfittare di queste comodità per i propri scopi.

Nel 2017, i personaggi del cartone animato South Park in uno degli episodi hanno perpetrato un attacco piuttosto originale e in linea con l’irriverenza della serie animata. La vittima era proprio Alexa, l’assistente vocale che si trova all’interno degli altoparlanti intelligenti Amazon Echo. Ad Alexa veniva ordinato di aggiungere al carrello dello shopping online alcuni articoli piuttosto grotteschi e di puntare la sveglia alle sette di mattina. Nonostante la pronuncia peculiare dei personaggi, gli altoparlanti Echo di chi stava guardando questo episodio di South Park hanno eseguito alla lettera i comandi che “ascoltavano” dalla TV.

Ultrasuoni: le macchine ascoltano anche ciò che noi non riusciamo a sentire

Già in passato abbiamo parlato dei pericoli in cui possiamo incorrere per via dei dispositivi che si attivano mediante comando vocale. Oggi, invece, ci concentreremo sugli attacchi “silenziosi” che obbligano questi dispositivi ad obbedire a voci che non siamo neanche in grado di udire.

Uno di questi attacchi avviene attraverso gli ultrasuoni, ovvero suoni dalla frequenza così elevata che non vengono percepiti dall’orecchio umano. In un articolo pubblicato nel 2017, i ricercatori dell’Università di Zhejiang hanno presentato una tecnica per prendere il controllo totale degli assistenti vocali che si chiama DolphinAttack (il nome fa riferimento ai delfini che, come si sa, emettono ultrasuoni). Il gruppo di ricerca è riuscito a convertire i comandi vocali in onde ultrasoniche, dalle frequenze troppo elevate per essere captate da un essere umano ma comunque riconoscibili dai microfoni dei dispositivi moderni.

Il metodo funziona grazie al fatto che, al convertire gli ultrasuoni in impulsi elettrici quando passano sul dispositivo di ricezione (uno smartphone, ad esempio), viene ripristinato il segnale originale contenente il comando vocale. Un meccanismo simile i all’effetto della voce distorta durante una registrazione: non si tratta di una funzionalità speciale del dispositivo, fa semplicemente parte del processo di conversione.

Come risultato, il dispositivo colpito ascolta ed esegue i comandi vocali, un’opportunità ghiotta per i cybercriminali e sotto diversi punti di vista. I ricercatori sono riusciti a riprodurre con successo lo stesso attacco su diversi assistenti vocali, tra cui Alexa di Amazon, Siri di Apple, Google Now, S Voice di Samsung e Cortana di Microsoft.

Un coro di altoparlanti

Uno dei punti deboli di DolphinAttack (dal punto di vista dei cybercriminali) è il suo raggio d’azione limitato, che corrisponde a un metro circa. Tuttavia, i ricercatori dell’Illinois a Urbana-Champaign sono riusciti ad aumentare la distanza. Durante l’esperimento, hanno diviso in diverse bande di frequenza un comando ultrasuoni convertito, frequenze che sono poi stati recepite da vari altoparlanti (oltre 60). I comandi vocali nascosti emessi da questo “coro” sono stati catturati da una distanza di sette metri e indipendentemente dal rumore di sottofondo. Grazie a queste nuove condizioni, le possibilità che un DolphinAttack abbia successo aumentano considerevolmente.

Una voce nascosta

Gli esperti dell’Università della California a Berkeley, invece, hanno utilizzato un principio diverso. Hanno integrato comandi vocali segreti in altre registrazioni per ingannare il sistema di riconoscimento vocale Deep Speech di Mozilla. All’orecchio umano, la registrazione modificata differisce leggermente dall’originale, e invece il software riconosce perfettamente il comando nascosto.

Sul sito del gruppo di ricerca troverete un elenco delle registrazioni; nel primo esempio, la frase in inglese “Without the data set the article is useless”, contiene un comando nascosto e che serve per aprire un sito: “Okay Google, browse to evil.com.” (Ok, Google, vai su evil.com). Nel secondo esempio, i ricercatori hanno aggiunto la frase in inglese “Speech can be embedded in music” in un pezzo di Bach per violoncello.

Come proteggersi dagli attacchi che non possiamo sentire

Le case produttrici stanno già cercando dei modi per proteggere questi dispositivi. Ad esempio, gli attacchi via ultrasuoni possono essere identificati mediante le alterazioni nella frequenza del segnale. Non sarebbe male insegnare ai dispositivi intelligenti a riconoscere la voce dei loro proprietari e, anche è già stato testato sul proprio sistema, Google avverte che questa linea di difesa può essere bypassata da una voce registrata o da una buona imitazione.

In ogni caso, ci vorrà ancora del tempo prima che ricercatori e case produttrici riescano a risolvere questi problemi. Come già detto in precedenza, il controllo degli assistenti vocali attraverso i metodi descritti per il momento è stato possibile solo in laboratorio e con alcune condizioni non alla portata di tutti: ottenere un altoparlante a ultrasuoni (per non parlare di 60) e collocarlo vicino a un altoparlante smart non è poi così semplice. Inoltre, lo sforzo e il tempo da dedicare per aggiungere comandi nascosti a una registrazione sono così grandi che probabilmente non ne vale tanto la pena.

Consigli