{"id":27728,"date":"2023-06-02T13:58:29","date_gmt":"2023-06-02T11:58:29","guid":{"rendered":"https:\/\/www.kaspersky.it\/blog\/?p=27728"},"modified":"2023-06-02T13:58:29","modified_gmt":"2023-06-02T11:58:29","slug":"neural-networks-data-leaks","status":"publish","type":"post","link":"https:\/\/www.kaspersky.it\/blog\/neural-networks-data-leaks\/27728\/","title":{"rendered":"In che modo l&#8217;intelligenza artificiale pu\u00f2 divulgare dati privati"},"content":{"rendered":"<h2>I punti deboli delle reti neurali<\/h2>\n<p>In collaborazione con Google e DeepMind, i ricercatori di alcune universit\u00e0 negli Stati Uniti e in Svizzera hanno pubblicato un <a href=\"https:\/\/arxiv.org\/pdf\/2301.13188.pdf\" target=\"_blank\" rel=\"nofollow noopener\">articolo<\/a> che illustra in che modo i sistemi di generazione di immagini <a href=\"https:\/\/openai.com\/blog\/dall-e\/\" target=\"_blank\" rel=\"nofollow noopener\">DALL-E<\/a>, <a href=\"https:\/\/imagen.research.google\/\" target=\"_blank\" rel=\"nofollow noopener\">Imagen<\/a> e <a href=\"https:\/\/stablediffusionweb.com\/\" target=\"_blank\" rel=\"nofollow noopener\">Stable Diffusion<\/a>, che utilizzano algoritmi di machine learning, possono lasciar trapelare i dati. Dal punto di vista dell\u2019utente, il funzionamento \u00e8 sempre lo stesso: si digita una query di testo specifica, ad esempio \u201cuna poltrona a forma di avocado\u201d, e in cambio viene generata un\u2019immagine.<\/p>\n<div id=\"attachment_27729\" style=\"width: 1034px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/89\/2023\/05\/05165009\/neural-networks-data-leaks-01.jpg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-27729\" class=\"wp-image-27729 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/89\/2023\/05\/05165009\/neural-networks-data-leaks-01.jpg\" alt=\"Immagine generata dalla rete neurale DALL-E\" width=\"1024\" height=\"1024\"><\/a><p id=\"caption-attachment-27729\" class=\"wp-caption-text\">Immagine generata dalla rete neurale DALL-E. <a href=\"https:\/\/openai.com\/blog\/dall-e\/\" target=\"_blank\" rel=\"nofollow noopener\">Fonte<\/a>.<\/p><\/div>\n<p>Per l\u2019addestramento di tutti questi sistemi viene utilizzato un vasto numero (decine o centinaia di migliaia) di immagini con descrizioni testuali appositamente preparate. L\u2019idea alla base di queste reti neurali \u00e8 che, analizzando un\u2019enorme quantit\u00e0 di dati durante l\u2019addestramento, possono creare immagini nuove e uniche. Il risultato principale del nuovo studio, tuttavia, \u00e8 che queste immagini non sono sempre cos\u00ec uniche. In alcuni casi \u00e8 possibile forzare la rete neurale a riprodurre in modo quasi identico un\u2019immagine originale utilizzata in precedenza per l\u2019addestramento. Questo significa che le reti neurali possono inavvertitamente rivelare informazioni private.<\/p>\n<div id=\"attachment_27730\" style=\"width: 1149px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/89\/2023\/05\/05165436\/neural-networks-data-leaks-02.jpg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-27730\" class=\"wp-image-27730 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/89\/2023\/05\/05165436\/neural-networks-data-leaks-02.jpg\" alt=\"A sinistra, immagine originale inclusa nel set di addestramento. A destra, immagine generata dalla rete neurale Stable Diffusion.\" width=\"1139\" height=\"799\"><\/a><p id=\"caption-attachment-27730\" class=\"wp-caption-text\">A sinistra, immagine originale inclusa nel set di addestramento. A destra, immagine generata dalla rete neurale Stable Diffusion.<a href=\"https:\/\/arxiv.org\/pdf\/2301.13188.pdf\" target=\"_blank\" rel=\"nofollow noopener\"> Fonte.<\/a><\/p><\/div>\n<h2>Pi\u00f9 dati per la \u201cdivinit\u00e0 dei dati\u201d<\/h2>\n<p>Per chi non ha competenze specifiche, la risposta di un sistema di machine learning (o apprendimento automatico) a una query pu\u00f2 sembrare frutto di magia: \u201cincredibile\u2026 \u00e8 come un robot che sa tutto!\u201d. In realt\u00e0, non si tratta di magia\u2026<\/p>\n<p>Tutte le reti neurali funzionano pi\u00f9 o meno allo stesso modo: si crea un algoritmo che viene addestrato utilizzando un set di dati, ad esempio una serie di immagini di cani e gatti accompagnate da una descrizione accurata del soggetto di ognuna. Al termine della fase di addestramento, all\u2019algoritmo viene mostrata una nuova immagine, con la richiesta di distinguere se si tratta di un cane o di un gatto. Gli sviluppatori di questi sistemi sono quindi passati a uno scenario pi\u00f9 complesso: l\u2019algoritmo addestrato su molte immagini di gatti crea su richiesta l\u2019immagine di un animale domestico che non \u00e8 mai esistito. Esperimenti analoghi vengono condotti non solo con le immagini, ma anche con il testo, i video e persino la voce. Ad esempio, abbiamo gi\u00e0 parlato del problema dei <a href=\"https:\/\/www.kaspersky.it\/resource-center\/threats\/protect-yourself-from-deep-fake\" target=\"_blank\" rel=\"noopener\">deepfake<\/a>, i video alterati digitalmente nei quali qualcuno (in genere, politici e altre celebrit\u00e0) sembra fare affermazioni che in realt\u00e0 non ha mai pronunciato.<\/p>\n<p>Per tutte le reti neurali, il punto di partenza \u00e8 sempre un set di dati di addestramento, perch\u00e9 non possono creare nuovi contenuti dal nulla. Per creare l\u2019immagine di un gatto, l\u2019algoritmo deve analizzare migliaia di fotografie o disegni reali di questi animali. Questi set di dati dovrebbero rimanere riservati per numerosi motivi. Mentre in alcuni casi si tratta di informazioni di pubblico dominio, in altri casi i set di dati sono propriet\u00e0 intellettuale della societ\u00e0 di sviluppo che ha investito tempo e risorse considerevoli nella loro creazione con la speranza di ottenere un vantaggio competitivo. In altri casi ancora, si tratta di informazioni sensibili per definizione. Sono ad esempio in corso esperimenti in cui le reti neurali vengono utilizzate per la diagnosi di alcune malattie sulla base di radiografie e di altre analisi mediche. I dati utilizzati per l\u2019addestramento degli algoritmi contengono pertanto informazioni sanitarie autentiche di persone reali che, per ovvie ragioni, non devono finire nelle mani sbagliate.<\/p>\n<h2>Diffusione<\/h2>\n<p>Anche se, visti dall\u2019esterno, gli algoritmi di machine learning non sembrano presentare grandi differenze, in realt\u00e0 sono diversi. Nel loro articolo, i ricercatori prestano particolare attenzione ai <em>modelli di diffusione<\/em> dell\u2019apprendimento automatico. Ecco come funzionano: i dati per l\u2019addestramento (ovvero, immagini di persone, automobili, abitazioni e cos\u00ec via) vengono distorti con l\u2019aggiunta di rumore. La rete neurale viene quindi addestrata a ripristinare le immagini allo stato originale. Questo metodo consente di generare immagini di qualit\u00e0 accettabile. Tuttavia, la maggiore tendenza a lasciare trapelare le informazioni rappresenta un potenziale svantaggio, rispetto ad esempio agli algoritmi utilizzati nelle <a href=\"https:\/\/it.wikipedia.org\/wiki\/Rete_generativa_avversaria\" target=\"_blank\" rel=\"nofollow noopener\">reti generative antagoniste<\/a>, o GAN (Generative Adversarial Network).<\/p>\n<p>I dati originali possono essere estratti dalle reti neurali in almeno tre modi diversi. In primo luogo, utilizzando query specifiche, \u00e8 possibile forzare la rete neurale a generare non qualcosa di unico, creato sulla base di migliaia di immagini, ma una specifica immagine di origine. In secondo luogo, l\u2019immagine originale pu\u00f2 essere ricostruita anche se ne \u00e8 disponibile solo una parte. In terzo luogo, \u00e8 possibile stabilire con facilit\u00e0 se una determinata immagine \u00e8 contenuta o meno nei dati di addestramento.<\/p>\n<p>Molto spesso, le reti neurali sono <em>pigre<\/em>: invece di creare una nuova immagine recuperano qualcosa dal set di addestramento, se contiene pi\u00f9 duplicati della stessa immagine. Oltre all\u2019esempio sopra con la foto di Ann Graham Lotz, nello studio sono riportati altri risultati simili:<\/p>\n<div id=\"attachment_27731\" style=\"width: 1562px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/89\/2023\/05\/05165706\/neural-networks-data-leaks-03.jpg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-27731\" class=\"wp-image-27731 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/89\/2023\/05\/05165706\/neural-networks-data-leaks-03.jpg\" alt=\" Righe dispari: immagini originali. Righe pari: immagini generate da Stable Diffusion v1.4\" width=\"1552\" height=\"1120\"><\/a><p id=\"caption-attachment-27731\" class=\"wp-caption-text\">Righe dispari: immagini originali. Righe pari: immagini generate da Stable Diffusion v1.4. <a href=\"https:\/\/arxiv.org\/pdf\/2301.13188.pdf\" target=\"_blank\" rel=\"nofollow noopener\">Fonte<\/a><\/p><\/div>\n<p>Se nel set di addestramento sono presenti pi\u00f9 di cento duplicati di un\u2019immagine, \u00e8 molto probabile che venga riproposta quasi nella sua forma originale. I ricercatori hanno tuttavia dimostrato che \u00e8 possibile recuperare in diversi modi anche le immagini presenti una sola volta nel set di addestramento originale. Questo metodo \u00e8 molto meno efficiente: su cinquecento immagini testate, l\u2019algoritmo ne ha ricreate solo tre in modo casuale. Il metodo pi\u00f9 creativo per attaccare una rete neurale consiste nel ricreare un\u2019immagine di origine utilizzandone solo un frammento come input.<\/p>\n<div id=\"attachment_27732\" style=\"width: 1382px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/89\/2023\/05\/05165848\/neural-networks-data-leaks-04.jpg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-27732\" class=\"wp-image-27732 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/89\/2023\/05\/05165848\/neural-networks-data-leaks-04.jpg\" alt=\"Dopo avere cancellato una parte di un'immagine, i ricercatori hanno chiesto alla rete neurale di completarla. In tal modo, \u00e8 possibile determinare con una discreta precisione se una particolare immagine era inclusa nel set di addestramento. Se era presente, l'algoritmo di apprendimento automatico ha generato una copia quasi esatta della foto o del disegno originale\" width=\"1372\" height=\"696\"><\/a><p id=\"caption-attachment-27732\" class=\"wp-caption-text\">Dopo avere cancellato una parte di un\u2019immagine, i ricercatori hanno chiesto alla rete neurale di completarla. In tal modo, \u00e8 possibile determinare con una discreta precisione se una particolare immagine era inclusa nel set di addestramento. Se era presente, l\u2019algoritmo di apprendimento automatico ha generato una copia quasi esatta della foto o del disegno originale.<a href=\"https:\/\/arxiv.org\/pdf\/2301.13188.pdf\" target=\"_blank\" rel=\"nofollow noopener\"> Fonte<\/a><\/p><\/div>\n<p>A questo punto passiamo al tema del rapporto tra le reti neurali e il copyright.<\/p>\n<h2>Chi ruba a chi?<\/h2>\n<p>Nel gennaio 2023 tre artisti hanno <a href=\"https:\/\/www.theregister.com\/2023\/01\/16\/stability_diffusion_lawsuit\/\" target=\"_blank\" rel=\"nofollow noopener\">citato in giudizio<\/a> i creatori dei servizi di generazione di immagini basati su algoritmi di apprendimento automatico. Hanno affermato (giustamente) che gli sviluppatori delle reti neurali avevano eseguito l\u2019addestramento con immagini raccolte online senza alcun rispetto per il copyright. Una rete neurale pu\u00f2 infatti copiare lo stile di un particolare artista, causandogli un danno economico. L\u2019articolo suggerisce che in alcuni casi gli algoritmi possono, per vari motivi, realizzare un vero e proprio plagio, generando disegni, fotografie e altre immagini quasi identiche alle opere di persone reali.<\/p>\n<p>Lo studio fornisce raccomandazioni per rafforzare la privacy del set di addestramento originale:<\/p>\n<ul>\n<li>Eliminare i duplicati.<\/li>\n<li>Rielaborare le immagini di addestramento, ad esempio aggiungendo rumore o modificando la luminosit\u00e0. Questo rende meno probabile la divulgazione dei dati di origine.<\/li>\n<li>Testare l\u2019algoritmo con speciali immagini di addestramento, quindi verificare che non le riproduca inavvertitamente in modo accurato.<\/li>\n<\/ul>\n<h2>Quali saranno gli sviluppi?<\/h2>\n<p>I risvolti etici e legali del discorso sull\u2019arte generativa aprono certamente un interessante dibattito, in cui occorre cercare un equilibrio tra artisti e sviluppatori delle tecnologie. Da un lato, il diritto d\u2019autore deve essere rispettato. Dall\u2019altro, la computer art \u00e8 davvero cos\u00ec diversa dall\u2019arte umana? In entrambi i casi, i creatori traggono ispirazione dalle opere di colleghi e concorrenti.<\/p>\n<p>Ma torniamo ad aspetti pi\u00f9 concreti e parliamo di sicurezza. Il documento fornisce una serie specifica di dati su un solo modello di apprendimento automatico. Estendendo il concetto a <em>tutti<\/em> gli algoritmi simili, arriviamo a una situazione interessante. Non \u00e8 difficile immaginare uno scenario in cui, risposta alle domande di un utente, la funzionalit\u00e0 di chat automatizzata di un operatore di telefonia mobile divulghi informazioni aziendali sensibili: dopotutto, erano presenti nei dati di addestramento. Oppure, ad esempio, una query appositamente predisposta potrebbe indurre una rete neurale pubblica a generare una copia del passaporto di qualcuno. I ricercatori sottolineano che per il momento si tratta ancora solo di problemi teorici.<\/p>\n<p>Ma altri problemi si sono gi\u00e0 presentati. Gi\u00e0 attualmente, qualcuno potrebbe utilizzare la rete neurale per la generazione di testo ChatGPT per <a href=\"https:\/\/www.kaspersky.com\/blog\/chatgpt-cybersecurity\/46959\/\" target=\"_blank\" rel=\"nofollow noopener\">scrivere<\/a> codice dannoso reale in grado (in qualche caso) di funzionare. <a href=\"https:\/\/github.com\/features\/copilot\" target=\"_blank\" rel=\"nofollow noopener\">GitHub Copilot<\/a> sta aiutando i programmatori a scrivere codice utilizzando come input un\u2019enorme quantit\u00e0 di software open source. Lo strumento non sempre rispetta il copyright e la privacy degli autori il cui codice \u00e8 entrato a far parte del vasto set di dati di addestramento. Con l\u2019evoluzione delle reti neurali, aumenteranno anche gli attacchi che le prendono di mira, con conseguenze che ancora non possiamo prevedere del tutto.<\/p>\n<input type=\"hidden\" class=\"category_for_banner\" value=\"premium-geek\">\n","protected":false},"excerpt":{"rendered":"<p>Le reti neurali che generano immagini ormai sono ovunque. Ma quali rischi comportano per la privacy? <\/p>\n","protected":false},"author":665,"featured_media":27733,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[2641,2195],"tags":[1516,2620,1517,638,3719],"class_list":{"0":"post-27728","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-threats","8":"category-technology","9":"tag-ai","10":"tag-ia","11":"tag-intelligenza-artificiale","12":"tag-minacce","13":"tag-reti-neurali"},"hreflang":[{"hreflang":"it","url":"https:\/\/www.kaspersky.it\/blog\/neural-networks-data-leaks\/27728\/"},{"hreflang":"en-in","url":"https:\/\/www.kaspersky.co.in\/blog\/neural-networks-data-leaks\/25561\/"},{"hreflang":"en-ae","url":"https:\/\/me-en.kaspersky.com\/blog\/neural-networks-data-leaks\/20981\/"},{"hreflang":"ar","url":"https:\/\/me.kaspersky.com\/blog\/neural-networks-data-leaks\/10573\/"},{"hreflang":"en-us","url":"https:\/\/usa.kaspersky.com\/blog\/neural-networks-data-leaks\/28191\/"},{"hreflang":"en-gb","url":"https:\/\/www.kaspersky.co.uk\/blog\/neural-networks-data-leaks\/25858\/"},{"hreflang":"es-mx","url":"https:\/\/latam.kaspersky.com\/blog\/neural-networks-data-leaks\/26274\/"},{"hreflang":"es","url":"https:\/\/www.kaspersky.es\/blog\/neural-networks-data-leaks\/28760\/"},{"hreflang":"ru","url":"https:\/\/www.kaspersky.ru\/blog\/neural-networks-data-leaks\/35172\/"},{"hreflang":"x-default","url":"https:\/\/www.kaspersky.com\/blog\/neural-networks-data-leaks\/47992\/"},{"hreflang":"fr","url":"https:\/\/www.kaspersky.fr\/blog\/neural-networks-data-leaks\/20509\/"},{"hreflang":"pt-br","url":"https:\/\/www.kaspersky.com.br\/blog\/neural-networks-data-leaks\/21205\/"},{"hreflang":"de","url":"https:\/\/www.kaspersky.de\/blog\/neural-networks-data-leaks\/30084\/"},{"hreflang":"ja","url":"https:\/\/blog.kaspersky.co.jp\/neural-networks-data-leaks\/33812\/"},{"hreflang":"ru-kz","url":"https:\/\/blog.kaspersky.kz\/neural-networks-data-leaks\/26176\/"},{"hreflang":"en-au","url":"https:\/\/www.kaspersky.com.au\/blog\/neural-networks-data-leaks\/31867\/"},{"hreflang":"en-za","url":"https:\/\/www.kaspersky.co.za\/blog\/neural-networks-data-leaks\/31551\/"}],"acf":[],"banners":"","maintag":{"url":"https:\/\/www.kaspersky.it\/blog\/tag\/intelligenza-artificiale\/","name":"Intelligenza Artificiale"},"_links":{"self":[{"href":"https:\/\/www.kaspersky.it\/blog\/wp-json\/wp\/v2\/posts\/27728","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.kaspersky.it\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.kaspersky.it\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.kaspersky.it\/blog\/wp-json\/wp\/v2\/users\/665"}],"replies":[{"embeddable":true,"href":"https:\/\/www.kaspersky.it\/blog\/wp-json\/wp\/v2\/comments?post=27728"}],"version-history":[{"count":5,"href":"https:\/\/www.kaspersky.it\/blog\/wp-json\/wp\/v2\/posts\/27728\/revisions"}],"predecessor-version":[{"id":27788,"href":"https:\/\/www.kaspersky.it\/blog\/wp-json\/wp\/v2\/posts\/27728\/revisions\/27788"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.kaspersky.it\/blog\/wp-json\/wp\/v2\/media\/27733"}],"wp:attachment":[{"href":"https:\/\/www.kaspersky.it\/blog\/wp-json\/wp\/v2\/media?parent=27728"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.kaspersky.it\/blog\/wp-json\/wp\/v2\/categories?post=27728"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.kaspersky.it\/blog\/wp-json\/wp\/v2\/tags?post=27728"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}