{"id":28540,"date":"2024-02-22T17:52:18","date_gmt":"2024-02-22T15:52:18","guid":{"rendered":"https:\/\/www.kaspersky.it\/blog\/?p=28540"},"modified":"2024-02-22T17:52:18","modified_gmt":"2024-02-22T15:52:18","slug":"how-to-use-ai-locally-and-securely","status":"publish","type":"post","link":"https:\/\/www.kaspersky.it\/blog\/how-to-use-ai-locally-and-securely\/28540\/","title":{"rendered":"Come installare e utilizzare un assistente IA sul computer"},"content":{"rendered":"<p>Molte persone hanno gi\u00e0 iniziato a utilizzare le reti neurali generative e lo fanno regolarmente, anche al lavoro. Ad esempio, quasi il <a href=\"https:\/\/www.business.com\/technology\/chatgpt-usage-workplace-study\/\" target=\"_blank\" rel=\"noopener nofollow\">60% degli americani<\/a> impiega regolarmente ChatGPT e altri sistemi analoghi (e non sempre con l\u2019autorizzazione della propria azienda). Tuttavia, tutti i dati coinvolti in queste operazioni, sia le richieste dell\u2019utente che le risposte del modello, vengono salvati nei server di OpenAI, Google e cos\u00ec via. Per le attivit\u00e0 per cui questo non \u00e8 accettabile, non devi necessariamente smettere di usare l\u2019IA: con un impegno minimo (e senza spendere un capitale) puoi eseguire la rete neurale in locale, sul tuo computer (anche laptop).<\/p>\n<h2>Minacce cloud<\/h2>\n<p>Gli assistenti IA pi\u00f9 noti vengono eseguiti sull\u2019infrastruttura cloud di grandi aziende. Il modello \u00e8 efficiente e veloce, ma i dati che elabora potrebbero essere accessibili sia al provider del servizio IA che ad altri interessati completamente indipendenti, <a href=\"https:\/\/www.bbc.com\/news\/technology-65047304\" target=\"_blank\" rel=\"noopener nofollow\">come \u00e8 successo l\u2019anno scorso con ChatGPT<\/a>.<\/p>\n<p>La gravit\u00e0 della minaccia rappresentata dagli incidenti di questo tipo dipende dal modo in cui si utilizzano gli assistenti IA. Se ad esempio stai generando alcune graziose illustrazioni per delle fiabe che hai scritto o se hai intenzione di chiedere a ChatGPT di crearti un itinerario per il prossimo weekend, \u00e8 improbabile che una fuga di dati possa avere gravi conseguenze. Tuttavia, se nella conversazione con un chatbot vengono incluse informazioni riservate (dati personali, password o numeri di carte bancarie), \u00e8 necessario evitare l\u2019eventualit\u00e0 che si verifichi una divulgazione nel cloud. Per fortuna, \u00e8 possibile prevenire questo tipo di eventi in modo relativamente facile prefiltrando i dati come spiegato in <a href=\"https:\/\/www.kaspersky.it\/blog\/how-to-use-chatgpt-ai-assistants-securely-2024\/28531\/\" target=\"_blank\" rel=\"noopener\">questo post<\/a>.<\/p>\n<p>Nei casi in cui \u00e8 imperativo garantire la riservatezza di tutta la corrispondenza (ad esempio per le informazioni mediche o finanziarie) o se il prefiltraggio potrebbe non essere del tutto affidabile (ad esempio quando \u00e8 necessario elaborare grandi volumi di dati che nessuno potr\u00e0 visualizzare in anteprima e filtrare), l\u2019unica soluzione \u00e8 spostare l\u2019elaborazione dal cloud a un computer locale. \u00c8 ovvio che eseguendo ChatGPT o Midjourney offline molto difficilmente potrai ottenere i risultati che desideri. Sono tuttavia disponibili altre reti neurali, in grado di funzionare in locale e di assicurare un livello qualitativo equivalente, con un minor carico sulle risorse di elaborazione.<\/p>\n<h2>Che tipo di hardware \u00e8 necessario per eseguire una rete neurale?<\/h2>\n<p>Probabilmente avrai sentito dire che per lavorare con le reti neurali sono necessarie schede grafiche super potenti. In pratica, per\u00f2, non sempre \u00e8 cos\u00ec. Modelli di intelligenza artificiale diversi, a seconda delle loro specifiche, possono avere requisiti differenti in termini di componenti del computer come RAM, VRAM, unit\u00e0 e CPU (non \u00e8 importante solo la velocit\u00e0 di elaborazione, ma anche il supporto del processore per determinate istruzioni vettoriali). La capacit\u00e0 di caricare il modello dipende dalla quantit\u00e0 di RAM diaponibile e le dimensioni della \u201cfinestra di contesto\u201d, ovvero la memoria della conversazione precedente, dipendono dalla quantit\u00e0 di VRAM (Video RAM) diaponibile. In genere, con una scheda grafica e una CPU poco potenti, la generazione avviene a un ritmo rallentato (da una a due parole al secondo per i modelli di testo). Pertanto, un computer con una configurazione minima \u00e8 aa\u00ecdatto solo per familiarizzare con un particolare modello e valutarne l\u2019idoneit\u00e0 di base. Per un uso quotidiano completo, dovrai aumentare la RAM, aggiornare la scheda grafica o scegliere un modello IA pi\u00f9 veloce.<\/p>\n<p>Come punto di partenza, puoi provare con un computer di quelli considerati relativamente potenti nel 2017: processore non inferiore a Core i7 con supporto per le istruzioni AVX2, 16 GB di RAM e scheda grafica con almeno 4 GB di VRAM. Per gli appassionati di Mac, i modelli che funzionano con il chip Apple M1 e versioni successive vanno bene e i requisiti di memoria sono gli stessi.<\/p>\n<p>Quando si sceglie un modello IA, \u00e8 innanzitutto necessario familiarizzare con i requisiti di sistema. Una query di ricerca come \u201crequisiti <em>nome_modello<\/em>\u201d ti aiuter\u00e0 a valutare se vale la pena o meno scaricare questo modello, tenendo in considerazione l\u2019hardware a tua disposizione. Per saperne di pi\u00f9 sull\u2019impatto delle dimensioni di memoria, CPU e GPU sulle prestazioni dei diversi modelli, sono disponibili alcuni studi dettagliati come <a href=\"https:\/\/blog.nomic.ai\/posts\/gpt4all-gpu-inference-with-vulkan\" target=\"_blank\" rel=\"noopener nofollow\">questo<\/a>.<\/p>\n<p>Buone notizie per chi non ha una dotazione hardware particolarmente potente: esistono alcuni modelli di intelligenza artificiale semplificati, in grado di eseguire attivit\u00e0 pratiche anche sui sistemi hardware meno recenti. Persino con una scheda grafica di base e poco potente, \u00e8 possibile eseguire modelli e avviare ambienti utilizzando solo la CPU. A seconda delle attivit\u00e0, possono anche funzionare in modo accettabile.<\/p>\n<div id=\"attachment_28542\" style=\"width: 1854px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-28542\" class=\"size-full wp-image-28542\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/89\/2024\/02\/22174637\/how-to-use-AI-locally-01.png\" alt=\"Test del throughput della GPU \" width=\"1844\" height=\"1140\"><p id=\"caption-attachment-28542\" class=\"wp-caption-text\">Esempi di come funzionano varie build di computer con alcuni popolari modelli linguistici<\/p><\/div>\n<h2>Scelta di un modello IA e vantaggi della quantizzazione<\/h2>\n<p>Oggi \u00e8 disponibile un\u2019ampia gamma di modelli linguistici, molti dei quali hanno per\u00f2 applicazioni pratiche limitate. Ad ogni modo, esistono anche alcuni strumenti di intelligenza artificiale facili da usare, pubblicamente disponibili e adatti per attivit\u00e0 specifiche, che si tratti della generazione di testo (come Mistral 7B) o della creazione di frammenti di codice (come Code Llama 13B). Pertanto, quando si sceglie un modello, \u00e8 opportuno restringere la selezione a pochi candidati idonei e quindi assicurarsi che il computer disponga delle risorse necessarie per eseguirli.<\/p>\n<p>In qualsiasi rete neurale la maggior parte della memoria \u00e8 impegnata in funzione dei pesi, ovvero i coefficienti numerici che descrivono il funzionamento di ciascun neurone presente nella rete. Inizialmente, durante il training del modello, i pesi vengono calcolati e archiviati come numeri frazionari con un elevato livello di precisione. L\u2019arrotondamento dei pesi nel modello addestrato consente comunque di eseguire lo strumento IA su normali computer riducendo solo leggermente le prestazioni. Grazie a questo processo di arrotondamento, chiamato quantizzazione, le dimensioni del modello possono essere ridotte considerevolmente: invece di 16 bit, ogni peso potrebbe utilizzare 8, 4 o anche solo 2 bit.<\/p>\n<p>In base a una <a href=\"https:\/\/arxiv.org\/abs\/2305.17888\" target=\"_blank\" rel=\"noopener nofollow\">attuale ricerca<\/a>, a volte un modello di maggiori dimensioni con parametri ed quantizzazione pi\u00f9 elevati pu\u00f2 dare risultati migliori rispetto a un modello con memorizzazione precisa del peso ma parametri inferiori.<\/p>\n<p>Con queste conoscenze, puoi esplorare il mondo dei modelli linguistici open source, ovvero la <a href=\"https:\/\/huggingface.co\/spaces\/HuggingFaceH4\/open_llm_leaderboard\" target=\"_blank\" rel=\"noopener nofollow\">classifica Open LLM<\/a>. In questo elenco gli strumenti IA sono ordinati in base a diverse metriche relative alla qualit\u00e0 della generazione. Inoltre, utilizzando i filtri puoi escludere i modelli troppo grandi, troppo piccoli o troppo accurati.<\/p>\n<div id=\"attachment_28543\" style=\"width: 1782px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-28543\" class=\"size-full wp-image-28543\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/89\/2024\/02\/22174735\/how-to-use-AI-locally-02.jpg\" alt=\"Elenco dei modelli linguistici ordinato applicando i filtri \" width=\"1772\" height=\"846\"><p id=\"caption-attachment-28543\" class=\"wp-caption-text\">Elenco dei modelli linguistici ordinato applicando i filtri<\/p><\/div>\n<p>Dopo aver letto la descrizione di un modello e aver verificato che sia potenzialmente adatto alle tue esigenze, puoi testarne le prestazioni nel cloud utilizzando <a href=\"https:\/\/huggingface.co\/\" target=\"_blank\" rel=\"noopener nofollow\">Hugging Face<\/a> o i servizi <a href=\"https:\/\/colab.research.google.com\/\" target=\"_blank\" rel=\"noopener nofollow\">Google Colab<\/a>. In questo modo eviterai di scaricare i modelli che producono risultati non soddisfacenti, risparmiando tempo. Se la prova iniziale del modello ti soddisfa, puoi vedere come funziona in locale.<\/p>\n<h2>Requisiti software<\/h2>\n<p>La maggior parte dei modelli open source viene pubblicata su <a href=\"https:\/\/huggingface.co\/\" target=\"_blank\" rel=\"noopener nofollow\">Hugging Face<\/a>. Tuttavia, scaricare questi modelli nel computer non \u00e8 sufficiente. Per eseguirli bisogna installare un software specializzato, come <a href=\"https:\/\/github.com\/ggerganov\/llama.cpp\" target=\"_blank\" rel=\"noopener nofollow\">LLaMA.cpp<\/a> o, per semplificare ulteriormente le cose, il suo \u201cwrapper\u201d <a href=\"https:\/\/lmstudio.ai\/\" target=\"_blank\" rel=\"noopener nofollow\">LM Studio<\/a>. Quest\u2019ultimo consente di selezionare il modello desiderato direttamente dall\u2019applicazione, scaricarlo ed eseguirlo in una finestra di dialogo.<\/p>\n<p>Un altro modo \u201cpronto all\u2019uso\u201d per utilizzare un chatbot in locale \u00e8 <a href=\"https:\/\/gpt4all.io\/index.html\" target=\"_blank\" rel=\"noopener nofollow\">GPT4All<\/a>. In questo caso la scelta \u00e8 limitata a una decina di modelli linguistici, la maggior parte dei quali funziona anche su computer con appena 8 GB di memoria e una scheda grafica di base.<\/p>\n<p>Se la generazione risulta troppo lenta, potrebbe essere necessario passare a un modello con un livello di quantizzazione ancora pi\u00f9 basso (2 bit anzich\u00e9 4). Se la generazione viene interrotta o se durante l\u2019esecuzione si verificano errori, il problema \u00e8 spesso la memoria insufficiente: vale la pena cercare un modello con parametri inferiori o, di nuovo, con un livello di quantizzazione pi\u00f9 basso.<\/p>\n<p>Molti modelli disponibili su Hugging Face sono gi\u00e0 stati quantizzati con vari gradi di precisione. Tuttavia, se finora nessuno ha quantizzato il modello che ti interessa con la precisione che ti interessa, puoi farlo tu utilizzando <a href=\"https:\/\/github.com\/IST-DASLab\/gptq\" target=\"_blank\" rel=\"noopener nofollow\">GPTQ<\/a>.<\/p>\n<p>Questa settimana, \u00e8 stato rilasciato in versione beta un altro promettente strumento: <a href=\"https:\/\/www.nvidia.com\/it-it\/ai-on-rtx\/chat-with-rtx-generative-ai\/\" target=\"_blank\" rel=\"noopener nofollow\">Chat With RTX<\/a> di NVIDIA. Il produttore dei pi\u00f9 richiesti chip IA ha rilasciato un chatbot eseguito in locale in grado di riassumere il contenuto dei video di YouTube, elaborare set di documenti e molto altro, a condizione che l\u2019utente disponga di un PC Windows con 16 GB di memoria e di una scheda grafica NVIDIA RTX Serie 30 o 40 con almeno 8 GB di VRAM. Alla base del suo funzionamento si trovano gli stessi modelli LLM Mistral e Llama 2 di <a href=\"https:\/\/huggingface.co\/\" target=\"_blank\" rel=\"noopener nofollow\">Hugging Face<\/a>. Una potente scheda grafica pu\u00f2 senza dubbio migliorare le prestazioni della generazione, ma la beta attualmente disponibile \u00e8 stata giudicata dai <a href=\"https:\/\/www.theverge.com\/2024\/2\/13\/24071645\/nvidia-ai-chatbot-chat-with-rtx-tech-demo-hands-on\" target=\"_blank\" rel=\"noopener nofollow\">primi tester<\/a> piuttosto ingombrante (circa 40 GB) e difficile da installare. In futuro, tuttavia, Chat With RTX di NVIDIA potrebbe diventare un utilissimo assistente IA con cui interagire in locale.<\/p>\n<div id=\"attachment_28544\" style=\"width: 1369px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-28544\" class=\"size-full wp-image-28544\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/89\/2024\/02\/22174839\/how-to-use-AI-locally-03.png\" alt='Il codice per il gioco \"Snake\", scritto dal modello linguistico quantizzato TheBloke\/CodeLlama-7B-Instruct-GGUF ' width=\"1359\" height=\"865\"><p id=\"caption-attachment-28544\" class=\"wp-caption-text\">Il codice per il gioco \u201cSnake\u201d, scritto dal modello linguistico quantizzato TheBloke\/CodeLlama-7B-Instruct-GGUF<\/p><\/div>\n<p>Le applicazioni sopra elencate eseguono tutti i calcoli in locale, non inviano dati ai server e possono essere eseguite offline, in modo da poter condividere con loro informazioni riservate. Per essere completamente protetti contro le fughe di dati, tuttavia, \u00e8 necessario garantire la sicurezza non solo del modello linguistico adottato, ma anche del computer. Ed \u00e8 qui che entra in gioco la nostra <a href=\"https:\/\/www.kaspersky.it\/premium?icid=it_bb2023-kdplacehd_acq_ona_smm__onl_b2c_kdaily_lnk_sm-team___kprem___\" target=\"_blank\" rel=\"noopener\">soluzione di protezione completa<\/a>. Come confermato nel corso di alcuni <a href=\"https:\/\/www.kaspersky.it\/top3\" target=\"_blank\" rel=\"noopener\">test indipendenti<\/a>, <a href=\"https:\/\/www.kaspersky.it\/premium?icid=it_bb2023-kdplacehd_acq_ona_smm__onl_b2c_kdaily_lnk_sm-team___kprem___\" target=\"_blank\" rel=\"noopener\">Kaspersky Premium<\/a>\u00a0non interferisce minimamente con le prestazioni del computer. E questo \u00e8 un importante vantaggio quando si lavora con modelli IA eseguiti in locale.<\/p>\n<input type=\"hidden\" class=\"category_for_banner\" value=\"premium-geek\">\n","protected":false},"excerpt":{"rendered":"<p>Ottieni tutti i vantaggi di ChatGPT, Copilot e Midjourney in locale, senza esporre i tuoi dati su Internet.<\/p>\n","protected":false},"author":2722,"featured_media":28546,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[16],"tags":[1516,2169,3806,2620,1517,3724,45],"class_list":{"0":"post-28540","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-tips","8":"tag-ai","9":"tag-chatbot","10":"tag-chatgpt","11":"tag-ia","12":"tag-intelligenza-artificiale","13":"tag-machine-learning","14":"tag-sicurezza"},"hreflang":[{"hreflang":"it","url":"https:\/\/www.kaspersky.it\/blog\/how-to-use-ai-locally-and-securely\/28540\/"},{"hreflang":"en-in","url":"https:\/\/www.kaspersky.co.in\/blog\/how-to-use-ai-locally-and-securely\/27077\/"},{"hreflang":"en-ae","url":"https:\/\/me-en.kaspersky.com\/blog\/how-to-use-ai-locally-and-securely\/22387\/"},{"hreflang":"ar","url":"https:\/\/me.kaspersky.com\/blog\/how-to-use-ai-locally-and-securely\/11436\/"},{"hreflang":"en-us","url":"https:\/\/usa.kaspersky.com\/blog\/how-to-use-ai-locally-and-securely\/29744\/"},{"hreflang":"en-gb","url":"https:\/\/www.kaspersky.co.uk\/blog\/how-to-use-ai-locally-and-securely\/27253\/"},{"hreflang":"es-mx","url":"https:\/\/latam.kaspersky.com\/blog\/how-to-use-ai-locally-and-securely\/27042\/"},{"hreflang":"es","url":"https:\/\/www.kaspersky.es\/blog\/how-to-use-ai-locally-and-securely\/29662\/"},{"hreflang":"ru","url":"https:\/\/www.kaspersky.ru\/blog\/how-to-use-ai-locally-and-securely\/36986\/"},{"hreflang":"x-default","url":"https:\/\/www.kaspersky.com\/blog\/how-to-use-ai-locally-and-securely\/50576\/"},{"hreflang":"fr","url":"https:\/\/www.kaspersky.fr\/blog\/how-to-use-ai-locally-and-securely\/21543\/"},{"hreflang":"pt-br","url":"https:\/\/www.kaspersky.com.br\/blog\/how-to-use-ai-locally-and-securely\/22254\/"},{"hreflang":"de","url":"https:\/\/www.kaspersky.de\/blog\/how-to-use-ai-locally-and-securely\/30951\/"},{"hreflang":"ja","url":"https:\/\/blog.kaspersky.co.jp\/how-to-use-ai-locally-and-securely\/35896\/"},{"hreflang":"nl","url":"https:\/\/www.kaspersky.nl\/blog\/how-to-use-ai-locally-and-securely\/29029\/"},{"hreflang":"ru-kz","url":"https:\/\/blog.kaspersky.kz\/how-to-use-ai-locally-and-securely\/27452\/"},{"hreflang":"en-au","url":"https:\/\/www.kaspersky.com.au\/blog\/how-to-use-ai-locally-and-securely\/33259\/"},{"hreflang":"en-za","url":"https:\/\/www.kaspersky.co.za\/blog\/how-to-use-ai-locally-and-securely\/32882\/"}],"acf":[],"banners":"","maintag":{"url":"https:\/\/www.kaspersky.it\/blog\/tag\/ai\/","name":"AI"},"_links":{"self":[{"href":"https:\/\/www.kaspersky.it\/blog\/wp-json\/wp\/v2\/posts\/28540","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.kaspersky.it\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.kaspersky.it\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.kaspersky.it\/blog\/wp-json\/wp\/v2\/users\/2722"}],"replies":[{"embeddable":true,"href":"https:\/\/www.kaspersky.it\/blog\/wp-json\/wp\/v2\/comments?post=28540"}],"version-history":[{"count":4,"href":"https:\/\/www.kaspersky.it\/blog\/wp-json\/wp\/v2\/posts\/28540\/revisions"}],"predecessor-version":[{"id":28549,"href":"https:\/\/www.kaspersky.it\/blog\/wp-json\/wp\/v2\/posts\/28540\/revisions\/28549"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.kaspersky.it\/blog\/wp-json\/wp\/v2\/media\/28546"}],"wp:attachment":[{"href":"https:\/\/www.kaspersky.it\/blog\/wp-json\/wp\/v2\/media?parent=28540"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.kaspersky.it\/blog\/wp-json\/wp\/v2\/categories?post=28540"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.kaspersky.it\/blog\/wp-json\/wp\/v2\/tags?post=28540"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}