Jailbreak in versi: la poesia fa sciogliere la lingua all’IA
Alcuni ricercatori hanno scoperto che i prompt in stile poetico possono minare in modo significativo l’efficacia dei vincoli di sicurezza dei modelli linguistici.
3 Articoli
Alcuni ricercatori hanno scoperto che i prompt in stile poetico possono minare in modo significativo l’efficacia dei vincoli di sicurezza dei modelli linguistici.
L’attacco Whisper Leak consente all’autore di indovinare l’argomento della conversazione con un assistente AI, senza decriptare il traffico. Cerchiamo di capire come ciò sia possibile e cosa è possibile fare per proteggere le chat basate sull’AI.
Come gli hacker sfruttano le funzionalità dei chatbot per ricostruire chat criptate di OpenAI ChatGPT, Microsoft Copilot e molti altri chatbot di intelligenza artificiale