Verificare le skill degli agenti AI prima del danno

Ogni skill per agenti che si installa è codice di terze parti che gira con tutti i permessi del proprio agente. Una nuova ricerca che ha analizzato decine di migliaia di questi pacchetti ha rilevato che circa uno su quattro presenta una falla di sicurezza — e una quota misurabile è costruita per rubare dati. Prima di aggiungere un'altra skill a Claude Code, Codex o Gemini CLI, serve un metodo per valutarla.

È proprio questa la lacuna che NVIDIA ha appena deciso di colmare. A fine maggio 2026 ha rilasciato in open source SkillSpector, uno scanner con licenza Apache-2.0 che analizza le skill per agenti alla ricerca di vulnerabilità e schemi malevoli prima che raggiungano lo stack (NVIDIA/SkillSpector). Questa è una guida pratica alla minaccia, allo strumento e a una routine di audit pre-deploy da adottare in questo trimestre.

Perché le skill sono un problema di supply chain, non una comodità

Una skill per agenti è un pacchetto modulare di istruzioni più codice eseguibile che amplia ciò che un agente può fare. Poiché le skill vengono eseguite con fiducia implicita e con verifiche minime, ognuna che si installa è di fatto codice di terze parti non revisionato che gira con i permessi del proprio agente.

È in questa architettura che risiede tutto il rischio. Come ha dimostrato Snyk, una skill malevola può ottenere accesso alla shell con nient'altro che istruzioni in markdown e poche righe di script incluso (Snyk: From SKILL.md to Shell Access). Il modello delle skill assomiglia più a un'estensione del browser che a una sandbox: eredita l'accesso ai file, le variabili d'ambiente e le chiavi API.

L'attacco è raramente evidente. Una skill potrebbe fare esattamente ciò che promette la sua descrizione — formattare un file, interrogare un'API, riassumere un documento — mentre un'istruzione nascosta legge anche il file .env e lo invia a un endpoint esterno. Poiché l'agente esegue la skill con le credenziali già in uso, non c'è alcun prompt di permesso separato né un errore evidente. Il primo segnale di un problema è spesso una chiave trafugata, non un crash. È questa asimmetria a rendere imprescindibile una revisione prima dell'installazione: il costo per intercettare una skill malevola è una scansione, mentre il costo per lasciarsela sfuggire sono i propri segreti.

Il primo studio su larga scala di questo ecosistema, "Agent Skills in the Wild", rende concreta la dimensione del fenomeno. I ricercatori hanno raccolto 42.447 skill da due grandi marketplace e ne hanno analizzate 31.132, rilevando che il 26,1% conteneva almeno una vulnerabilità — e che le skill che includono script eseguibili avevano una probabilità 2,12 volte maggiore di essere vulnerabili rispetto a quelle composte da sole istruzioni (arXiv 2601.10338). È lo stesso fallimento strutturale che ha colpito i primi npm e PyPI: un ecosistema di pacchetti in rapida crescita senza verifiche obbligatorie. Abbiamo già scritto di come i confini di fiducia multi-agente si spostino nel momento in cui si delega autorità — le skill installate sono lo stesso problema visto dal lato della supply chain.

Cosa mostrano realmente i dati

In studi indipendenti, tra un quarto e un terzo delle skill per agenti presenta falle di sicurezza, e una frazione piccola ma reale è apertamente malevola. L'esfiltrazione di dati e l'escalation dei privilegi sono gli schemi più diffusi.

I numeri coincidono tra team di ricerca diversi:

Nel dataset di "Agent Skills in the Wild", l'esfiltrazione di dati compariva nel 13,3% delle skill e l'escalation dei privilegi nell'11,8%, mentre il 5,2% mostrava schemi ad alta gravità che suggeriscono con forza un intento malevolo (arXiv 2601.10338).
Un audit separato di Snyk su 3.984 skill — lo studio "ToxicSkills" — ha rilevato prompt injection nel 36% di esse e 1.467 payload malevoli, tra cui trojan, cryptominer e strumenti di raccolta credenziali (Snyk: ToxicSkills).
Una seconda analisi accademica di quelle stesse 3.984 skill ha confermato 76 payload malevoli verificati manualmente e ha rilevato che il 13,4% conteneva almeno un problema di livello critico, con diverse skill malevole ancora scaricabili pubblicamente al momento della stesura (arXiv 2605.28588).

La tassonomia di "Agent Skills in the Wild", ricavata da 8.126 skill vulnerabili, raggruppa le minacce in quattro categorie: prompt injection, esfiltrazione di dati, escalation dei privilegi e rischio di supply chain (arXiv 2601.10338). Sono le categorie che ogni audit deve coprire. Il metodo di rilevamento dietro questi numeri ha raggiunto una precisione dell'86,7% e un recall dell'82,5%, quindi i tassi riportati sono misurazioni prudenti più che stime approssimative — l'esposizione reale difficilmente sarà inferiore (arXiv 2601.10338).

Cosa controlla davvero NVIDIA SkillSpector

SkillSpector è uno scanner di sicurezza con licenza Apache-2.0 che analizza le skill per agenti usando 64 schemi di vulnerabilità in 16 categorie, combinando un'analisi statica veloce con un passaggio semantico LLM opzionale e restituendo un punteggio di rischio da 0 a 100.

Lo strumento esegue una pipeline a due fasi. La prima fase è l'analisi statica — pattern matching e ispezione dell'albero sintattico astratto su 64 controlli che spaziano da prompt injection, esfiltrazione di dati, furto di credenziali, escalation dei privilegi, rischio di supply chain, agency eccessiva, avvelenamento della memoria, uso improprio degli strumenti fino al poisoning dei tool MCP. La seconda fase è un passaggio semantico LLM opzionale che intercetta la logica che le regole statiche non colgono (NVIDIA/SkillSpector).

È costruito per inserirsi in un flusso di lavoro reale: accetta un repository Git, un URL, un file zip, una directory o un singolo file, restituisce un punteggio di rischio da 0 a 100 con etichette di gravità ed emette output SARIF, così i risultati confluiscono nelle dashboard di sicurezza già in uso (OWASP Agentic Skills Top 10). Il progetto OWASP Agentic Skills ora lo elenca tra gli scanner consigliati — una validazione esterna utile per uno strumento che ha solo poche settimane. Ogni skill installata è codice di terze parti che gira con i permessi del proprio agente, quindi un gate prima dell'installazione è il controllo a massima leva che si possa aggiungere (AI Insiders).

Un playbook di audit delle skill prima del deploy

Per analizzare le skill per agenti in sicurezza: eseguire una scansione di ogni skill prima dell'installazione, far fallire la pipeline sui punteggi ad alto rischio, limitare i permessi di ogni skill al privilegio minimo e ripetere la scansione a ogni aggiornamento.

Ecco la routine che consigliamo a ogni team che esegue agenti di coding in produzione:

Scansione prima dell'installazione, non dopo. Puntare uno scanner come SkillSpector sul repository o sul file della skill e leggere il punteggio di rischio prima che tocchi la macchina di uno sviluppatore. Trattare le skill non scansionate come si trattano i binari non firmati.
Rendere la scansione un gate CI bloccante. Collegare l'output SARIF alla pipeline e far fallire la build oltre una soglia di rischio definita. Una scansione che gira solo manualmente viene saltata il giorno in cui qualcuno ha fretta. È la stessa disciplina che applichiamo con un security harness per la revisione del codice AI.
Limitare i permessi al privilegio minimo. Uno scanner indica cosa una skill potrebbe fare; le regole sui permessi decidono cosa può fare. Le release recenti degli agenti consentono di vincolare gli strumenti al momento dell'invocazione — per esempio bloccando un modello specifico o limitando quali strumenti una skill può richiamare — il che si abbina direttamente alla scansione prima dell'installazione.
Ripetere la scansione a ogni cambio di versione. Una skill pulita alla v1.2 può rilasciare uno strumento di raccolta credenziali alla v1.3. Gli attacchi alla supply chain vivono negli aggiornamenti, quindi conviene fissare le versioni e rivedere ogni modifica anziché fidarsi di un singolo via libera iniziale.
Mantenere una allowlist revisionata. Tenere un elenco breve di skill che il team ha verificato e approvato, e instradare ogni novità attraverso lo stesso gate. Il principio rispecchia il modo in cui trattiamo le skill di Claude di prima parte — struttura e revisione prima della scala.

I due passaggi a più alto valore sono i più economici. La scansione prima dell'installazione costa secondi per skill, e il segnale più netto dello studio — il fatto che le skill che includono script eseguibili hanno una probabilità 2,12 volte maggiore di essere vulnerabili — fornisce una semplice regola di triage: le skill composte da sole istruzioni sono a rischio inferiore, qualsiasi cosa includa uno script merita un esame più attento (arXiv 2601.10338). La maggior parte dei team salta entrambi perché finora nulla si è rotto. I marketplace che ci si sono già scottati la pensano diversamente, ed è per questo che la scansione prima dell'invio sta diventando un requisito di base anziché un di più.

Questo si lega al più ampio lavoro di hardening già in corso nei runtime degli agenti. La stessa settimana in cui è arrivato SkillSpector, l'intera toolchain stava irrigidendo i permessi a livello di invocazione e i confini di fiducia, una direzione che abbiamo trattato nella nostra analisi su come eseguire gli agenti di coding in sicurezza.

Un punteggio verde non è immunità

Nessuno scanner di skill è infallibile. I ricercatori di sicurezza hanno già dimostrato che gli attuali scanner di skill per agenti possono essere aggirati, quindi una scansione pulita dovrebbe ridurre il rischio, non chiudere il discorso.

La Cloud Security Alliance ha pubblicato una nota di ricerca che mostra come diversi scanner di skill, commerciali e open source, possano essere aggirati in modo generalizzato (nota di ricerca CSA). I marketplace stanno rispondendo con difese a più livelli — ClawHub ora esegue una scansione automatica su ogni invio e l'AI Defense di Cisco include uno scanner di skill open source basato su YAML e YARA — ma il rilevamento a più livelli non equivale all'immunità.

La conclusione pratica è la difesa in profondità. Usare uno scanner per filtrare le minacce evidenti, limitare i permessi così che una skill sfuggita possa fare danni contenuti, monitorare ciò a cui gli agenti accedono davvero in fase di esecuzione e mantenere una persona nel ciclo per tutto ciò che tocca credenziali o dati di produzione. Uno scanner è il primo gate, non l'ultima parola. Per l'esposizione a livello di protocollo, la nostra analisi sul cambio di protocollo MCP v2 spiega dove si stanno dirigendo gli standard.

FAQ

Cos'è una skill per agenti AI e perché è un rischio di sicurezza? Una skill per agenti è un pacchetto modulare di istruzioni e codice eseguibile che amplia le capacità di un agente. È un rischio di sicurezza perché le skill vengono eseguite con fiducia implicita e con tutti i permessi dell'agente, quindi una skill malevola può leggere file, rubare credenziali o esfiltrare dati (arXiv 2601.10338).

Quante skill per agenti sono effettivamente vulnerabili? Nello studio più ampio finora condotto, il 26,1% delle skill analizzate conteneva almeno una vulnerabilità e il 5,2% mostrava un probabile intento malevolo (arXiv 2601.10338). Un audit separato di Snyk ha rilevato prompt injection nel 36% di 3.984 skill e 1.467 payload malevoli (Snyk: ToxicSkills).

Cosa fa NVIDIA SkillSpector? SkillSpector è uno scanner open source con licenza Apache-2.0 che verifica le skill per agenti rispetto a 64 schemi di vulnerabilità in 16 categorie, usando l'analisi statica più un passaggio semantico LLM opzionale, e restituisce un punteggio di rischio da 0 a 100 con output SARIF per la CI (NVIDIA/SkillSpector).

Una scansione pulita basta per fidarsi di una skill? No. I ricercatori hanno dimostrato che gli attuali scanner di skill possono essere aggirati, quindi un punteggio pulito andrebbe combinato con permessi a privilegio minimo, monitoraggio in fase di esecuzione e revisione umana di qualsiasi elemento sensibile (nota di ricerca CSA).

Conclusione

Le skill per agenti hanno dato ai team un modo rapido per ampliare ciò che i loro agenti possono fare — e un modo rapido per introdurre codice non revisionato in produzione. La ricerca è inequivocabile: un quarto delle skill presenta falle e una piccola frazione è trasformata in arma. Uno scanner gratuito e open source come SkillSpector, collegato a un gate bloccante prima dell'installazione e abbinato a una limitazione al privilegio minimo, trasforma quel rischio da invisibile a gestito. Se vuoi una mano a integrare un gate di audit delle skill nella tua pipeline di agenti, parla con Context Studios — mettere in sicurezza gli stack di agenti è ciò che facciamo.

Fonti

Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale — https://arxiv.org/abs/2601.10338
Snyk, ToxicSkills study — https://snyk.io/blog/toxicskills-malicious-ai-agent-skills-clawhub
NVIDIA/SkillSpector (GitHub) — https://github.com/NVIDIA/SkillSpector
OWASP Agentic Skills Top 10, Skill Scanner Integration — https://owasp.org/www-project-agentic-skills-top-10/skill-scanner-integration
Cloud Security Alliance, AI Agent Skill Scanner Bypass research note — https://labs.cloudsecurityalliance.org/research/csa-research-note-ai-agent-skill-scanner-bypass-20260610-csa
Snyk, From SKILL.md to Shell Access in Three Lines of Markdown — https://snyk.io/articles/skill-md-shell-access
Exploring the Emerging Threats of the Agent Skill Ecosystem — https://arxiv.org/html/2605.28588v1
AI Insiders, NVIDIA ships open-source scanner for agent skill supply-chain risk — https://aiinsiders.net/article/nvidia-ships-open-source-scanner-for-agent-skill-supply