La competenza umana che l'AI non può imitare

Nel panorama dell'intelligenza artificiale generativa, esiste un paradosso che pochi osano nominare apertamente: i grandi modelli linguistici — capaci di predire strutture proteiche, generare codice funzionante da un semplice prompt e produrre video realistici — non sanno scrivere bene. Non nel senso letterario del termine, quello che distingue un testo vivo da una pagina morta. Questa tensione, apparentemente secondaria rispetto ai dibattiti su AGI e sicurezza, rivela in realtà qualcosa di fondamentale sull'architettura e sulle priorità di sviluppo degli LLM (Large Language Models) di ultima generazione, e interroga più in profondità la natura stessa dell'intelligenza che questi sistemi sono progettati per simulare.

Per comprendere il problema, è utile fare un passo indietro fino a GPT-2, il modello rilasciato da OpenAI nel 2019. Katy Gero, poetessa e informatica che sperimenta con i modelli linguistici dal 2017, descrive con nostalgia quella fase pionieristica: il modello produceva risposte inaspettate, quasi surreali — se gli si chiedeva di continuare una storia su un uomo che fa la doccia, poteva rispondere che quell'uomo stava mangiando un limone e pensando alla moglie. Una creatività caotica, certo, ma genuinamente sorprendente. Quella capacità generativa, quella disponibilità all'imprevisto, è andata progressivamente perduta con le successive generazioni di modelli.

L'architettura di addestramento degli LLM moderni si articola in due fasi principali. Durante il pretraining, il modello ingurgita quantità enormi di testo proveniente dal web — post su Reddit, trascrizioni di YouTube, contenuti SEO di scarsa qualità — comprimendoli in pattern statistici attraverso il meccanismo di next-token prediction: la capacità di determinare quale frammento di parola segue un altro, iterativamente. In questa fase, la qualità del testo è irrilevante; conta solo la scala. È nel post-training che si perdono le sfumature creative: qui i laboratori di ricerca definiscono il "carattere" ideale del modello — tipicamente sintetizzato in formule come "helpful, honest, harmless" — e applicano tecniche come il reinforcement learning from human feedback (RLHF), dove valutatori umani assegnano punteggi agli output del modello secondo criteri prestabiliti.

Il problema è che l'arte resiste alla quantificazione. Non esiste una metrica oggettiva per stabilire se Pablo Neruda scriva meglio di Gabriela Mistral. Gli autori eccellenti non seguono le regole: le sovvertono, le reinventano. Uno scrittore assoldato direttamente dal team di ricerca di un importante laboratorio frontier descrive l'impasse con chiarezza: anche il sonetto shakespeariano, pur essendo tecnicamente uno dei formati più codificati della letteratura — quattordici versi, pentametro giambico — non diventa grande poesia per il fatto di rispettare la metrica. "Non so cosa distingua il poeta che scrive per formula da Shakespeare. So solo che i due non possono mai essere confusi", ha dichiarato all'autrice dell'indagine originale.

"Il chatbot che non ti farà guadagnare è quello strano, quello imprevedibile" — e proprio quella stranezza era il cuore creativo di GPT-2.

La tensione tra creatività e conformità è strutturale, non accidentale. Nathan Lambert, responsabile del post-training presso l'Allen Institute for AI, sintetizza il meccanismo con precisione: "Più controlli questi parametri" — riferendosi ai vincoli di sicurezza, correttezza politica, assenza di contenuti espliciti — "più sopprimi la creatività." I modelli vengono simultaneamente ottimizzati per essere stilisti letterari brillanti, matematici di livello dottorale e assistenti rigorosamente adatti a tutte le età: il risultato è un'entità rigida e prudente, simile a un candidato a un colloquio terrorizzato di sbagliare. Katy Gero lo formula in termini di mercato: se sei una grande corporation come Google o OpenAI, hai bisogno di un chatbot che generi ricavi; e il chatbot imprevedibile, quello "strano", non porta profitto.

A complicare il quadro vi sono le priorità competitive del settore. I laboratori investono risorse enormi nell'ottimizzazione su benchmark come SWE-bench (per il coding) e GPQA (scienze naturali), che plasmano la percezione pubblica di quale azienda stia vincendo la gara. La prosa letteraria non figura in nessun benchmark rilevante. Parallelamente, la maggior parte degli utenti utilizza strumenti come ChatGPT per redigere email aziendali o riassumere documenti: in questo contesto, testo in grassetto e bullet point concisi sono esattamente ciò che viene premiato, non la voce narrativa autentica. Sam Altman, CEO di OpenAI, ha previsto che i futuri modelli potrebbero risolvere la crisi climatica o fondare colonie spaziali — ma in un'intervista con l'economista Tyler Cowen ha ammesso candidamente che persino un ipotetico GPT-6 o GPT-7 potrebbe produrre, al meglio, "la poesia discreta di un poeta reale".

I tentativi di valutare la scrittura tramite criteri oggettivi producono risultati grotteschi. Un contractor di Scale AI ha descritto come le rubric di valutazione tentassero di tradurre concetti sfuggenti come il "tono" in regole discrete: "La risposta non deve usare più di due punti esclamativi." Il risultato pratico era che un valutatore finiva per preferire una risposta peggiore semplicemente perché l'alternativa conteneva tre punti esclamativi invece di due. In un'altra occasione, lo stesso contractor fu incaricato di valutare la "fattualità" di una fan fiction. Un annuncio di lavoro pubblicato da xAI per una figura di "creative writing specialist" elencava tra i requisiti "vendite di romanzi superiori a 50.000 copie" e "recensioni stellate su Kirkus", con una tariffa oraria di partenza di 40 dollari.

Il limite più profondo, tuttavia, non è tecnico né procedurale: è esistenziale. I modelli linguistici non vivono, non provano emozioni, non percepiscono odori né sapori. Non possono riversare su una pagina emozioni grezze, né collocare concetti astratti in contesti fisici densi di significato. Chi legge attentamente i testi generati da AI nota la stranezza delle metafore: gli LLM assegnano sapori ai giorni della settimana, immaginano cuciture negli specchi. Tendono a evitare sistematicamente il biologico — sangue, sessualità, morte — anche in senso metaforico. James Yu, co-fondatore di Sudowrite, uno strumento AI per autori di narrativa, lo esprime con una sintesi quasi poetica: "I migliori esordi letterari sono spesso autobiografici. Forse hai bisogno di un modello che abbia vissuto una vita, e che possa quasi morire."

Questo non significa che gli LLM siano inutili per chi scrive. L'approccio più produttivo sembra essere quello di impiegarli come strumenti di revisione editoriale piuttosto che come co-autori. Un esperimento pratico — alimentare il modello Claude con un archivio di propri testi passati, annotati con note su cosa aveva funzionato e cosa no, per costruire una rubric editoriale personalizzata — ha dimostrato come il sistema possa aiutare a iterare e migliorare la scrittura più rapidamente di quanto si potrebbe fare da soli, pur senza sostituire la voce e la prospettiva originale dell'autore. Il prompt di sistema utilizzato in quell'esperimento era esplicito nel definire i confini: "Non sei un co-scrittore. Non puoi percepire. Il tuo ruolo è aiutarmi a scrivere come la versione migliore di me stessa."

La domanda che resta aperta — e che attraversa l'intero dibattito sulla general intelligence dei modelli linguistici — è se la capacità di produrre grande letteratura sia un requisito necessario per definire un sistema "generalmente intelligente". Molti ricercatori nei laboratori AI sembrano credere di sì, anche se le priorità commerciali spingono in direzione opposta. Con l'AI Act europeo che inizia a definire categorie di rischio e obblighi di trasparenza per i sistemi AI, e con un ecosistema di startup dedicate alla scrittura assistita in rapida espansione, il confronto tra creatività umana e capacità generativa dei modelli è destinato a intensificarsi. La prossima generazione di LLM potrà ridurre il divario tecnico, ma la questione di fondo — se un sistema privo di corpo, memoria vissuta e mortalità possa produrre arte autentica — rimarrà probabilmente irrisolta molto a lungo.

La competenza umana che l'AI non può imitare

> I modelli linguistici avanzati eccellono in compiti tecnici complessi, ma faticano a produrre testi davvero vivi. Un paradosso che rivela molto sulla loro architettura.