Il team di ricerca di Google ha appena pubblicato un articolo intitolato Towards a Human-like Open-Domain Chatbot (Verso un Chatbot a dominio aperto di tipo umano) in cui viene introdotto Meena, un chatbot avanzato, addestrato su dati estrapolati e filtrati dalle conversazioni dei social media, in grado di sostenere conversazioni molto più appropriate e contestualizzate rispetto ai chatbot più all’avanguardia attualmente disponibili. 

I chatbot moderni, continuamente in fase di miglioramento, soddisfano sempre le nostre esigenze a condizione di  non aspettarsi più di quanto normalmente siamo abituati ad ottenere attraverso il loro utilizzo.

Per poter offrire una più ampia varietà di argomenti di conversazione, e sviluppare chatbot in grado di sostenere conversazioni appropriate su qualsiasi argomento, i ricercatori Google stanno sperimentando approcci davvero innovativi.

Le nuove metodologie non rappresentano solo un affascinante argomento di ricerca: gli effetti di un miglioramento di questo tipo andrebbero, per fare qualche esempio,  da una maggiore umanizzazione delle interazioni tra noi e il computer al miglioramento dell’apprendimento e della pratica delle lingue straniere fino alla possibilità di correlare tra loro personaggi di film e videogiochi interattivi.

Spesso i chatbot a dominio aperto attuali  presentano delle criticità legate alla scarsa coerenza delle conversazioni, alla non sufficiente conoscenza teorica di base o alla mancata comprensione del contesto di riferimento. 

Nell’articolo Towards a Human-like Open-Domain Chatbot (Verso un Chatbot a dominio aperto di tipo umano) i ricercatori Google introducono Meena, un modello di conversazione neurale addestrato con 2,6 miliardi di parametri end-to-end sulla base di 341 GB di testo, estrapolati dalle conversazioni sui social media. 

Nell’articolo viene dimostrato che Meena è in grado di condurre conversazioni molto più intelligenti e puntuali rispetto a quelle sostenute dagli attuali chatbot, pur sofisticati e all’avanguardia. Per apprezzare tali miglioramenti viene proposta una nuova metrica di valutazione umana, chiamata SSA, Sensibleness and Specificity Average (Media Senso e Specificità), che rileva alcuni  elementi che sono sì di base ma allo stesso tempo essenziali per la conversazione umana. Dagli studi emerge chiaramente che la Perplexity, una metrica intrinseca che serve  per valutare la qualità di qualsiasi modello di conversazione neurale, è altamente correlata alla SSA. L’obiettivo ultimo è naturalmente quello di misurare il livello di Perplexity – che di fatto è un indicatore dell’efficacia con cui un modello probabilistico riesce a predire un campione nel contesto della misurazione statistica delle informazioni – e far si che Meena comprenda ciò che è già stato detto nella conversazione.

Il cuore del sistema è rappresentato dall’architettura Evolved Transformer seq2seq, che possiede, come illustrato nella figura che segue,  un unico modulo di codifica e 13 di decodifica:

verso-chatbot-google-umano

L’encoder è responsabile dell’elaborazione del contesto della conversazione e aiuta Meena a comprendere ciò che è già stato detto; il decodificatore utilizza poi le informazioni per formulare una risposta attinente al contesto ed è dunque la chiave per migliorare la qualità della conversazione.

Per calcolare l’SSA, i ricercatori hanno alimentato la conversazione in forma libera con i chatbot in fase di test (Meena e altri noti chatbot a dominio aperto, in particolare, Mitsuku, Cleverbot, XiaoIce, e DialoGPT). Al fine di garantire la coerenza tra le valutazioni, ogni conversazione inizia con lo stesso saluto, “Ciao!” e  per ogni frase, gli operatori della community rispondono a due domande: “ha senso?” e “è specifico? Al valutatore viene chiesto di giudicare in base al buon senso se una risposta sia classificabile come ragionevole nel contesto dato. Se qualcosa sembra fuori luogo – confusa, illogica, fuori contesto, o sbagliata – allora dovrebbe essere contrassegnata come “priva di senso”. Se la risposta ha senso, l’enunciato viene poi valutato per determinare se è specifico per il contesto dato. Per esempio, se A dice: “Amo il tennis”, e B risponde: “È bello”, allora l’enunciato verrà contrassegnato come “non specifico” dal momento che la stessa risposta potrebbe essere usata in decine di contesti diversi. Ma se B risponde: “Anch’io, non ne ho mai abbastanza di Roger Federer”, allora sarà contrassegnata come “specifica”, poiché si riferisce specificatamente a ciò di cui si sta discutendo.

Per ogni chatbot i ricercatori raccolgono tra le 1600 e le 2400 conversazioni individuali: ogni risposta del modello può essere contrassegnata come pertinente e specifica e la media fra le due indica il punteggio SSA. I risultati che seguono dimostrano che Meena è molto performante:

chatbot-meena-google

In questo studio i ricercatori  si sono soffermati su “senso” e “specificità” ma in futuro prevedono di esaminare anche altri parametri come “personalità” e “concretezza” e di affrontare tutte le tematiche connesse con la sicurezza e i condizionamenti dei modelli. In questo momento si sta valutando la possibilità di rendere disponibile il  modello per far progredire la ricerca di questo settore e avvicinarsi sempre di più ad un modello conversazionale di tipo umano.

 

 

Vuoi saperne di più sulle interfacce conversazionali?

Condividi: