Brace yourselves, data analysis is coming
Dopo sette stagioni di Game of Thrones fatte di record infranti, morti sanguinolente e guerre per il comando, ogni fan della serie tv tratta dalle Cronache del Ghiaccio e del Fuoco si pone una sola domanda: Chi siederà sul Trono di Spade?
La serie è nota per la facilità con cui i protagonisti possono morire, spesso in bagni di sangue, lasciando vuoti incolmabili nei poveri fan che, ingenuamente, si affezionano ai personaggi dello show.
Questa particolarità ha portato negli anni alla creazione di alcuni affascinanti modelli di analisi predittiva, come la creazioni di modelli di sopravvivenza bayesiani e lo sviluppo di tecniche di machine learning volte a predire la probabilità di morte dei nostri amati personaggi.
In particolare, uno di questi modelli di machine learning ha raccolto e analizzato i dati di una wiki amatoriale per cercare di indovinare il destino di circa 2000 personaggi, in base ad alcune informazioni basilari come la casata di appartenenza, l’età, il sesso ecc ecc.
Taylor Larkin, data scientist per DataRobot, ha deciso di applicare un nuovo approccio basato sulle light gradient boosted machines (LightGBMs) per analizzare questi dati e fare le sue personalissime previsioni sulla vita o morte dei personaggi che abitano il mondo delle Cronache.
Senza entrare troppo dei dettagli di questo difficile mondo ci basterà dire che le LightGBM operano in maniera similare ad altri modelli di machine learning, con la sostanziale differenza che invece di produrre deep trees, generano wide trees. Ovvero, hanno un tempo d’apprendimento più rapido, un minor consumo di memoria e una migliore generalizzazione dei nuovi dati.
Larkin ha implementato questi nuovi modelli predittivi all’interno dei framework aziendali di DataRobot e ha ottenuto dei risultati, per quanto goliardici e scherzosi, altamente plausibili. Ma andiamo con ordine.
Analisi esplorativa dei dati
Come spesso succede nei progetti di machine learning, tutto inizia dalla raccolta e dall’analisi dei dati.
Casata di appartenenza, titolo nobiliare, sesso, età, numero di parenti morti. Tutte queste informazioni ci permettono di generare modelli che indicano quali casate hanno più legami con la morte.Più la parola è grande, più frequentemente la casata viene nominata all’interno dell’opera. Quelle colorate in rosso sono le casate più associate con la morte (non dubitavamo della presenza della Night’s Watch in questa categoria, visto il loro difficile lavoro di protezione e salvaguardia dell’umanità) mentre quelle in blu sono relativamente più “sicure”.
Emblematica la differenza di colori tra Targaryen e Tyrell. Targaryen è la casata più in rosso del grafico, con un tasso di mortalità vicino al 67%. Per quanto riguarda i Tyrell, invece, solo un misero 5% degli appartenenti alla famiglia risulta deceduto.Parlando del sesso, risulta chiaro che non solo ci sono meno personaggi femminili della saga, ma che muoiono anche meno frequentemente. Questo è logicamente dovuto alla grande quantità di personaggi maschili coinvolti nelle numerose battaglie che hanno costellato la serie.
Costruzione dei modelli
Dopo aver raccolto ed analizzato i dati, si passa all’esecuzione del modello. Nel caso specifico questo viene fatto in via del tutto automatica, senza intervento umano, adattando ed ottimizzando i dati per uno specifico algoritmo.
Data Insights
Utilizzando una tecnica chiamata feature impact possiamo verificare quale feature, ovvero quale dato preso in esame, ha la maggior incidenza e genera il maggior effetto sull’algoritmo di machine learning. Dal grafico sottostante risulta chiaro che la casata d’appartenenza, l’età, la presenza ed il numero di familiari morti ed il sesso sono le informazioni più influenti ai fini dell’algoritmo.
L’importanza della casata d’appartenenza ha senso poiché in base alle alleanze ed alle amicizie, un personaggio si può ritrovare o meno in un determinato punto della storia, con tutte le conseguenze del caso.Per esaminare l’esatta relazione tra le features di cui sopra e la morte di un personaggio, possiamo utilizzare il metodo delle dipendenze parziali.
Ad esempio, per quanto riguarda l’età di un personaggio, risulta quanto segue.La linea gialla indica come la predizione di morte cambia all’aumentare del valore del parametro età. Si tratta di una relazione altamente non lineare, con una probabilità di morte intorno agli 80 anni praticamente doppia rispetto a quella degli stessi personaggi a 30 anni, come d’altronde ci si aspetterebbe da un punto di vista biologico.
Valar Morghulis
Finalmente, possiamo dare uno sguardo alle previsioni di morte dei personaggi di Game Of Thrones secondo i modelli predittivi di DataRobot. Le variabili in rosso indicano i motivi che aumentano le probabilità di morte di un dato personaggio, quelle in blu, invece, i motivi che riducono il rischio di perire.
È interessante notare che:
- Per la maggior parte dei personaggi, il motivo principale è la presenza o meno di parenti morti. Si tratta, ovviamente, di un indicatore che rappresenta i disordini e i tumulti familiari del passato.
- Essere un uomo del nord sembra meno rischioso e meno soggetto a morire, essere valyriano invece produce l’effetto opposto.
- I fratelli Lannister, Jaime, Tyrion, e Cersei, hanno più probabilità di morire a causa della loro età.
- Gli uomini sono più a rischio, come già detto in precedenza.
- Delle dieci persone nella lista, Daenerys ha la più alta probabilità di morire, mentre Gendry la più bassa.
In conclusione non ci resta che fare presente che i dati riportati in questo articolo provengono da un algoritmo e dalle computazioni di una macchina e il destino di Westeros e di tutti i personaggi in lotta per il Trono di Spade resta nelle mani degli sceneggiatori.
Noi, come tutti, siamo in trepidante attesa della prossima ed ultima stagione di Game of Thrones e non possiamo fare altro che attendere per vedere se Taylor Larkin ha davvero predetto le morti dello show o tutto si è limitato a un (intrigante e bellissimo) esercizio di stile e dimostrazione della potenza dei framework di DataRobot.
Cosa ne pensate? Anche voi aspettate la prossima stagione di Game of Thrones? Siete d’accordo con queste previsioni? Ditecelo nei commenti!
Per rimanere informati sul mondo nerd, continuate a seguirci sul nostro sito DrCommodore.it e su Facebook, Instagram, Telegram, YouTube, Discord e Twitch.