Ogni giorno su Facebook vengono pubblicate più di un miliardo di foto. È quindi impossibile, per i moderatori di Facebook, tenere sotto controllo ogni singolo contenuto presente sulla piattaforma. Per questo motivo, Facebook sta lavorando a Rosetta: un’intelligenza artificiale in grado di riconoscere il testo presente nelle immagini (e nei video). Grazie a questa funzione, Rosetta sarà in grado di identificare contenuti offensivi e inappropriati anche in testi all’interno di immagini e meme.
Come funziona Rosetta
Come descritto in un post sul blog di Facebook, Rosetta estrae ogni giorno e in tempo reale testi da più di un miliardo di immagini presenti su Facebook e Instagram. Questa operazione avviene in due processi separati: identificazione e riconoscimento. Nel primo step, vengono create delle regioni rettangolari, ovvero piccole caselle che potrebbero potenzialmente contenere del testo. Successivamente entra in gioco l’intelligenza artificiale basata su un sistema a Rete Neurale Convoluzionale, che riconosce e trascrive il testo contenuto nelle caselle.
A cosa servirà
Trascrivere il testo nelle immagini è utile a Facebook per diversi motivi. Innanzitutto, permetterà di creare una ricerca per immagini più precisa, ma anche di offrire ai propri utenti contenuti più personalizzati analizzando le foto presenti nel News Feed. Lo scopo principale di Rosetta però è quello di riconoscere potenziali contenuti che violano le policy del sito, come immagini e meme con contenuti offensivi. L’intelligenza artificiale di Facebook infatti, grazie alla trascrizione del testo, «identifica automaticamente i contenuti che violano la policy di incitamento all’odio» e provvede a eliminarli, in nome di una piattaforma più sicura per tutti.
Si tratta, comunque, di una grande sfida per Facebook. Il primo ostacolo sono infatti le lingue stesse, ognuna con caratteristiche e strutture diverse e che richiedono quindi processi specifici. Alcune lingue, come l’arabo, vengono lette da destra verso sinistra. Rosetta però le analizza come se lo fossero da sinistra verso destra (come l’italiano), per poi invertire l’ordine delle parole: in questo modo, Facebook è riuscita a creare un modello unificato che funziona bene per entrambi i tipi di lingue. L’uso di un modello unificato per una grande quantità di lingue, però, potrebbe portare a risultati scadenti.
La seconda sfida è rappresentata dai contenuti stessi: caratteristica intrinseca dei meme, e delle immagini su Facebook in generale, è la grande varietà di forme e modi in cui appaiono, magari con testi ruotati o distorti. Caratteristiche che rendono difficile l’identificazione delle parole, e che richiede quindi intelligenze artificiali più avanzate.
Come la prenderà la community di Facebook? Che cosa ne pensate? Fatecelo sapere con un commento!
Per rimanere informati sul mondo nerd, continuate a seguirci sul nostro sito DrCommodore.it e su Facebook, Instagram, Telegram, YouTube, Discord e Twitch.