Big learning data: il gigante addormentato

letto 2089 voltepubblicato il 14/07/2014 - 14:27 nel blog di Giuliana Ruiu, in Formazione PA, Open Government

Cosa succederebbe se domani università, scuole, associazioni, aziende e chiunque faccia formazione online con risorse pubbliche liberasse i dati imprigionati sui Learning management system, dopo averli ripuliti dai dati personali? Forse niente, forse, nel tempo, aprirebbe le porte a progetti come questo di Skillsoft (un colosso dei Learning management system, appunto) e IBM:

Personalmente, qualche anno fa non mi sarei aspettata che i learning data sarebbero diventati oro e forse diamanti. Poi sono arrivati i MOOCs e, quasi in contemporanea, i Big Data.

Cosa siano i lo sappiamo un po' tutti: sono i Massive Open Online Courses, corsi online aperti ad iscrizione libera che stanno assumendo nel tempo format sempre più vari. Chi non se ne è mai occupato, invece, forse non conosce i . Si tratta di report generati prevalentemente dai Learning management system (piattaforme eLearning usate anche per i MOOCs) basati sui learning data che tutti gli LMS raccolgono e che ti dicono chi si collega a una determinata piattaforma eLearning, a che ora, per quanto tempo, cosa sceglie, in cosa sbaglia, cosa guarda con interesse e cosa non degna di uno sguardo e così via. Insomma, sono un po' come i web analytics ma con una differenza: sono legati a contesti di apprendimento. In realtà, quelli forniti dai LMS sono già "learning analytics", cioè dietro i dati tracciati da ogni LMS c'è già un ragionamento su cosa, come e quanto tracciare.

Non mi azzardo a dare una definizione di Big Data, ma mi rifaccio a quanto c'è di quasi consolidato sul tema (un'ottima lettura è ). Il principio che sta dietro ai Big Data è che i comportamenti umani abbiano un qualche livello di universalità e che quindi possano essere "predetti" attraverso l'analisi di enormi moli di dati. Questi dati possono provenire da una pluralità di sorgenti che possono andare da semplici clic su Internet alle transazioni di denaro attraverso dispositivi mobili, dalle piattaforme user content generated ai social media e così via.

I Learning management system sono, per l'appunto, un'enorme sorgente di dati sull'apprendimento umano. E se i learning data sono sempre esistiti, sembra esserci qualcosa di nuovo e con questo nuovo c'entrano i Big e gli open data, i MOOCs e anche il machine learning. Basta pensare alla recente proliferazione di progetti di . Il MIT (Massachuset Institute of Technology) e Harvard hanno messo a disposizione in formato aperto i di utenti che si sono iscritti e hanno partecipato ai loro MOOCs su edX. ha appena dato 300.000 dollari alla Carnegie Mellon University di Pittsburgh, Pennsylvania, per realizzare una ricerca su come personalizzare la "MOOC experience", cioè su come rendere – utilizzando i learning analytics – un MOOC più coinvolgente e divertente e su come adattare il design di un corso ai diversi stili di apprendimento (anche connessi con le differenze culturali).

I dati sull'apprendimento si trovano ovunque, non solo sui Learning management system. Una ricerca sull'apprendimento, come fatta da Tom Stafford, Ph.D. all'Università di Sheffield, può muovere ad esempio dai dati su 854.064 giocatori di un gioco online. Compito dell'educational data mining dovrebbe essere quello di scovarli, osservarli, aggregarli ed elabolarli. Il tutto con la complicità del machine learning, cioè dell'apprendimento automatico basato sull'osservazione dei dati. Attraverso il machine learning i nostri sistemi dovrebbero aiutarci ad apprendere apprendendo dai nostri dati sull'apprendimento. Obiettivo è la personalizzazione dell'esperienza e la prevenzione del drop out.

Dove potrebbe dormire il gigante? Se dormisse già nei nostri Learning management system, cioè nelle piattaforme eLearning usate da 10/15 anni in scuole, università e da chiunque formi o abbia formato persone online? Quei dati non potrebbero valere quanto i dati su un solo anno di vita di edX o di Coursera? Forse no, ma perché non metterli semplicemente a disposizione del calderone dei Big Data? E perché la logica del calderone non potrebbe estendersi a tutti i dati "comportamentali" che la PA raccoglie nell'ambito della sua mission, come ad esempio i web analytics dei siti istituzionali?

Dare i dati a chi vuole occuparsene non dovrebbe costare molto perché, a differenza di altri percorsi di apertura, sia i learning che i web analytics si basano già su dati in qualche modo gestibili (anche se da ripulire da ogni identificativo personale). A maggior ragione trattandosi di dati prodotti o finanziati con denaro pubblico che, come sappiamo, "devono ritornare ai contribuenti, e alla comunità in generale, sotto forma di dati aperti e universalmente disponibili" ().