Costruire il futuro della scuola

Costruire il futuro imparando dall’esperienza passata

Per costruire in maniera attendibile il futuro di un’istituzione cruciale per i destini della  società come la scuola bisogna imparare dall’esperienza passata. Non in modo generico e indifferenziato, ma specifico e mirato.

Se la scuola, come diceva un’efficace massima di Montaigne, ripresa e citata più volte da Morin, ha come suo compito di costruire “una testa ben fatta”[1], piuttosto che una testa molto piena, l’insegnamento fondamentale a cui riferirsi e dal quale attingere è quello che può essere ricavato dal processo teso, appunto, a costruire una testa di questo tipo, simulandone la caratteristica fondamentale, e cioè l’intelligenza.

Questo processo, come noto, ha il suo punto di partenza nella formulazione, da parte di Turing, del suo concetto di “macchina che calcola” prima, e di “macchina che pensa” poi, proposto appunto per riprodurre a livello artificiale questo tratto distintivo basilare della natura umana.

Che cosa sia una macchina di Turing (MT) è presto detto. Riepiloghiamo le fasi principali della sua elaborazione seguendo la sintetica ed efficace ricostruzione che ne fa Ignazio Licata in un libro di prossima pubblicazione[2]. L’idea è stata sviluppata dal suo autore in un articolo pubblicato nel 1950 dalla rivista Mind[3]  per fornire una riposta precisa a una questione matematica tra le più astratte, il problema delle decisioni di Hilbert: una questione posta nel 1928 dal grande matematico tedesco, all’interno dell’allora appassionato dibattito sui fondamenti della matematica. Il problema consiste nel chiedere di esibire una procedura, eseguibile in maniera completamente meccanica, in grado di stabilire, per ogni formula espressa nel linguaggio formale della logica del primo ordine, se tale formula è o meno un teorema della logica del primo ordine: in altri termini, se tale enunciato è o meno deducibile all’interno del sistema formale. La soluzione di Turing,  che nel 1936 portò a una risposta negativa a questo problema, consiste nel teorizzare una macchina ideale in grado di fare un piccolo numero di operazioni utilizzando come “memoria” un nastro illimitato: leggere e scrivere un simbolo, spostarsi avanti o indietro sul nastro. Si tratta dell’antenato concettuale dei moderni computer. I vertici più astratti del pensiero matematico diventavano quasi intuitivi grazie a uno stile capace di fondere la teoreticità logica con una pragmaticità da ingegnere.

Il punto fondamentale è che la macchina di Turing è virtuale, prevalentemente non fisica, in quanto le sue componenti fondamentali sono strutture astratte (il software, i programmi che ci girano dentro, gli algoritmi), funziona sulla base dei principi della logica, operando su simboli e non su componenti materiali e meccaniche nel senso tradizionale del termine,  Eppure anche in questo caso limite non si può fare a meno di un supporto materiale: queste strutture astratte devono infatti essere “incarnate” in un insieme di processi  fisici senza i quali non ci sarebbe la possibilità autonoma di passare da strutture di simboli ad altre, per cui il software non è riducibile a pura logica.  Come dire che non può in alcun caso sussistere una struttura astratta (la mente) senza un supporto materiale (il cervello). Questo è un punto fermo di cui prendere atto, perché, diciamoci la verità, “nessuno ha mai visto una mente andare in giro senza un cervello come il naso della novella di Gogol”.

Sulla base di questa simulazione l’intelligenza viene dunque concepita come una funzione, che presuppone un supporto materiale ma è indipendente dalla sua specifica natura (il cervello umano, ovviamente, è qualcosa di molto diverso dall’hardware di un computer) e che consiste nella capacità di manipolare opportunamente simboli. Questo tratto comune consente di stabilire una concreta analogia tra il software di questo tipo di dispositivo artificiale e le prestazioni di una mente umana.

A ogni successivo passo il comportamento della macchina di Turing risulta completamente determinato dalla configurazione in cui si trova in quel momento e dal simbolo che ha analizzato. Scrivendo per esteso tutte le informazioni atte a definirla, si ha una “tavola di comportamento” (detta anche “tavola di transizione degli stati”) di dimensioni finite. La tavola definisce in modo esaustivo la macchina, nel senso che, indipendentemente dall’esistenza fisica di quest’ultima, contiene tutte le informazioni rilevanti su di essa.
Da un simile punto di vista, la tavola astratta è la macchina.
Ciascuna delle possibili diverse tavole di comportamento definisce, di conseguenza, una macchina diversa, con un comportamento diverso. Esiste un numero infinito di tavole possibili, e dunque un numero infinito di macchine possibili. A questo punto Turing aveva trasformato il vago concetto di “metodo definito” o di “processo meccanico”, in qualcosa di molto preciso, che era appunto la “tavola di comportamento”. Il punto cruciale è che egli riesce a dimostrare l’esistenza di una macchina (detta macchina di Turing universale) che “simula” il comportamento di una qualsiasi macchina di Turing (e quindi anche di se stessa!). E’ pertanto possibile, a suo giudizio, disporre di “una singola macchina che può essere utilizzata per computare qualsiasi sequenza computabile. La sua caratteristica più significativa è pertanto quella di poter assumere come input dal proprio nastro le istruzioni di una qualunque macchina di Turing opportunamente codificate e quindi di poterle eseguire. Questa è appunto la “forma logica” della macchina, distinta dalla sua costituzione materiale, e nella quale risiede la proprietà di “essere una macchina”. La distanza rispetto al concetto di macchina tradizionale non potrebbe essere più netta!

Sottolineiamo un primo aspetto di importanza cruciale. Turing è ben consapevole del fatto che una singola macchina, che è un modello artificiale e semplificato della mente, non può simulare in modo esaustivo quest’ultima, in quanto lo stesso sistema “mente”, nelle stesse condizioni, può avere  una pluralità di storie emergenti, in seguito alle diverse modalità possibili di interazione con l’ambiente. Questo è il motivo per cui egli ritiene che non possa esistere un  software per predire l’emergenza, termine con il quale indichiamo il manifestarsi di proprietà non deducibili da un modello predefinito del sistema come risposta alla specifica situazione ambientale: le transizioni di fase, la rottura di simmetria e la perdita di informazione che ne derivano equivalgono a quello che, dal punto di vista computazionale, è un cambiamento di codice che non può essere predetto. È vero che la riduzione dei gradi di libertà in linea generale produce un gran numero di strutture, che però verosimilmente saranno assai simili tra loro, per cui emergeranno classi d’equivalenza di informazione macroscopica, e questo suggerisce utili strategie per indagarle tramite normali mezzi  computazionali. Ma è altrettanto vero che è del tutto normale che in fenomeni ad alta emergenza i codici cambiano così rapidamente che devono entrare in gioco più modelli e mai una singola MT, bensì una collettività organizzata di queste, proprio come Turing ha sostenuto in modo esplicito. Questa l’intuizione che lo ha poi portato alle macchine non organizzate ed alle baby machines, in pratica a prefigurare le caratteristiche più affascinanti delle reti neurali. Va in proposito ricordato qui il suo concetto di interferenza, legato all’idea di macchine che si auto-organizzano interagendo con l’ambiente:

“I tipi di macchine che abbiamo considerato finora sono, in genere, macchine a cui è permesso di continuare la loro strada per periodi indefiniti senza interferenze dall’esterno. Le macchine ( non-organizzate) rappresentano un’eccezione in quanto di tanto in tanto è possibile che si cambi la descrizione della macchina da simulare. Ora prenderemo in considerazione macchine in cui tale interferenza è la norma piuttosto che l’eccezione […]. Nella misura in cui l’uomo è una macchina, lo è solo come macchina soggetta a moltissime interferenze […] un uomo è in costante comunicazione con altri uomini […] il suo comportamento […] è determinato in larga misura dai modi in cui è stato condizionato dall’interferenza precedente”[4].

A maggior ragione dunque in questo caso bisogna considerare più griglie di possibilità per il manifestarsi dei fenomeni, che accadono non in un astratto mondo senza limiti di tempo e di spazio – come nella prima Macchina di Turing -, ma in un contesto e in un istante di tempo ben definiti, in un certo modo piuttosto che in un altro, vincolati da condizioni al contorno che cambiano continuamente in corrispondenza con la molteplicità di interazioni possibili tra la macchina e l’ambiente in cui è inserita. Esiste un aspetto storico dei processi naturali che implica naturalmente il caso, l’accadere delle cose compatibile con quella classe generale di eventi retti da quella che chiamiamo legge. Casualità e incertezza sono aspetti complementari alle relazioni causali nella descrizione del mondo. Ciò che è vero per il mondo è ancora più vero per la complessità della mente: la coscienza è assieme un fatto storico e una bussola cognitiva che muta di continuo durante il nostro accoppiamento con il mondo, un processo che emerge dal gioco delle esperienze, memorie e dissipazioni da cui è costituita la nostra incessante ri-costruzione del mondo. Non c’è attività cognitiva autentica senza relazione con l’ambiente, e questo implica un processo continuo di riorganizzazione della conoscenza tramite una caratteristica miscela di ordine e disordine. La creazione di nuova informazione ha come condizione necessaria la dissipazione d’energia, ossia l’apertura termodinamica.
I sistemi complessi, come il corpo, a maggior ragione nel suo accoppiamento con la mente, possono per questo solo essere raccontati ex post da storie conseguenti ma non predefinite a priori. Oltre al richiamo a un sano atteggiamento sperimentale, c’è una lezione implicita, che può essere sintetizzata dicendo che il sistema è la sua storia! Detto in altri termini, nei sistemi semplici la struttura è univoca e definisce la funzione; nei sistemi complessi emergono nuove strutture e funzioni, che dipendono dalla storia del sistema. La complessità del sistema “memoria” è una delle ragioni del fallimento della Intelligenza Artificiale classica. Le caratteristiche generali dei sistemi complessi permettono loro una “flessibilità” e una capacità di “adattamento” che rendono possibile la vita e la cognizione, e mostrano il legame profondo tra impredicibilità, incertezza ed emergenza. E’ questo il principio della sorpresa e dunque dell’emergenza radicale. i sistemi complessi manifestano proprietà di emergenza radicale. Per questo sono necessari più modelli, ognuno in grado di riferirsi a un aspetto diverso del sistema e di coglierne la specificità.
Abbandonata, per queste ragioni, l’idea di poter mettere un programma-mente dentro un’unica macchina, la ricerca è orientata oggi verso un nuovo patto tra informatici e neuroscienziati all’interno dell’Human Brain Project. Messa da parte l’illusione che possa esistere un unico modello dei sistemi cognitivi, si indagano gli aspetti di cooperazione integrata delle varie aree (e livelli) del cervello, partendo dall’enorme mole di dati forniti dalle nuove tecniche d’indagine non invasive del sistema nervoso. L’obiettivo, minimale rispetto a quello della vecchia Intelligenza Artificiale ma di fatto enorme se consideriamo l’effettiva complessità del cervello, è quello di fornire uno schema dell’espressione genica in grado di fornire una mappa sull’organizzazione corticale.

La crescente consapevolezza dei limiti del programma dell’Intelligenza Artificiale forte, con l’idea di macchina che esso presupponeva, ha portato al passaggio dall’approccio simbolico a quello connessionista delle reti neurali. Questo approccio non dev’essere visto come un avvicinamento alla biologia, dato  un cervello “vero” è qualcosa di molto più complesso di una rete neurale. Il vantaggio che si ottiene consiste piuttosto nell’acquisizione definitiva di alcuni elementi concettuali indispensabili nella costruzione di modelli matematici della mente.

Mentre nell’approccio simbolico l’elaborazione di informazioni avviene senza alcun riferimento alla dimensione energetica – il lavoro fisico lo fa la macchina, ossia avviene ad un livello ben separato da quello “superiore” della manipolazione di simboli – nelle reti neurali informazione ed energia camminano di pari passo. Una rete neurale apprende deformandosi, modificando il suo paesaggio energetico, facendo lavoro e dissipando energia. Inoltre invece di avere un programma predefinito di regole che si attivano in relazione ad input precisi, nelle reti neurali moderne assistiamo ad un processo diverso: la molteplicità degli input attiva e rinforza l’attività globale della rete, portando così alla formazione di configurazioni (pattern) che si accumulano e si ridefiniscono continuamente con la storia dinamica del sistema.

Il primo modello di rete neurale fu proposto nel 1943 dal neurofisiologo Warren McCulloghs e dal matematico Walter Pitts. Lo schema proposto era piuttosto semplice: la rete neurale era simulata tramite connessioni elettriche, ogni “neurone” aveva una soglia di attivazione sinaptica fissa ed era sincronizzato con tutti gli altri. Il progressivo raffinamento di questo modello ha portato oggi a reti modulari con soglia non più fissa ma variabile in relazione al gioco stimolo-risposta e con gruppi di neuroni capaci di elaborare in modo asincrono tra loro. Invece di avere un programma predefinito di regole che si attivano in relazione ad input precisi, nelle reti neurali moderne assistiamo ad un processo diverso: la molteplicità degli input attiva e rinforza l’attività globale della rete, portando così alla formazione di configurazioni (pattern) che si accumulano e si ridefiniscono continuamente con la storia dinamica del sistema. Tra i molti nomi è doveroso ricordare almeno qui J. Hopfield, che con una straordinaria batteria di lavori ormai classici dal 1982 al 1984, ha studiato i comportamenti dinamici delle reti neurali non-lineari utilizzando le forti analogie con la fisica dei sistemi collettivi, ad esempio i vetri di spin. La rete apprende proprio grazie alla flessibilità ed alla fallibilità della sua struttura secondo un processo denominato DIRO (Data In – Rules Out). Un sistema di questo tipo è in grado di esibire comportamenti raffinati di categorizzazione, come confrontare due pattern simili ma non uguali e dunque di gestire efficacemente una certa quantità di indeterminazione secondo una logica fuzzy. Le differenze dell’approccio neurale connessionista rispetto alla vecchia intelligenza artificiale sono rilevanti: al programma predefinito di rappresentazioni simboliche si sostituisce un processo di apprendimento auto-organizzativo che chiama in gioco l’attività parallela di un enorme numero di segnali tra sotto-sistemi, e l’interazione con il mondo esterno è decisiva.

In questo quadro è di particolare interesse un articolo di Lake, Salakhutdinov e Tenenbaum dal titolo Human-level concept learning through probabilistic program induction, pubblicato alla fine del 2015 su ‘Science’[5], che mostra come, adottando un programma bayesiano sia stato possibile ottenere sistemi artificiali in grado di imparare nuovi concetti in un tempo drasticamente ridotto rispetto a quello necessario in precedenza e di applicare i concetti appresi in ambiti diversi da quelli originari. Il programma Bayesiano, che prende il nome dal matematico britannico Thomas Bayes (1702-1761), affronta i problemi legati al calcolo della probabilità partendo dal presupposto che la fiducia nutrita in un dato momento da un dato soggetto per una credenza possa aumentare, o diminuire, in seguito a una valutazione razionale dei nuovi dati che egli può successivamente acquisire. Lo scopo dell’omonimo teorema è quello di stabilire in che misura una certa evidenza osservativa E possa far crescere, o decrescere,  la probabilità iniziale p(H) (ovvero il grado soggettivo di credenza) che un certo soggetto assegna a una determinata ipotesi, ottenendo così la probabilità di H in base all’esperienza E, cioè p(H/E), detta probabilità a posteriori.

Fin da quando sono piccoli, gli esseri umani imparano un concetto dopo averne visti pochi esempi nella vita reale: capiscono il concetto di una lettera dell’alfabeto come la “A”, dopo averla vista scritta a mano in diverse varianti o stampata in diversi caratteri. Già prima di andare alla scuola materna, ad esempio, i bambini imparano a riconoscere nuovi concetti a partire da un solo esempio, e possono anche immaginare nuovi esempi del concetto appreso, come dimostra il fatto  che sono in grado di produrre in modo creativo altre “A” mai viste prima. I computer tradizionali, anche i più potenti e raffinati, non riuscivano nemmeno lontanamente a fare una cosa del genere, in quanto avevano bisogno di centinaia di esempi prima di poter imparare un concetto per via induttiva. Gli autori dell’articolo, basandosi sull’algoritmo induttivo da loro messo a punto, sono riusciti a costruire un sistema artificiale in grado di apprendere un concetto anche a partire da pochi esempi della vita reale e di produrne di nuovi. Nell’esperimento essi hanno utilizzato più di 1.600 lettere scritte a mano in 50 lingue diverse, compresi greco, latino, sanscrito e tibetano. Lo studio è stato condotto seguendo, come detto, i dettami dell’apprendimento bayesiano (Bayesian Program Learning, BPL), in cui i concetti sono rappresentati come semplici programmi di computer. La lettera A per esempio è rappresentata da un codice che, riproducendo il lavoro di un programmatore, genera esempi di quella lettera quando viene eseguito. Mentre i convenzionali algoritmi di riconoscimento degli schemi rappresentano i concetti come configurazioni di pixel o collezioni di caratteristiche, l’approccio BPL impara tramite “modelli generativi”: l’apprendimento è quindi una costruzione di modelli o di dati forniti dagli algoritmi. In sostanza, l’algoritmo programma se stesso, costruendo il codice per produrre le lettere: a differenza dei software convenzionali, che forniscono lo stesso risultato a ogni sessione di calcolo, questi programmi probabilistici producono output differenti a ogni esecuzione. Questo consente loro di cogliere in che modo variano nella vita reale gli esempi di un concetto, per esempio in che modo due persone diverse scrivono a mano la lettera A, oppure come si presenta la stessa lettera se è stampata con caratteri diversi. Il modello, inoltre, “impara a imparare”, utilizzando la conoscenza di precedenti concetti per velocizzare l’apprendimento di quelli nuovi, per esempio utilizzando le lettere dell’alfabeto latino per imparare l’alfabeto greco.

Nell’ultima fase del loro studio i ricercatori hanno chiesto a esseri umani e computer di produrre una serie di lettere scritte a mano dopo aver mostrato loro un singolo esempio di ciascun carattere, o in alcuni casi di creare nuove lettere in un carattere prescelto. L’obiettivo era quello di applicare il test di Turing per confrontare il tempo di apprendimento del computer  con quello di un gruppo di volontari e verificare così la capacità di pensare del loro sistema artificiale. In questo caso specifico il test è consistito nel far giudicare a un essere umano se le lettere prodotte in modo creativo fossero di origine umana o automatica[6]. Risultato: le lettere prodotte da esseri umani erano indistinguibili da quelle prodotte dall’algoritmo BPL.

Sulla base di questo esito Joshua Tenenbaum, coautore dello studio, ha potuto trarre la conclusione che siamo ancora lontani dal costruire una macchina intelligente come un bambino, ma è la prima volta che un algoritmo è in grado di imparare e usare un’ampia classe di concetti del mondo reale, anche semplici concetti visivi come lettere scritte a mano, che è difficile distinguere da quelle prodotte da un essere umano.

Questo è un punto che considero decisivo ai fini dell’apprendimento dall’esperienza del passato, in questo caso recente, di cui parlavo. Esso ci fa capire che per simulare l’intelligenza nei sistemi artificiali occorre metterli in condizione di apprendere, e quindi renderli educabili.

Lo aveva già ben compreso Bateson il quale, molti anni prima dell’esplosione del dibattito sulla learning society, si era non a caso soffermato sulla distinzione e sulla coesistenza di due livelli di apprendimento: il protoapprendimento e il deuteroapprendimento. Il primo è relativo all’acquisizione di informazioni e di schemi abitudinari che sono pianificabili e controllabili in contesti stabili e ben definiti. Il deuteroapprendimento, invece, fa riferimento a un livello non deliberato e non pianificabile e riguarda il “il come si fa ad apprendere”. Successivamente Bateson integrerà le sue riflessioni parlando di un terzo livello dell’apprendimento nel quale attraverso un processo caratterizzato da un maggior grado di astrazione e inconsapevolezza l’individuo cambia le forme del deuteroapprendimento[7]. L’apprendimento di terzo livello, l’“apprendere a disapprendere”, l’imparare a disabituarsi, che Bateson aveva individuato come causa di conseguenze patogeniche tipiche di una personalità schizofrenica, diviene invece secondo Zygmunt Bauman “un elemento centrale e indispensabile dell’equipaggiamento della vita” nel momento in cui tutti i punti di riferimento che davano solidità al mondo si sgretolano: “il problema degli uomini e delle donne post-moderni dipende dalla velocità con cui riescono a sbarazzarsi di vecchie abitudini piuttosto che da quella con cui ne acquisiscono di nuove. La cosa migliore è non preoccuparsi di costruire modelli; il tipo di abitudine acquisito con l’apprendimento terziario consiste nel fare a meno delle abitudini”[8]. Apprendere a disabituarsi richiede di rinunciare all’illusione e all’ansia di “padroneggiare” per imboccare la ricerca delle possibilità che si rendono disponibili a condizioni di apprendere il saper “non padroneggiare”: per questo la formazione non ha solo il compito di fornire al soggetto un insieme di alternative per adattarsi al mondo ma anche e soprattutto quello di sostenere, attraverso una nuova postura esistenziale, la capacità di modificare quelle alternative rinunciando alla pretesa di padroneggiarle[9].

L’apprendere ad apprendere, seguendo Bateson e l’apprendere a disapprendere, sulla scia di Bauman, hanno comunque in comune la caratteristica di essere processi dinamici legati entrambi a quell’abilità fondamentale per la vita che è la capacità di imparare. Possiamo pertanto affermare, a conclusione di questa analisi delle fasi salienti della simulazione dell’intelligenza umana nell’artificiale, che la condizione necessaria perché si possa parlare di “testa ben fatta” e si possa dire in modo appropriato di essere  di fronte a  un comportamento intelligente è la presenza di ciò che abbiamo chiamato educabilità.

Ecco perché, a mio parere, ha pienamente ragione il fisico Alan Cromer – che è stato per anni seriamente impegnato nella riforma dei programmi educativi statunitensi – quando, nella sua opera del 1993 Uncommon Sense. The Heretical Nature of Science, tradotta in italiano col titolo L’eresia della scienza[10], scrive: “Intelligente non è la parola più adatta per noi; forse Educabile sarebbe più appropriata. Come creature educabili siamo senza pari su questo pianeta, e forse in questa galassia: come creature intelligenti siamo solo una tra i molti milioni di specie della Terra, la maggior parte delle quali ha capacità che vanno oltre la nostra comprensione attuale. In questo senso, difficilmente si può dire che siamo soli, con milioni di altre specie che ci allietano, ci ispirano e ci educano.

L’educazione è la caratteristica peculiare dell’umantà. Va avanti continuamente, a casa, per strada e a scuola. Nessuna comunità ne è priva. Ma la civiltà moderna è unica nel richiedere un’educazione formale ‘alla greca’ per tutti. I risultati sono stati spettacolari. In due secoli la capacità di leggere e scrive, una volta privilegio di pochi, è diventato un diritto di tutti”[11].

Proprio per questo nesso forte e praticamente inscindibile tra educabilità e intelligenza è assia preoccupante l’attuale decadenza dei sistemi formativi, che lo stesso Cromer denuncia con parole forti: “Eppure, le aspettative a proposito dell’educazione sono state deluse dai risultati, e in non pochi paesi avanzati il sistema educativo pubblico è in crisi”[12].

 

Le ragioni della crisi

Quali sono le ragioni di questa crisi? Questa è la domanda che non possiamo evitare di porci se vogliamo assicurare alla scuola un futuro migliore. Per capirne i motivi occorre riferirsi a quelli che sono generalmente, e a ragione, riconosciuti come i pilastri su cui si deve reggere l’educazione e che dovrebbero quindi essere alla base di ogni idea di scuola, se la si intenda e la si pratica in modo corretto: la conoscenza nel suo farsi e l’organizzazione democratica.

Queste due colonne portanti indicate hanno in comune un tratto distintivo ben preciso: il fatto di essere entrambe l’espressione di modalità organizzative non solo dinamiche, ma capaci di mettere continuamente in discussione le proprie istituzioni e i propri significati, evitando di cristallizzarli e di sottrarli al vaglio del pensiero critico.

Per quanto riguarda la conoscenza, come suggerisce Luca Guzzardi[13], basta la visita a un qualsiasi laboratorioi scientifico o l’esplorazione di arxiv.org. gigantesco archivio di pre-prints interdisciplinare, per “rendersi conto che, per ogni singolo problema, una folla incontenibile di spiegazioni e controspiegazioni, proposte e alternative, si accalca sulla scena delle idee”, mettendoci dunque di fronte a una scienza che colta nel suo farsi esibisce tutto un diramarsi di possibilità e alternative differenti e la costante capacità di misurarsi con il nuovo e l’imprevisto.

Per quanto riguarda la democrazia è stato Cornelius Castoriadis a sottolineare che essa “è il solo regime politico tragico, è il solo regime che rischia, che affronta apertamente la possibilità della propria autodistruzione. La tirannia o il totalitarismo non «rischiano» niente, perché hanno già risolto tutto ciò che può essere un rischio nella vita storica. La democrazia si deve invece sempre confrontare con il problema della propria autolimitazione, che nulla può risolvere in anticipo; è impossibile, ad esempio, scrivere una costituzione in grado di impedire che un giorno il 67 per cento degli individui prenda democraticamente» la decisione di privare l’altro 33 per cento dei loro diritti. Si potranno scrivere nella costituzione alcuni diritti imprescindibili degli individui, ma non vi si può includere una clausola che impedisca in modo assoluto la revisione della costituzione; e anche se così si facesse, questa clausola si rivelerebbe presto o tardi impotente. L’unica limitazione essenziale che la democrazia possa conoscere è l’autolimitazione. E questa, a sua volta, può essere assunta come compito solo da individui educati nella, dalla e per la democrazia”[14].

Torniamo dunque, non a caso, al problema dell’educabilità: proprio in quanto dinamici e aperti, privi di ogni carattere di sacralità e di assolutezza, i sistemi democratici possono mettere continuamente in discussione se stessi e la propria organizzazione anche nel senso più profondo e radicale. La stessa cosa, del resto, la possiamo sensatamente dire a proposito della scienza se è vero (e lo è) ciò che ha sottolineato a suo tempo Julian Huxley: “La scienza non può svilupparsi ed espandersi se non in certe condizioni materiali ed entro una particolare atmosfera morale ed intellettuale. Come dice Muller (1949): ci sono volute migliaia di anni per costruire le basi di libertà di indagine e di critica indispensabili alla scienza. Ciò è stato possibile solo col formarsi della prassi democratica, coadiuvata dai progressi nella tecnica fisica, nello standard di vita e nell’educazione. Queste condizioni soltanto nei tempi moderni sono progredite in modo sufficiente da permettere quella diffusa, organizzata, obiettiva ricerca della verità, alla quale noi oggi diamo il nome di scienza». L’atmosfera indispensabile al progresso della scienza può, però, essere facilmente distrutta o avvelenata, per ignoranza o per pigrizia mentale, dal pregiudizio o da interessi mascherati o dal potere delle autorità”[15]. È già successo nella storia anche recente e può continuare a verificarsi.

Non è sorprendente che la democrazia e la scienza condividano il tratto distintivo e il destino comune evidenziati dato lo stretto collegamento tra di esse anche per quanto riguarda le loro origini. Come viene ricordato in un Rapporto scritto nel 2007 su mandato della Commissione dell’UE da un gruppo di esperti, coordinato da Brian Wynne e Ulrike Felt[16], tra i tanti fattori che sono all’origine e alla base della nascita della scienza moderna vi è certamente anche la contrapposizione tra il Leviatano dittatoriale di Hobbes, il modello di autorità politica in assoluto più antidemocratico, e la visione dell’incipiente rivoluzione scientifica, che era parte di una concezione più ampiamente rivoluzionaria, che tendeva a costruire l’ordine e l’autorità attraverso il calcolo e la dimostrazione, da un lato, e l’osservazione e la sperimentazione, dall’altro, e dove queste ultime erano disciplinate e orchestrate – ma testimoniate in modo collettivo e credibile – dall’oggettività delle leggi di natura. “Storicamente, quindi, la nascita della scienza europea è collegata al sorgere della democrazia europea”[17].

Ed è questa la tesi avanzata anche da Cromer, il quale concorda sul fatto che non sia possibile considerare casuale la circostanza che lo stile di pensiero scientifico e la democrazia abbiano entrambi avuto origine nello stesso luogo, l’antica Grecia, e pressappoco nello stesso tempo. Alla base di essi vi sono infatti radici comuni: la filosofia che si sviluppò in quel contesto, il metodo sperimentale aristotelico, il libero e razionale confronto di opinioni nell’agorà, luogo di formazione di uno «spazio pubblico» basato sulla partecipazione dei cittadini, sul principio della decisione collegiale e soprattutto sulla possibilità, da parte di ciascuno, di esprimere liberamente le proprie opinioni e valutazioni con il vincolo inderogabile, tuttavia, dell’esigenza di argomentarle, in modo che fosse possibile per tutti gli altri rendersi conto della loro consistenza e controllarne la validità.

“Fu l’istituzione della libera discussione, più di qualsiasi altra cosa, credo, a porre la Grecia al di sopra di tutte le altre nazioni. Una discussione è come una competizione tra menti, e coloro che vi partecipano devono misurarsi con argomenti utili per persuadere i loro pari. Le parole chiave sono competizione, argomenti, peruasione e pari – tutti aspetti di ciò che indichiamo con la parola ‘oggettività? E, in definitiva, con la parola ‘scienza’”[18].

Lo stretto rapporto che viene così istituito tra la scienza come pilastro della conoscenza, la democrazia e l’educazione pone una questione che non può essere elusa: per essere in sintonia con le finalità della propria missione e con le sue colonne portanti la scuola ne deve rispettare e riprodurre le condizioni necessarie e i tratti distintivi che le caratterizzano in profondità, vale a dire il carattere dinamico, la disponibilità a mettersi continuamente in discussione, la capacità di affrontare il nuovo e l’imprevisto e di strutturarsi secondo modalità che assicurino la pluralità e un diramarsi di potenzialità differenti. Così in effetti è stato per molto tempo, perché l’Europa, ad esempio, è riuscita nel compito di educare se stessa, realizzando una sorta di circolo virtuoso tra ricerca, democrazia ed educazione: sviluppandosi contemporaneamente, ciascuna ha certamente contribuito a migliorare l’altra.

È per questo che personalmente non ho mai potuto e non posso tuttora evitare di ritenere preoccupante la pigrizia e l’inerzia che caratterizzano la fase attuale di dibattito sulla scuola nel nostro paese, dove sono in tanti a proclamare che questa istituzione non può e non deve cambiare, perché altrimenti si correrebbe il rischio di minarne le fondamenta e di comprometterne la funzione. Dietro questi atteggiamenti si nasconde una troppo facile soddisfazione che dimentica che oggi fermarsi è già regredire e, soprattutto, che se la scuola vuole educare realmente alla conoscenza e alla democrazia deve aderire agli stessi principi ispiratori che caratterizzano l’una e l’altra e applicarli concretamente nelle sue pratiche. C’è un solo modo di farlo davvero: quello di esibire una flessibilità e una disponibilità al cambiamento che indichino un’effettiva capacità di aprirsi all’incontenibile proliferazione teorica e all’altrettanto insopprimibile moltiplicarsi di codici e linguaggi  che contraddistingue il nostro tempo, evitando ogni forma di banale normalizzazione, e di misurarsi con il nuovo e l’imprevisto, formando teste che siano capaci  di gestirli. Se ben interpretato è questo, come si è visto, il senso più profondo della lezione che possiamo ricavare dal meritorio sforzo di Turing di individuare il ponte tra intelligenza naturale e intelligenza artificiale e dagli sviluppi attuali della stessa intelligenza artificiale.

 

Quello che ci insegna l’odierna scienza delle reti

Se ragioniamo in termini di paradigmi, come ci invita a fare Kuhn, oggi quello che meglio esprime la situazione di fronte alla quale ci troviamo in vari campi è certamente quello delle reti, e in particolare di quelle a invarianza di scala, presente in sistemi molto diversi fra loro, come l’organizzazione del linguaggio, i legami fra le proteine all’interno della cellula, lo schema elettrico del chip di un computer, il metabolismo della cellula vivente, Internet, il World Wide Web, la rete delle collaborazioni scientifiche, l’intreccio delle alleanze su cui si regge l’economia, l’intelligenza connettiva, per ricordarne solo alcune.

Vale dunque la pena di esplorare più a fondo questo paradigma per trarne indicazioni utili per la configurazione e la tipologia alle quali dovrebbe conformarsi la scuola, anche perché dello stesso nostro cervello, della sua struttura e organizzazione interna, è stato fornito da Albert-László Barabási un modello reticolare.

È appunto a Barabási che si deve l’introduzione, nel 1999, del concetto di reti a invarianza di scala (scale-free network), cioè reti naturali o create dall’uomo, da quelle sociali a quelle concettuali di citazioni di una ricerca in altri articoli scientifici sino allo stesso web, come si è appena detto.

È interessante ripercorrere le tappe principali attraverso le quali egli è pervenuto a mettere a punto il suo modello.

Lo studio delle reti ha avuto un importante punto di avvio nel 1959, quando due matematici ungheresi, Paul Erdős e Alfred Rényi, hanno proposto una tecnica basata sull’idea di fissare un certo numero di nodi, e poi connetterli tra loro in modo casuale fino a raggiungere un numero prefissato di collegamenti. A questo tipo di rete fu dato il nome di rete casuale. A partire da queste semplici premesse Erdős e Renyi furono in grado di dimostrare diversi teoremi importanti, tra cui la presenza di una soglia critica dipendente dal numero dei nodi e dei collegamenti tra di essi. Supponendo ad esempio di partire con un numero di 100 nodi e di aggiungere collegamenti tra di essi in modo casuale, all’inizio si formeranno grafi tra loro disgiunti. Superato, però, un certo numero di collegamenti (la soglia critica di cui si diceva) si riscontra una vera e propria transizione di fase in seguito alla quale la maggior parte dei nodi risultano connessi tra loro in una sorta di cluster gigante. Se cioè il numero dei collegamenti casuali nel grafo è al di sotto della soglia critica si ottiene quasi sempre un insieme di grafi disgiunti, mentre se la si supera si perviene a un cluster gigante.

A questo primo risultato se ne aggiunse un altro scaturito, alla fine degli anni ’60, dai primi studi quantitativi sulle reti sociali. In questo contesto i nodi rappresentano le persone ed il collegamento la conoscenza dei due individui. Lo psicologo  Stanley Milgram negli USA escogitò un esperimento che permettesse di rivelare la rete di conoscenze “navigando” tra i vari nodi: inviò a un certo numero di persone che vivevano sulla costa orientale delle lettere chiedendo di spedirle a loro volta a dei conoscenti in modo che queste lettere arrivassero a Chicago attraverso una catena di amici di amici. Il risultato fu sorprendente, in quanto notò che la maggior parte delle lettere passava attraverso sei persone prima di arrivare a dei conoscenti a Chicago. È quello che si chiama effetto piccolo mondo (small world network). Pur essendo costituita da milioni di nodi, la distanza tra due nodi qualsiasi è molto piccola e praticamente indipendente dalla grandezza della rete. L’esperimento ebbe una certa eco nei media, e s’iniziò a parlare di sei gradi di separazione per sottolineare quanto piccolo, in fondo, sia il mondo.

Sulla base di questo risultato il sociologo americano Mark Granovetter nel 1973 approfondì il concetto di rete, distinguendo, all’interno di essa, due diversi tipi di legame: quelli forti, tipici delle relazioni di parentela o di amicizia strette, e quelli deboli, riguardanti i rapporti di pura conoscenza. I primi tendono a creare “isole” di relazioni, in cui è probabile che tutti conoscano tutti: sono i rapporti in virtù dei quali la rete sociale acquista un coefficiente di clustering elevato. I secondi tendono a formare ponti tra isole sociali anche molto distanti tra loro: sono pertanto questi a evitare che la rete delle relazioni interpersonali si frammenti in sotto-reti totalmente disgiunte.

Si poneva, a questo punto, la domanda relativa al numero di legami deboli occorrenti per fare in modo che una rete diventi di piccolo modo, presenti cioè i sei gradi di separazione verificati sperimentalmente da Milgram. La questione fu affrontata nel 1988 dai due matematici americani Duncan Watts e Steve Strogatz, i quali cominciarono col prendere in esame una rete “circolare”, in cui ogni nodo è connesso direttamente ai due nodi che si trovano alla sua destra e ai due alla sua sinistra. Questa soluzione crea gruppi di cinque nodi connessi. Il diametro della rete, così come il grado medio di separazione, è tuttavia elevato. La scoperta di Watts e Strogatz consiste nel fatto che aggiungendo solo 2 connessioni ogni 10.000 possibili, il grado medio di separazione diventa 8. Con 3 connessioni ogni 10.000 possibili questo grado scende a 5. L’aspetto rilevante di questo risultato è che le connessioni aggiunte abbassano di pochissimo il coefficiente di clustering. In sostanza, la rete conserva la sua proprietà di essere fortemente raggruppata (in senso locale), ma ne acquista un’altra notevole: quella di essere, appunto, una rete di piccolo mondo.

Ed è qui che s’innesta la ricerca di Barabási, particolarmente interessato ad appurare cosa abbiano in comune le proteine del nostro corpo, la struttura topologica del Web, una collezione di atomi: venne così a scoprire che l’aspetto che li lega è la presenza di nodi strategici con un enorme numero di collegamenti, che intrattengono relazioni a lungo raggio, garantendo l’interconnessione complessiva della rete (hub). Grazie alla funzione di questo tipo di nodi e di relazioni tutti gli elementi del sistema possono comunicare vicendevolmente in un numero molto ristretto di passi, attraverso un numero molto ridotto di intermediari. Ad esempio se prendiamo in esame la struttura del Web notiamo che essa si articola in un “corpo centrale”, che è facile da navigare perché molto interconnesso. Esso contiene i grandi connettori come i motori di ricerca (Google, ad esempio) e i grandi siti altamente linkati e visitati. Il secondo, detto “continente in”, è più arduo da navigare in quanto consente di muoversi verso il “corpo centrale”, ma non viceversa. Allo stesso modo, il terzo continente (detto “continente out”) è raggiungibile dai nodi del corpo centrale, ma una volta usciti da questa zona non ci sono link per tornare indietro (esso contiene prevalentemente siti aziendali). Il quarto continente è fatto di isole separate, gruppi di pagine collegati tra loro ma non al “corpo centrale”.

Concentrandosi sul “corpo centrale” Barabási, grazie alla collaborazione del fisico e informatico coreano Hawoong Jeong, ricavò dati estremamente significativi riguardanti la struttura di questo corpo centrale. Attraverso un Web crawler, un programma o uno script automatico che esplora il World Wide Web metodicamente, calcolò che questa struttura è di piccolo mondo, con un diametro pari a circa 19, il che significa che questo è il numero massimo di clic necessari per raggiungere un qualunque sito da qualunque altro seguendo i collegamenti. Un tale risultato non può essere ottenuto né con le reti casuali di Erdős e Renyi, né con le reti di piccolo mondo di Watts e Strogatz. Nel caso delle prime, infatti, i gradi dei nodi si distribuiscono statisticamente come curve a campana (distribuzioni di Poisson) nelle quali esiste un valore medio (la media della distribuzione) che è anche il valore più probabile: spostandosi da esso, le probabilità diminuiscono rapidamente fino ad azzerarsi del tutto.

Misurando la distribuzione dei gradi nel Web, Barabási e Hawoong Jeong si resero conto che essa segue un andamento non a campana, ma descritto invece da una legge di potenza (power law-form), in virtù della quale i nuovi collegamenti avvengono su base preferenziale, cioè più un nodo è collegato e più è probabile che il suo numero di collegamenti tenda ad aumentare nel tempo. Considerando insiemi sempre più numerosi di pagine web scopriamo infatti che la media del numero di collegamenti che vi troviamo cresce (statisticamente) con il loro numero.

Neppure la rete di Watts e Strgatz può avere una distribuzione dei gradi dei nodi in grado di spiegare questa legge di potenza. In questo caso, infatti, si parte, come si è visto, da una rete in cui tutti i nodi contigui sono connessi tra loro. Esisterà quindi un valore minimo dei gradi: aggiungendo pochi collegamenti a caso, il grado di alcuni nodi crescerà di poco. Il fatto che i nuovi collegamenti vengano scelti in modo casuale esclude la possibilità che si formino degli hub.

Sulla base di questi risultati Barabási fu in grado di costruire un modello matematico di rete a legge di potenza soltanto modificando l’assunto di partenza che accomuna il modello di Erdős e Renyi e quello di Watts e Strogatz: egli dovette cioè ricorrere a un meccanismo dinamico, in cui si prende in considerazione la crescita continua della rete.

I presupposti di questo modello sono i seguenti:

  • i nodi vengono aggiunti uno per volta;
  • ogni volta che si aggiunge un nodo, si crea un numero fisso di collegamenti tra il nuovo nodo e quelli preesistenti. Questo avvantaggia i nodi vecchi, che hanno una probabilità maggiore di essere collegati;
  • i collegamenti avvengono a caso, ma non in modo uniforme, in quanto la probabilità che un certo nodo preesistente venga collegato a un nodo nuovo è proporzionale al numero dei collegamenti associati al nodo vecchio.

Il terzo presupposto, detto collegamento preferenziale,  è ovviamente quello che garantisce l’effettiva generazione di una rete a legge di potenza. Se associato al secondo esso sembrerebbe impedire ai nodi recenti di diventare essi stessi degli hub, esito, questo, contraddetto da ciò che è realmente avvenuto nel caso del Web dove, com’è noto, il maggiore hub oggi esistente, cioè Google, è arrivato quando già numerosi altri motori di ricerca erano in funzione ed esercitavano il ruolo di centri  propulsivi principali della rete. Per spiegare questo effetto reale è sufficiente introdurre, accanto ai tre precedenti, un quarto presupposto:

  • i nodi possiedono un grado variabile di fitness (attrattiva), per cui la probabilità che un nodo nuovo si connetta a un certo nodo preesistente non è legata semplicemente al numero di collegamenti di questo nodo, ma al prodotto del numero dei collegamenti per la sua fitness.

Il riferimento a questo quarto presupposto è corroborato dalla dinamica delle reti reali, che mostra come il successo di un nuovo hub (Google, per riprendere l’esempio fatto) è dovuto alla maggiore potenza del suo motore di ricerca rispetto a quelli in precedenza disponibili, che ha indotto gli utenti a sceglierlo in numero crescente e preferenziale proprio per la maggiore qualità che gli viene riconosciuta, e quindi per la sua maggiore attrattiva.

Questo meccanismo del preferential attachment era del resto già ben noto e accreditato dalle ricerche in biologia, dove veniva utilizzato per spiegare la distribuzione delle specie viventi all’interno delle grandi suddivisioni del regno animale (phyla). Gli zoologi, ad esempio, sapevano da tempo che il numero di specie afferenti ai diversi phyla è distribuito statisticamente in base alla legge di potenza. Supponendo che la probabilità che una specie già esistente ne generi una nuova, per mutazione genetica o altro, non dipenda dalla specie considerata, è chiaro che più un phylum è ricco di specie, più probabilmente ne genererà di nuove.

Il caso più citato di meccanismo di preferential attachment è però quello evidenziato all’inizio del secolo scorso dall’economista Vilfredo Pareto, noto come regola 80/20, secondo la quale il 20% delle cause produce l’80% degli effetti. Ad esempio, il 20% della popolazione inglese detiene l’80% delle ricchezze del paese, il 20% dei clienti genera l’80% del fatturato e, ancora, il 20% delle giacenze di magazzino costituisce l’80% del suo valore, o, ancora, l’ultimo 20% di un lavoro è quello che richiede l’80%del tempo e via enumerando ed esemplificando. Pareto, in sostanza, aveva individuato un meccanismo generale, che caratterizza le situazioni economiche reali, in seguito al quale il potere di attrazione di un particolare attore è proporzionale alla capacità attrattiva che egli è già riuscito a esercitare: esattamente quello che si verifica per i nodi di rete del modello di Barabási.

A partire dai quattro presupposti elencati lo stesso Barabási, in collaborazione con Réka Albert, ricercatrice nel campo della fisica e della biologia, che insieme al già citato Hawoong Jeong costituiva il nucleo centrale del suo team, ha proposto un modello di reti (il modello Barabási-Albert, appunto) che si autoorganizzano in uno stato privo di scala (da cui la definizione scale-free network). Questa specifica modalità di autoorganizzazione è dovuta al fatto che, a differenza delle reti random, ma a struttura regolare, che sono formate instaurando collegamenti casuali tra nodi esistenti, per cui un vertice viene scelto con uguale probabilità rispetto a un altro possibile, in questo tipo alternativo di reti  la generazione di un collegamento tra un nuovo nodo e uno vecchio segue la legge di potenza, la quale rimane inalterata aumentando il numero di nodi nella rete, ovvero risulta indipendente dalla grandezza o scala della rete (scale-free, appunto).

Un’altra differenza rispetto alle reti random è che mentre in queste ultime i collegamenti casuali creano scorciatoie tra nodi “lontani” nel grafo, contribuendo a diminuire la distanza media delle connessioni, che è infatti generalmente bassa,  nelle reti scale-free ci sono invece, come si è visto, nodi principali, gli hub, con una connettività molto alta e che stabiliscono collegamenti anche “a lungo raggio”. Lo si può ben comprendere guardando, ad esempio, la mappa dei collegamenti aerei di un paese nel quale ci sono pochi aeroporti che fungono da hub centralizzato di quasi tutti i voli. Questi nodi centrali garantiscono collegamenti rapidi ed efficaci fra elementi anche distanti e assicurano l’integrazione dell’intero sistema.

Particolarmente significativo per i riflessi che ebbe nel campo delle neuroscienze fu un articolo pubblicato nel 2000 dal trio Albert, Jeoy e Barabási («Nature» 2000), in cui si dava conto dei risultati ottenuti costruendo una rete a invarianza di scala di 40.000 nodi interconnessi e procedendo successivamente a rimuoverne a caso alcuni.

Ciò che si riscontrava, di fronte ad attacchi deliberati, era che mentre la rimozione di una quantità anche elevata di nodi non provocava alcun effetto significativo, l’eliminazione di un numero ridotto di hub causava un danno enorme alla rete.

Questo esito ha grande rilievo per gli studi sul cervello nel quale sono presenti pochissimi hab. Se prendiamo uno di questi, fondamentale per la memoria, e cioè l’ippocampo, è ampiamente dimostrato che un danno anche lieve a esso è responsabile del morbo di Alzheimer, mentre danni molto più estesi in altre aree cerebrali non provocano questa sintomatologia.

Per capire come gli hub, con i relativi nodi interconnessi, comunichino  attraverso un reclutamento rapido ed efficace è stato inizialmente proposto un modello di connessione gerarchica basata sulla teoria dei neuroni “gnostici”, del fisiologo e neuropsicologo polacco Jerzy Konorski. Questi neuroni erano del tutto simili  a quelle che di lì a poco sarebbero divenute note come “cellule della nonna”, da allora al centro di un acceso dibattito. Il nome deriva da una storiella che Jerry Lettvin, allievo e collaboratore del cibernetico e neurofisologo McCulloch, raccontò a un uditorio di studenti al MIT nel 1969, per illustrare l’idea assurda che diciottomila neuroni potessero formare la base di qualsiasi esperienza cosciente, pensiero o ricordo di un famigliare o di qualunque persona o cosa si possa incontrare nella vita. Protagonisti della parabola il brillante neurochirurgo russo Akakievič e un giovane ossessionato dalla figura materna, Alexander Portnoy, il protagonista del romanzo di Philip Roth Lamento di Portnoy, che si rivolge a lui perché lo aiuti:

“Nei lontani monti Urali vive il mio secondo cugino, Akakij Akakievič, un grande neurochirurgo, per quanto sconosciuto. Convinto che le idee si trovino in specifiche cellule, aveva deciso di scovare quelle della sostanza più primitiva e onnipresente: la madre…

E individuò circa diciottomila neuroni che rispondevano unicamente a una madre in qualunque modo rappresentata, animata o imbalsamata, vista di fronte o di schiena, a testa in giù o in diagonale, attraverso una caricatura, una fotografia o un’astrazione.

Doveva mettere insieme tutti i dati raccolti e stava preparando l’articolo, pregustando già il premio Nobel, quando entrò nel suo ufficio con passo incerto Portnoy, famoso in tutto il mondo per il suo Lamento. Sentendo la storia, mio cugino si fregò le mani di gioia e condusse Portnoy al tavolo operatorio, assicurando lo sciocco ossessionato dalla madre che si sarebbe sbarazzato del suo problema.

Con grande precisione asportò uno a uno i diciottomila neuroni e attese che Portnoy si riprendesse. Dobbiamo ora immaginarci il dialogo nella stanza del risveglio:

“Portnoy?”.
“Sì”.
“Ricordi tua madre?”.
“Eh?”.
(Akaki Akakievič riesce a stento a trattenersi. Avrebbe osato portare Portnoy con lui a Stoccolma?).
“Ricordi tuo padre?”.
“Ah, certo”.
“Con chi era sposato tuo padre?”:
(Portnoy guarda nel vuoto).
“Ricordi un vestito rosso che si muove per la casa con delle pantofole al di sotto?”.
“Oh certamente”.
“Allora, chi le indossava?”.
(Guarda nel vuoto).
“Ricordi di esser stato sgridato per esserti gingillato con donne non ebree?”.
“Dio, è stato orribile”.
“Allora, chi ti ha sgridato?”.
(Guarda nel vuoto).

E così di seguito: Comunque lo si interrogasse, Portnoy non aveva alcuna madre. “Madre” poteva comprenderlo – era generico… “Mia madre” no, era specifico. Akakievič allora si mise alla ricerca anche dei…neuroni della nonna”.
Questa parabola è tratta in forma riassuntiva da una lettera indirizzata dallo stesso Lettvin nel 1995 a Horace Barlow [Barlow, 1995], il neurofisiologo che per primo aveva descritto i “rilevatori d’insetti” nella retina della rana, a cui si era ispirato Lettvin nel suo memorabile articolo, in collaborazione con altri, Che cosa l’occhio della rana comunica al cervello della rana [Lettvin, 1995]. Barlow nel 1972 suggerì che i concetti specifici legati alla nostra esperienza non potevano basarsi sull’attività di una singola cellula “pontificale” (come l’ipotetica cellula della nonna), ma dovessero venire più democraticamente rappresentati dall’attività di gruppi di cellule “cardinalizie”.

La teoria della singola cellula pontificale era basata sul presupposto che le reti neurali agissero trasmettendo a piccoli nuclei di cellule (al limite a una sola) informazioni sempre più sofisticate. Si tratterebbe, in pratica, di un sistema feedforward con precisa localizzazione, cioè di un sistema di controllo in cui la perturbazione viene rilevata dal sensore prima che induca i suoi effetti sullo stato del sistema. Ciò significa che il controllore deve essere in grado di calcolare gli effetti che la perturbazione indurrà sulla variabile regolata. Questo tipo di sistemi ha il grande vantaggio di poter evitare che la perturbazione eserciti i propri effetti, prevenendo quindi la necessità di interventi correttivi. Poiché i sistemi di controllo fisiologici sono quasi sempre non lineari e dinamici (ovvero variano con il tempo), e poiché molti potenziali disturbi dovrebbero essere rilevati per poter predire l’effetto sulla variabile controllata, ne consegue che i sistemi a feedforward richiedono complessi meccanismi predittivi.

Il difetto di un modello di questo genere è che esso manca di una scala temporale che possa assicurare un trasferimento d’informazione discreto e temporalmente efficace da uno stadio all’altro. In mancanza di esso non si capisce come un impulso in entrata potrebbe essere collegato a un output utile nel mondo esterno.

Inoltre un modello totalmente feedforward come quello dei neuroni gnostici è essenzialmente un integratore sequenziale privo però di qualsivoglia capacità di includere nuove rappresentazioni da collegare alle conoscenze semantiche acquisite, nel caso in cui, ad esempio, si stia parlando di immagini e di loro correlazioni e caratteristiche.

Infine un modello del genere dovrebbe postulare, in caso di danni, una malattia neurologica tale che, per l’estrema convergenza delle integrazioni e per la successiva divergenza estesa degli output, dovrebbe comportare lesioni simultanee della percezione e del movimento: uno stato patologico di cui non c’è traccia in alcun trattato di neurologia clinica.

L’alternativa a questo modello, basato sul connessionismo gerarchico, è quella, come sostiene appunto Barlow, di postulare una soluzione più “democratica”, che faccia riferimento, anziché a una singola cellula “pontificale”, a gruppi di cellule “cardinalizie”. In questo caso le operazioni di interscambio vengono operate sulla base della coerenza temporale. In un contesto del genere ciò che conta non è la connettività fisica di contiguità, bensì la sincronizzazione temporale tra neuroni che rappresentano i vari attributi di un determinato oggetto. Ad esempio, nel caso di una palla colorata in movimento, tra i neuroni che rappresentano, rispettivamente, la forma della palla, il suo colore e il suo movimento: le relative mappe si attivano all’interno di quella che possiamo chiamare una “finestra temporale”, che dà l’illusione di una contiguità spaziale.

La differenza più rilevante e stringente tra il modello gerarchico a feedforward e il modello di sincronia temporale è data dal fatto che il primo richiede sempre una sequenza causale di eventi, mentre nel secondo caso è sufficiente postulare che gli eventi occorrano simultaneamente senza relazioni di causa-effetto tra i differenti attributi e caratteristiche di ordine superiore nel modello medesimo.

 

Che cosa può imparare la scuola dalla scienza delle reti

Oggi la scuola si trova di fronte a un problema cruciale per la sua sopravvivenza che possiamo esprimere sinteticamente nei termini seguenti: come riuscire a organizzarsi in funzione di un’informazione e di una conoscenza che sia anche locale, che rispetti l’identità culturale e le specificità del contesto di appartenenza, ma che sia nel contempo capace di assumere un significato globale e di assicurare performances ad ampio raggio. Il modello delle reti a invarianza di scala basato, come si è visto, su due tipi di legami, quelli tra nodi vicini, che creano “isole” di relazioni strette, e gli hub, che intrattengono relazioni a lungo gittata, evitando che essa si  frammenti in sotto-reti totalmente disgiunte, garantisce l’una e l’altra condizione ed è quindi funzionale al raggiungimento del duplice obbiettivo indicato. Inoltre esso, come si è visto, risponde bene al requisito di porre al centro dell’attenzione la questione dell’educabilità, e quindi la centralità dell’istruzione e dell’apprendimento e dei relativi processi.

Il prezzo da pagare per conformarsi a questo modello è ben sinetizzato da Guzzardi: “Se la conoscenza è una rete autorganizzata che cresce nel tempo: se si ammette, come pare plausibile, che non vi è un nodo centrale, bensì una molteplicità di hub cui fanno seguito link che connettono saperi anche molto distanti, allora pare inevitabile concludere che non ci sono discipline o problemi in assoluto più importanti di altri. In linea di principio, ogni cosa è importante allo stesso modo. Non ci sono priorità che possano venire cancellate una volta per tutte da altre priorità. Dipende da noi, nodi della gran rete accentrata, costruire la miglior tela possibile a partire dalla nostra pratica singolare e percorrere o addirittura formare quanti più nodi vogliamo (o possiamo)”[19].

Come dire che non ci sono alternative serie a sistemi di insegnamento e di apprendimento che tengano nel debito conto la reticolarità dei saperi e dunque l’interisciplinarità e la transdisciplinarità, che nelle “Indicazioni nazionali” per i curricula dei vari cicli di istruzione del nostro paese, tranne poche e lodevoli eccezioni, sono invece guardate con sufficienza, fino al punto di considerarle pratiche che nuocciono grandemente alla salute mentale e compromettono la serietà e il rigore dell’istituzione scolastica. Dimenticando, o facendo finta di dimenticare, che in diversi paesi i cui sistemi dell’istruzione sono all’avanguardia e esibiscono performaces molto migliori delle nostre viene, al contrario, dato molto spazio a grandi temi trasversali rispetto all’insegnamento «per discipline» con un’accentuazione, sul piano della metodologia didattica, dei momenti cooperativi rispetto all’insegnamento frontale. In Finlandia, tanto per fare un unico esempio, il curriculum della scuola primaria è organizzato a partire dai seguenti sette «cross-curricular themes»:

  1. Growth as a person;
  2. Cultural identity and internationalism;
  3. Media skills and communication;
  4. Participatory citizenship and entrepreneurship;
  5. Responsability for the environment, well-being and a sustainable future;
  6. Safety and traffic;
  7. Technology and the individual.

Dal momento che abbiamo parlato dell’importanza dei modelli, e abbiamo in particolare concentrato la nostra attenzione su quelli reticolari, la conclusione da trarre per il futuro della scuola è un doveroso invito alla necessaria cautela metodologica.

Ai fini di una corretta interpretazione di tutto quello che si è cercato qui di evidenziare, evitando pericolosi fraintendimenti, è necessario richiamare l’attenzione sulla distinzione tra il «pensare per modelli» e il «vivere in un modello», scambiandolo per la realtà.  Questa distinzione è alla base di una duplice consapevolezza. Da una parte, che la scuola non è, e non può essere, il mondo e la vita, non può riprodurne la complessità, perché in tal caso non riuscirebbe a focalizzare l’attenzione sui tratti pertinenti della sua missione, che è quella di educare con la necessaria gradualità, ponendo sul tappeto e affrontando quella complessità in un ambiente semplificato che consenta di analizzarla, cioè di scomporla, e di esaminarne gli aspetti in modo selettivo, e non globalmente, attraverso un percorso opportunamente calibrato che ne stimoli e favorisca, via via,  l’effettiva assimilazione, prima di arrivare a prendere atto della molteplicità e varietà delle facce che essa esibisce. Dall’altra che questa semplificazione deve comunque riuscire a dirci qualcosa di significativo sulla realtà alla quale si riferisce e consentire di imparare a orientarci nei suoi meandri.

Questa duplice esigenza è splendidamente colta da Italo Calvino nella mirabile descrizione di una delle sue “città invisibili”, Eudossia, in cui è conservato un tappeto nel quale “puoi contemplare la vera forma della città. A prima vista nulla sembra assomigliare meno a Eudossia che il disegno del tappeto, ordinato in figure simmetriche che ripetono i loro motivi lungo linee rette e circolari, intessuto di gugliate dai colori splendenti, l’alternarsi delle cui trame puoi seguire lungo tutto l’ordito. Ma se ti fermi a osservarlo con attenzione, ti persuadi che a ogni luogo del tappeto corrisponde un luogo della città e che tutte le cose contenute nella città sono comprese nel disegno, disposte secondo i loro veri rapporti, qual sfuggono al tuo occhio distratto dall’andirivieni dal brulichio dal pigiapigia. […] Sul rapporto misterioso di due oggetti così diversi fu interrogato un oracolo. Uno dei due oggetti, – fu il responso – ha la forma che gli dei diedero al cielo stellato e alle orbite su cui ruotano i mondi; l’altro ne è un approssimativo riflesso, come ogni opera umana. Gli àuguri già da tempo erano certi che l’armonico disegno del tappeto fosse di fattura divina; in questo senso fu interpretato l’oracolo, senza dar luogo a controversie. Ma allo stesso modo tu puoi trarne la conclusione opposta: che la vera mappa dell’universo sia la città d’Eudossia così com’è, una macchia che dilaga senza forma, con vie tutte a zigzag, case che franano una sull’altra nel polverone, incendi, urla nel buio”[20] .
Il tappeto, dunque, non descrive  Eudossia, ma la spiega, aiuta a non smarrirsi nei suoi meandri e nella sua sovrabbondanza di significati: “Perdersi a Eudossia è facile: ma quando ti concentri a fissare il tappeto riconosci la strada che cercavi in un filo cremisi o indaco o amaranto che attraverso un lungo giro ti fa entrare in un recinto color porpora che è il tuo vero punto d’arrivo”[21]. Il tappeto, cioè, non si occupa delle evidenze macroscopiche, riscontrabili a livello della percezione, le trascura volutamente: i suoi fili e le sue trame parlano soltanto dei meccanismi soggiacenti rispetto a quelle evidenze, meccanismi che si suppone siano esplicativi di queste ultime. Esso, pertanto, non vuole rendere conto dei fenomeni così come li si osserva, ma vuole fornirne una ragione partendo da qualcosa di diverso da essi stessi, ed associandoli secondo relazioni, stimate come valide per tutti, indipendentemente dai punti di vista, dagli obiettivi, dai desideri, dalle angosce di ciascuno. Queste diverse ottiche si suppone che agiscano soltanto sui fenomeni macroscopici, sulle evidenze empiriche di quell’approssimativo “riflesso” del tappeto che è la città, mentre il tappeto in quanto tale ne rimarrebbe immune. Così facendo, però, tra Eudossia e il suo tappeto si registra una scissione che potrebbe indurre a ritenere che quest’ultimo possa acquistare una sua completa autonomia rispetto alle manifestazioni fenomenologiche di cui dovrebbe costituire la spiegazione, col risultato di pervenire a una totale svalutazione di questa fenomenologia descrittiva. Si annida, qui, il tarlo del riduzionismo e della semplificazione, che corrode ed erode, fino a cancellarli del tutto, le “vie tutte a zigzag, le case che franano una sull’altra nel polverone, incendi, urla nel buio”, cioè la realtà della città e dei suoi abitanti. Un corretto rapporto tra Eudossia e il suo tappeto può essere costruito solo se si ricorda che quest’ultimo non è la vera sostanza “divina”, ma più semplicemente il modello della prima, e che il modello, ogni modello, è un’analogia tra un fenomeno qualunque X (nel nostro caso la città) e un oggetto costruito M (il tappeto) che permette, in quanto simula X, di rispondere a un qualche quesito P, posto a riguardo di quest’ultimo. La legittimità del modello è legata al rispetto delle seguenti condizioni:

1) che M abbia una sua coerenza interna;

2) che la costruzione di M sia determinata dall’esigenza di trovare una risposta al problema P concernente X;

3) che questo problema sia traducibile in un problema P’, concernente M, il che significa possibilità di tenere costantemente sotto controllo l’analogia X-M tra un fenomeno e un oggetto (teorico-formale) costruito con un certo linguaggio. E’ questa la condizione a cui fa riferimento Calvino quando dice che chi si perde a Eudossia può e deve trovare la strada che cercava e il suo punto d’arrivo nel tappeto;

4) che la soluzione S’ trovata grazie al modello  al problema P’ possa, a sua volta, venire tradotta nella soluzione S al problema di partenza P, essere sottoposta a una verifica sperimentale (giustificazione a posteriori  mediante il meccanismo della corroborazione/falsificazione);

5) che il carattere esplicativo del modello, che si esprime proprio in questa sua capacità di trovare la soluzione cercata, si manifesti anche sotto forma di produzione di un livello più alto e astratto di “visualizzazione”, nel senso che esso, facendo intervenire processi tra entità invisibili (la sostituzione al visibile complicato di una struttura o un meccanismo più semplice, non osservabile a livello di evidenza fenomenologica, che generalmente caratterizza la costruzione di M) permetta di ricostruire, a uno stadio più elevato, la morfologia visibile.

In queste condizioni possiamo trovare i sei criteri di giustificazione dei modelli usualmente invocati e proposti: coerenza razionale, rispondenza ai dati sperimentali, unicità, minimalità, falsificabilità, potere di previsione. L’analogia tra tappeto e città non è, ovviamente, una somiglianza (il tappeto non vuole riprodurre la forma della città e rappresentarla), ma un isomorfismo strutturale grazie al quale la città parla attraverso il tappeto, per cui chi si sia perso a Eudossia e non sappia ritrovare la via smarrita si rende conto che può trovare la risposta al proprio problema consultando il tappeto. La città non dice alcunché, se interrogata direttamente, i fenomeni in quanto tali, in quanto “oggetti indeterminati di un’intuizione empirica”, come diceva Kant, restano muti: ritrovano la loro voce quando vengono interrogati attraverso un’ideazione teorica, cioè una costruzione semiotica e concettuale.

La stessa cosa deve riuscire a fare la scuola se si vuole assicurare il futuro che le compete: parlare del mondo attraverso ambienti di apprendimento ovviamente semplificati rispetto al mondo medesimo, ma che non gli siano tuttavia estranei e tali quindi da risultare di scarsa rilevanza e incidenza ai fini della preparazione ad affrontare la vita in tutta la sua complessità. Per questo essi devono essere sufficientemente ricchi e articolati, per cui gli insegnanti devono conoscere l’importanza di variarli, di impiegare diversi materiali didattici, di costruire scambi di esperienze e tessere reti di apprendimento.

Solo così, attraverso l’uso consapevole e gestito con padronanza e competenza di ambienti di apprendimento ben congegnati e costruiti con l’opportuna gradualità, si potrà formare “teste ben fatte”, evitare il pericolo di abituarle a un uso distorto dell’astrazione. Quello che consiste nel passaggio dal ricorso legittimo a quegli efficaci e indispensabili strumenti per pensare e risolvere i problemi, che sono i modelli, alla tendenza perversa a farne il proprio ambiente di vita vissuta, scambiando, per rimanere all’interno della trama narrativa di Calvino, il tappeto per Eudossia e pensare di vivere in esso, anziché nella città di cui è la mappa che ci deve servire per orientarci.

 

Note:

[1] E. Morin, La testa ben fatta. Riforma dell’insegnamento e riforma del pensiero, Raffaello Cortina, Milano, 2000.
[2] I. Licata, Piccole variazioni, Dedalo, Bari, 2016.
[3] Turing, A.M. (1950). Computing machinery and intelligence. ‘Mind’, 59, 433-460
[4] Turing, A. (1948) Intelligent Machinery. ‘Report National Physics Lab.’
[5] Brenden M. Lake, Ruslan Salakhutdinov, Joshua B. Tenenbaum, Human-level concept learning through probabilistic program induction, ‘Science’, 11 december 2015, vol. 350 n°6266 pp. 1332-1338.
[6] È interessante notare che il pattern recognition di caratteri alfabetici in presenza di un “rumore di sfondo” sufficientemente alto è ancora oltre lo statod ell’arte dell’intelligenza artificiale, tant’è vero che viene usato nel Reverse Turing Test per impedire l’accesso ai siti internet da parte di utenti non umani.
[7] G. Bateson (1972), Verso un’ecologia della mente, tr. it. Adelphi, Milano, 1990, pp. 195-215; pp. 302-338.
[8]Z.  Bauman (2001), La società individualizzata, tr. it. Il Mulino, Bologna, 2002, p. 160.
[9] S. Manghi, La conoscenza ecologica, Raffaello Cortina Editore, Milano 2004, pp. 13-14.
[10] A. Cromer, L’eresia della scienza, Raffaello Cortina, Milano, 1996.
[11] Ibidem, p. 255.
[12] Ivi.< [13] L. Guzzardi (a cura di), Il pensiero acentrico, Elèuthera, Milano, 2015, pp. 11-12.
[14] C. Castoriadis, La logica del magma, in L. Guzzardi (a cura di), Il pensiero acentrico, cit., pp. 71-72.
[15] J. Huxley (1952), La genetica sovietica e la scienza. Il caso Lysenko: un dibattito che continua, Linganesi&C., Milano, 1977, pp. 193-194,
[16] B. Wynne, U. Felt, Taking European knowledge Society Seriously, by the Office for Official Publications of the European Communities, 2007.  tr. it. di Mariachiara Tallacchini Scienza e governance. La società europea della conoscenza presa sul serio, Rubbettino, Soveria Manelli, 2008).
[17] Ibidem, p. 141.
[18] A. Cromer, L’eresia della scienza, cit., p. 106.
[19] L. Guzzardi (a cura di), Il pensiero acentrico, cit., p. 14.
[20] I. Calvino, Le città invisibili, Einaudi, Torino 1979, pp. 103-104.
[21] Ibidem, p. 103.