You are in: Home » Publications » ASN

Analisi preliminare dei dati della prima tornata dell'Abilitazione Scientifica Nazionale (ASN) 2012
Ultimo aggiornamento 2016/08/02

Moreno Marzolla

Sed omnia in mensura et numero et pondere disposuisti
[Tu hai tutto disposto con misura, calcolo e peso]

Sapienza, 11,20

Ultimi Aggiornamenti

2015/07/17
Disponibile un nuovo documento tecnico che completa l'analisi pubblicata su J. of Informetrics: Quantitative Analysis of the Italian National Scientific Qualification Part II: applicant profiles and final reports, arXiv preprint 1507.04720, luglio 2015
2015/03/12
Per una versione peer-reviewed dell'analisi descritta in questa pagina si veda: M. Marzolla, Quantitative Analysis of the Italian National Scientific Qualification, Journal of Informetrics 9(2), April 2015, pp. 285—316, ISSN 1751-1577 (è disponibile un preprint ad accesso libero).
2014/12/15
È disponibile un documento tecnico che riassume l'analisi presentata in questa pagina: Quantitative Analysis of the Italian National Scientific Qualification, arXiv preprint 1412.4081, dicembre 2014
2014/08/11
La prima tornata ASN si è conclusa con la pubblicazione dei risultati dell'ultimo settore concorsuale (10/L1—Lingue, letterature e culture inglese e anglo-americana). I dati in questa pagina sono quindi stati aggiornati e possono essere considerati completi.
2014/04/08
Ispirato dall'articolo su ROARS sulle fanta-abilitazioni pulp di Repubblica ho creato un nuovo servizio Fregnacciar-O-Matic per la generazione di notizie farlocche, luoghi comuni, e opinioni in libertà (fregnacce, appunto) a contenuto sensazionalistico sull'università italiana
2014/01/27
Aggiunta l'analisi della Pareto-dominanza tra i candidati
2014/01/24
È disponibile il nuovo rivoluzionario servizio Commissari-O-Matic per la generazione di giudizi pseudocasuali su ipotetici candidati ASN. Indispensabile per i futuri commissari!
2014/01/17
I grafici sono stati ridisegnati per migliorarne la leggibilità
2013/12/20
Corretto il grafico del numero di candidati che hanno presentato d domande.
2013/12/19
Corretto il grafico del numero di candidati per settore.
2013/12/18
Alcuni dei grafici ora includono una suddivisione approssimativa tra candidati strutturati e non strutturati. Aggiunti i dati degli ultimi settori concorsuali pubblicati.
2013/12/17
Le tabelle sono state aggiornate con i dati dei settori concorsuali pubblicati il 16 dicembre.

Dopo un lungo e travagliato periodo di gestazione sta giungendo a conclusione in questi giorni la prima tornata della Abilitazione Scientifica Nazionale (ASN). I risultati sono in fase di pubblicazione (col contagocce) sul sito del MIUR. Questi risultati costituiscono una vera miniera d'oro per chi voglia farsi un'idea precisa di come stanno andando le cose. Ad esempio, è lecito chiedersi: quanti candidati hanno presentato domanda nei vari settori? quanti di loro sono stati abilitati? quali settori hanno avuto il maggior/minor numero di abilitati? Dare delle risposte a queste e altre domande è purtroppo difficile. Come per il prezioso metallo, i dati della ASN devono essere estratti a suon di piccone e olio di gomito dalle pagine del sito Web del MIUR.

Ho deciso di accettare la sfida e rimboccarmi le maniche per raccogliere e analizzare i dati dei risultati della ASN, che al momento sono limitati ai pochi settori concorsuali che hanno concluso le procedure. I risultati di questo lavoro sono presentati in questa pagina. Ritengo che una visione d'insieme dei risultati prodotti dalla ASN possa fornire elementi utili per individuare eventuali criticità, al di la' di quelle ben note e ampiamente dibattute negli ultimi mesi.

Devo tuttavia mettere in guardia i lettori sui limiti di utilizzo delle informazioni mostrate nel seguito. Sarebbe facile cadere nella tentazione di disporre tutto per misura, calcolo e peso, ossia di usare i dati per stilare improbabili graduatorie di "buoni" e "cattivi" (siano essi commissioni, candidati, settori disciplinari o quant'altro). I numeri non devono mai sostituire il giudizio informato operato dalla mente umana. Ad esempio, il fatto che la commissione del settore XX abbia abilitato in percentuale più candidati della commissione del settore YY non significa necessariamente che la commissione XX sia stata "di manica più larga" della commissione YY, né che i candidati XX siano mediamente "più bravi" dei candidati YY. Disporre ogni cosa con misura, calcolo e peso dovrebbe essere il punto iniziale di ogni processo di valutazione, non il punto finale. Per tale ragione mi limiterò a mostrare i dati, evitando ogni tentativo di analisi che necessariamente richiederebbe di entrare nel merito dei singoli casi.

Prima di proseguire vorrei esprimere un ulteriore monito ai lettori. Le elaborazioni riportate in questa pagina sono state condotte in tempi strettissimi e senza avere la possibilità di svolgere i controlli approfonditi che la pratica scientifica richiede. Lo straordinario interesse suscitato dai primi risultati della ASN mi ha spinto ad accantonare temporaneamente la doverosa prudenza, mettendo a disposizione della discussione generale i risultati prodotti fino a qui. Detto questo, ho cercato di svolgere il mio compito nel modo più accurato possibile, confidando nelle segnalazioni dei lettori per correggere eventuali errori. Poiché solo una minima parte dei settori concorsuali ha concluso la propria attività i dati disponibili sono incompleti e offrono uno spaccato parziale della ASN.

Recupero dei dati

Come già detto, i dati della ASN sono pubblicamente disponibili, ma non sono in un formato adatto all'elaborazione statistica. Gli indicatori bibliometrici individuali e gli esiti della valutazione sono inclusi in pagine HTML, mentre per una analisi statistica sarebbe preferibile avere le stesse informazioni in forma tabellare. È stata necessaria una fase laboriosa di recupero e trasformazione delle informazioni, realizzata principalmente con questo script Perl che tramite espressioni XPath estrae i dati rilevanti dalle pagine HTML. È auspicabile che il Ministero renda disponibili i risultati anche in una forma tabellare simile a quella descritta a breve.

Nota tecnica. I risultati ASN sono ospitati sul server che risponde al nome abilitazione.miur.it. Il file abilitazione.miur.it/robots.txt, normalmente utilizzato per segnalare ai motori di ricerca come visitare il sito, ha il contenuto seguente alla data odierna (domenica 15 dicembre 2013):

User-agent: Googlebot
Crawl-Delay: 10
Disallow: /

User-agent: bingbot
Crawl-Delay: 10
Disallow: /

Le direttive Disallow: / indicano ai crawler di Google e di Bing (il motore di ricerca di Microsoft) di NON visitare (e quindi NON indicizzare) alcuna parte del sito (volendo fare il pignolo, le direttive Crawl-Delay: 10 che suggeriscono di visitare le pagine a distanza di almeno 10s è ridondante). Personalmente non mi viene in mente alcuna ragione tecnica o giuridica per impedire a Google e Bing di indicizzare il contenuto del sito, ma non intendo fomentare teorie complottistiche a causa della mia ignoranza. È piuttosto strano che le direttive vengano applicate solo a Google e Bing, e non a tutti gli altri motori di ricerca. Se l'intenzione dei gestori del sito era quella di tenere alla larga tutti i motori di ricerca (perché?) sarebbe stato necessario indicare:

User-agent: *
Disallow: /

Aggiornamento 5/3/2014 [New] Sembra che al MIUR abbiano seguito il mio suggerimento. Alla data odierna, il file https://abilitazione.cineca.it/robots.txt ha il contenuto seguente:

User-agent: *
Disallow: /

User-agent: Googlebot
Crawl-Delay: 10
Disallow: /

User-agent: bingbot
Crawl-Delay: 10
Disallow: /

Spero che il MIUR abbia adottato questa "soluzione" al solo scopo di evitare un consumo eccessivo di banda da parte degli "scaricatori di dati ASN". Se così fosse, la pezza sia peggiore del buco: la soluzione corretta è quella di mettere a disposizione i dati in formato .csv, in modo che gli interessati possano elaborarli senza ricorrere a salti mortali, cosa che personalmente avrei gradito fosse avvenuta da subito.

Approfitto per fornire gratuitamente un paio di informazioni tecniche:

  1. Il file robots.txt come descritto sopra è ridondante. Infatti le due direttive per gli user agent di Google e Bing sono superflue in quanto già incluse nella prima direttiva che di fatto preclude il sito a tutti gli spider.
  2. Gli spider possono, ovviamente, ignorare il file robots.txt.

In alcuni casi è stata tentata una distinzione tra candidati strutturati e non strutturati. A tale scopo è stato recuperato l'elenco di tutti i professori e ricercatori (inclusi i Ricercatori a Tempo Determinato) di qualsiasi Atento dalla pagina del CINECA, considerando la situazione al 31/12/2012. Il recupero delle informazioni è stato anche qui alquanto laborioso, dato che non è possibile ottenere l'intera lista con una singola query al sistema. Ciascun candidato all'abilitazione il cui cognome e nome compaiono nella lista dei docenti del CINECA è considerato strutturato, mentre gli altri no. È inutile sottolineare che la distinzione tra strutturati e non strutturati operata in questo modo è estremamente imprecisa, a causa degli innumerevoli casi di omonimia (nell'elenco docenti del sito CINECA ho osservato un caso di 6 persone diverse, operanti in settori completamente diversi in atenei diversi, con lo stesso esatto nome e cognome).

Parte dei dati estratti sono disponibili in questo archivio (l'archivio non è aggiornato con gli ultimi dati scaricati). Per ciascun settore concorsuale, i parametri dei candidati sono raccolti in un file in formato CSV. I nomi dei file hanno tutti la struttura XXYY-f.csv, dove XX e YY indicano l'area e il settore concorsuale, e f rappresenta la fascia (quindi il file 09H1-1.csv contiene i dati per il settore 09/H1 prima fascia, mentre 09H1-2.csv contiene i dati per lo stesso settore, seconda fascia).

Ciascun file contiene i campi seguenti:

  1. ID univoco del candidato (ottenuto mediante hash SHA-1 della concatenazione del cognome e nome, senza spazio intermedio, esattamente come compaiono nell'elenco dei candidati);
  2. fascia per la quale si chiede l'abilitazione (1 = prima fascia, 2 = seconda fascia)
  3. settore concorsuale (es., "09/H1")
  4. SSD, se presente (altrimenti stringa vuota)
  5. valore del primo indicatore bibliometrico;
  6. valore del secondo indicatore bibliometrico;
  7. valore del terzo indicatore bibliometrico;
  8. esito della abilitazione (1 = abilitato, 0 = non abilitato)

È infine incluso un file mediane.csv che contiene i dati delle mediane per ciascun settore concorsuale e per ciascun settore scientifico-disciplinare. Produrre questo file non è stato facile, in quanto i dati delle mediane sembra si trovino unicamente dentro una serie di documenti in formato pdf, dai quali sono stati estratti a mano. Il file mediane.csv contiene i campi seguenti:

  1. Settore concorsuale (es., "09/H1");
  2. Settore Scientifico-Disciplinare, se presente (es., "FIS/06");
  3. Fascia (1 = prima fascia, 2 = seconda fascia);
  4. 0 se si tratta di settore non bibliometrico, 1 se si tratta di settore bibliometrico;
  5. Valore della prima mediana;
  6. Valore della seconda mediana;
  7. Valore della terza mediana.

Il formato CSV è universalmente supportato da tutti i programmi di elaborazione numerica e statistica, nonché dai fogli elettronici più diffuso quali Libreoffice Calc e Microsoft Excel.

Analisi generale

Le analisi che seguono sono state svolte utilizzando R, un software libero estremamente potente per effettuare analisi statistiche. Lo script utilizzato per le analisi verrà reso disponibile insieme ai dati completi quando la procedura di pubblicazione degli atti delle commissioni sarà conclusa.

Sono stati analizzati i dati di tutti i 184 settori concorsuali appartenenti alle 14 aree. In questi settori sono state presentate complessivamente 59149 domande da parte di 39583 nominativi univoci; pertanto, anche considerando gli errori dovuti ad omonimi, un numero cospicuo di candidati ha presentato domande per più fasce e/o più settori concorsuali diversi.

Il grafico che segue mostra il numero C(d) di candidati che hanno presentato d domande distinte (relative a fasce e/o settori diversi); l'asse delle ordinate è in scala logaritmica.

Istogramma del numero di candidati che hanno presentato d domande distinte

25342 delle 59149 domande di abilitazione hanno avuto esito positivo. Specificamente, hanno avuto esito positivo 7802 delle 18061 domande di abilitazione a prima fascia, e 17540 delle 41088 domande per la seconda fascia. In molti casi, i candidati hanno ottenuto più di una abilitazione (ad esempio, ad entrambe le fasce di un medesimo settore concorsuale, o a settori concorsuali diversi cui hanno presentato domanda). L'istogramma seguente mostra il numero di candidati che hanno ottenuto n abilitazioni; l'asse delle ordinate è in scala logaritmica.

Istogramma del numero di candidati che hanno ottenuto n abilitazioni

Durante l'analisi dei dati è emerso un fatto curioso. Esiste un candidato che ha presentato domanda di abilitazione alla prima e seconda fascia per lo stesso settore concorsuale (06/H1—Ginecologia e Ostetricia), ottenendo l'abilitazione alla prima fascia ma non alla seconda! In più il candidato figura avere indicatori bibliometrici diversi per le due fasce. Non è un caso isolato: su 1835 domande presentate contemporaneamente alla prima e seconda fascia da parte degli stessi candidati (dati aggiornati al 4/1/2014), in 212 di esse il valore del primo indicatore differisce tra la prima e la sceonda fascia, in 340 casi il valore del secondo indicatore differisce, e in 82 casi il valore del terzo indicatore differisce.

L'analisi delle due domande di abilitazione ha evidenziato che ciò è probabilmente il risultato di un errore materiale o di un problema tecnico nella compilazione della domanda di abilitazione alla seconda fascia: infatti la lista di pubblicazioni risulta incompleta, e questo può spiegare come mai gli indicatori bibliometrici abbiano valori molto inferiori rispetto a quelli calcolati per la domanda a prima fascia. Resta il fatto che né la commissione giudicatrice, né tantomeno il MIUR sembrano essersi resi conto del problema e del risultato paradossale che ne è derivato, gettando così una luce ancora più sinistra (come se ce ne fosse bisogno) sull'intera ASN. Quali altri casi "sorprendenti" emergeranno in seguito alla pubblicazione degli atti dei restanti settori concorsuali?

Tra coloro che hanno ottenuto più di una abilitazione, le situazioni più frequenti sono costituiti da candidati idonei per entrambe le fasce dello stesso settore concorsuale. Nel grafico seguente riportiamo il numero di candidati per ogni settore che hanno ottenuto l'abilitazione a entrambe le fasce.

Numero di candidati che hanno ottenuto l'abilitazione a entrambe le fasce, divisi per settore concorsuale

Quante domande sono state presentate su ciascun settore? Quanti candidati hanno presentato domanda su ciascun settore?

Per prima cosa ci chiediamo quante domande siano state presentate per ciascun settore concorsuale, e quanti candidati abbiano presentato domanda di abilitazione per ciascun settore concorsuale. È importante osservare che queste quantità non sono necessariamente identiche: ciascun candidato infatti poteva decidere di concorrere per entrambe le fasce di uno o più settori concorsuali. Di conseguenza, il numero complessivo di domande presentate per ogni settore settore sarà sempre maggiore o uguale al numero di candidati che hanno richiesto l'abilitazione per almeno una delle fasce di quel settore.

Il grafico seguente mostra il numero di domande presentate per ciascuno dei settori concorsuali. Per ogni settore vengono indicate separatamente:

  1. il numero di domande per l'abilitazione a prima fascia presentate da persone ritenute strutturate (cioè coloro il cui nome figura nell'elenco dei docenti prelevato dal sito del CINECA);
  2. il numero di domande per l'abilitazione a prima fascia presentate da persone ritenute non strutturate;
  3. il numero di domande per l'abilitazione a seconda fascia presentate da persone ritenute strutturate;
  4. il numero di domande per l'abilitazione a seconda fascia presentate da persone ritenute non strutturate.

I settori concorsuali sono raggruppati per area, e all'interno di ciascuna area sono ordinati in senso decrescente in base al numero totale di domande presentate.

Grafico del numero di domande per l'abilitazione, raggruppate per settori
[Scarica i dati in formato csv]

Il grafico successivo mostra invece il numero di candidati che hanno presentato domanda per l'abilitazione su ciascun settore concorsuale. Distinguiamo tra coloro che hanno presentato domanda per la sola abilitazione a prima fascia, per la sola abilitazione a seconda fascia, e per entrambe le fasce. Dato che i candidati vengono distinti esclusivamente in base al nome e cognome (o meglio, al valore hash del nome e cognome), potrebbero essere presenti errori dovuti a casi di omonimia. La distinzione tra candidati strutturati/non strutturati è estremamente imprecisa, basandosi unicamente sul cognome e nome che compaiono nella lista dei docenti e ricercatori strutturati recuperata dal sito del CINECA. I settori sono raggruppati per area e ordinati in senso decrescente in base al numero di candidati.

Grafico del numero di candidati per l'abilitazione, raggruppate per settori
[Scarica i dati in formato csv]

Quanti candidati hanno ottenuto l'abilitazione?

I grafici seguenti mostrano la frazione dei candidati che hanno ottenuto l'abilitazione e risultano strutturati e non strutturati, per ciacuno dei settori concorsuali e per ciascuna fascia. Poiché i dati sono separati per fascia, uno stesso candidato idoneo a entrambe è (correttamente) conteggiato in entrambi i grafici. I settori concorsuali sono raggruppati per area e ordinati in senso decrescente in base alla percentuale di abilitati. La riga tratteggiata orizzontale indica la frazione media di abilitati, rispettivamente di prima e seconda fascia, considerando tutti i settori.

Grafico delle percentuali di abilitati a prima fascia, per settore concorsuale
[Scarica i dati in formato csv]

Grafico delle percentuali di abilitati a seconda fascia, per settore concorsuale
[Scarica i dati in formato csv]

Per avere una visione d'insieme, può essere utile mostrare l'istogramma della frazione totale di abilitati per ciascun settore concorsuale. Il grafico risulta molto "affollato", e quindi di difficile lettura, ma è utile ad evidenziare le differenze piuttosto ampie che si sono verificate tra i settori concorsuali.

Frazione di abilitati per settore concorsuale
[Scarica i dati in formato csv]

È lecito chiedersi se esiste una qualche correlazione tra numero di domande e frazione di abilitati. Dai grafici seguenti si osserva che tale correlazione non appare (il test di Pearson non rigetta l'ipotesi di correlazione zero). In altre parole, in base ai dati disponibili non si può affermare che le commissioni dei settori con elevato numero di domande si siano dimostrate né più "morbide" né più "severe" rispetto a quelle dei settori con pochi candidati. Ciascun grafico corrisponde ad un sottoinsieme dei dati relativi ai soli settori bibliometrici/non bibliometrici e prima/seconda fascia; ogni punto rappresenta un settore concorsuale, la cui coordinata x corrisponde al numero di domande, e la cui coordinata y rappresenta la percentuale di abilitazioni concesse.

Correlazione tra numero di candidati e percentuale di abilitati, prima/seconda fascia bibliometrici/non bibliometrici

Quali sono le percentuali di candidati che superano M mediane?

Combinando gli indicatori bibliometrici dei singoli candidati con le mediane dei settori concorsuali, possiamo determinare le percentuali dei candidati che superano zero, una, due o tre mediane per ciascuno dei settori concorsuali.

Prima di proseguire dobbiamo precisare che cosa si intenda con "superare una mediana". Salvo diversamente indicato, faremo sempre uso della definizione prevalente, in base alla quale un indicatore bibliometrico di valore ind supera la corrispondente mediana med se e solo se ind > med, cioè se il valore dell'indicatore è strettamente maggiore del valore della mediana.

I due grafici seguenti mostrano il risultato. I settori concorsuali sono raggruppati per area e ordinati in senso decrescente in base alla percentuale di candidati che superano due o tre mediane.

Grafico delle frazioni di candidati a prima fascia che superano zero, una, due o tre mediane

Grafico delle frazioni di candidati a seconda fascia che superano zero, una, due o tre mediane

Quali sono le percentuali degli abilitati che superano M mediane?

Possiamo ripetere l'analisi considerando i soli abilitati di ciascuna area, anziché tutti i candidati. Vogliamo quindi sapere, per ogni settore concorsuale, quali sono le frazioni di abilitati che superano 0, 1, 2 o 3 mediane.

I due grafici che seguono mostrano la risposta; i settori concorsuali sono raggruppati per area e ordinati in senso decrescente in base alla percentuale di abilitati che superano due oppure tre mediane.

Grafico delle frazioni di abilitati a prima fascia che superano zero, una, due o tre mediane

Grafico delle frazioni di abilitati a seconda fascia che superano zero, una, due o tre mediane

Prima di trarre qualsiasi conclusione è necessario rimarcare il modo in cui abbiamo definito il concetto di "superamento delle mediane": i candidati e gli abilitati che non superano una o più mediane potrebbero semplicemente avere i corrispondenti indicatori bibliometrici allo stesso valore o leggermente sotto la mediana. Il problema è particolarmente evidente nel caso di indicatori bibliometrici che assumono valori interi (es., numero di riviste in classe A).

A titolo di esempio, proviamo a ripetere il calcolo definendo in modo diverso (e non conforme con la normativa) il superamento della mediana. Dato un indicatore bibliometrico di valore val, diciamo che l'indicatore supera in modo lasco la mediana med se val > 0.95 × med. In altre parole, un indicatore supera in modo lasco la mediana se il suo valore supera il 95 per cento del valore della mediana. In tal modo un indicatore bibliometrico avente valore 9.6 supera in modo lasco una mediana avente valore 10.

Con la nuova definizione otteniamo i grafici seguenti.

Grafico delle frazioni di abilitati a prima fascia che superano zero, una, due o tre mediane in modo lasco

Grafico delle frazioni di abilitati a seconda fascia che superano zero, una, due o tre mediane in modo lasco

Come ci si aspetta, la definizione più "morbida" porta ad un generale innalzamento della percentuale di abilitati che superano due o tre mediane; inoltre, la nuova definizione rende nulle le frazioni di abilitati che superano zero mediane in alcuni settori concorsuali.

Rimanendo fedele a quanto espresso nell'introduzione, lascio ai lettori l'interpretazione dei risultati e la discussione su quale sia il modo più appropriato di effettuare il calcolo. Vorrei però offrire uno spunto di riflessione. Nelle cosiddette "scienze dure" è ben noto il concetto di "errore di misura": tutte le misure, per quanto precise esse siano, sono sempre affette da errori. È ragionevole supporre che ciò sia vero anche per le stime delle mediane e degli indicatori bibliometrici dei candidati. Per alcuni settori, è ben noto che gli indicatori calcolati mediante ISI o Scopus forniscono un limite inferiore ai "veri" valori degli indicatori bibliometrici, in quanto la copertura delle banche dati commerciali è spesso limitata. In tale ottica, introdurre una tolleranza durante il confronto tra gli indicatori bibliometrici potrebbe avere un senso (...anche se questa storia un senso non ce l'ha cit. Vasco). In almeno un caso (settore 01/A6—Ricerca Operativa) la commissione ha deciso di ritenere soddisfatto il requisito del superamento di due mediane su tre anche se uno degli indicatori del candidato supera la corrispondente mediana, e uno dei rimanenti due supera il 90% della mediana (si veda il verbale di definizione dei criteri).

Quali sono le percentuali dei non abilitati che superano M mediane?

Esaminiamo ora la frazione di candidati non abilitati in ciascuna area e fascia che superano 0, 1, 2 o 3 mediane (assumendo la nozione originale di superamento stretto della mediana). I due grafici seguenti mostrano la risposta; i settori concorsuali sono raggruppati per area e ordinati in senso decrescente in base alla percentuale di non abilitati che superano due oppure tre mediane.

Grafico delle frazioni di non abilitati a prima fascia che superano zero, una, due o tre mediane

Grafico delle frazioni di non abilitati a seconda fascia che superano zero, una, due o tre mediane

Come è suddivisa la popolazione dei candidati?

I dati a disposizione consentono di partizionare la popolazione dei candidati di ciascun settore nei seguenti sottoinsiemi disgiunti:

  1. Coloro che hanno ottenuto l'abilitazione e superano almeno due mediane su tre;
  2. Coloro che hanno ottenuto l'abilitazione e NON superano almeno due mediane su tre;
  3. Coloro che NON hanno ottenuto l'abilitazione e superano almeno due mediane su tre;
  4. Coloro che NON hanno ottenuto l'abilitazione e NON superano almeno due mediane su tre;

La frazione di candidati in ciascuno di questi sottoinsiemi è illustrata nei grafici seguenti, in cui i settori sono raggruppati per area e ordinati in base alla percentuale di candidati abilitati (cioè alla somma delle frazioni di candidati delle classi 1 e 2).

Grafico delle frazioni di candidati a prima fascia che appartengono alle quattro classi ottenute combinando i predicati Abilitato/Non abilitato e supero almeno 2 mediane/non supero almeno due mediane.

Grafico delle frazioni di candidati a seconda fascia che appartengono alle quattro classi ottenute combinando i predicati Abilitato/Non abilitato e supero almeno 2 mediane/non supero almeno due mediane.

Pareto-Dominanza

Consideriamo due candidati X e Y, appartenenti allo stesso settore concorsuale, i cui valori degli indicatori bibliometrici siano rispettivamente (x1, x2, x3) e (y1, y2, y3). Diciamo che X Pareto-domina Y se x1 ≥ y1, x2 ≥ y2, x3 ≥ y3, e almeno una delle disuguaglianze vale in senso stretto. In altre parole, il candidato X Pareto-domina Y se i valori degli indicatori bibliometrici di X sono maggiori o uguali di quelli di Y, con almeno uno degli indicatori di X strettamente maggiore del corrispondente indicatore di Y. Il concetto di ottimo paretiano si basa su quello della Pareto-dominanza.

Il concetto di Pareto-dominanza è utile nei casi in cui si confrontino tra di loro due alternative caratterizzate da diversi attributi. In generale non esiste un modo "naturale" per decidere quale delle due alternative è preferibile, tranne nei casi in cui una delle due Pareto-domina l'altra. Intuitivamente, se gli indicatori bibliometrici dei candidati sono X=(3, 5, 6), Y=(3, 4, 6) vediamo che, in accordo con la definizione sopra, X Pareto-domina Y, nel senso che X è almeno equivalente a Y secondo tutti gli indicatori, e per almeno un indicatore X risulta strettamente migliore di Y. Si noti che nel caso in cui X=(3, 5, 6) e Y=(2, 6, 5), non è possibile affermare che X Pareto-domina Y né che Y Pareto-domina X. In altre parole, non è sempre possibile confrontare tra di loro due candidati in base alla Pareto-dominanza.

Nel caso specifico dell'ASN, ci chiediamo in quale misura la Pareto-dominanza sia stata rispettata. Se X Pareto-domina Y e il candidato Y ha ottenuto l'abilitazione, alla luce dei soli criteri bibliometrici ci si aspetterebbe che anche X l'abbia ottenuta, in quanto per definizione X risulta bibliometricamente "bravo almeno quanto Y", e in almeno un parametro risulta "strettamente migliore di Y". È importante osservare che ci possono essere dei casi più che legittimi in cui l'esito delle abilitazioni non rispetta la Pareto-dominanza, in quanto le commissioni dovrebbero tener conto di altri fattori qualitativi, oltre che gli indicatori bibliometrici.

Usando i dati a disposizione possiamo calcolare la percentuale dei casi in cui la Pareto-dominanza è stata violata, cioè la percentuale dei casi in cui è stata attribuita l'abilitazione ad un candidato con parametri bibliometrici Pareto-dominati da un altro candidato a cui l'abilitazione è stata negata. Nello specifico, tale percentuale viene calcolata come segue. Partizioniamo l'insieme dei candidati C di ciascun settore in due sottoinsiemi disgiunti: coloro che hanno ottenuto l'abilitazione CA e coloro che non l'hanno ottenuta CN. Si ha quindi C = CA ∪ CN, e CA ∩ CN = ∅. Sia P l'insieme di coppie di candidati definito nel modo seguente:

P = {(X, Y): X ∈ CN, Y ∈ CA, X Pareto-domina Y}

cioè P è composto da tutte le coppie di candidati (X, Y), in cui X Pareto-domina Y, ma Y ha ottenuto l'abilitazione mentre X no. Allora la percentuale vp di violazioni della Pareto-dominanza è calcolata come:

vp = #P / ( #CN * #CA )

dove #S indica la cardinalità (numero di elementi) dell'insieme S. Il valore minimo di vp è zero, che corrisponde al caso in cui nessun candidato abilitato sia Pareto-dominato da un candidato non abilitato. Il valore massimo di vp è uno, che corrisponde al caso limite in cui ciascuno dei candidati abilitati è Pareto-dominato da tutti i candidati non abilitati.

I grafici seguenti mostrano le violazioni della Pareto-dominanza nei vari settori concorsuali, distinguendo la prima dalla seconda fascia.

Percentuali violazioni della Pareto-dominanza, prima fascia

Percentuali violazioni della Pareto-dominanza, seconda fascia

La tabella dei dati relativi ai due grafici sopra è disponibile in questo file.

Ulteriori analisi

A proposito di verbali, parte I

Informazioni estremamente interessanti si possono ottenere anche da analisi un po' "fuori dagli schemi". Ad esempio, dato che i testi di tutti i verbali delle valutazioni dei singoli candidati sono disponibili, è possibile analizzare automaticamente la similitudine tra i testi. Una analisi del genere puo' essere utile per supportare o refutare una lamentela che si legge in molti commenti sparsi per la rete, secondo la quale i verbali delle valutazioni di molti settori concorsuali sembrano un po' un copia e incolla l'uno dell'altro.

Per esaminare la questione in dettaglio è stato sufficiente estrarre il testo dai verbali PDF utilizzando il comando pdftotext, parte del software Xpdf; dal testo così ottenuto sono stati rimossi tutti i caratteri non alfanumerici, trasformando quindi il contenuto di ciascun verbale in una stringa di caratteri. Mediante un semplice programma in C scritto per l'occasione, sono state calcolate le distanze di Levenshtein tra tutte le coppie di verbali, normalizzando i risultati nell'intervallo [0,1]. Due stringhe hanno distanza 0 se e solo se coincidono; la distanza 1 si ottiene, ad esempio, quando una delle due include solo caratteri non presenti nell'altra. Giusto per avere un termine di paragone, la distanza di Levenshtein tra i primi venti versi della Divina Commedia e una parte di simile lunghezza tratta dalla Dichiarazione di Indipendenza degli Stati Uniti d'America risulta circa 0.81.

Prendendo in considerazione i 413 verbali per l'abilitazione a seconda fascia nel settore 09/H1, è possibile costruire una matrice simmetrica di 413 × 413 elementi, in cui il valore dell'elemento (i, j) corrisponde alla distanza di Levenshtein tra il testo del verbale i-esimo e il testo del verbale j-esimo. Rappresentiamo il valore di ciascun elemento della matrice con un punto colorato con una tonalità di grigio proporzionale al valore (bianco = 0, nero = 1). Il risultato è il seguente:

Distanza di Levenshtein tra tutte le coppie di verbali per il settore 09/H1, seconda fascia

Come si puo' vedere, il colore predominante è un grigio piuttosto chiaro, sintomo che i testi risultano simili tra di loro. Possiamo esaminare in dettaglio la distribuzione dei 413 × 412 / 2 = 85078 valori della parte triangolare superiore della matrice, che corrispondono alle distanze tra tutte le coppie di verbali:

Istogramma delle distanze di Levenshtein tra tutte le coppie di verbali per il settore 09/H1, seconda fascia

La distanza media è di circa 0.15.

Ripetendo l'esperimento con i verbali del settore 08/A2 (Ingegneria sanitaria, seconda fascia) si ottiene il seguente grafico e il corrispondente istogramma delle frequenze:

Distanza di Levenshtein tra tutte le coppie di verbali per il settore 09/H1, seconda fascia
Distanza di Levenshtein tra tutte le coppie di verbali per il settore 09/H1, seconda fascia

Dall'esame del grafico delle frequenze si nota come i testi dei verbali abbiano distanza di Levenshtein mediamente inferiore al caso 09/H1 (le distanze per 08/A2 risultano minori di 0.1). La distribuzione delle distanze evidenzia inoltre due picchi, il che suggerisce l'esistenza di due "cluster" di testi.

A proposito di verbali, parte II

Vediamo quindi una semplice estensione dell'analisi testuale precedentemente introdotta. l punto di partenza è sempre lo stesso: in molti lamentano che i giudizi individuali dei singoli commissari, in certi settori, sono alquanto stringati basati su schemi predefiniti che vengono sommariamente completati alla bisogna, talvolta con risultati grotteschi (il giudizio della commissaria OCSE del settore 06/M1 consiste in una singola frase, che in un caso risulta essere La candidata non è idonea ad ottenere l’abilitazione a professore di seconda fascia per il Settore concorsuale 06/M1, nonostante il candidato fosse un uomo).

Il calcolo della distanza di Levenshtein, come già visto, consente di esprimere in termini numerici la diversità di due sequenze di caratteri; sarebbe però molto più istruttivo riuscire a mostrare concretamente quali sono le parti di testo comuni tra un insieme di frasi, in modo da far emergere lo schema che è stato usato per comporre i giudizi.

Questo tipo di problema è conosciuto come Longest Common Subsequence (LCS) problem (Problema della Massima Sottosequenza Comune). Il problema può essere descritto come segue: date due sequenze di caratteri (dette anche stringhe di caratteri), vogliamo identificare la più lunga sottosequenza di caratteri che compaiono, non necessariamente contigui, in entrambe. Ad esempio, la più lunga sottosequenza comune delle stringhe:

thisisatest
testing123testing

è la stringa tsitest (è facile verificare che tutti i caratteri di questa parola compaiono, in ordine, in entrambe le stringhe sopra; un po' meno facile è convincersi che non esiste altra sottosequenza comune alle due parole sopra che risulti più lunga di tsitest).

Il problema della massima sottosequenza comune ha importanti applicazioni, ad esempio, in bioinformatica. Per i nostri scopi è utile definire una variante del problema, che consiste nell'individuare la massima sottosequenza comune tra due (o più) liste di parole. In altri termini, riformuliamo il problema della massima sottosequenza comune in un contesto in cui maneggiamo sequenze di parole anziché sequenze di singoli caratteri.

Per capire il meccanismo, supponiamo che un ipotetico commissario abbia espresso i giudizi seguenti su tre altrettanto ipotetici candidati (per comodità ho omesso la punteggiatura e tutte le lettere sono minuscole):

  1. il candidato alan turing presenta pubblicazioni insufficienti e pertanto è dichiarato non idoneo
  2. il candidato albert einstein presenta pubblicazioni scarsamente pertinenti e pertanto è dichiarato non idoneo
  3. il candidato guidobaldo maria riccardelli presenta pubblicazioni eccellenti e pertanto è dichiarato idoneo

è abbastanza evidente che le parole in grassetto costituiscono lo schema utilizzato per redigere i giudizi, che pertanto ha la struttura:

il candidato ____________ presenta pubblicazioni ____________ e pertanto è dichiarato ____ idoneo

Nel caso sopra la soluzione è visibile a colpo d'occhio, ma il problema si complica se se i giudizi da esaminare sono decine o centinaia. In più si potrebbe obiettare che i commissari ASN avranno sicuramente scritto frasi ben più articolate di quelle sopra, che renderebbero l'analisi delle parti comuni inconcludente.

Per quanto riguarda la prima obiezione, il calcolo della massima sottosequenza comune può essere facilmente automatizzato, e sebbene l'estrazione dei giudizi dei singoli commissari possa risultare laboriosa, alla fine il processo risulta automatizzabile. Per quanto riguarda la seconda obiezione, le commissioni ASN non difettano di componenti che hanno dimostrato il dono della sintesi. A titolo di esempio, è stato scelto un commissario a caso tra i tanti che hanno fornito giudizi quantomai parsimoniosi. L'applicazione dell'algoritmo ai 478 giudizi espressi per i candidati a prima fascia ha individuato lo schema seguente:

attività ____________ giudizio sulle pubblicazioni __ giudizio sui titoli presentati __

Si potrebbe pensare che queste parti comuni rappresentino solo una piccola porzione dei giudizi (d'altra parte è abbastanza naturale che il testo formale abbia una struttura un po' rigida e ripetitiva). In realtà, andando a controllare si scopre che i giudizi completi espressi dal commissario di cui sopra sono ad esempio:

(i caratteri accentati sono stati sostituiti con caratteri normali per semplificare il compito del programma; il settore concorsuale è stato omesso per non privare il lettore del divertimento di indovinare di quale settore si tratti).

Sulla scorta di quanto sopra, è stato predisposto un rivoluzionario servizio per le future commissioni ASN: il Commissari-O-Matic. Il servizio, ispirato al celebre generatore casuale di articoli SCIgen, produce giudizi casuali su candidati immaginari a improbabili settori concorsuali; i giudizi sono ottenuti giustapponendo spezzoni di frasi da un dizionario interno, in costante espansione. Il risultato è garantito essere del massimo realismo (provare per credere).

Qualche esempio?

Il candidato Guidobaldo Maria Riccardelli ha svolto attività di ricerca nel campo dello studio delle proprietà endocroniche della tiotimolina risublimata e della progettazione di edifici con mattoncini LEGO. L'attività svolta risulta solo parzialmente pertinente al settore concorsuale 21/H7—Geografia delle ande sudorientali. Il giudizio sulle pubblicazioni è molto buono; il giudizio sui titoli è ottimo. Pertanto si dichiara il candidato non ancora idoneo a ricoprire il ruolo di professore di prima fascia.

Il candidato Giulio Cesare ha svolto attività di ricerca nel campo della ricerca del Sacro Graal e della fisica dei motori a curvatura. L'attività svolta risulta solo parzialmente pertinente al settore concorsuale 82/W1—Medicina tronco-conica. Il giudizio sulle pubblicazioni è ottimo; il giudizio sui titoli è molto buono. Pertanto si dichiara il candidato non ancora idoneo a ricoprire il ruolo di professore di prima fascia.

Il servizio è in continua evoluzione; presto disponibile anche su iPhone e Android.

Analisi dei settori informatici: 09/H1 e 01/B1

Analizziamo i risultati delle abilitazioni per i settor 09/H1 (Sistemi di Elaborazione delle Informazioni) e 01/B1 (Informatica). La tabella che segue mostra il numero di candidati e abilitati, divisi per fascia, nei due settori.

Numero di candidati e abilitati nei settori 01/B1 e 09/H1
Prima Fascia Seconda Fascia
01/B1 09/H1 01/B1 09/H1
N.Candidati 306 260 592 413
N.Abilitati 80 96 240 176
Perc.Abilitati 26.14 36.92 40.54 42.62

Nella tabella che segue mostriamo le frequenze del numero di mediane superate dagli abilitati.

Frequenze n. di mediane superate dagli abilitati 09/H1 e 01/B1
Prima Fascia Seconda Fascia
01/B1 09/H1 01/B1 09/H1
Perc. supera 0 mediane 0 0 0 0
Perc. supera 1 mediana 2.50 3.12 2.08 6.82
Perc. supera 2 mediane 26.25 30.21 34.58 36.36
Perc. supera 3 mediane 71.25 66.67 63.33 56.82

Possiamo partizionare l'insieme dei candidati in base ai criteri "supera almeno due mediane su tre" / "supera meno di due mediane su tre" e "ha ottenuto l'abilitazione" / "non ha ottenuto l'abilitazione". La tabella seguente mostra le percentuali di candidati che appartengono ai vari sottoinsiemi.

Suddivisione in classi dei candidati.
Prima Fascia Seconda Fascia
Classe 01/B1 09/H1 01/B1 09/H1
Abilitato, Supera ≥ 2 mediane 25.49 35.77 39.70 39.71
Abilitato, Supera < 2 mediane 0.65 1.15 0.84 2.91
Non abilitato, Supera ≥ 2 mediane 46.08 43.08 22.13 25.91
Non abilitato, Supera < 2 mediane 27.78 20.00 37.33 31.48

Dai dati disponibili è possibile calcolare la probabilità condizionata di ottenere l'abilitazione superando M mediane. I dati sono nella tabella che segue.

Probabilità di abilitazione condizionata al superamento di M mediane
Prima Fascia Seconda Fascia
01/B1 09/H1 01/B1 09/H1
Pr(ab|supera 0 mediane) 0 0 0 0
Pr(ab|supera 1 mediane) 5.88 16.67 6.25 20.34
Pr(ab|supera 2 mediane) 34.43 45.31 60.58 56.14
Pr(ab|supera 3 mediane) 36.08 45.39 66.38 63.69

Parlano di noi...

Riporto qui sotto un elenco (necessariamente parziale, e in ordine arbitrario) di documenti e siti Web che menzionano l'analisi presentata in questa pagina.

This page validates as XHTML 1.0 strict This page validates as CSS Check the accessibility of this page with WAVE
This page was last updated on August 02 2016 informativa sulla privacy