Statistiche multivariate applicate all'archeologia,cluster analysis,analisi fattoriale,analisi dei componenti principali,analisi delle corrispondenze,analisi discriminante

Le tecniche statistiche multivariate o multidimensionali vengono utilizzate quando una determinata analisi deve tener conto di più variabili simultaneamente. Per questo motivo l'applicazione delle tecniche multivariate trova ampio utilizzo qualora si voglia studiare notevoli quantità di oggetti o fenomeni caratterizzati da numerose variabili che operano contemporaneamente nel tempo e nello spazio. E come le statistiche elementari anche quelle multivariate hanno trovato applicazione soprattutto nell'ambito dello studio di problematiche connesse con l'archeologia preistorica. Tra le numerose tecniche multivariate, che differiscono fra loro per ciò che riguarda il tipo di approccio e l'interpretazione dei dati, di seguito verranno descritte quelle che hanno trovato maggiore applicazione in campo archeologico.

Cluster analysis (classificazione automatica)

L’analisi dei gruppi, o cluster analysis, è un insieme di tecniche atte a ridurre il numero dei dati, unendo vari dati in un solo gruppo (cluster) in base a una qualche "somiglianza" o "vicinanza" (1). Si cerca cioè di ridurre il numero delle righe della matrice dei dati, sostituendo a tutte le righe che contengono i dati confluiti in un singolo cluster, un dato (eventualmente fittizio) rappresentativo di tutto il cluster stesso. Questa procedura permette di formare dei gruppi "omogenei", secondo un certo criterio, a cui poi attribuire un certo numero di caratteristiche proprie di tutti i componenti del gruppo, e solo di questi (almeno una caratteristica deve differire da gruppo a gruppo).

Le tecniche della cluster analysis consentono quindi di individuare dei raggruppamenti statisticamente significativi sia all'interno di un gruppo di oggetti sia tra varie unità territoriali o stratigrafiche.

Viene spesso usata nello studio delle necropoli per indagare le strutture sociali basandosi sui corredi funerari. «In questo caso i corredi funerari di ogni singola sepoltura rappresentano le associazioni che debbono essere raggruppate. I differenti gruppi possono in seguito essere esaminati per identificare quei manufatti che assumono un ruolo predominante nella costituzione del raggruppamento. In particolare, è possibile studiare se l'età e il sesso del defunto sono in stretta correlazione con i raggruppamenti ottenuti considerando soltanto i corredi funerari. L'occorrenza delle sepolture di ogni gruppo può essere anche rappresentata sulla carta dell'area cimiteriale per scoprire se i gruppi definiti sulla base dei corredi trovino una corrispondenza nella disposizione spaziale del sepolcreto» (2).

Per raggruppare le unità di rilevazione in classi esistono differenti procedure che vengono indicate con il nome di Numerical Taxonomy (3); le classi a cui le entità vengono assegnate sono indicate con il nome di clusters, mentre le entità con il nome di OTUs (Operational Taxonomic Units).

La costruzione dei cluster si può effettuare in molti modi, sia in funzione della scelta del criterio di "misura della somiglianza" (o della "differenza") tra i dati, sia delle diverse strategie di raggruppamento (gerarchiche o non-gerarchiche; divisive o agglomerative). Ogni scelta tra questi criteri porta, in genere, a classificazioni differenti. Ciò significa che in una classificazione, due dati apparterranno allo stesso gruppo mentre apparterranno a gruppi diversi per un altra classificazione.

Il primo elemento per la costruzione dell’algoritmo di costruzione dei cluster è la misura che si intende adottare per valutare la "somiglianza" o la "dissimiglianza" tra due casi. La misurazione della dissimiglianza avviene attraverso la scelta di una funzione delle coppie di variabili misurate nei due casi. Questa funzione prende il nome generico di "distanza". Il metodo maggiormente usato per misurare la distanza fra i casi è la "distanza Euclidea al quadrato" definita come la sommatoria delle distanze al quadrato fra tutte le variabili di due differenti gruppi.

Una volta deciso come misurare la distanza tra i dati, si deve scegliere il metodo di classificazione. I metodi della cluster analysis vengono distinti in "metodi di classificazione non gerarchica" e "metodi di classificazione gerarchica".

Fra i metodi di classificazione non-gerarchica (definiti anche come tecniche di ottimizzazione, Optimization Techniques) si ricorda la K-means Cluster Analysis.

«I metodi "c-means" operano direttamente sulla matrice dei dati e suddividono gli elementi in gruppi i cui centri, inizialmente valori medi di ciascun parametro, vengono progressivamente modificati attraverso un processo iterativo che minimizza una funzione della distanza cartesiana (minimi quadrati generalizzati) che gli elementi dei vari gruppi hanno dai rispettivi centri. Questi metodi non sono gerarchici e occupano piccoli spazi di calcolatore. La loro utilità in archeologia è stata prospettata già da parecchi anni da F. R. Hodson (4).

Tra i metodi "c-means", l'FCM (fuzzy c-means) di J. C. Bezdek (5) consente in più di definire l'appartenenza ai gruppi in modo non definitivo ma "elastico", mediante una funzione continua i cui valori da 0 a 1 indicano il grado di appartenenza di ciascun elemento (o sito) ai vari gruppi. Ogni elemento o sito ha quindi un "grado di appartenenza" in ciascun gruppo; valori più prossimi ad 1 indicano un grado maggiore di appartenenza, cioè una maggiore "similarità" o somiglianza dei parametri di un sito con quelli degli altri elementi del gruppo. Il numero dei gruppi può essere variato a piacere; variando il numero dei gruppi è possibile che varino anche i valori della funzione di appartenenza dei singoli elementi ai vari gruppi.

Per ottimizzare il numero dei gruppi esistono test di validità che consentano di scegliere il numero dei gruppi sulla base del grado della loro "definizione" (partition) cioè della differenziazione l'uno dall'altro. Oltre ai metodi di ottimizzazione matematici però l'FCM offre anche la possibilità di valutare il livello di adeguatezza o di particolare scelta alternativa di ripartizione in un certo numero di gruppi o del trasferimento di uno o più elementi da gruppo a gruppo sulla base di riferimenti storico-archeologici o altri criteri. Si raggiunge così la possibilità di interazione tra le scelte della macchina e quelle dell'esperto che inserisce, all'occorrenza, nuovi criteri non previsti precedentemente dal programma. Questo è particolarmente importante in archeologia classica in cui la messe di informazioni è generalmente abbondante ma non sempre organizzabile a priori in forma esatta e definitiva» (6).

I metodi di classificazione gerarchica permettono invece, attraverso numerosi passaggi, di ripartire gli individui in classi mediante un processo che viene ripetuto a diversi livelli e che è rappresentato graficamente attraverso un diagramma ad albero, o dendrogramma (7).

Dendrogramma realizzato da Peebles utilizzando la cluster analysis di 719 sepolture di Moundville, in Alabama. Le divisioni vennero compiute in un secondo momento sulla base della presenza o dell'assenza di singoli attributi (+ e - nel diagramma). Per esempio, la prima grande divisione dipende dalla presenza o dall'assenza dell'attributo 2 (coppe semplici). La divisione terminò con la definizione di 15 gruppi (contraddistinti dai numeri romani sulla destra). La casella di ogni gruppo indica il numero di sepolture assegnate al gruppo) Tratto da: C. Renfrew - P. Bahn, Archeologia. Teorie. Metodi. Pratica, Zanichelli, Bologna 1995, p. 175

In base alla strategia che viene impiegata nell'effettuare l'analisi, i metodi di classificazione gerarchica possono essere di tipo "aggregativo" (o "agglomerativo") e "divisivo" (o "scissorio").

«I primi procedono attraverso una serie di successive fusioni dei singoli individui in gruppi sempre più ampi, finché tutti gli individui risultano inseriti in un unico gruppo (= costruzione ascendente delle gerarchie). I secondi, invece, suddividono il complesso delle unità di rilevazione da classificare in sottoinsiemi sempre più ristretti, finché si giunge a ottenere i singoli individui (= costruzione discendente delle gerarchie)» (8).

Ad esempio, per creare una tipologia all'interno di un gruppo di oggetti ceramici si può procedere nei seguenti modi. Si possono riunire i due oggetti che risultano tra loro più simili sulla base degli elementi che li caratterizzano (dimensioni, tipo di ansa, ecc.). In questo modo si ottengono uno o più paia di oggetti i quali possono essere ampliati aggiungendo altri oggetti finché si ottiene un numero di classi (tipi) tra loro omogenee e distinte le une dalle altre (procedimento di tipo aggregativo). Oppure si può effettuare una suddivisione iniziale dell'intero gruppo di oggetti in due gruppi che differiscono fra loro per la presenza o meno di un particolare attributo. Ognuno di questi due gruppi può essere a sua volta suddiviso in base alla presenza o meno di un altro particolare attributo (metodo di tipo divisivo).

Mentre il metodo divisivo risulta più adatto per descrivere situazioni con un numero ristretto di variabili, quello aggregativo non presenta limiti di questo genere. Quest'ultimo inoltre risulta anche il più utile nel settore archeologico in quanto permette di «creare raggruppamenti di individui fra loro simili e di indicarne una possibile tipologia basata sull'analisi globale degli attributi che più significativamente contribuiscono alla distinzione delle diverse classi ottenute» (9).

Esistono vari tipi di procedure, fra i metodi di tipo aggregativo, derivate da una diversa stima delle misure di similarità (10) o di distanza fra gli individui o i gruppi di individui.

La distanza tra due cluster dipende dalla distanza che si è scelta tra i singoli dati, ma anche da una definizione "globale" che coinvolge tutti i dati dei due diversi cluster, cioè dal tipo di misura adottata della distanza tra cluster. Le possibili misure sono sette e si dividono in "misure puntuali" e "misure globali".

Misure puntuali:

1 - criterio del legame singolo o del "vicino più vicino" (Minimum or Nearest-Neighbour Method): la misura di distanza tra due gruppi è la minima distanza tra tutte le coppie di punti di cui il primo elemento è nel primo gruppo e il secondo nel secondo;

2 - criterio del legame completo o del "vicino più lontano" (Maximum or Furthest–Neighbour Method): la misura di distanza tra due gruppi è la massima distanza tra tutte le coppie di punti di cui il primo elemento è nel primo gruppo e il secondo nel secondo.

Misure globali:

1 - criterio del legame medio (o legame medio fra gruppi) (Within Groups Clustering Method): si considerano tutte le distanze tra le coppie di punti di cui il primo elemento è nel primo gruppo e il secondo nel secondo, e si prende la media, non ponderata, di tutte queste distanze. Si uniscono i gruppi più vicini con questa distanza;

2 - criterio della media (o legame medio nei gruppi) (Unweighted Pair-Groups Method Average): si definisce la distanza tra due gruppi come la media delle distanze tra le coppie di punti che appartengono all’unione dei due gruppi. Si uniscono i gruppi in modo che la distanza media fra tutti le coppie di punti del gruppo risultante sia la minore possibile (11);

3 - criterio del centroide (o baricentro): per ogni gruppo si calcola il baricentro dei dati (il punto con coordinate pari alla media delle coordinate dei punti) e di usa come distanza tra due gruppi la distanza tra i due baricentri;

4 - il criterio di Ward: si aggregano i gruppi in modo che l’incremento di varianza nei nuovi gruppi sia il minimo possibile (tutte le volte che si aggiunge un caso a un gruppo la varianza aumenta, si vuole minimizzare questo aumento) (12).

Esempio di applicazione del metodo della cluster analysis.

«L'esempio che viene qui proposto affronta problematiche connesse con la produzione della ceramica etrusca tardo-classica, e in particolare con le manifatture relative ai due centri di Chiusi e Volterra, in cui sono attestate, in questo periodo cronologico, scuole ceramografiche notevolmente attive (M. Harari - M. Oddone, Nuove considerazioni sui gruppi Chiusium et Volaterrae, in Atti del seminario "Contributi alla ricerca etrusca tardo-classica", Roma 1984, Quaderni del Centro di Studio per l'archeologia etrusco-italica del C.N.R., n. 10, Roma 1985, pp. 35-54).

Il fine perseguito è stato quello di evidenziare, tramite l'analisi chimica dei campioni di argilla prelevati da alcuni esemplari di tali produzioni, una demarcazione tra i due gruppi ceramografìci, i quali mostrano di sovente una stretta parentela.

I 41 campioni di argilla, prelevati da altrettante ceramiche dipinte, tra cui alcune sicuramente non provenienti dall'Etruria settentrionale e volutamente inserite nell'analisi per verificarne l'attendibilità, sono stati sottoposti ad una Cluster Analysis. Gli attributi presi in esame consistono evidentemente in questo caso nei vari componenti chimici riscontrati nelle argille, le quali sono state esaminate tramite la tecnica dell'attivazione neutronica.

Il dendrogramma ottenuto mostra livelli di similarità altissimi e, quindi, indica una notevole omogeneità fra tutti i campioni esaminati, probabilmente da addebitare al fatto che le argille tosco-laziali presentano caratteri chimici similari. Va però notata l'esistenza di due clusters ben distinti tra loro, di cui il maggiore raggruppa esemplari volterrani. Il secondo cluster, invece, di dimensioni minori, risulta maggiormente ibrido in quanto, insieme ai campioni relativi alla ceramica etrusca settentrionale, e più precisamente chiusina, coesistono i campioni prelevati dai materiali di produzione ceretana. Va infine ricordato che 4 dei 41 esemplari presi in esame, i quali peraltro presentano caratteristiche proprie definite "eccentriche", sono associati con gli altri ad un livello di correlazione più basso» (13).

Dendrogramma risultante dalla classificazione di 41 campioni di argilla prelevati da ceramiche di produzione etrusco tardo-classica

Analisi fattoriale

Le tecniche di analisi fattoriale risultano utili quando si affronta un problema di natura multidimensionale, cioè quando non si ha solo la necessità di rappresentare geometricamente il comportamento di una o due variabili ma di visualizzare sotto forma geometrica l'osservazione di tre o più misure cercando di comprendere al meglio il fenomeno che si intende studiare. Molto spesso infatti misurazioni differenti possono avere un denominatore comune, cioè potrebbero rappresentare manifestazioni differenti con un'origine comune.

«Il procedimento seguito da queste tecniche tende alla trasformazione della serie di attributi dati in una nuova serie di variabili o fattori ortogonali, cioè indipendenti tra loro, che sono pari al numero degli attributi primitivi e che non sono altro che combinazioni lineari tra le variabili iniziali. L'Analisi Fattoriale, quindi, fornisce, su una successione di piani, un determinato numero di proiezioni; gli assi perpendicolari, o assi fattoriali, il cui incrocio dà luogo a tali piani, non sono, come in una comune "nuvola di punti", l'immagine diretta di ciascuna delle misure iniziali, ma rappresentano le combinazioni significative tra i diversi oggetti e le diverse misure prese in esame, o, più semplicemente, "riassumono" al meglio gli elementi che sono tra essi comuni.

L'utilità delle tecniche di Analisi Fattoriale consiste quindi nell'offrire una rappresentazione delle diverse entità archeologiche analizzate all'interno di uno spazio di ristrette dimensioni che, attraverso la proiezione di una "nuvola di punti", fornisce una comprensione migliore e più immediata dei risultati ottenuti. Su un numero ridotto di piani fattoriali, infatti, vengono rappresentate graficamente le relazioni che intercorrono tra le diverse unità, e ciò permette di verificare e contemporaneamente di visualizzare i rapporti di associazione tra gli oggetti ovvero l'interdipendenza esistente tra gli attributi presi in esame» (14).

Sono tre i concetti direttamente collegati a questo tipo di tecniche:

Lo "spazio" e la "distanza": le unità prese in esame vengono considerate e rappresentate come punti in uno spazio ben definito e le rispettive distanze indicano il tipo di associazione (positivo o negativo),

le "coordinate" che permettono di evidenziare i raggruppamenti fra le differenti entità o variabili,

la "semplificazione" grazie alla quale si riducono notevolmente il numero delle variabili iniziali.

Tra i metodi di Analisi Fattoriale si possono indicare in particolare l'Analisi dei Componenti Principali e l'Analisi delle Corrispondenze (15). Le due tecniche si differenziano tra loro per la procedura, per il tipo e la struttura dei dati a cui esse vengono applicate; la prima viene generalmente utilizzata quando le variabili di partenza sono costituite da informazioni di tipo numerico. La seconda, invece, risulta particolarmente adatta all'esame di informazioni di tipo qualitativo e non metrico.

«Sia l'Analisi dei Componenti Principali sia l'Analisi delle Corrispondenze, nonostante la loro indubbia utilità, hanno trovato in campo archeologico una diffusione inferiore rispetto a quella incontrata dalle tecniche di Classificazione Automatica. Tale situazione può in parte derivare dalle maggiori difficoltà che questi metodi pongono per la lettura e l'interpretazione dei risultati, le quali richiedono alla base una buona conoscenza dei metodi adottati. I risultati, inoltre, non offrono sempre un esame esaustivo e facilmente comprensibile dell'intero set di dati analizzato e soprattutto del livello e del peso dei legami esistenti tra i diversi raggruppamenti ottenuti mediante la loro applicazione. Le suddette limitazioni spiegano perché in molteplici casi vengono utilizzati, congiuntamente alle tecniche di Analisi Fattoriale e sulla base dei loro risultati, i metodi di Classificazione Automatica. Questi ultimi, infatti, offrono un notevole aiuto all'esplorazione dello spazio determinato dall'incrocio degli assi fattoriali (16) e alla definizione della configurazione dei punti in esso proiettati, facilitando l'identificazione dei diversi gruppi di individui e la determinazione della loro relativa posizione e soprattutto della loro stabilità» (17).

Analisi dei Componenti Principali

Questo tipo di analisi, che opera a partire da una matrice di correlazione, ha come obiettivo quello di individuare un nuovo gruppo di variabili (assi ortogonali) in modo che il numero ridotto di queste nuove variabili sia in grado di spiegare una porzione rilevante della varianza (18) totale dei dati.

La riduzione avviene tramite una trasformazione lineare delle variabili che proietta quelle originarie in un nuovo sistema cartesiano nel quale la nuova variabile con la maggiore varianza viene proiettata sul primo asse, la seconda per dimensione della varianza sul secondo asse e così via. La riduzione del numero delle variabili iniziali, quindi, non viene effettuata eliminando quelle che possono sembrare ininfluenti ma costruendo nuove variabili sintetiche, appunto i componenti principali.

In archeologia l'analisi dei componenti principali è stata impiegata soprattutto per lo studio di complessi di oggetti (19) e per il confronto fra differenti siti di epoca preistorica.

Esempio di applicazione dell'analisi dei componenti principali

«L'esempio che viene proposto riguarda lo studio dei tipi standard relativi agli arnesi e alle armi di epoca mesolitica rinvenuti nell'ambito del Bacino Parigino, e precisamente a nord e a sud del corso della Senna (J. Hinout, Les outils et armatures-standars mésolithiques dans le Bassin Parisien par l'Analyse des Données, in "Revue Archéologique de Picardie", 1-2, 1984, pp. 9-30).

Tale studio risulta notevolmente complesso, in quanto parte dall'esame tecnico-morfologico di ciascun gruppo di oggetti litici per giungere alla determinazione dell'appartenenza o meno a una definita cultura materiale dei giacimenti rinvenuti nell'area presa in considerazione. Infatti, una volta stabilita una tipologia all'interno delle classi di arnesi e armi litiche e determinata la loro percentuale di frequenza nell'ambito dei diversi giacimenti mesolitici, si è passati all'applicazione dell'Analisi dei Componenti Principali, con il fine pratico di individuare dei tipi morfometrici.

Per ogni gruppo di oggetti, come ad esempio i grattatoi e i raschiatoi ovvero le lame e le punte, l'analisi è stata effettuata a partire da una matrice di dati del tipo individui/variabili. Nel caso specifico gli individui sono rappresentati dai diversi giacimenti; le variabili dalle misure che permettono di evidenziare le caratteristiche tecniche di ciascun tipo di oggetto (lunghezza, larghezza, spessore, angolo del ritocco, e così via).

Il grafico riprodotto costituisce la tappa finale dello studio e riassume nel loro complesso i risultati ottenuti. Sul piano costituito dall'incrocio fra il primo e il secondo asse fattoriale, o componente, è rappresentata la proiezione dei punti, indicanti rispettivamente la collocazione spaziale di 22 individui, pari ad altrettanti giacimenti mesolitici (numeri bordati), e di 38 variabili, pari a 11 tipi di arnesi (numerati da 1 a 11) e a 27 tipi di armi (numerati da 12 a 38). I disegni posti intorno al piano fattoriale, riproducenti i diversi tipi di oggetti proiettati, facilitano notevolmente l'evidenziazione visiva della loro distribuzione spaziale. Il grafico così ottenuto conferma chiaramente l'esistenza di due gruppi: l'uno situato a nord del Bacino Parigino (giacimenti 1-15) e l'altro a sud (giacimenti 16-22).

Il primo, collocato sulla destra del secondo asse, nonostante comprenda due diverse culture (Tardenoisien e Maurigny), appare caratterizzato da una facies notevolmente omogenea, con un numero elevato di tipi di oggetti comuni; il secondo, collocato sulla sinistra del secondo asse, risulta ben distinto dai precedenti e appare caratterizzato dalla cultura del Sauveterrien.

Va rilevato, inoltre, che la proiezione delle diverse variabili permette al contempo di distinguere i tipi di oggetti litici appartenenti ai due gruppi culturali. Un caso esplicativo è costituito dalla netta distinzione rilevabile nella posizione assunta dai grattatoi (n. 2) e dagli strumenti denticolati trasversali e laterali (nn. 4-5), rispettivamente tipici dell'area settentrionale e di quella meridionale del Bacino. Presso l'origine degli assi sono invece collocati i tipi di oggetti che risultano comuni ai due gruppi culturali» (20).

Analisi delle Corrispondenze

L'applicazione del metodo delle analisi delle corrispondenze risulta utile quando si ha la necessità di analizzare un'ampia matrice di dati, in cui gli individui presi in esame appaiono caratterizzati da attributi qualitativi, con lo scopo di esaminare più variabili simultaneamente, di evidenziarne le relazioni interne e di ricavare le principali componenti associative del fenomeno che si vuole studiare.

Esistono due tipi di cnalisi delle corrispondenze: semplice e multipla. La prima permette di analizzare le tabelle costituite dall'incrocio tra due variabili, mentre la seconda permette di analizzare matrici di dati con più variabili.

L'utilizzazione di questo metodo in campo archeologico non si limita solamente alla preistoria (21) ma tocca anche problematiche connesse all'archeologia classica (22).

Esempio di applicazione dell'analisi delle corrispondenze

«Un esempio che può essere considerato come un fossile guida per il trattamento delle informazioni attraverso metodi di analisi multivariata, e in particolare mediante l'applicazione dell'Analisi delle Corrispondenze in associazione con una Classifìcazione Ascendente Gerarchica, è costituito dall'ampio studio di F. Djindjian sui dati provenienti dagli scavi del Gran Riparo di La Ferrassie in Dordogna (F. Djindjian, Faciès chronologiques aurignaciens et périgordiens à La Ferrassie (Dordogne), in F. Djindjian - H. Leredde, Traitment automatique des données en archéologie, in "Les Dossiers de l'Archéologie", 42, 1980; F. Djindjian, Typologie et culture: l'exemple de l'Aurignacien, in M. Otte (a cura di), Actes du Colloque "La signification culturelle des industries lithiques", Liege 1984, BAR International Series, 239, 1985, pp. 338-373; F. Djindjian, Recherches sur l'Aurignacien du Périgord à partir des données nouvelles de La Ferrassie, in "L'Anthropologie", 90, 1986, pp. 89-106).

Tale studio si è rivolto soprattutto ai problemi connessi con l'evoluzione cronologica e tecnologica delle industrie litiche presenti a La Ferrassie, con particolare riferimento a una classe specifica costituita dai bulini.

I bulini sono strumenti litici risultanti dal distacco di una o più lamelle, a partire da un piano tagliato su un elemento di supporto, che può essere costituto da una scheggia di selce o da una lama. La descrizione di tali oggetti, che tiene anche in conto la sequenza dei gesti del tagliatore, è stata realizzata sulla base della scelta di una serie di caratteri morfologici e tecnici, relativi al supporto utilizzato, al piano di taglio, alle asportazioni, alle rilavorazioni e alla posizione sul supporto. Tale procedura ha permesso di analizzare gli oggetti indipendentemente da ogni pregiudizio sulla loro funzione e soprattutto senza la determinazione a priori di una loro tipologia.

L'Analisi delle Corrispondenze è stata quindi applicata su una matrice di dati costituita dall'incrocio fra 23 livelli archeologici desunti dalla stratigrafia, e 142 modalità, relative appunto ai caratteri descrittivi in precedenza selezionati. Sia tale Analisi sia la Classificazione Ascendente Gerarchica, effettuata sui primi 5 assi fattoriali hanno dimostrato l'esistenza di una serie di fasi distinte fra loro, le quali hanno permesso di evidenziare con maggiore chiarezza l'evoluzione cronologica dell'Aurignaziano a La Ferrassie.

Lo studio della figura sottostante, in cui è riportato il piano fattoriale costituito dall'incrocio fra il primo e il secondo asse, mette in risalto le relazioni esistenti sia fra i livelli archeologici, indicati con le lettere maiuscole, sia fra le modalità prese in esame, sia infine fra gli uni e le altre. Si è potuto così concludere che in una prima fase, testimoniata nei livelli archeologici relativi all'Aurignaziano più antico (K7, K6, K5), vi è la presenza di bulini piuttosto grossolani.

Il manifestarsi di un notevole miglioramento tecnico, che è caratteristico della fase successiva (livelli K4, K3, K2), porta allo sviluppo del bulino diedro e parallelamente di quello su troncatura latero-trasversale, i quali raggiungono il proprio apice di diffusione nella terza fase (livelli J, I, H), in cui si nota anche la brusca apparizione dei bulini arcuati. La quarta fase, infine, appare caratterizzata da un calo generale dei bulini e dal contemporaneo impoverimento nella qualità di lavorazione degli altri strumenti litici. Ad essa succedono i livelli perigordiani (Ef, D, C, B), che mostrano, ad esempio mediante la comparsa dei cosiddetti bulini di Noailles, l'affacciarsi di nuove tecniche di lavorazione, intese a ottenere utensili funzionalmente diversificati» (23).

Analisi discriminante

A differenza delle precedenti tecniche multivariate, che mirano all'individuazione di gruppi omogenei all'interno di un complesso di oggetti, l'analisi discriminante viene eseguita a partire da una serie di gruppi già definiti a priori. Questa tecnica, quindi, punta a "misurare" le distanze, cioè le differenze, fra gli oggetti relativi ai singoli gruppi e di conseguenza le differenze fra i gruppi stessi; inoltre, tenta di individuare quelle particolari variabili che contribuiscono alla differenziazione fra i gruppi.

La tecnica dell'analisi discriminante può essere ben utilizzata nei casi in cui ad esempio ci si trova di fronte ad oggetti da esaminare, descritti mediante lo stesso complesso di variabili, già suddivisi in gruppi; una suddivisione che può essere determinata sulla base di diversi luoghi geografici o insediamenti, o sulla base di aspetti tecnici (morfologici o funzionali).

Come per l'analisi fattoriale anche l'analisi discriminante utilizza una procedura che prevede l'estrazione di assi fattoriali; mediante «la creazione di un sistema di assi ortogonali, l'analisi procede alla rappresentazione grafica di una serie di piani su cui sono proiettati i punti che rappresentano gli oggetti presi in esame. In questo modo si può passare alla verifica del comportamento di tali oggetti, in quanto l'ipotesi attesa è che ciascun gruppo originale e coerente dia luogo ad una "nuvola di punti" compatta e ben distinta dalle altre nuvole, le quali rappresentano gli ulteriori gruppi analizzati» (24).

Esempio di applicazione dell'analisi discriminante

L'esempio che qui si presenta riguarda lo studio di «un complesso di materiali litici provenienti dalla località di Cerro de Silva in Messico. Tale studio fa parte di una più ampia ricerca volta all'analisi degli insediamenti di gruppi di cacciatori-raccoglitori, che hanno occupato i margini settentrionali dell'area di espansione delle culture teocratiche urbanizzate dell'America precolombiana (J. Lesage, Analyse disciminante multivariée d'un matériel lithique d'Amérique (Mexique), in H. Ducasse (a cura di), Panorama 1981 des applications informatiques en archéologie, Valbonne 1982, pp. 177-199).

Tra gli oggetti litici recuperati, sono stati sottoposti ad analisi 1443 frammenti relativi a schegge di selci, i quali sono stati suddivisi in 4 gruppi, o modelli, differenziati tra loro in base alla disposizione periferica dei bordi taglienti, la cui sezione cioè ha un angolo inferiore a 60 gradi. 543 degli oggetti analizzati sono confluiti in uno dei 4 gruppi; 900, invece, che hanno costituito il modello 5, sono rimasti privi di classificazione. L'area di scavo, inoltre, è stata suddivisa in 4 zone, rispettivamente importanti per le implicazioni paleoetnologiche ad esse connesse; infine, è stata effettuata la scelta delle variabili atte a descrivere gli oggetti esaminati e concernenti soprattutto i loro aspetti tecnici.

I grafici risultanti hanno riprodotto, sul piano costituito dall'incrocio tra i primi due assi, la proiezione degli oggetti nelle 4 zone prese in esame. Mentre nei grafici in cui è rappresentato il comportamento dei diversi tipi di oggetti nell'ambito delle zone 2, 3 e 4 i risultati non appaiono del tutto soddisfacenti, in quanto si rileva una certa tendenza dei vari gruppi a sovrapporsi, nel grafico riprodotto si nota una netta separazione fra tre diversi raggruppamenti.

Nella prima zona dell'area di scavo, quindi, corrispondente al riparo propriamente detto, si è evidenziata una netta distinzione tra i modelli 2 e 4, mentre un terzo gruppo è risultato costituito indistintamente dai modelli 1 e 3. Per quanto, invece, attiene agli oggetti relativi al modello 5 che, come si è detto, non rientrano nell'ambito della classificazione effettuata, si è notato che essi tendono a occupare, nei grafici riprodotti, gli spazi rimasti vuoti.

Per quanto concerne, infine, le variabili che hanno contribuito con maggior peso alla discriminazione tra i diversi gruppi, la variabile "materiale" è risultata la più importante ai fini della distinzione e ad essa hanno fatto seguito gli attributi indicanti lo spessore degli oggetti e una delle 3 larghezze prese in considerazione. I risultati così ottenuti hanno dimostrato, in base a calcoli quantitativamente esatti, che i differenti modelli stabiliti a priori sono legittimi e che essi possono essere di conseguenza considerati come altrettanti "tipi" ben distinti fra loro» (25).

(1) L'analisi si basa infatti sui concetti di "similarità" e di "distanza", concetti analoghi anche se opposti: la distanza è minore per una maggiore similarità

(2) C. Renfrew - P. Bahn, Archeologia. Teorie. Metodi. Pratica, Zanichelli, Bologna 1995, p. 175

(3) R. Sokal - P. H. A. Sneath, Principles of Numerical Taxonomy, San Francisco-Londra 1963

(4) F. R. Hodson, Cluster Analysis and archaeology: Some new developments and applications, "World Archaeology", 1, 3, 1970; J. E. Doran - F. R. Hodson, Mathematics and Computers in Archaeology, Edimburgo 1975

(5) J. C. Bezdek, Pattern Recognition with Fuzzy Objective Function Algorithms, New York, Plenum Press, 1981

(6) E. Canal - S. Cavazzoni, Antichi insediamenti antropici nella laguna di Venezia: analisi multivariata di tipo "fuzzy c-means clustering", "Archeologia e Calcolatori", 1, 1990, pp. 171-172 (165-177)

(7) B. Everitt, Cluster Analysis, New York 1980, pp. 23-40

(8) P. Moscati, Archeologia e Calcolatori, Giunti Barbera, Firenze 1987, p. 79

(9) P. Moscati, Archeologia e Calcolatori, cit., p. 80

(10) Il coefficiente di similarità è un indice che definisce il grado di associazione tra due entità e assume di solito i valori compresi fra 0 (assenza di correlazione) e 1 (massimo valore di similarità).

(11) Per un esempio di Average linkage-weighted pair group si veda: N. Parmegiani - M. Poscolieri, Studio del territorio quale strumento per investigare le relazioni tra siti archeologici e ambiente circostante, in M. Campana - S. Forte (a cura di), Remote Sensing in Archaeology. XI Ciclo di Lezioni sulla Ricerca applicata in Archeologia (Certosa di Pontignano 1999), Firenze 2001 (articolo on line)

(12) Per un esempio di Uncostrained Clustering (Ward's method) si veda: S. di Lernia, Studio dei processi formativi del deposito e ricognizione di configurazioni spaziali in insediamenti all'aperto: analisi statistiche delle evidenze archeologiche di Terragne (Manduria, Taranto), in "Archeologia e Calcolatori", 7, 1996, pp. 346-353 (337-355)

(13) P. Moscati, Archeologia e Calcolatori, cit., pp. 87-88

(14) P. Moscati, Archeologia e Calcolatori, cit., pp. 89-90

(15) Va menzionata anche l'esistenza di un'altra famiglia di metodi di riduzione, costituita dall'Analisi delle Prossimità, e in particolare dal tipo di approccio più conosciuto e utilizzato soprattutto nei paesi anglosassoni: il non-metric multidimensional scaling (scala multidimensionale non-metrica), J. B. Kruskal, Multidimensional Scaling in Archaeology: Time is not the Only Dimension, in F. R. Hodson - D. G. Kendall - P. Tautu (a cura di), Proceedings of the Anglo-Romanian Conference on Mathematics in the Archaeological and Historical Sciences, Edimburgo 1971, pp. 119-132

(16) F. Djindjian, Etude quantitative des séries aurignaciennes de La Ferrassie par l'analyse des données, in "Bulletin de la Société Préhistorique Française", 74, 1977, pp. 357-361; F. Djindjian, Informatique et archéologie: une introduction, in "Rivista di Archeologia", 8, 1984, pp. 131-136; F. Djindjian - E. Vigneron, L'Analyse des Données au service de l'Archéologie Préistorique, in "Bulletin de la Société Préhistorique Française", 77, 1980, pp. 177-180

(17) P. Moscati, Archeologia e Calcolatori, cit., p. 91

(18) La "varianza" è un "indice di dispersione", è nulla solo nei casi in cui tutti i valori sono uguali tra di loro (e pertanto uguali alla loro media) e cresce con il crescere delle differenze reciproche dei valori

(19) A tal proposito si veda: M. Angle - M. Frangipane - A. M. Palmieri, Analisi statistiche e archeometria: uno studio sulle ceramiche del IV e III millennio a.C. provenienti da Arslantepe (Malatya, Turchia), "Archeologia e Calcolatori", 7, 1996, pp. 447-468

(20) P. Moscati, Archeologia e Calcolatori, cit., pp. 94-96

(21) I. Johnson, Cell frequency distribution and analysis of artifact distribution, in H. J. Hietala (a cura di), Intrasite Spatial Analysis in Archaeology, New Directions in Archaeology, Cambridge University Press, Cambridge 1984, pp. 75-96. A tal proposito si veda: A. Bietti, Nuove prospettive nelle analisi di correlazioni spaziali in preistoria, "Archeologia e Calcolatori", 4, 1993, pp. 41-46 (39-59)

(22) P. Moscati, Analisi statistiche multivariate sugli specchi etruschi, Contributi del Centro Linceo Interdisciplinare di Scienze Matematiche e loro Applicazioni, n. 74, Roma 1986

(23) P. Moscati, Archeologia e Calcolatori, cit., pp. 98-100

(24) P. Moscati, Archeologia e Calcolatori, cit., p. 104

(25) P. Moscati, Archeologia e Calcolatori, cit., pp. 105-106

per approfondire...

Statistica e archeologia:

· Arbia G. - Espa G., Statistical modelling of archaeological sites locations as non-stationary cox processes and its use in forecasting, "Archeologia e Calcolatori", 8, 1997, pp. 37-42

· Auda Y. - Boussac M. F., Un usage des tests non-paramétriques en archéologie: l'étude d'un dépòt d'archives à Délos, "Archeologia e Calcolatori", 8, 1997, pp. 119-128

· Baxter, M. J., Exploratory Multivariate Analysis in Archaeology, Edinburgh University Press, Edimburgo 1994

· Baxter M. J., Principal component analysis in archaeometry, "Archeologia e Calcolatori", 5, 1994, p. 38 ss.

· Bietti A. - Rambaldi A. - Zanello L., Un programma FORTRAN di "Cluster Analysis" per applicazioni archeologiche, paletnologiche e paleoecologiche, "Quaternaria", 20, 1978, pp. 49-85

· Bietti A., Metodi matematici e statistici applicati all'archeologia e alla paletnologia, Accademia Naz. dei Lincei, 1979

· Bietti A., Tecniche matematiche nell'analisi dei dati archeologici, Accademia Naz. dei Lincei, 1982

· Bietti A., Applicazioni di metodi matematici e statistici nell'analisi spaziale di siti del Paleolitico, in Atti della XXVII Riunione Scientifica dell'Istituto Italiano di Preistoria e Protostoria, 1989, pp. 251-274

· Bolviken E. - Helskog E. - Helskog K. - Holm Olsen I. M. - Solheim L. - Bertelsen R., Correspondence Analysis: An Alternative to Principal Components, "World Archaeology" 14, 1982, pp. 41-60

· Cazzella A. - Moscoloni M., Il complesso ceramico di Conelle di Arcevia: elaborazioni statistiche applicate a una tipologia intuitiva, "Archeologia e Calcolatori", 8, 1997, pp. 103-118

· Cowgill G. L., Getting Bayesian ideas across to a wide audience, "Archeologia e Calcolatori", 13, 2002, pp. 191-196

· di Lernia S., Studio dei processi formativi del deposito e ricognizione di configurazioni spaziali in insediamenti all'aperto: analisi statistiche delle evidenze archeologiche di Terragne (Manduria, Taranto), "Archeologia e Calcolatori", 7, 1996, pp. 337-356

· Djindjian F., Méthodes pour l'Archéologie, A. Colin, Parigi 1991

· Domanico L. - Passoni A., Analisi statistiche dei reperti ceramici: il caso di Sorgenti della Nova, "Archeologia e Calcolatori", 7, 1996, pp. 629-646

· Esquivel J. A. - al Oumaoui I. - Jiménez-Brobeil S., Statistical analysis using multi-state qualitative variables applied to the human dental morphological traits in the Bronze Age (Granada, Spain, 1300-1500 B.C.), "Archeologia e Calcolatori", 15, 2004, pp. 239-255

· Modrzewska I. - G. Taroni G., Analisi quantitativa di forme di alcune lucerne tardoromane, "Archeologia e Calcolatori", 3, 1992, pp. 36-75

· Moscati P., Archeologia e Calcolatori, Giunti Barbera, Firenze 1987, pp. 75-108

· Orton C., Mathematics in Archaeology, Londra 1980

· Orton C. R. - Tyers P. A., Statistical Analysis of ceramic assemblages, "Archeologia e Calcolatori", 1, 1990, pp. 81-110

· Robertson I. G., Spatial and Multivariate Analysis, Random Sampling Error, and Analytical Noise: Empirical Bayesian Methods at Teotihuacan, Mexico, "American Antiquity" 64, 1999, pp. 137-152

· Shennan S., Quantifying Archaeology, Edinburgh University Press, Edimburgo 1997

· Spaulding A. C., Statistical technique for the discovery of artifact types, "American Antiquity", 18, 1953, pp. 305-313

Statistica:

· Rizzi A., Analisi dei dati, NIS, Urbino 1990

· Zani S., Analisi dei dati statistici II, Giuffré ed., Milano 2000

risorse web:

· M. Piastra, Cure+: un'implementazione dell'algoritmo di clustering gerarchico agglomerativo "cure" con riferimento all'analisi di grandi volumi di dati, pp. 3-40

· S. Terzi, La Cluster analysis

· A. Pollice, Analisi dei gruppi (Cluster analysis)

· A. Pollice, Analisi fattoriale

· A. Pollice, Analisi delle componenenti principali

· A. Pollice, Analisi delle corrispodenze