Il 20 febbraio 2019, a Padova, tengo un workshop su Reproducible science per archeologi dentro il convegno FOSS4G-IT 2019. Avete tempo fino a mercoledì 13 febbraio per iscrivervi.
Cosa facciamo
Questo workshop guida i partecipanti nella creazione di una analisi di dati archeologici, secondo i canoni della reproducible science sempre più diffusi a livello internazionale e trasversale.
Utilizzando software di elaborazione ben noti come il linguaggio R e l’ambiente di programmazione RStudio, partiremo da alcuni dataset e affronteremo i vari passaggi analitici che vengono trasposti sotto forma di codice: è una procedura pensata per rendere esplicito il processo di ricerca con i suoi meccanismi di tentativi ed errori, secondo il principio della ripetibilità sperimentale.
I partecipanti potranno intervenire attivamente con me nella definizione del percorso e del prodotto finale del workshop, esplorando le pratiche più attuali della open science archeologica diffuse a livello internazionale.
Ci colleghiamo ad altri workshop svolti negli anni scorsi negli USA da Ben Marwick e Matt Harris.
Come iscriversi
Vi potete registrare fino al 13 febbraio 2019 su questa pagina http://foss4g-it2019.gfoss.it/registrazione
Per l’iscrizione è richiesto un pagamento di 10 € che vanno a coprire i costi organizzativi dell’evento – non serve a pagare il sottoscritto.
Letture e riferimenti
Per partecipare servirà avere installato R, RStudio e se possibile anche Git:
Ecco, sono di nuovo arrivato ultimo anche su Medium. Giovedì scorso
ero arrivato per ultimo a Pompei, a notte ormai fonda, complice
ritardo epico del Frecciarossa 1000. Venerdì mattina, quando ho
incontrato Augusto e poi tutti gli altri compagni scriptores, ero
visibilmente assonnato, tanto da conferire un sapore onirico al
ritrovare previsto e imprevisto di vecchi amici, qualcuno in carne e
ossa, qualcuno materializzato per la prima volta a Pompei da una
istruzione PROJ4 benevola.
Se non avete ancora letto la versione dei fatti di Paola Romi (1, 2),
Paola Liliana Buttiglione, Marco Montanari, fatelo ora. Io posso solo
confermare che non ci eravamo quasi mai visti e abbiamo passato 48 ore
a “smanettare” gomito a gomito, tra ciliegie, taralli e tanto
caffé. Che il nostro obiettivo, un po’ scelto da noi e un po’
assegnato dagli organizzatori, era quello di dare a tutti (a tutti!)
la possibilità di vedere da vicino la sterminata mole di letteratura
accademica su Pompei, sui singoli edifici così come sulle
infrastrutture. A tutti vuol dire: agli studiosi, agli studenti, ai
visitatori, a chi tiene in piedi Pompei, a chi la ama, a chi ci vive.
Come nei Simpson, per la maggior parte dello Scriptorivm le
proporzioni di genere nella track Archæologica Academia erano 3
a 2. Come nei Simpson, alcuni di noi pigiavano bottoni con effetti a
migliaia di km di distanza, e scrivevano in modo ripetitivo le stesse
frasi su una lavagna senza fine. Poi c’erano le archeologhe, di cui
due pompeianiste DOCG (Paola Romi e Luana Toniolo, che a Pompei ci
lavora) e una smanettona ritrovata archeologa. Il loro entusiasmo è
travolgente come un’auto guidata da una bambina, un assolo jazz, una
città che rinasce. Io, che mi faccio chiamare steko ma in realtà sono
nato a Genova, sono uno di quelli che trascorrono ore interminabili
davanti a uno schermo scuro, on my own, e a Pompei ho visto con i miei
occhi la conoscenza condivisa che si faceva codice eseguibile, dato
aperto. Beati quelli che, pur vedendo solo il risultato, ci
crederanno.
Nessuno si è alzato dal tavolo senza aver imparato qualcosa: Zotero,
le insulae, l’età post-sismica, il web scraping, le case editrici sono
antipatiche. Tutti abbiamo abbracciato il culto di san Eric Poehler da
Massacciuccoli, facendoci tatuare sui polpacci la chiave API della sua
utenza Zotero, da cui abbiamo attinto a piene mani per creare il
prototipo della mappa / linea del tempo. Lo Scriptorivm è quel posto
magico dove se sbagli e dici “due regio” invece che “due regiones”
nessuno si offende, e magari ti spiega anche perché dovresti dire
regiones, ché la lingua latina non è volgare. Dove davanti a una
operazione tecnicamente impegnativa, nessuno si tira indietro e ci si
impadronisce insieme della tecnica. Dove devono venire a tirarti via
dalla sedia per la pausa pranzo perché vuoi assolutamente finire
quello che stai facendo. Dove presentiamo agli altri partecipanti
scriptores quello che abbiamo fatto ma nel frattempo Marco Montanari,
da Bologna, continua a sviluppare l’applicazione web.
Lo Scriptorivm è contagioso: che nessuno venga a guarirci!
A few weeks ago Flickr, the most popular photo-sharing website, started offering prints of Creative Commons-licensed works in their online shop, among other photographs that were uploaded under traditional licensing terms by their authors.
In short, authors get no compensation when one of their photographs is printed and sold, but they do get a small attribution notice. It has been pointed out that this is totally allowed by the license terms, and some big names seem totally fine with the idea of getting zero pennies when their work circulates in print, with Flickr keeping any profit for themselves.
Some people seemed actually pissed off and saw this as an opportunity to jump off the Flickr wagon (perhaps towards free media sharing services like Mediagoblin, or Wikimedia Commons for truly interesting photographs). Some of us, those who have been involved in the Creative Commons movement for years now, had a sense of unease: after all, the “some rights reserved” were meant to foster creativity, reuse and remixes, not as a revenue stream for Yahoo!, a huge corporation with no known mission of promoting free culture. I’m in the latter group.
But it’s OK, and it’s not really a big deal, for at least two reasons. There are just 385 pictures on display in the Creative Commons category on the Flickr Marketplace, but you’ve got one hundred million images that are actually available for commercial use. Many are beautiful, artistic works. Some are just digital images, that happen to have been favorited (or viewed) many times. But there’s one thing in common to all items under the Creative Commons label: they were uploaded to Flickr. Flickr is not going out there on the Web, picking out the best photographs that are under a Creative Commons license, or even in the public domain, I guess they are not legally comfortable with doing that, even if the license totally allows it. In fact, the terms and conditions all Flickr users agreed to state that:
[…] you give to Yahoo the following licence(s):
For photos, graphics, audio or video you submit or make available on publicly accessible areas of the Yahoo Services, you give to Yahoo the worldwide, royalty-free and non-exclusive licence to use, distribute, reproduce, adapt, publish, translate, create derivative works from, publicly perform and publicly display the User Content on the Yahoo Services
That’s not much different from a Creative Commons Attribution license, albeit much shorter and EULA-like.
In my opinion, until the day we see Flickr selling prints of works that were not uploaded to their service, this is not bad news for creators. Some users feel screwed, but I wouldn’t be outraged, not before seeing how many homes and offices get their walls covered in CC art.
The second reason why I’m a bit worried about the reaction to what is happening is that, uhm, anyone could have been doing this for years, taking CC-licensed stuff from Flickr, and arguably at lower prices (17.40 $ for a 8″ x 10″ canvas print?). Again, nobody did, at least not on a large scale. Probably this is because few people feel comfortable commercially appropriating legally available content ‒ those who don’t care do this stuff illegally anyway, Creative Commons or not. In the end, I think we’re looking at a big challenge: can we make the Commons work well for both creators and users, without creators feeling betrayed?
This short informative piece is written in English because I think it will be useful for anyone working on cultural heritage data, not just in Italy.
A few days ago the Istituto Centrale per il Catalogo e la Documentazione published an internal document for all offices in the Ministry of Culture (actual name is longer, but you got it), announcing imminent changes and the beginning of a process for publishing all records about cultural heritage items (I have no idea on the exact size but we’re in the millions of records). In short, all records will be publicly available, and there will be at least one image for each record ‒ you’ll get anything from small pieces of prehistoric flint to renaissance masterpieces, and more. That’s a huge step and we can only be happy to see this, the result of decades of cataloguing, years of digital archiving and … some lobbying and campaigning too. Do you remember Beni Culturali Aperti? The response from the ICCD had been lukewarm at best, basically arguing that the new strong requirements for open government data from article 68 of the Codice dell’Amministrazione Digitale did not apply at all to cultural heritage data. So nobody was optimistic about the developments to follow.
·
And unfortunately pessimism was justified. Here’s an excerpt from the document published last week:
Nota prot. n. 2975 del 17/11/2014 dell’Istituto Centrale per il Catalogo e la Documentazione
relevant sentence:
Le schede di catalogo verranno rese disponibili con la licenza Creative Commons CC BY-NC-SA
that would be
Catalog records will be made available under the Creative Commons CC BY-NC-SA license
And that was the (small) failure. CC BY-NC-SA is not an open license. The license makes commercial (= paid!) work with such data impossible or very difficult, at a time when the cultural heritage private sector could just benefit from full access to this massive dataset, with zero losses for the gatekeepers. At the same time when we have certified that open licenses are becoming more and more widespread and non-open licenses like BY-NC-SA are used less and less because they’re incompatible with anything else and inhibit reuse, someone decided that it was the right choice, against all internationa, European and national recommendations and regulations. We can only hope that a better choice will be made in the near future, but the record isn’tveryencouraging, to be honest.
I didn’t know Aaron Swartz. And yet his tragic end touched me a lot. I saw some friends and colleagues react strongly in the weeks following his death, as strong as you can be in front of a tragedy at least.
Aaron was only a few years younger than me. He had achieved so much, in so little time. He was an hero. He is an hero.
I was deeply touched and I am still sad especially because I do the kind of things that Aaron did, although on a much smaller scale. I am not an hero, of course.
In 2008 I started collecting air pollution data from a local government office. Everyday, one PDF. Later I started writing web scrapers for this dataset and others. I never really got to the point where the data could be of any use. Most of this was done out of frustration.
In 2009 I got a PhD scholarship from my university and with that came a VPN account that I could use from anywhere to access digital resources for which the university had a subscription (including part of JSTOR). I gave those credentials to several friends who had not the same privilege I had, and I didn’t worry, even though those were the same credentials used for my mailbox. You cannot even try to move your first steps into an academic career without access to this kind of resources.
I regularly share digital copies of prints, especially the incredibly awful copies made by photographing a book. Every single person I have been working with in the last three years does this regularly: scans, photographs, “pirate” PDFs or even pre-prints, because everything will do when you need a piece of “global” knowledge for your work. I have to break the rules so regularly that it feels normal. And yet, I don’t feel guilty for any of that, except for the fact that I didn’t take the next step with access to knowledge, giving to everyone and not just to a small circle of people.
Sometimes between 2008 and 2009 I helped making a copy of the entire archive of BIBAR (Biblioteca di Archeologia, mostly about medieval archaeology), hosted at my university. That’s more than 2 GB of academic papers, the same kind of content that Aaron took from JSTOR. Years later, that copy lives as a Torrent download, out of any restriction. It’s a small #pdftribute for Aaron.
Ne sentirete sicuramente parlare al prossimo convegno in cui si parla di innovazione e di duepuntozero e il futuro… nel frattempo la British Library avrà rilasciato altri dieci milioni di immagini.
You may have heard already about the new version of the Creative Commons family of licenses, released as 4.0. It contains a lot of improvements and there has been a tremendous effort towards standardisation. There will be translations but the license is the same for everyone and it is international (instead of many licenses for specific countries as with the previous 3.0 version).
What changed? Previously obscure areas (such as sui generis database rights) have been cleared and explicitly included in the licensing conditions. This is a major step towards reconciliation between licenses that have been developed specifically to address those sui generis rights (e.g. ODbL, now adopted by OpenStreetMap) and Creative Commons licenses with the corresponding “rights reserved” (e.g. CC-BY-SA matches the ODbL in their share-alike nature). Requirements for attribution have been adapted to the widespread usage of links in place of verbose lists. There are more changes of course, explained in various places on the Creative Commons website and wiki, but I found this page comparing license versions to be the best summary.
Perhaps little known is that if you are using Creative Commons Attribution Share-Alike (used by Wikipedia among others) you can immediately upgrade your existing content to the newer version of the license, because the “or any later version” clause (very familiar for adopters of the GNU GPL) is natively part of Creative Commons licenses since version 2.0.
I have upgraded the license of this blog and website to the new version and updated the sidebar widget to reflect the new license. As always, don’t try to write your own hand-crafted copyright statement, use the Creative Commons license chooser! Happy sharing.
For my non-Italian-speaking friends and readers: there is an older post in English, touching several of the topics discussed here.
Il 17 e 18 novembre ero a Paestum per il workshop “Il futuro dell’antico” organizzato dall’Associazione Nazionale Archeologi (ANA) che mi ha invitato a parlare di “Open archaeology”. I risvolti nel mondo professionale della cosiddetta (non da me) “rivoluzione” open mi interessano molto, in più non avevo mai partecipato alla Borsa Mediterranea del Turismo Archeologico (evento contenitore all’interno del quale si svolgeva il workshop) e tutto sommato mi mancava un viaggio agli estremi della logistica ferroviaria (sono passato sull’Albegna poche ore dopo la riapertura ‒ attraversando il disastro ancora nell’aria). Insomma, l’invito è stato veramente gradito.
Il logo della Borsa Mediterranea come appare sulla moquette
Gli otto anni del titolo si contano a partire dal 2004. Il 2004 non è solo l’anno in cui prese vita IOSA, ma più in generale si avviò un processo di convergenza tra realtà fino a quel momento isolate che poi avrebbe condotto nel 2006 al primo workshop di Grosseto.
Con il senno di poi il mio intervento non è stato dei più comprensibili. Proverò qui a svolgere il tema in modo più articolato, riflettendo sui punti che ho affrontato.
Ho iniziato con una domanda che mi pongo da qualche tempo, riassunta così:
tecnologia + futuro = futuro migliore?
Forse è banale domandarselo. Forse è incoerente con il fatto che gran parte delle mie attività hanno a che fare con la tecnologia. Ma se guardo l’archeologia del 2012 e la confronto con quella del 2002 (c’ero già dentro… il tempo passa) o del 1992, sarei disonesto se volessi vedere un radicale miglioramento avvenuto grazie alla tecnologia:
maggiore quantità di dati raccolti? Certamente sì, ma i dati solo ora iniziano timidamente a circolare in rete, 20 anni dopo l’invenzione del web, mentre un report di scavo o un volume monografico sono immutati in forma, dimensione e fruibilità;
maggiore qualità dei dati raccolti? Non saprei;
migliore comunicazione al pubblico? In alcuni casi, una ristretta minoranza;
grandi scoperte grazie alla tecnologia? Nemmeno l’ombra;
cambiamenti di paradigma? rivoluzioni copernicane? Lasciamo perdere.
Questo non significa che dobbiamo rinunciare alla tecnologia o rifiutarla. Al contrario dobbiamo appropriarcene molto più di quanto abbiamo fatto finora, e liberarci della fascinazione che esercita. Ma andiamo con ordine.
Delicious, GeoCities e il software libero
Ho portato l’esempio dei social network come anello debole del nostro uso dei sistemi di informazione. I social network più diffusi (Facebook, Twitter, Google+ e tutti gli altri) sono al di fuori del nostro controllo. Inseriamo informazioni, aggiornamenti, foto in sistemi di cui non possediamo la chiave. Sono sistemi gratuiti: il prodotto non è il sito web usato da noi, bensì siamo noi il prodotto. Non è solo teoria catastrofista, purtroppo, come dimostrano la chiusura di GeoCities e di Delicious, tanto per fare alcuni esempi. A quando la chiusura di Facebook? Una persona qualunque può credere ingenuamente alla durata eterna di qualcosa. Un’archeologa, un archeologo no, per definizione.
Questo è importante per capire il ruolo del software libero: esistono sistemi distribuiti, cioè non centralizzati, che funzionano secondo gli stessi principi del Web. Questo blog utilizza un software (WordPress) che posso installare su altri server, anche se questo ha un costo superiore all’utilizzo di un sistema gratuito. In questa dicotomia tra “libero ma costoso” e “proprietario ma gratuito” spero si possa finalmente superare la grande confusione tra software open source e software gratuito che ancora permane.
Che sia in rete o installato sui nostri pc, il software proprietario ci priva del controllo sulle informazioni e sui dati. Ma perché siamo tanto attirati dalle novità tecnologiche?
Nuove tecnologie?
Il GIS (al singolare maschile), il 3D, le reti neurali, il laser scanning, il web semantico, i social network… tutti episodi nella grande saga delle nuove tecnologie per l’archeologia. 20 anni fa la tecnologia dell’informazione era molto meno pervasiva, l’archeologia era molto più accademica e quindi in qualche caso eravamo veramente all’avanguardia nell’adozione di nuove tecnologie. Oggi tutto è cambiato, e fa sorridere che qualcuno pensi ancora di essere innovativo perché applica, usa o sviluppa tecnologia. Peraltro un sottoinsieme della tecnologia, cioè la tecnologia dell’informazione. È ovunque, è un nervo della nostra società. Non è una scelta.
Ricollegandomi all’intervento precedente di Paolo Güll, posso dire che gli archeologi devono ancora perdere la loro innocenza nei rapporti con la tecnologia e l’informatica, ancora intrisi di feticismo, timore, ignoranza. L’archeologo facci l’archeologo, no l’informatico! sento la eco di questo disperato appello ancora pulsare parlando con tanti colleghi … e invece no, è importante capire se un sistema di gestione dei dati è appropriato o meno, e non è qualcosa che si possa decidere in poco tempo, senza pensarci, senza discuterne, senza comprendere (l’autore dell’appello rimarrà anonimo, che è meglio).
In più, mentre subiamo l’evangelizzazione dei profeti delle nuove tecnologie, possiamo fare innovazione usando vecchie tecnologie come il web per condividere dati archeologici. Potevamo farlo anche 20 anni fa, ma non ne siamo stati capaci. Di condivisione dei dati ha parlato più concretamente Gabriele Gattiglia prima di me illustrando il progetto MAPPA.
Open: cosa apriamo precisamente?
“A piece of content or data is open if anyone is free to use, reuse, and redistribute it — subject only, at most, to the requirement to attribute and/or share-alike.”
Nella Open Definition, si dice che un dato o un contenuto sono aperti se soddisfano certe condizioni. Dati. Contenuti.
Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the “Software”), to deal in the Software without restriction, including without limitation […]
La licenza MIT è una delle più diffuse e comprensibili licenze di software libero. L’autore che la adotti per il proprio lavoro concede a chiunque, senza specificazione di provenienza, età, professione, autorizzazioni, il permesso di copiare, modificare, redistribuire il codice sorgente senza restrizioni né limitazioni. L’unica condizione è di citare l’autore.
Queste due definizioni sono importanti perché:
spiegano senza mezzi termini che per essere “open” dobbiamo dare qualcosa agli altri ‒ se per esempio dico di avere un “approccio open (source)” o una “filosofia open” non sto dando niente;
spiegano che i destinatari non devono essere definiti a priori (es. gli archeologi in possesso di un certo titolo di studio), ma devono essere universali.
Un mea culpa è d’obbligo per aver contribuito alla diffusione di locuzioni (slogan?) come open archaeology senza il necessario sottotitolo: software e dati liberi. Ma purtroppo l’ambiguità della parola open è ben oltre i confini dell’archeologia e dilaga. Quello che vi chiedo è di non inventare nuovi significati di open dovunque sia coinvolta la tecnologia dell’informazione: il significato c’è, è chiaro, e contribuisce all’esistenza di cose come Wikipedia. Anche perché in caso contrario pongo una minaccia (amichevole ‒ si capisce): di perseguitare chi usa a sproposito la open archaeology pretendendo che la metta in atto veramente.
Sarei solo pedante con questo discorso (Vittorio Fronza lo avrebbe già battezzato pippone diversi paragrafi fa, a buon diritto) se non ci fosse ArcheoFOSS. Ma invece c’è. Dal 2006 abbiamo iniziato a incontrarci, raccogliendo intorno allo stesso tavolo archeologi, informatici, avvocati, economisti, studenti. All’inizio il tema era semplice e chiaro: Free software, open source e open format nei processi di ricerca archeologica (alla faccia degli acronimi). Però nel giro di due anni ci siamo trovati a parlare di:
diritto di accesso ai dati;
ostacoli alla circolazione delle informazioni in rete;
proprietà intellettuale degli archeologi a contratto
Questo è accaduto per due motivi. Il primo motivo è che queste tematiche sono lo svolgimento naturale dei principi del software libero (libertà di condivisione, riconoscimento della propria opera) nel contesto dell’archeologia italiana. Il secondo motivo, più grave e tuttora in cerca di una soluzione vera, è che non esiste in Italia un’altra occasione per affrontare questi temi ‒ affrontarli davvero, non parlarne e basta. Ritengo quindi fondata la necessità del legame tra software libero e dati liberi in questo contesto (Paolo Güll dopo mi ha detto che la pensa diversamente, ma intanto Metarc usa Mediawiki, FastiOnLine è software libero dalla testa ai piedi, così come MAPPA).
L’accesso alle banche dati è diventato fondamentale anche a livello economico dopo l’introduzione dell’archeologia preventiva, perciò qualunque professionista può capire che questa battaglia (se si può chiamare così) è un obiettivo comune. Con l’introduzione del software libero nella Pubblica Amministrazione la condivisione dei dati è oggettivamente più semplice. Per i liberi professionisti e le piccole imprese (di medie e grandi non ne vedo in archeologia) si pone anche un’altra questione economica: investire sulla formazione o sui costi di licenza? E ancora, rifacendomi all’esempio dei social network, che vale però per qualunque servizio web, esternalizzare o fare rete? Mi piacerebbe, a maggior ragione nell’ambito di un incontro organizzato dall’ANA, che queste problematiche non fossero relegate alle scelte dei singoli ma affrontate collettivamente, che si tenesse conto del percorso già fatto in questi anni.
Un esempio di “open” che mi piace
L’apertura delle banche dati e del libero accesso al patrimonio informativo sui beni culturali non riguarda solo gli archeologi. Nel suo intervento Tsao Cevoli ha messo bene in evidenza come un modello sano di partecipazione alla gestione del patrimonio debba includere anche i cittadini.
Nel 2012 per la prima volta si è tenuto in Italia il concorso fotografico Wiki Loves Monuments. Il concorso è stato possibile (anche) grazie ad un accordo tra Ministero per i Beni e le Attività Culturali e Wikimedia Italia, che consentiva di fotografare liberamente i monumenti e siti archeologici che le soprintendenze segnalavano, con una particolare attenzione a quelli “minori” (con meno di 50.000 visitatori l’anno).
Anfiteatro di Capua – Nicola D’Orta – Il vincitore di Wiki Loves Monuments Italia 2012
Tutte le foto partecipanti al concorso sono state caricate su Wikimedia Commons con una licenza Creative Commons – Attribuzione – Condividi allo stesso modo (CC-BY-SA) che permette il riutilizzo senza limitazioni, a patto che si continuino a condividere i contenuti. A me questo sembra un grande esempio di “beni culturali open” in cui la rete serve a incentivare la partecipazione dei cittadini e la “appropriazione buona” dei beni culturali, con una eccezione temporanea ad una norma tra le più anacronistiche del Codice dei Beni Culturali e del Paesaggio.
Tirando le somme…
Nel 2007 avevo invitato Tsao Cevoli, presidente dell’ANA, al secondo workshop sull’archeologia e il software libero (non si chiamava ancora ArcheoFOSS), per parlare di accesso ai dati. Già allora avevamo capito che il software era necessario ma non sufficiente. Già allora avevamo capito che era fondamentale uscire dalle aule universitarie e diffondere una maggiore consapevolezza sugli strumenti e le pratiche di creazione e gestione delle informazioni. Ci siamo un po’ persi per strada e nonostante la partecipazione di professionisti e soprintendenze sia diventata un elemento costitutivo di ArcheoFOSS c’è ancora molto lavoro da fare per rendere questa consapevolezza elementare (nel senso scolastico) e universalmente diffusa.
Il bello di questo workshop è stato ritrovare lo stesso spirito di partecipazione e critica che siamo riusciti a creare in ArcheoFOSS, in una atmosfera seria ma sanamente informale (nella quale ho potuto rivendicare il diritto al mugugno all’inizio del mio intervento) . È un modo per andare dritti al sodo, senza girare intorno ai problemi.
Ho concluso più o meno così:
Io non credo nella condivisione della conoscenza come costituzione di super-intelligenze, di banche dati in grado di rispondere a tutte le domande, la conoscenza si fa costruendo e assemblando le banche dati. Spero invece che la crescente diffusione di dati archeologici in rete possa dare ‒ per dirla con Wu Ming ‒ asce di guerra alle archeologhe e agli archeologi di domani.
• · • · •
Appendice: standard e partecipazione
Sabato 17, durante la prima sessione del workshop, ho commentato l’intervento di Andrea D’Andrea sul web semantico, sottolineando che le ontologie CIDOC-CRM sono state create a tavolino da un gruppo ristretto di persone (per la gestione dei beni museali), ed è quindi difficile accettare che questi standard siano accettati da decine di migliaia di professionisti che se li vedono recapitare a scatola chiusa. È vero che CIDOC-CRM è uno standard ISO: tuttavia, mentre qualunque ingegnere impara che per certi aspetti del suo lavoro dovrà fare riferimento agli standard ISO di competenza, a nessun archeologo viene comunicata l’esistenza di questi standard, che rimangono dominio per pochi “scienziati dell’informazione” (cito D’Andrea) in grado di interagire con gli archeologi. Sono emersi anche problemi di ordine concettuale e filosofico, ma non li affronto qui. Mi è sembrato emblematico che D’Andrea stesso abbia definito “incomprensibili” alcuni dei principali concetti che tentava di esporre ‒ e che si continui a partire da concetti totalmente astratti (ontologie, modelli dati) senza riuscire ad entrare nel concreto e semplice svolgimento dei linked open data.
Ho fatto anche un incauto parallelo con lo sviluppo delle schede ICCD negli anni ’80 (a cui è seguita una opportuna correzione di Giuseppina Manca di Mores, che comunque mi è sembrata rafforzare il punto del mio discorso sull’importanza della partecipazione). L’importanza di standard costruiti tramite processi partecipativi è ritornata anche nelle discussioni di domenica e credo possa essere un punto di partenza per iniziare a confrontarsi con gli standard tecnici che già esistono in modo critico e iterativo (l’iteratività dei processi creativi mi piace molto ‒ ma ne parliamo un’altra volta), puntando alle buone pratiche.
The Annales Regni Francorum are a (rather boring) official chronicle of the early Carolingians, covering the years from 741 to 829. I remember studying the historiography of this period in the two classes of Medieval Latin Literature I’ve been following in my college years. What I could not remember, however, is that the Annales cite Populonium, supposedly a settlement not far to Vignale, also known from the Late Antique Tabula Peutingeriana.
The passage is the following:
In Tuscia Populonium civitas maritima a Grecis, qui Orobiotae vocantur, depraedata est. Mauri quoque de Hispania Corsicam ingressi in ipso sancto paschali sabbato civitatem quandam diripuerunt et praeter episcopum ac paucos senes atque infirmos nihil in ea reliquerunt.
Annales Regni Francorum, an excerpt from the 1561 edition. Note the misspelling of magna for maritima, and the fine Greek typing of Οροβιῶται.
It seems that Populonium was not a humble village, nor a dead city, but a civitas maritima. This small piece of history couples nicely with twodocuments from the year 770 that were written at the ecclesia S(an)c(t)i Uiti in Cornina, again not far from Vignale. There was a vibrant life, focused around possibly small centres, that were nevertheless part of a very large network, mostly ecclesiastical.
However, words alone do not tell a story. What was a civitas at the time of Charlemagne? Consistency isn’t perhaps the best quality of a text that could have been composed by ‘cut and paste’ during the late 9th century. On the map below are all the civitates mentioned as such in the Annales.
There are 40 civitates mentioned in the Annales. Most of them are in Italy and France, the heart of the Kingdom of the Franks, with some also in Germany, Croatia and Spain. Constantinople is a striking presence in this list, being the largest city in the world at that time (possibly together with Harun al-Rashid’s Baghdad). Therefore, it looks like size was not one of the qualifying criteria for defining a civitas. In fact, it becomes clear that they are more of a political body when we find peoples associated with a civitas, as for example the Autosiodorum civitatem where Charlemagne spent some time in the year 778 (if I am not mistaken).
So maybe it’s the episcopus who grants the title of civitas to Populonium. After all, the notion of civitas in Roman Latin is opposed to other terms defining the physical settlement such as urbs or oppidum, as in this excerpt from Rutilius Namatianus:
Agnosci nequeunt aevi monumenta prioris: Grandia consumpsit moenia tempus edax. Sola manent interceptis vestigia muris, ruderibus latis tecta sepulta iacent. Non indignemur mortalia corpora solvi: Cernimus exemplis oppida posse mori.
‒ Rutilius Namatianus, De reditu suo, I, 409-414
‒ Rutilius Namatianus, De reditu suo, I, 409-414
I like to cite this passage because it refers to Populonia, the Etruscan and Roman city that ruled the same territory I am discussing. Rutilius wrote his poem in the years 415 or 417, almost four centuries earlier than the texts presented above, so no direct links are (chrono)logically allowed. Whatever happened during those four centuries is a matter for archaeological research.
The problem with archaeology is that we can assess the rough date when a villa or village were abandoned or founded, but it is more difficult to follow people when they moved, especially if the move is from larger to smaller.
It should be clear that in the recipe there is a lot of hand-made work.
First I converted the HTML to plain text with html2text. The resulting file, that I called annales.txt for convenience, was then parsed with grep to identify all the occurrences of the term civitas. The command is:
$ grep -C 1 annales.txt "civita"
and allows to match all possible variants of the word, depending on the syntactical context. From the output of grep, I compiled by hand a list of the 40 places shown in the map. With 400, it would have been better to devise a semi-automated procedure, but in this case I preferred to concentrate on the results. A list of place-names is perfect for geocoding, except that there is no geocoding service for the 9th century! My list became a table (in a CSV file), and in a second column I added the modern name of the place, together with the country and the ZIP code to make geocoding more reliable.
Enter geopy, a Python library for geocoding, that supports several backend services, including GeoNames. A short script, and we have a set of coordinates for our Early Medieval civitates, ready to fit on a map. I loaded the CSV file in QGIS, added a background from Natural Earth, tweaked the labels and the map was ready. All done? Not really.
Creating a dataset
I want to have a small but solid dataset for this map, so I thought the best thing would be to find the corresponding Pleiades place. Pleiades has a blurred definition of Antiquity, but being a derivative of the Barrington Atlas there is very little Early Medieval knowledge in it. That’s where Regnum Francorum Online (RFO) comes in: thanks to the one-to-one mapping between places in RFO and Pleiades, I could look for the corresponding Pleiades URI for most places. In some cases, this is not possible (there is no RFO nor Pleiades place for Rota and Venice, yet, but I used Torcello as a convenient compromise for the latter) or it is difficult (as in the case of Smeldingorum, to be found in Germany without a more detailed location).
Humans make mistakes. When the map was ready, I checked again that everything was in place. The combination of RFO and Pleiades was very helpful: for example, I mis-attributed Tarvisium to modern Tarvisio whereas in fact it is Treviso and I found out that Rota is not modern Roses but the smaller inland village of Roda de Ter (a detailed account of the siege is on the Catalan Viquipèdia).
Riprendendo uno scambio di e-mail avvenuto ieri, ricopio alcuni commenti che ho fatto sulla bozza della nuova licenza per i fornitori dei contenuti di CulturaItalia. In breve, CulturaItalia raccoglie metadati su tutto il patrimonio culturale italiano da una molteplicità di fornitori (tra cui le Regioni), e li ri-pubblica come un unico enorme database. CulturaItalia è la componente italiana di Europeana, la biblioteca digitale europea.
Sono almeno due anni che segnalo allo staff di CulturaItalia che la licenza Creative Commons BY-NC-SA è inappropriata. Per questo, il cambiamento da BY-NC-SA a CC0 (la migliore approssimazione del pubblico dominio possibile in Italia) mi sembra una notizia veramente importante. La bozza della nuova licenza riguarda il rapporto tra fornitori di metadati e CulturaItalia, e non il rapporto tra CulturaItalia e gli utenti del servizio.
Purtroppo, ci sono alcuni aspetti che lasciano ancora a desiderare.
Premessa
[…]
“Per ciò che riguarda le Anteprime, il Fornitore sarà tenuto a specificare i termini e le condizioni secondo cui il MIBAC è autorizzato a permetterne l’uso ai visitatori di CulturaItalia.”
Quindi le anteprime non sono automaticamente CC0, di fatto uno spreco di energie dal momento che sono un contenuto di grande valore per il pubblico, ma certamente molto meno per i fornitori. In più, questo comporta una molteplicità di licenze per i contenuti di CulturaItalia, rendendo l’uso più complicato (ormai ho deciso che “riuso” va abolito, e ogni uso è riuso).
Art. 3.3
“La concessione della Licenza al MIBAC si riferisce inoltre a Metadati di pubblico dominio, e cioè dati che non siano oggetto di diritti esclusivi del Fornitore di contenuti ma che si trovino nella materiale disponibilità o controllo, esclusivo o non esclusivo, di quest’ultimo.”
Questo passaggio è problematico perché non è chiaro quale percentuale di metadati siano in questa situazione, anche se come ha notato Raimondo Iemma si tratta semplicemente di una constatazione della non applicabilità dei termini della licenza a questo sottoinsieme.
Art. 5
“La raccolta e il riordino dei contenuti – Anteprime e Metadati – da parte del MIBAC, l’organizzazione e il loro sviluppo in strutture informative idonee alla consultazione e all’archiviazione nonché alla relazione con contenuti di terze parti possono far sorgere diritti esclusivi sulle banche dati complessivamente risultanti da tale attività, a norma, rispettivamente, dell’articolo 1, secondo comma, e dell’ articolo 102-bis della legge italiana sul diritto d’autore n. 633 del 1941. I diritti su tali banche dati spettano al MIBAC”
Sebbene sia importante richiamare il diritto sui generis sulle banche dati, non è chiaro se il fatto che i diritti spettino al MIBAC li renda soggetti a CC0 o meno. Considerato che questa bozza di licenza si applica ai metadati forniti al MIBAC e non dal MIBAC, sembra trattarsi di un avvertimento rivolto ai fornitori, che non potranno vantare diritti esclusivi sulla costituzione e il mantenimento della banca metadati (o meta-banca dati, se volete).
Infine, viene segnalata una API per l’accesso ai metadati, e risorse stabili da utilizzare come Linked Open Data. Mi auguro che venga consentito il download bulk.
Aggiornamento del 18 maggio 2012
Raimondo Iemma e Saverio Giulio Malatesta dal ForumPA riportano i seguenti aggiornamenti (link alle e-mail di Raimondo e Saverio):
CulturaItalia sta aggiornando, mediante nuovo accordo con i fornitori, i termini d’uso dei metadati contenuti (e di quelli che verranno inseriti) nel proprio catalogo. Alcuni tra questi andranno in CC0, ove non possibile rimarranno in CC BY-NC 2.5.
Il diritto sulla banca dati rimane in capo a MIBAC, che non vi rinuncia.
In teoria i metadati dovrebbero anche essere esposti entro qualche formalismo semantico.
Tutto ciò viene fatto per conformarsi agli standard Europeana. Il processo dovrebbe essere completato entro la fine dell’anno.
a cui si aggiunge la precisazione:
i dati digitali reali (sembra un ossimoro) rimangono proprietà degli enti di appartenenza, che possono comunque disporne come vogliono. Nel suo intervento [Rosa] Caffo [del MIBAC] ha […] riferito che non tutte le sorgenti sono favorevoli al CC0 imposto da Europeana, e che stanno discutendo su come ovviare all’inconveniente anche per i dati e metadati forniti loro in esclusiva da Google, con il quale hanno firmato un’intesa di non sfruttamento commerciale per 15 anni, cozzando dunque contro la CC0.