Teoria e prassi della codifica dei manoscritti.
[To be published in the Acts of the International Seminar: Gli Zibaldoni di Boccaccio: Memoria, scrittura, riscrittura (Firenze 26-28 aprile 1996).] - Last revised: June 10, 1996.
Abstract: In Decembre 1995 Sperberg-McQueen, Lancashire, Durusau, Burnard, Müller, and DeRose discussed some important features of the problems concerning the encoding of texts and the use of SGML and TEI standards: interpretations necessary for each encoding; correct represenation of grapheme in electronic environment; relations between encoding and editorial practices; purposes of the author in graphically organizing the text; distinction of types of markup; materiality of the text and representation of connotations; allography and orthography. This contribution is an effort to trace a theoretical structure which may include all such problems and help to solve them. Such theoretical structure depends on clearing the semiotic passages through which a text (message) goes from the author to the (last) reader. To clarify such passages some concepts are taken into consideration: the competence of the author and of the encoder; the different levels of a text: physical, "virtual", ideal; meaning of features of the text outside the pure sequence of graphemes; specific features of the electronic representation of the text; representation vs. substitution. Encoding cannot be based on the physical appearence of the text, but on the "virtual" text in the mind of those who have written it, and should be able to represent each element in the text contributing to its meaning. The encoder should therefore propose a complete table of correspondences.
Il taglio di questa relazione sarà prevalentemente teorico, e tuttavia nel redigerla ho sempre avuto presente l'esigenza pratica di fornire, per quanto mi è possibile, un contributo fattivo al problema della memorizzazione su supporto magnetico dei manoscritti del Boccaccio. E vorrei sottolineare a questo proposito che il passaggio al supporto magnetico non nasce da moda o capriccio, ma dalle interessanti possibilità di analisi del testo che tale passaggio consente, e anche - occorre dirlo - dal fatto che, potendosi prevedere che in un futuro non lontano i testi verranno preferibilmente fruiti da supporto magnetico, prima si comincia ad operare seriamente quel passaggio, e meglio sarà.
Per dare un'idea concreta dei problemi teorici sollevati dal passaggio su memoria magnetica di testi scritti, vale la pena di riassumere una discussione, a mio parere illuminante, condotta nel dicembre 1995 nell'ambito di un importante "bollettino elettronico" chiamato Humanist, coordinato da Willard McCarty dell'Università di Toronto. (1) L'occasione venne data da un'osservazione di Russon Wooldridge (un francesista di Toronto), che affermava di preferire la codifica senza segni diacritici (accenti etc.) del francese ad una codifica mediante simboli che potevano essere interpretati in maniera ambigua dai software correnti di analisi testuale (cosí academie piuttosto che acad\emie) (9.321.1).
L'osservazione suscitò il disappunto di C. M. Sperberg-McQueen, (germanista ora programmatore a tempo pieno presso l'Università di Illinois), che affermò al contrario:
Tipi di markup: Prof. Lancashire is here falling prey, I think, to a common confusion of two distinct sets of polar opposites -- a confusion encouraged by many careless writers on markup. He opposes procedural markup and descriptive markup, when it would be better (in my opinion) to distinguish first procedural from declarative markup, and separately to distinguish presentational from analytic markup. (...) Procedural markup can be interpreted only as instructions to a program or device of some kind to perform this or that action. Declarative markup can be interpreted, by contrast, not as instructions to do something, but simply as a claim that something or other is true of a particular passage or location in a text. (...) The distinction between presentational markup and what I call analytic markup is different. Presentational markup describes, or imposes, the typographic presentation of the text, while analytic markup identifies the features of the text which are signaled by the typographic conventions. Italics, says the University of Chicago Manual of Style, may be used to signal rhetorical emphasis, or the title of a book, or the mention (not the use) of a word, e.g. in a linguistic discussion. To identify italics as italics one may use presentational markup; to identify italics as signaling the title of a book, or the mention of a word, one may use analytic markup. (9.349.1)
Martin Müller (9.362.3): Some deep belief in 'transcription without loss' underlies SGML/TEI. Texts are, in Nelson Goodman's terms, infinitely "allographic." and Michael Sperberg McQueen is an "allographer," who would unflinchingly accept a spelling of his name as a string of entity references if it had to come to that. On the other hand when Ian Lancashire argues for the irreducible elements of presentation, I think he is at some level arguing for the "autographic" aspects of the typesetter's art. Alphabets and derived codes are allographs that never quite free themselves from an autographic lure. Whether SMGL/TEI should be blessed or cursed for resisting the temptations of autography is a matter that should perhaps be left to theologians.
Steve DeRose (9.365.1): [To read something,] we turn an abstract orthographic notion of 'letter' into the press of a key, then into a bunch of bits, then into sound waves to go through the phone line, then back to bits, then to pixels on a screen, then to photons that strike the retina, then to patterns of neural activity that the reader classifies as the letter again. There is a legitimate (essentially allographic) sense in which the information is "the same" throughout, and a legitimate sense in which it is not. As Pike has often said, no matter what level of analysis you start at, there are more etic and emic levels above and below it that you cannot simultaneously analyze. Nothing new here. Does any of us know what signal our keyboard literally sends when we type Michael's name? It *could* be sending that "string of entity references": &cap.m;&i;... and we'd never know it. If some change in technology made that the most efficient way for computer- makers to do it, would we care? Mailers don't display 'Michael' as 01001101 01101001 01100011 01101000 01100001 01100101 01101100 -- this is interpretive too: We have a social convention against expressing information in a way that would be lost by the transformations/ interpretations just described (sometimes the convention is troublesome, as for those needing non-Latin-based writing systems, or concrete poets). Similar but not identical conventions have always been with us, perhaps due to the nature of human cognitive and pattern-extraction capabilities.
Riassiumiamo ora, senza particolare ordine, i problemi
emersi in questa discussione: ogni passaggio materiale del
testo è interpretativo; rappresentazione corretta dei
grafemi in ambiente elettronico; rapporto fra codifica e
analisi editoriali; rapporto fra le intenzioni dell'autore e
l'organizzazione grafica; distinzione di vari tipi di
markup, cioè di codifica in senso lato; rapporto
fra la materialità del testo e la rappresentazione di
connotazioni (vs.
Questo solo elenco sintetico mostra come ciascuno dei problemi, pur riferito ad una procedura unitaria, abbia implicazioni diversificate, e richiami ambiti teorici e relative discussioni che portano in molte diverse direzioni. Il mio tentativo vorrebbe essere quello di trovare una struttura teorica che possa coinvolgere tutti quei problemi singoli, dar conto della loro posizione reciproca, e aiutare a proporre soluzioni che mantengano una coerenza di base.
A tal fine penso che possano costituire un punto di partenza le osservazioni relative alla soggettività di ogni procedimento di codifica, che rimandano all'utilizzazione della competenza del lettore(-[ri-]codificatore) nel valutare il precedente stato di codifica, cosa che a sua volta rimanda ad un'osservazione di cui raramente si fa menzione, o tanto meno si tiene conto, a proposito di codifica elettronica di testi. Si tratta del fatto che l'azione della codifica elettronica viene ad inserirsi all'interno (e non dopo!) del processo semiotico di comunicazione fra autore e fruitore di un testo. Questo comporta che l'azione della codifica sia sottoposta a tutti i problemi (studiati soprattutto dalla semiotica, ma non solo...) relativi al processo sopra evocato, che, come oggi ognun sa, è assai complicato e richiama un gran numero di problemi.
Ma questo comporta anche (e soprattutto) che la codifica per supporto elettronico non è un procedimento che rimane parallelo ad una parte del processo semiotico di comunicazione, in modo da lasciare invariato nella sostanza tale processo. Al contrario, essa potrà lasciare invariato il risultato di tale processo (cioè l'esatta comprensione del contenuto del messaggio da parte del ricevente, che è quello che si vuole, o comunque che piú importa) soltanto se sarà perfettamente corretta proprio dal punto di vista del processo semiotico.
Procediamo con ordine, chiarendo preliminarmente (poi ci si tornerà) l'inserimento del concetto di competenza, e poi affrontando il processo semiotico di comunicazione testuale. Introduco il concetto di competenza nel procedimento di codifica sull'esempio della linguistica, ritenendo che vi sia un parallelismo (pur in alcune essenziali diversità) fra lingua e codice, in particolare codice per supporto elettronico. (2) Secondo le mie vedute, la competenza (per quanto attiene all'informatica, dunque in ambito formalizzato), è l'insieme di regole che hanno guidato un autore a produrre un determinato oggetto, nel senso di oggetto semiotico: p.es. un "testo". Sotto un altro aspetto, la competenza è la sintesi logica compiuta dell'autore sui singoli elementi di cui si compone un testo per determinarne certe relazioni per cui appunto i singoli elementi vengono a comporre quel testo, e non un altro. Per converso, la competenza di chi esamina un testo è ciò che permette di riconoscere la relazione fra gli elementi studiati, quando essi sono stati posti in determinate relazioni da una competenza "originaria". Tenendo presente che l'informatica deve formalizzare, cioè ridurre a simboli, la competenza rappresenta la padronanza teorica della struttura di un codice, vuoi in sá, vuoi nei rapporti fra codice e realtà che esso può essere chiamato a rappresentare.
Si può dire che la competenza dello studioso (del codificatore) deve essere una meta-struttura che consente di poter rappresentare con i simboli a disposizione le strutture che possono essere riconosciute negli oggetti che verranno rappresentati da questi simboli.
Come si vede, è essenziale per la codifica prendere in considerazione anche il concetto di testo. Ed in effetti uno dei principali motivi per cui, a differenza di quanto si crede normalmente, il problema della codifica è molto delicato consiste nel fatto che esso si innesta su quello della definizione di testo. Non mette nemmeno conto di ricordare quanti abbiano sottolineato l'ambiguità del concetto di testo; (3) quello che occorre fare in questa sede è individuare alcune caratteristiche del testo, che servono a chiarire i problemi della codifica.
Prima di tutto, il testo può essere considerato da due punti di vista molto differenti, quasi si potrebbe dire opposti. Il primo individua come testo la materialità di ciò che è scritto. Il testo "è" le pagine di un manoscritto o di un libro, o meglio ciò che vi risulta scritto. Il secondo individua come testo un contenuto ideale che fa da tramite fra l'autore e il "fruitore". (4) L'approccio piú comune alla codifica, sia esso cosciente o (come spesso accade) non cosciente, consiste nel prendere atto del testo (in senso materiale) come esso si presenta, in un manoscritto o in un libro, e inserire in memoria dei codici tali che, sottoposti ad un software scelto in precedenza, per lo piú un pacchetto di video-scrittura, riproducano al meglio sullo schermo e sulla stampante quel testo. Di là dalla considerazione tecnologica che il mondo dei software è molto mutevole, l'obiezione principale a questo modo di agire consiste nel fatto che esso perde di vista l'essenza del mezzo di comunicazione elettronico. Infatti in questo modo non si fa che riprodurre, sia pure in modo sofisticato, il consueto procedimento a stampa. Esso ha delle implicazioni che vengono generalmente sottaciute, e che invece farebbero emergere le caratteristiche vincenti dello strumento elettronico.
Quello che interessa, nel riprodurre il testo, non è in realtà il suo aspetto fisico (che assume il massimo rilievo coi sistemi convenzionali), ma è il suo significato. Per comprendere questo aspetto, basterà riflettere sui diversi elementi del testo materiale, e mettere in evidenza il fatto che alcuni di essi sono importanti, altri non lo sono, altri sono trattati in modo implicito. Ne indichiamo alcuni, a mo' di esempio:
Aspetti importanti (da riprodurre comunque): sequenza dei grafemi.
Aspetti non importanti (da non riprodurre come tali, possono
venire rifatti): organizzazione puramente estetica
della pagina. Divisione in linee, divisione delle parole
negli a capo, grandezza del corpo di scrittura, tipo delle polizze
organizzazione pratica: titoli correnti, numerazione delle
pagine, frontespizio, indice.
Aspetti di significati impliciti: alternanza di maiuscole e
minuscole, corsivi, evidenziazioni di vario genere,
virgolette, trattini, varianti ortografiche, etc.
In realtà molti degli aspetti non ritenuti importanti fanno parte del significato del testo; ma soprattutto gli aspetti impliciti ci indicano che la pura sequenza dei grafemi non è il solo elemento testuale da cui si possa ricavare il significato del testo.
Ma v'è di piú. Gli aspetti non importanti ci dicono che ciò che vogliamo riprodurre, anche nel sistema convenzionale, non è la pura apparenza fisica del testo, ma qualcosa che va oltre essa, anche se non è ancora il significato del testo nel suo senso piú generale. Il fatto che i grafemi possano essere di varia forma e dimensione ci indica che non sono i grafemi in sá che noi consideriamo (i glifi), ma un'idea astratta di ciascun grafema, che sta alla base delle sue manifestazioni materiali. Quando un codificatore memorizza un simbolo di lettera "a" senza specificare tipo di polizza, grandezza (point size), etc., implicitamente identifica un elemento ideale "lettera a" indipendente da ogni resa materiale di tale elemento. (5) Noi dunque non riproduciamo qualcosa di materiale, ma pur sempre un atto di comprensione spirituale, per individuare il quale si ricorre alla competenza (cf. sopra).
Tornando all'organizzazione grafica della pagina, è evidente che una corretta riproduzione del testo comporta che non si perdano le intenzioni dell'autore che tramite essa modificava il significato della pura sequenza dei grafemi. Coi sistemi convenzionali ciò era ottenuto riproducendo fisicamente i fenomeni grafici ritenuti significativi. Ma il sistema elettronico deve essere usato anche (e forse soprattutto) per analisi testuali che non comportano la sua visualizzazione complessiva: si pensi alle concordanze etc. Dunque è importante che la codifica elettronica includa dei segnali, oltre a quelli relativi ai grafemi, che collochino i grafemi nel loro giusto contesto, cioè ne indichi il significato in quel particolare momento.
Questo è il vero significato, dal punto di vista informatico, dell'osservazione che ogni codifica comporta una interpretazione del testo. Occorre un'indagine preliminare che stabilisca le intenzioni dell'autore nell'utilizzare i mezzi tecnici, dalla grafia all'organizzazione della pagina, per esprimere il suo messaggio. E, all'altro capo del procedimento, occorre dichiarare esplicitamente e con grande precisione la corrispondenza di ciascun segno del codice utilizzato con i singoli significati espressivi degli elementi del messaggio. Quando diciamo "ciascun segno" non intendiamo qui singoli byte (caratteri elettronici) ma anche gruppi di byte (p.es. i segnali SGML <...>) che esprimono singoli fenomeni.
Passando ora ad un altro argomento correlato a quelli precedenti, e che in certo modo ne forma la base, e cioè la specificità del mezzo elettronico, occorre chiarire la funzione del simbolo nella computazione, per poter stabilire quali valori possono essere associati con quel simbolo.
Esporrò su questo punto, brevemente, il mio punto di vista, che è stato svolto ampiamente in altri contributi. (6) Per le sue particolari caratteristiche, lo strumento informatico può essere utilizzato come il puro simulatore di uno strumento non informatico (macchina da scrivere, macchina tipografica, calcolatore, macchina fotografica, televisione, etc.). È soltanto quando si usa lo strumento informatico in quanto tale, cioè in quanto motore di automazione in procedure che normalmente vengono definite "intelligenti", che interviene la necessità di rendersi ben conto di quale sia la sua natura, e quali i presupposti di una buona utilizzazione.
Quello che è nuovo nell'uso di strumenti informatici (e per questo appunto vengono chiamati informatici, per distinguerli da tutti gli altri strumenti, che vengono implicitamente compresi in una medesima categoria, diciamo, di "convenzionali" consiste nel fatto che i passaggi in cui si evita l'intervento umano non sono passaggi di carattere puramente pratico e insomma materiale, ma passaggi che si esplicavano finora per lo piú mediante operazioni mentali. Questo presuppone che si accetti che l'informatica stessa non sia semplicemente un insieme di tecnologie, ma piuttosto di metodologie, e dunque una disciplina con un proprio fondamento teorico, che deve in qualche modo interagire con le metodologie delle singole discipline umanistiche. L'uso corretto del computer come macchina che realizza procedimenti logici sui dati, e nello stesso tempo funge da mezzo di comunicazione non passivo fra gli studiosi, richiede la consapevolezza dell'aspetto teorico che sta alla base dei vari tipi di macchina fisica che lo studioso utilizza.
Il computer assume aspetti diversissimi e può essere costruito con materiali diversissimi. Ciò che sta alla base di questa diversità è un meccanismo intimo, che guida le procedure operative. Sarà dunque questo "meccanismo" che dovrà fornire la chiave per intendere correttamente i rapporti fra il computer e le discipline umanistiche alle quali viene applicato.
In realtà, come nota Bolter, (7) il computer, nemmeno quando le simula, è alcuna delle macchine cui accennavo sopra, ma è lo strumento che "governa" quelle macchine. Per questo motivo l'informatica correttamente intesa è la disciplina che studia i principi di funzionamento del computer, ovverossia il modello formale (se si vuole matematico, ma in senso logico) del funzionamento del computer (macchina di Turing, algoritmi); quindi come metodologia del trattamento dei dati sottoposti al computer. Esso è un modello che produce modelli, e qui si inserisce la funzione del simbolo, come elemento costitutivo di un modello.
Occorre ora introdurre un ulteriore argomento, che chiarisce altri aspetti della codifica: la distinzione fra rappresentazione e sostituzione.
La rappresentazione è il modello di una dato procedimento, nel quale le singole parti corrispondono a quelle che costituiscono il procedimento, cosí come i rapporti fra le singole parti. La sostituzione è volta invece ad ottenere lo stesso effetto di un dato procedimento, mediante elementi e rapporti che non corrispondono, in tutto o in parte, a quelli del procedimento. La scrittura rispetto alla voce è da considerare una sostituzione, non una rappresentazione; essa è invece una rappresentazione del testo virtuale (cf. sotto), ma come codifica essa è imperfetta, perchá obbedisce a piú scopi differenti, e non segue la regola della biunivocità.
Nella tradizione manoscritta, una copia è la sostituzione del suo modello, mentre è la rappresentazione del testo virtuale come concepito dallo scriba. Questo testo virtuale è la sintesi fra la manifestazione materiale del modello e la competenza dello scriba. Allo stesso modo, un testo elettronico è la sostituzione del corrispondente testo cartaceo, oltretutto con le sostanziali differenze che il supporto elettronico presenta rispetto al supporto cartaceo. Viceversa, il testo elettronico è la rappresentazione del testo virtuale, analogamente ad un manoscritto o ad un libro. L'essenziale differenza qui è che la rappresentazione elettronica in sá è invisibile, e viene resa visibile attraverso determinati programmi e macchine (schermo, stampante).
Dalle osservazioni esposte sopra, deriva che la codifica di un testo presuppone la consapevolezza dei diversi livelli che il testo stesso assume nel corso della sua trasmissione semiotica. Dobbiamo cioè distinguere:
(a) un "testo ideale", che consiste nella rappresentazione pre-linguistica della realtà oggetto del messaggio; dunque il significato del testo, o in parole povere l'idea pre-linguistica da cui l'autore trae il messaggio che vuole comunicare.
(b) Un "testo virtuale", che consiste nella rappresentazione linguistica del testo ideale, tuttavia non ancora materializzata in onde sonore o in una scrittura. Si tratta di una sequenza di lettere ideali, che formano le strutture sintattiche (morfemi, sintagmi, proposizioni, periodi), accompagnata dagli elementi connotativi che verranno espressi in modo piú o meno adeguato adattandosi al mezzo di comunicazione materiale scelto.
(c) Un "testo materiale", che consiste nella rappresentazione materiale del testo virtuale, nella fattispecie una scrittura. Essa è una sequenza di glifi, opportunamente scelti per rappresentare le lettere ideali, ed alcune connotazioni (maiuscole per riverenza, corsivi per enfatizzazione, etc.) ed opportunamente organizzati per rappresentare ulteriori connotazioni, ovvero semplicemente per gusto estetico di composizione, o esigenze pratiche.
Il testo materiale è una codifica, generalmente imperfetta, del testo virtuale, attuata mediante la competenza di chi lo produce, che può essere l'autore stesso, o uno scriba, o un tipografo. Rispettivamente, si risale, tramite il testo materiale, al testo virtuale che stava nella mente dell'autore, oppure dello scriba, oppure del tipografo. In questi ultimi due casi, se si vuole risalire al testo virtuale dell'autore, occorre mettere in atto tutte quelle metodologie che permettono di risalire dall'uno all'altro.
Tuttavia, quale che sia lo scopo che ci si propone, la codifica su supporto magnetico non è la codifica del testo materiale, ma quella del testo virtuale, che si ottiene esaminando il testo materiale alla luce della competenza di chi lo ha prodotto. Solo questo permetterà di identificare tutti gli elementi singoli, atomici, che formeranno l'oggetto della codifica, e di formulare una tabella convenzionale di corrispondenza fra i codici, cioè i simboli della codifica, e quegli elementi.
(1) Notizie complete su Humanist si trovano nella pagina web: http://www.princeton.edu/~mccarty/humanist/humanist.html
(2) J. Fodor, M. Garrett, Some Reflections on Competence and Performance, in: Psycholinguistc Papers (eds. J. Lyon, R. J. Wales), Edinburgh, 1966. R. Raggiunti, Presupposti filosofici della linguistica di Chomsky, Milano, 1983 (cf. cap. 4). T. Winograd, Language as a Cognitive Process. Vol. I: Syntax, Addison-Wesley, 1983, p. 149-153.
(3) Rimandiamo a Segre, L'analisi del testo letterario, in: Avviamento all'analisi del testo letterario, p. 5-10 e 28-55 e W. Nöth, Handbook of Semiotics, Indiana U.P., 1990, p. 331-333.
(4) Cf. Burnard 349.2, quando nota che la codifica bene eseguita "allows you to make explicit your inferences. It's in the nature of things that those inferences should cover a very wide range -- from "compositor intended to use an italic typeface" at the one extreme to "author was thinking of his mother at this point" at the other." Burnard mette qui in evidenza l'opposizione fra testo come apparenza materiale e come contenuto, significato, mentale.
(5) Rimane poi da vedere se l'elemento ideale "a" sia il medesimo in diverse lingue. Qui il problema si complica terribilmente.
(6) Informatica Umanistica
, (Studi Superiori NIS, 78), Roma, La Nuova Italia Scientifica, 1990; Alla base dell'analisi dei testi: il problema della codifica, in: M. Ricciardi (ed.), Scrivere comunicare apprendere con le nuove tecnologie, Torino, 1995, p. 69-86. Informatica umanistica: realizzazioni e prospettive, in: AA.VV., Calcolatori e Scienze Umane, Milano 1992, p. 1-22.(7) Turing's Man, Chapel Hill, 1984. Tr. it. L'uomo di Turing, Parma, Pratiche, 1985, p. 15 e 47-52.