Teoria e prassi della codifica dei manoscritti.
[To be published in the Acts of the International Seminar: Gli Zibaldoni di Boccaccio: Memoria, scrittura, riscrittura (Firenze 26-28 aprile 1996).] - Last revised: June 10, 1996.
Abstract: In Decembre 1995 Sperberg-McQueen, Lancashire, Durusau, Burnard, Müller, and DeRose discussed some important features of the problems concerning the encoding of texts and the use of SGML and TEI standards: interpretations necessary for each encoding; correct represenation of grapheme in electronic environment; relations between encoding and editorial practices; purposes of the author in graphically organizing the text; distinction of types of markup; materiality of the text and representation of connotations; allography and orthography. This contribution is an effort to trace a theoretical structure which may include all such problems and help to solve them. Such theoretical structure depends on clearing the semiotic passages through which a text (message) goes from the author to the (last) reader. To clarify such passages some concepts are taken into consideration: the competence of the author and of the encoder; the different levels of a text: physical, "virtual", ideal; meaning of features of the text outside the pure sequence of graphemes; specific features of the electronic representation of the text; representation vs. substitution. Encoding cannot be based on the physical appearence of the text, but on the "virtual" text in the mind of those who have written it, and should be able to represent each element in the text contributing to its meaning. The encoder should therefore propose a complete table of correspondences.
Il taglio di questa relazione sarà prevalentemente teorico, e tuttavia nel redigerla ho sempre avuto presente l'esigenza pratica di fornire, per quanto mi è possibile, un contributo fattivo al problema della memorizzazione su supporto magnetico dei manoscritti del Boccaccio. E vorrei sottolineare a questo proposito che il passaggio al supporto magnetico non nasce da moda o capriccio, ma dalle interessanti possibilità di analisi del testo che tale passaggio consente, e anche - occorre dirlo - dal fatto che, potendosi prevedere che in un futuro non lontano i testi verranno preferibilmente fruiti da supporto magnetico, prima si comincia ad operare seriamente quel passaggio, e meglio sarà.
Per dare un'idea concreta dei problemi teorici sollevati dal passaggio su memoria magnetica di testi scritti, vale la pena di riassumere una discussione, a mio parere illuminante, condotta nel dicembre 1995 nell'ambito di un importante "bollettino elettronico" chiamato Humanist, coordinato da Willard McCarty dell'Università di Toronto. (1) L'occasione venne data da un'osservazione di Russon Wooldridge (un francesista di Toronto), che affermava di preferire la codifica senza segni diacritici (accenti etc.) del francese ad una codifica mediante simboli che potevano essere interpretati in maniera ambigua dai software correnti di analisi testuale (cosí academie piuttosto che acad\emie) (9.321.1).
L'osservazione suscitò il disappunto di C. M. Sperberg-McQueen, (germanista ora programmatore a tempo pieno presso l'Università di Illinois), che affermò al contrario:
Tipi di markup: Prof. Lancashire is here falling prey, I
think, to a common confusion of two distinct sets of polar
opposites -- a confusion encouraged by many careless writers on
markup. He opposes procedural markup and descriptive markup,
when it would be better (in my opinion) to distinguish first
procedural from declarative markup, and separately to distinguish
presentational from analytic markup. (...) Procedural markup can
be interpreted only as instructions to a program or device of
some kind to perform this or that action. Declarative markup can
be interpreted, by contrast, not as instructions to do something,
but simply as a claim that something or other is true of a
particular passage or location in a text. (...) The distinction
between presentational markup and what I call analytic markup is
different. Presentational markup describes, or imposes, the
typographic presentation of the text, while analytic markup
identifies the features of the text which are signaled by the
typographic conventions. Italics, says the University of Chicago
Manual of Style, may be used to signal rhetorical emphasis, or
the title of a book, or the mention (not the use) of a word, e.g.
in a linguistic discussion. To identify italics as italics one
may use presentational markup; to identify italics as signaling
the title of a book, or the mention of a word, one may use
analytic markup. (9.349.1)
Martin Müller (9.362.3): Some deep belief in 'transcription
without loss' underlies SGML/TEI. Texts are, in Nelson Goodman's
terms, infinitely "allographic." and Michael Sperberg McQueen is
an "allographer," who would unflinchingly accept a spelling of
his name as a string of entity references if it had to come to
that. On the other hand when Ian Lancashire argues for the
irreducible elements of presentation, I think he is at some level
arguing for the "autographic" aspects of the typesetter's art.
Alphabets and derived codes are allographs that never quite free
themselves from an autographic lure. Whether SMGL/TEI should be
blessed or cursed for resisting the temptations of autography is
a matter that should perhaps be left to theologians.
Steve DeRose (9.365.1): [To read something,]
we turn an abstract orthographic notion of 'letter'
into the press of a key, then into a bunch of bits, then
into sound waves to go through the phone line, then back to bits,
then to pixels on a screen, then to photons that strike the
retina, then to patterns of neural activity that the reader
classifies as the letter again. There is a legitimate
(essentially allographic) sense in which the information is "the
same" throughout, and a legitimate sense in which it is not. As
Pike has often said, no matter what level of analysis you start
at, there are more etic and emic levels above and below it that
you cannot simultaneously analyze. Nothing new here. Does any of
us know what signal our keyboard literally sends when we type
Michael's name? It *could* be sending that "string of entity
references": &cap.m;&i;... and we'd never know it. If some change
in technology made that the most efficient way for computer-
makers to do it, would we care? Mailers don't display 'Michael'
as 01001101 01101001 01100011 01101000 01100001 01100101 01101100
-- this is interpretive too: We have a social convention against
expressing information in a way that would be lost by the
transformations/ interpretations just described (sometimes the
convention is troublesome, as for those needing non-Latin-based
writing systems, or concrete poets). Similar but not identical
conventions have always been with us, perhaps due to the nature
of human cognitive and pattern-extraction capabilities.
Riassiumiamo ora, senza particolare ordine, i problemi
emersi in questa discussione: ogni passaggio materiale del
testo è interpretativo; rappresentazione corretta dei
grafemi in ambiente elettronico; rapporto fra codifica e
analisi editoriali; rapporto fra le intenzioni dell'autore e
l'organizzazione grafica; distinzione di vari tipi di
markup, cioè di codifica in senso lato; rapporto
fra la materialità del testo e la rappresentazione di
connotazioni (vs.
Questo solo elenco sintetico mostra come ciascuno dei
problemi, pur riferito ad una procedura unitaria, abbia
implicazioni diversificate, e richiami ambiti teorici e
relative discussioni che portano in molte diverse
direzioni. Il mio tentativo vorrebbe essere
quello di trovare una struttura
teorica che possa coinvolgere tutti quei problemi singoli,
dar conto della loro posizione reciproca, e aiutare a
proporre soluzioni che mantengano una coerenza di base.
A tal fine penso che possano costituire un punto di partenza
le osservazioni relative alla soggettività di ogni
procedimento di codifica, che rimandano all'utilizzazione della
competenza del lettore(-[ri-]codificatore) nel valutare il
precedente stato di codifica, cosa che a sua volta rimanda
ad un'osservazione di cui raramente si fa menzione, o tanto
meno si tiene conto, a proposito di codifica elettronica di
testi. Si tratta del fatto che l'azione della codifica
elettronica viene ad inserirsi all'interno (e non dopo!) del
processo semiotico di comunicazione fra autore e fruitore
di un testo. Questo comporta che l'azione della codifica sia
sottoposta a tutti i problemi (studiati soprattutto dalla
semiotica, ma non solo...) relativi al processo sopra
evocato, che, come oggi ognun sa, è assai complicato e
richiama un gran numero di problemi.
Ma questo comporta anche (e soprattutto) che la codifica per
supporto elettronico non è un procedimento che rimane
parallelo ad una parte del processo semiotico di
comunicazione, in modo da lasciare invariato nella sostanza
tale processo. Al contrario, essa potrà lasciare
invariato il risultato di tale processo (cioè
l'esatta comprensione del contenuto del messaggio da parte
del ricevente, che è quello che si vuole, o comunque che
piú importa) soltanto se sarà perfettamente corretta
proprio dal punto di vista del processo semiotico.
Procediamo con ordine, chiarendo preliminarmente (poi ci
si tornerà) l'inserimento del concetto di competenza, e
poi affrontando il processo semiotico di comunicazione
testuale. Introduco il concetto di competenza nel
procedimento di codifica sull'esempio della linguistica,
ritenendo che vi sia un parallelismo (pur in alcune
essenziali diversità) fra lingua e codice, in particolare
codice per supporto elettronico.
(2)
Secondo le mie vedute, la competenza (per
quanto attiene all'informatica, dunque in ambito
formalizzato), è l'insieme di regole che hanno
guidato un autore a produrre un determinato oggetto, nel
senso di oggetto semiotico: p.es. un "testo".
Sotto un altro aspetto, la competenza è la sintesi logica
compiuta dell'autore sui singoli elementi di cui si compone
un testo per determinarne certe relazioni per cui appunto i
singoli elementi vengono a comporre quel testo, e non un
altro. Per converso, la competenza di chi esamina un testo
è ciò che permette di riconoscere la relazione
fra gli elementi studiati, quando essi sono stati posti in
determinate relazioni da una competenza "originaria".
Tenendo presente che l'informatica
deve formalizzare, cioè ridurre a simboli,
la competenza rappresenta la padronanza teorica della
struttura di un codice, vuoi in sá, vuoi nei rapporti fra
codice e realtà che esso può essere chiamato a
rappresentare.
Si può dire che la competenza dello studioso (del
codificatore) deve essere una meta-struttura che consente di
poter rappresentare con i simboli a disposizione le
strutture che possono essere riconosciute negli oggetti che
verranno rappresentati da questi simboli.
Come si vede, è essenziale per la codifica prendere in
considerazione anche il concetto di testo. Ed in effetti
uno dei principali motivi per cui, a differenza di quanto si
crede normalmente, il problema della codifica è molto
delicato consiste nel fatto che esso si innesta su quello della
definizione di testo. Non mette nemmeno conto di ricordare
quanti abbiano sottolineato l'ambiguità del concetto di
testo;
(3)
quello che occorre fare in questa sede è individuare
alcune caratteristiche del testo, che servono a chiarire i
problemi della codifica.
Prima di tutto, il testo può essere considerato da due
punti di vista molto differenti, quasi si potrebbe dire
opposti. Il primo individua come testo la materialità di
ciò che è scritto. Il testo "è" le pagine di
un manoscritto o di un libro, o meglio ciò che vi
risulta scritto. Il secondo individua come testo un
contenuto ideale che fa da tramite fra l'autore e il
"fruitore".
(4)
L'approccio piú comune alla codifica, sia esso cosciente
o (come spesso accade) non cosciente, consiste nel prendere
atto del testo (in senso materiale) come esso si presenta,
in un manoscritto o in un libro, e inserire in memoria dei
codici tali che, sottoposti ad un software scelto in
precedenza, per lo piú un pacchetto di video-scrittura,
riproducano al meglio sullo schermo e sulla stampante quel
testo. Di là dalla considerazione tecnologica che il
mondo dei software è molto mutevole, l'obiezione
principale a questo modo di agire consiste nel fatto che
esso perde di vista l'essenza del mezzo di comunicazione
elettronico. Infatti in questo modo non si fa che riprodurre,
sia pure in modo sofisticato, il consueto procedimento a
stampa. Esso ha delle implicazioni che vengono generalmente
sottaciute, e che invece farebbero emergere le
caratteristiche vincenti dello strumento elettronico.
Quello che interessa, nel riprodurre il testo, non è in
realtà il suo aspetto fisico (che assume il massimo
rilievo coi sistemi convenzionali), ma è il suo
significato. Per comprendere questo aspetto, basterà
riflettere sui diversi elementi del testo materiale, e
mettere in evidenza il fatto che alcuni di essi sono
importanti, altri non lo sono, altri sono trattati in modo
implicito. Ne indichiamo alcuni, a mo' di esempio:
Aspetti importanti (da riprodurre comunque): sequenza dei grafemi.
In realtà molti degli aspetti non ritenuti importanti
fanno parte del significato del testo; ma soprattutto gli
aspetti impliciti ci indicano che la pura sequenza dei
grafemi non è il solo elemento testuale da cui si possa
ricavare il significato del testo.
Ma v'è di piú. Gli aspetti non importanti ci dicono
che ciò che vogliamo riprodurre, anche nel sistema
convenzionale, non è la pura apparenza fisica del testo,
ma qualcosa che va oltre essa, anche se non è ancora il
significato del testo nel suo senso piú generale. Il
fatto che i grafemi possano essere di varia forma e
dimensione ci indica che non sono i grafemi in sá che noi
consideriamo (i glifi), ma un'idea astratta di ciascun
grafema, che sta alla base delle sue manifestazioni
materiali.
Quando un codificatore memorizza un simbolo di lettera
"a" senza specificare tipo di polizza, grandezza
(point size), etc., implicitamente identifica un elemento
ideale "lettera a" indipendente da ogni resa
materiale di tale elemento.
(5)
Noi dunque non riproduciamo qualcosa di materiale, ma pur
sempre un atto di comprensione spirituale, per individuare
il quale si ricorre alla competenza (cf. sopra).
Tornando all'organizzazione grafica della pagina, è
evidente che una corretta riproduzione del testo comporta
che non si perdano le intenzioni dell'autore che tramite
essa modificava il significato della pura sequenza dei
grafemi. Coi sistemi convenzionali ciò era ottenuto
riproducendo fisicamente i fenomeni grafici ritenuti
significativi. Ma il sistema elettronico deve essere usato
anche (e forse soprattutto) per analisi testuali che non
comportano la sua visualizzazione complessiva: si pensi alle
concordanze etc. Dunque è importante che la codifica
elettronica includa dei segnali, oltre a quelli relativi ai
grafemi, che collochino i grafemi nel loro giusto contesto,
cioè ne indichi il significato in quel particolare
momento.
Questo è il vero significato, dal punto di vista
informatico, dell'osservazione
che ogni codifica comporta una interpretazione
del testo. Occorre un'indagine preliminare che stabilisca le
intenzioni dell'autore nell'utilizzare i mezzi tecnici,
dalla grafia all'organizzazione della pagina, per esprimere
il suo messaggio. E, all'altro capo del procedimento,
occorre dichiarare esplicitamente e con grande precisione la
corrispondenza di ciascun segno del codice utilizzato con i
singoli significati espressivi degli elementi del messaggio.
Quando diciamo "ciascun segno" non intendiamo qui
singoli byte (caratteri elettronici) ma anche gruppi di byte
(p.es. i segnali SGML <...>) che esprimono singoli
fenomeni.
Passando ora ad un altro argomento correlato a quelli
precedenti, e che in certo modo ne forma la base, e cioè
la specificità del mezzo elettronico,
occorre chiarire la funzione del simbolo nella
computazione, per poter stabilire
quali valori possono essere associati con quel simbolo.
Esporrò su questo punto, brevemente, il mio punto di vista,
che è stato svolto ampiamente in altri contributi.
(6)
Per le sue particolari caratteristiche, lo strumento informatico
può essere utilizzato come il puro simulatore di uno strumento non
informatico (macchina da scrivere, macchina tipografica,
calcolatore, macchina fotografica, televisione, etc.). È
soltanto quando si usa lo strumento informatico in quanto tale,
cioè in quanto motore di automazione in procedure che
normalmente vengono definite "intelligenti",
che interviene la necessità di rendersi ben conto di quale sia
la sua natura, e quali i presupposti di una buona utilizzazione.
Quello che è nuovo nell'uso di strumenti informatici (e per
questo appunto vengono chiamati informatici, per distinguerli da
tutti gli altri strumenti, che vengono implicitamente compresi in
una medesima categoria, diciamo, di "convenzionali"
consiste nel fatto che i passaggi in cui si evita l'intervento
umano non sono passaggi di carattere puramente pratico e
insomma materiale, ma passaggi che si esplicavano finora per lo
piú mediante operazioni mentali.
Questo presuppone che si accetti che l'informatica stessa non
sia semplicemente un insieme di tecnologie, ma piuttosto di
metodologie, e dunque una disciplina con un proprio fondamento
teorico, che deve in qualche modo interagire con le metodologie
delle singole discipline umanistiche. L'uso corretto del computer
come macchina che realizza procedimenti logici sui dati, e nello
stesso tempo funge da mezzo di comunicazione non passivo fra gli
studiosi, richiede la consapevolezza dell'aspetto teorico che sta
alla base dei vari tipi di macchina fisica che lo studioso utilizza.
Il computer assume aspetti diversissimi
e può essere costruito con materiali diversissimi.
Ciò che sta alla base di questa
diversità è un meccanismo intimo, che guida le
procedure operative. Sarà dunque questo "meccanismo"
che dovrà fornire la chiave per intendere correttamente
i rapporti fra il computer e le discipline umanistiche
alle quali viene applicato.
In realtà, come nota Bolter,
(7)
il computer, nemmeno quando
le simula, è alcuna delle macchine cui accennavo sopra, ma
è lo strumento che "governa" quelle macchine. Per questo
motivo l'informatica correttamente intesa è la
disciplina che studia i principi di funzionamento del
computer, ovverossia il modello formale (se si vuole
matematico, ma in senso logico) del funzionamento del
computer (macchina di Turing, algoritmi); quindi come
metodologia del trattamento dei dati sottoposti al computer.
Esso è un modello che produce modelli, e qui
si inserisce la funzione del simbolo, come elemento
costitutivo di un modello.
Occorre ora introdurre un ulteriore argomento, che chiarisce
altri aspetti della codifica: la distinzione fra
rappresentazione e sostituzione.
La rappresentazione è il modello di una dato
procedimento, nel quale le singole parti corrispondono a
quelle che costituiscono il procedimento, cosí come i
rapporti fra le singole parti. La sostituzione è volta
invece ad ottenere lo stesso effetto di un dato procedimento,
mediante elementi e rapporti che non corrispondono, in tutto
o in parte, a quelli del procedimento.
La scrittura rispetto alla voce è da considerare una
sostituzione, non una rappresentazione; essa è invece una
rappresentazione del testo virtuale (cf. sotto), ma come
codifica essa è imperfetta, perchá obbedisce a
piú scopi differenti, e non segue la regola della biunivocità.
Nella tradizione manoscritta, una copia è la sostituzione
del suo modello, mentre è la rappresentazione del testo
virtuale come concepito dallo scriba. Questo testo virtuale
è la sintesi fra la manifestazione materiale del modello
e la competenza dello scriba. Allo stesso modo, un testo
elettronico è la sostituzione del corrispondente testo
cartaceo, oltretutto con le sostanziali differenze che il
supporto elettronico presenta rispetto al supporto cartaceo.
Viceversa, il testo elettronico è la rappresentazione del
testo virtuale, analogamente ad un manoscritto o ad un
libro. L'essenziale differenza qui è che la
rappresentazione elettronica in sá è invisibile, e
viene resa visibile attraverso determinati programmi e
macchine (schermo, stampante).
Dalle osservazioni esposte sopra, deriva che la codifica di
un testo presuppone la consapevolezza dei diversi livelli
che il testo stesso assume nel corso della sua trasmissione
semiotica. Dobbiamo cioè distinguere:
(a) un "testo ideale", che consiste nella
rappresentazione pre-linguistica della realtà oggetto del
messaggio; dunque il significato del testo, o in parole
povere l'idea pre-linguistica da cui l'autore trae il
messaggio che vuole comunicare.
(b) Un "testo virtuale", che consiste nella
rappresentazione linguistica del testo ideale, tuttavia non
ancora materializzata in onde sonore o in una scrittura. Si
tratta di una sequenza di lettere ideali, che formano le
strutture sintattiche (morfemi, sintagmi, proposizioni,
periodi), accompagnata dagli elementi connotativi che
verranno espressi in modo piú o meno adeguato adattandosi
al mezzo di comunicazione materiale scelto.
(c) Un "testo materiale", che consiste nella
rappresentazione materiale del testo virtuale, nella
fattispecie una scrittura. Essa è una sequenza di glifi,
opportunamente scelti per rappresentare le lettere ideali,
ed alcune connotazioni (maiuscole per riverenza, corsivi per
enfatizzazione, etc.) ed opportunamente organizzati per
rappresentare ulteriori connotazioni, ovvero semplicemente
per gusto estetico di composizione, o esigenze pratiche.
Il testo materiale è una codifica, generalmente
imperfetta, del testo virtuale, attuata mediante la
competenza di chi lo produce, che può essere l'autore
stesso, o uno scriba, o un tipografo. Rispettivamente, si
risale, tramite il testo materiale, al testo virtuale che
stava nella mente dell'autore, oppure dello scriba, oppure
del tipografo. In questi ultimi due casi, se si vuole
risalire al testo virtuale dell'autore, occorre mettere in
atto tutte quelle metodologie che permettono di risalire
dall'uno all'altro.
Tuttavia, quale che sia lo scopo che ci si propone, la
codifica su supporto magnetico non è la codifica del
testo materiale, ma quella del testo virtuale, che si
ottiene esaminando il testo materiale alla luce della
competenza di chi lo ha prodotto. Solo questo permetterà
di identificare tutti gli elementi singoli, atomici, che
formeranno l'oggetto della codifica, e di formulare una
tabella convenzionale di corrispondenza fra i codici,
cioè i simboli della codifica, e quegli elementi.
(1)
Notizie complete su Humanist si trovano nella
pagina web: http://www.princeton.edu/~mccarty/humanist/humanist.html
(2)
J. Fodor, M. Garrett, Some Reflections on Competence and
Performance, in: Psycholinguistc Papers (eds. J. Lyon, R. J.
Wales), Edinburgh, 1966. R. Raggiunti, Presupposti filosofici
della linguistica di Chomsky, Milano, 1983 (cf. cap. 4).
T. Winograd, Language as a Cognitive Process. Vol. I: Syntax,
Addison-Wesley, 1983, p. 149-153.
(3)
Rimandiamo a Segre, L'analisi del testo letterario,
in: Avviamento all'analisi del testo letterario,
p. 5-10 e 28-55
e W. Nöth, Handbook of Semiotics, Indiana U.P.,
1990, p. 331-333.
(4)
Cf. Burnard 349.2, quando nota che la codifica bene eseguita
"allows you to make explicit your inferences.
It's in the nature of things that those inferences should cover a
very wide range -- from "compositor intended to use an italic
typeface" at the one extreme to "author was thinking of his
mother at this point" at the other." Burnard mette qui in
evidenza l'opposizione fra testo come apparenza materiale e
come contenuto, significato, mentale.
(5)
Rimane poi da vedere se l'elemento ideale "a" sia il
medesimo in diverse lingue. Qui il problema si complica
terribilmente.
(6)
Informatica Umanistica
(7)
Turing's Man, Chapel Hill, 1984. Tr. it.
L'uomo di Turing, Parma, Pratiche, 1985, p. 15 e
47-52.
Aspetti non importanti (da non riprodurre come tali, possono
venire rifatti): organizzazione puramente estetica
della pagina. Divisione in linee, divisione delle parole
negli a capo, grandezza del corpo di scrittura, tipo delle polizze
organizzazione pratica: titoli correnti, numerazione delle
pagine, frontespizio, indice.
Aspetti di significati impliciti: alternanza di maiuscole e
minuscole, corsivi, evidenziazioni di vario genere,
virgolette, trattini, varianti ortografiche, etc.