L'identificazione della voce. Le difficoltà delle nuove opzioni metodologiche e interpretative

21 Dicembre 2018

Nonostante l'Italia rappresenti una delle avanguardie nel settore della speaker identification, la strada che conduce all'identificazione della voce nel processo penale si mostra ancora lastricata da incertezze che sembrano originate dall'esistenza di una difficoltà, almeno per una certa parte della giurisprudenza, ad abbandonarsi all'impiego di nuove e non ancora incontroverse opzioni metodologiche e operative.
Abstract

Nonostante l'Italia rappresenti una delle avanguardie nel settore della speaker identification, la strada che conduce all'identificazione della voce nel processo penale si mostra ancora lastricata da incertezze che sembrano originate dall'esistenza di una difficoltà, almeno per una certa parte della giurisprudenza, ad abbandonarsi all'impiego di nuove e non ancora incontroverse opzioni metodologiche e operative. Al centro sono posti i riconoscimenti di tipo soggettivo, in relazione ai quali, tuttavia, è costante la spinta verso prassi elusive che si alimentano della scarsa conoscenza della materia e della sopravvalutazione della innata capacità dell'uomo di riconoscere qualunque percezione sensoriale.

La voce come strumento di identificazione

Nonostante si tratti di una caratteristica biometrica fondamentale a livello investigativo, grazie anche alla tendenzialmente ampia disponibilità di materiale utile a fini identificativi, la voce è un bioindicatore dotato di capacità caratterizzante imperfetta non solo perché, a differenza di una impronta digitale o genetica, non è immutabile, ma anche in considerazione del fatto che non possiede caratteristiche sufficientemente univoche da consentire sempre e comunque la distinzione di una persona da un'altra. Innanzitutto, la questione attiene ad una spiccata variabilità che non si presenta solo a livello interindividuale - cioè da persona a persona - ma anche a livello intraindividuale. La voce di un medesimo individuo, infatti, subisce variazioni sia legate al trascorrere del tempo (variabilità di lungo termine) che connesse a situazioni contingenti (variabilità di breve termine), come lo stato d'animo, lo stato di salute, il fumo di una sigaretta, l'assunzione di un determinato tipo di bevanda. Anche il canale di trasmissione deve considerarsi come fattore fortemente incidente perché la voce di un medesimo individuo è soggetta a modifica ove veicolata, ad esempio, da un telefono cellulare. Non vi è dubbio, poi, che il terreno dell'indagine fonica risulti reso estremamente scivoloso a causa della mancanza di protocolli che garantiscano l'impiego di una metodologia uniforme di accertamento e, prima ancora, la tracciabilità delle operazioni che vengono compiute per la conservazione e il trattamento del materiale sonoro. Oltre a non sussistere un preciso limite che imponga di non utilizzare il materiale sonoro che superi alcuni limiti qualitativi, a differenza degli accertamenti aventi ad oggetto le impronte digitali, in materia di riconoscimento vocale non esiste neppure una soglia limite superata la quale il livello di compatibilità possa considerarsi un valore tendenzialmente assoluto; in altri termini, in questo settore, la compatibilità è sempre un valore relativo.

Pur se è indubbio che, almeno allo stato attuale, l'indagine fonica non restituisca risultati paragonabili in termini di certezza a quelli conseguibili attraverso l'accertamento genetico o dattiloscopico, la c.d. impronta vocale è indiscutibilmente un obiettivo della ricerca scientifica applicata in ambito investigativo. Un obiettivo che è perseguito per l'individuazione dell'insieme delle caratteristiche che conferiscono alla voce un'autentica attitudine identificativa, per il tramite di un unicum idoneo a superare la dinamicità del fenomeno vocale.

L'indagine tecnica: i metodi per il riconoscimento del parlatore

Esiste una bipartizione fondamentale relativamente ai metodi per l'attribuzione dell'identità a partire dalla voce. Innanzitutto, viene in rilevo il metodo soggettivo, ovvero la tecnica che sfrutta la capacità di ciascun individuo di riconoscere una persona sentendola parlare. I metodi generalmente utilizzati si possono fondare sul reiterato ascolto di campioni di voce, da parte di un esperto, al fine di individuare eventuali elementi di natura linguistica, fonatoria o acustica comuni alle due voci . Queste ultime possono essere ascoltate sia in sequenza sia alternativamente a discrezione dell'operatore che, sulla base degli elementi recepiti, esprimerà un giudizio sulla attribuzione o meno ad uno stesso parlatore delle voci ascoltate.

Una ulteriore tecnica si basa sul confronto delle voci effettuato da una squadra di ascoltatori, anche non esperti. Il materiale fonico, in questo caso, è costituito da un insieme di voci comprendente la voce da identificare e alcune voci estranee prelevate da parlatori aventi caratteristiche fonatorie simili; si formano così dei test vocali costituiti da coppie di frasi ottenute raggruppando due a due, in tutte le possibili combinazioni, le voci dell'insieme. Ciascun operatore, dopo l'ascolto di ogni coppia, dovrà esprimere un giudizio di attribuzione o meno delle voci ad uno stesso parlante.

La principale obiezione che si muove contro l'impiego di questo tipo di tecniche in ambito forense è proprio la loro soggettività: i risultati ed i giudizi che da esse derivano, non possono essere quantificati con delle metriche riproducibili ed indipendenti dal soggetto che li ha espressi. Non offrendosi, in altri termini, un risultato suscettibile di quantificazione statistica, l'eventuale positività dell'accertamento comporta una condizione necessaria ma non certo sufficiente per sostenere l'identificazione.

I metodi c.d. oggettivi, invece, fondano l'identificazione sulla base di analisi strumentali del segnale acustico. In questo contesto si distingue ulteriormente tra metodi automatici e semi-automatici a seconda che si effettui esclusivamente ricorso ad un software per confrontare i campioni vocali oppure sia necessario l'intervento di un esperto per selezionare il materiale, controllare e valutare i risultati.

La prima tecnica, seppure presenti il vantaggio della maggiore velocità di accertamento, è generalmente caratterizzata da un tasso di errore superiore ad altri metodi e la ragione risiede nella considerevole sensibilità sia verso il canale di trasmissione che verso il rapporto segnale/rumore. I sistemi semi-automatici, invece, sono tendenzialmente considerati più affidabili perché l'azione di controllo dell'intera procedura viene svolta da un operatore che provvede non solo ad effettuare una selezione del materiale oggetto di analisi ma, prima ancora, ad identificare e risolvere, attraverso il c.d. filtraggio, le diverse perturbazioni acustiche che possono sovrapporsi alla traccia fonica, procedendo, infine, a disporre il controllo dei risultati rilasciati dal sistema.

Entrambe le tecniche, ad ogni modo, presuppongono la necessità di stabilire due aspetti fondamentali. Da un lato, sarà necessario stimare la similarità, cioè stabilire quanto siano simili o differenti i campioni di parlato dell'anonimo e del sospettato rispetto ai parametri di interesse e, dall'altro, occorrerà quantificare la tipicità, cioè stabilire quanto siano tipiche o rare le caratteristiche fonetiche tra i due campioni di parlato rispetto a una popolazione di riferimento. A tale ultimo fine, è indispensabile l'impiego di una banca dati costruita su quelle proprietà del parlato che devono essere utilizzate per la comparazione. Per questo aspetto, nonostante siano stati elaborati due software, IDEM, dalla Fondazione Ugo Bordoni e in uso al Ris dell'Arma dei Carabinieri, e SMART, sviluppato da diversi gruppi di ricerca in base ad un finanziamento dell'Unione Europea e in uso alla Polizia di Stato, da più parti si evidenzia la necessità di implementare la ricerca soprattutto verso la costituzione di banche dati che prendano in considerazione anche le variazioni dialettali – sinora trascurate – perché molto spesso costituiscono una componente essenziale del parlato.

Pur non esistendo allo stato attuale un sistema standard di identificazione, universalmente accettato dalla comunità scientifica, vi è un generale accordo sulla necessità di procedere, nella comparazione, attraverso un approccio di tipo bayesiano che, similmente a quanto avviene nelle indagini genetiche, non restituisce una percentuale di compatibilità ma un rapporto di verosimiglianza, il c.d. likelihood ratio (LR), ovvero un rapporto tra la probabilità che i campioni confrontati appartengano al parlante e la probabilità che appartengano a soggetti diversi .

Spettrogramma e analisi fonetico-linguistiche

L'Italia rappresenta uno dei Paesi più all'avanguardia nel settore dell'indagine sulla voce perché, dovendo le Forze dell'ordine confrontarsi con il fenomeno della criminalità organizzata, già a partire dagli anni ‘70 è sorta la necessità di valorizzare questo indicatore biometrico per affrontare le investigazioni relative a sequestri di persona e per procedere alle attività di contrasto dell'eversione interna e del terrorismo. È, dunque, a partire da questo contesto criminologico che si è cercato di implementare l'uso di nuovi sistemi, di individuare nuove apparecchiature e di utilizzare metodi e strumenti sempre più avanzati.

Guardando indietro nel tempo, lo spettrografo fu il primo strumento ad essere impiegato, agli inizi degli anni ‘80, nel laboratorio di fonica del R.a.c.i.s.

L'analisi spettrografica, nata durante la seconda guerra mondiale per scopi essenzialmente militari, in passato era ampliamente utilizzata anche in campo internazionale soprattutto a seguito della formulazione da parte di Kersta e Tosi di ipotesi di riconoscimento e di identificazione del parlatore che si fondavano su prove strumentali consistenti nel trasferimento delle caratteristiche fisiche della voce su un foglio di carta termosensibile. La tecnica si basava sulla asserita similitudine tra impronte digitali ed impronte vocali e sul fatto che i sonogrammi permettono di individuare le somiglianze tra voci attraverso una comparazione visiva dei tracciati.

I limiti di questa metodica, tuttavia, erano così consistenti da porre seriamente in discussione la stessa esistenza di quella che, forse troppo ottimisticamente, venne definita come «voice-print». A venire in rilievo, innanzitutto, era la variabilità intraparlatore e cioè il fatto che una stessa parola pronunciata in tempi diversi dal medesimo individuo può dar luogo a differenti rappresentazioni grafiche; in secondo luogo, l'impiego ad uso forense dello spettrografo risultava fortemente condizionato dalla necessità di acquisire un saggio fonico dell'indagato che non solo recasse le stesse frasi del campione di voce anonima ma che ricreasse anche le stesse condizioni ambientali presenti al momento in cui era stata registrata la voce.

Alla luce di queste forti limitazioni, che peraltro hanno condotto l'International Association for forensic phonetics and acoustic a raccomandare di non fare ricorso al metodo spettrografico in ambito giudiziario, l'investigazione fonica, almeno fino agli anni ‘90, si è concentrata su forme di riconoscimento basate su analisi fonetico-linguistiche realizzate attraverso diverse tipologie di esami, tra i quali:

  • esami fonetici, condotti per capire le caratteristiche della pronuncia e per ricercare eventuali elementi di peculiarità nell'articolazione di determinati fonemi;
  • esami semantico-lessicali, effettuati per comprendere il tipo di registro linguistico usato e, dunque, la zona geografica di appartenenza ed il livello culturale raggiunto dall'individuo;
  • esami prosodici, attraverso i quali si analizzano l'andamento temporale e intonativo dell'esposizione frasica e, dunque, la cadenza e la velocità delle parole;
  • esami foniatrici, che investono le modalità di emissione acustica dei suoni in relazione alla struttura morfo-fisiologica della parte superiore dell'apparato respiratorio.

Nonostante si tratti di tecniche ancora largamente utilizzate, il freno all'impiego investigativo di questa tipologia di esami è rappresentato dalla lunghezza del tempo occorrente per gli accertamenti e dal fatto che l'operatore deve necessariamente conoscere la lingua o il dialetto in cui la voce da riconoscere si esprime.

Il metodo parametrico e l'approccio c.d. combined

A partire dagli anni ‘90, e ancora oggi, il metodo più diffusamente impiegato per il riconoscimento del parlatore è il c.d. metodo parametrico cioè una tecnica semi-automatica che studia la voce da un punto di vista fisico e, dunque, come sistema di onde acustiche. Si tratta di una indagine che non si concentra sull'intero segnale del parlato ma solo su determinate proprietà della voce ricavabili, in particolare, dalle vocali perché queste si ritiene che producano un suono misurabile con maggiore precisione. L'estrazione dei parametri di riferimento coinvolge essenzialmente le zone di maggiore concentrazione dell'energia – c.d. frequenza fondamentale (FF0) e frequenze formanti (FF1, FF2, FF3, FF4) – le quali presentano intrinseche caratteristiche di robustezza, poca variabilità inter-parlante.

L'analisi tecnica è articolata su tre diverse fasi operative. Innanzitutto, l'operatore deve scegliere il materiale fonico da utilizzare e, dunque, singole parole o intere frasi che posseggano determinate caratteristiche qualitative, in termini di rapporto segnale/rumore, larghezza di banda e durata; in secondo luogo, appositi programmi – che in Italia, come già evidenziato, sono IDEM e SMART – isolano, nell'ambito del materiale selezionato, i parametri significativi per la caratterizzazione della voce; nella terza fase, infine, si effettua una interpretazione statistica dei dati ed un confronto tra le misure ottenute per stabilire, sulla base del rapporto di verosimiglianza, la compatibilità tra la voce anonima e quella del soggetto noto .

Nonostante il progressivo ricorso a metodiche di riconoscimento sempre più sofisticate, anche dal punto di vista della tecnologia utilizzata, resta il fatto che, allo stato attuale della conoscenza, non vi è un sistema capace di cogliere, contemporaneamente, tutte le caratteristiche di una voce. Talvolta, poi, è lo stesso tipo di segnale sonoro che guida nella scelta dell'approccio da seguire perché presenta connotazioni tali da precludere un tipo di accertamento, consentendo invece di sperimentarne un altro. Tenendo conto di questi fattori, e della connotazione multidisciplinare del settore, la tendenza attuale è quella di ricorrere ad un approccio ibrido, denominato combined, che tiene conto sia degli aspetti strumentali che di quelli linguistici, per ottenere una analisi della voce più precisa e completa.

La ricognizione

Accanto alla perizia, il Legislatore ha delineato un ulteriore itinerario funzionale all'ingresso dell'identificazione vocale sulla scena del processo, annoverando la voce tra le percezioni sensoriali suscettibili di ricognizione. Invero, è solo con l'entrata in vigore del codice del 1988 che la voce assurge espressamente a percezione sensoriale suscettibile di ricognizione. L'introduzione dell'art. 216 c.p.p., e dunque l'ampliamento dell'area delle ricognizioni, in precedenza circoscritta a quelle personali e reali, ha colmato una lacuna rispetto al codice previgente, codificando l'ormai affermata inclinazione giurisprudenziale verso l'ammissibilità di ricognizioni diverse da quelle espressamente previste. Dal punto di vista delle finalità, la ricognizione vocale non si differenzia dall'omologo utilizzabile per riconoscere il volto, l'aspetto di una persona (art. 213 c.p.p.); l'obiettivo, infatti, è sempre quello di far emergere una identità, ancorché sia diverso il contrassegno utilizzato per risalire al "riconoscendo" e l'abilità impiegata dal ricognitore per procedere all'identificazione, che è l'udito anziché la vista. Tuttavia, la scelta di procedere ad una consistente riduzione del tasso di tipicità dello strumento disciplinato dall'art. 216 c.p.p. rispetto alla ricognizione di persone (213 c.p.p.), se è da ritenere rispondente ad intuibili difficoltà di tipizzazione delle modalità esecutive, ha inesorabilmente prestato il fianco a disinvolture interpretative che si nutrono dell'assenza di precise coordinate operative in materia di riconoscimento vocale.

Dal punto di vista della struttura, in effetti, uno dei pochi dati che emerge con sufficiente chiarezza dall'art. 216 c.p.p. è che, ai fini dell'assunzione del mezzo di prova, non si richiede una valutazione desunta da canoni tecnico-scientifici ma più semplicemente un apprezzamento che – in una maniera non troppo dissimile rispetto ai già analizzati metodi soggettivi di riconoscimento del parlatore – è permeato di un soggettivismo che limita l'ambito per l'esercizio di un effettivo contraddittorio, il quale risulta esplicabile, in ultima analisi, non tanto sul risultato, quanto piuttosto sulla attendibilità del ricognitore. Si tratta di un profilo che pone in risalto un limite di contenuta attendibilità intrinseco al mezzo di prova ricognizione, che è sistematicamente agganciato al recupero di una percezione sensoriale e che, dunque, prende corpo attraverso quella che null'altro può essere se non «una valutazione» effettuata dal ricognitore che, a maggior ragione ove riguardi una entità priva di materialità corporea, non consente la prospettazione di argomenti razionali a suo sostegno. Tuttavia, mentre in materia di ricognizione personale il Legislatore si è preoccupato di definire il rapporto tra cadenze acquisitive e attendibilità del risultato, indicando un percorso funzionale a contenere il rischio di errori nel riconoscimento (art. 214 c.p.p.), in materia di ricognizione vocale, e più in generale rispetto alle «altre ricognizioni» (art. 216 c.p.p.), l'unico percorso di salvaguardia è tracciato con riferimento alle operazioni da compiere per sondare l'affidabilità di colui che del ricordo si afferma custode. L'applicabilità delle disposizioni dettate in materia di atti preliminari alla ricognizione (art. 213 c.p.p.), in quanto compatibili, non consente, tuttavia, di neutralizzare l'elevatissimo tasso di soggettivismo connaturato all'operazione. Data la difficoltà insita nella traduzione verbale di una informazione sonora, il ricognitore rievocherà le proprie impressioni uditive attraverso il ricorso a descrizioni che raramente saranno capaci di cogliere «tutti i particolari» custoditi nel suo ricordo. Oltretutto, anche la valenza informativa delle suddette descrizioni appare decisamente ridotta. Una persona non esperta, o comunque non abituata alla qualificazione dei suoni, generalmente è portata a definire una voce utilizzando parole come “profonda, acuta, bassa” e così via, che è assai arduo decodificare attraverso parametri oggettivi e, in quanto tali, verificabili.

Nulla, poi, è disposto con riferimento alle modalità acquisitive del risultato probatorio, con la conseguenza di lasciare aperta la possibilità di derogare allo schema esecutivo tipico delle ricognizioni di persone (art. 214 c.p.p.) o di cose (art. 215, comma 2, c.p.p.), in cui si fa leva sul giudizio comparativo per scongiurare il rischio di distorsioni e di mistificazioni connesso alla rievocazione richiesta. Si tratta, tuttavia, di una libertà di manovra che deve mantenersi fedele all'essenza del mezzo di prova prescelto. Il tenore letterale dell'art. 216 c.p.p. – e soprattutto l'espresso riferimento solo al terzo comma dell'art. 214 c.p.p. – suggerisce solo la volontà di svincolare il riconoscimento da rigidi schematismi procedurali che, laddove si controverta di una percezione sensoriale, rischierebbero di risultare inadatti alla specifica caratterizzazione dell'oggetto del riconoscimento. Nondimeno, ove si faccia leva sul fatto che l'essenza della ricognizione riposa non solo sulla stimolazione di un ricordo ma anche nella sua messa alla prova tramite il confronto con quid simili a quello da riconoscere, pur nel silenzio normativo, l'unico percorso acquisitivo concepibile è quello basato sulla comparazione di voci che presentino caratteristiche simili a quella oggetto di riconoscimento. Non si tratta di una impostazione ispirata solo da ragioni di coerenza teorica interna al mezzo di prova, quanto piuttosto dell'unica prospettiva capace di assicurare – attraverso la presenza dei distrattori – la possibilità di un riscontro, talvolta immediato, sull'attendibilità del risultato probatorio.

È piuttosto sulle concrete modalità esecutive del confronto uditivo che si scorge la peculiarità di questa forma di ricognizione. Così, ad esempio, a seconda delle circostanze in cui si afferma essere avvenuto l'ascolto originario, si potrà scegliere se operare con l'uso di registrazioni e, in quest'ultimo caso, si potrà decidere se optare per la costruzione di una line-up simultanea oppure sequenziale. Del resto, è soprattutto in questa possibilità di plasmare le dinamiche esecutive del mezzo di prova alle peculiarità del caso concreto che si può cogliere quella atipicità «interna», che risulta evocata anche nella Relazione al Progetto preliminare del codice. In questo contesto, infatti, rispetto all'art. 216 c.p.p., si «sottolinea l'inevitabilità di particolari accorgimenti nel modus procedendi che il giudice dovrà fissare» – nel contraddittorio delle parti – «prima del compimento della ricognizione, ispirandosi ai criteri enunciati dall'art. 189 c.p.p., applicabile in via analogica ad un mezzo di prova che conosce solo una semiplena regolamentazione del dettato legislativo» .

Dottrina e protocolli

Mentre in Italia gli approdi maturati dalla ricerca psicologica raramente vengono valorizzati in funzione dell'ingresso della identificazione uditiva sullo scenario processuale, in altri Paesi, e soprattutto in Inghilterra e negli Stati Uniti, i medesimi studi hanno permeato la cultura giuridica in misura tanto radicata da indurre a considerare tutte le tracce mnestiche come vere e proprie impronte lasciate nella memoria del ricognitore, che – come qualsiasi altro segno lasciato sulla scena del crimine – sono suscettibili di contaminazione se non gestite correttamente.

Il settore maggiormente attenzionato è senza dubbio quello della ricognizione personale, che è di gran lunga la forma di riconoscimento più frequente e decisamente più studiata. Nondimeno, i principi e le tecniche utilizzate nel campo della eyewitness identification hanno rappresentato un prezioso ausilio per l'elaborazione di specifiche metodiche da impiegare nel campo della ricognizione di voci.

Il punto di partenza è dato dagli accorgimenti elaborati per la costruzione della c.d. line-up vocale, cioè un confronto uditivo multiplo tra la voce del sospetto e le voci dei distrattori (foils). I possibili approcci sono due: laddove si sia in possesso di saggi vocali brevi si suggerisce di procedere con una line-up simultanea, che si realizza aggiungendo la voce del sospettato al set di saggi vocali da sottoporre al ricognitore in un'unica registrazione; negli altri casi, invece, si ritiene preferibile predisporre una line-up sequenziale, che prevede la registrazione separata di ciascun saggio voca-le da presentare individualmente all'ascolto. Quest'ultima modalità è preordinata a scongiurare il c.d. relative judgment process, ovvero la tendenza del ricognitore a identificare non la percezione originaria ma ciò che più somiglia al suo ricordo. L'approccio sequenziale, infatti, minimizza l'inclinazione ad effettuare una comparazione tra le voci sottoposte all'ascolto e sollecita maggiormente l'impiego del giudizio assoluto, e cioè il confronto fra lo stimolo attuale ed il ricordo della voce ascoltata al momento del fatto. Questo risultato è sollecitato anche dalle scansioni dei tempi di ascolto: ciascuna registrazione, cui è assegnato un numero, viene riprodotta secondo l'ordine prescelto dal ricognitore che può chiedere, ma solo a seguito dell'ascolto dell'ultimo campione, di risentire tutte o alcune registrazioni, quante volte lo desidera.

Fondamentale è, inoltre, la modalità con cui sono registrati i saggi vocali per la comparazione. Rispetto a quello del sospetto, i campioni dei distrattori dovrebbero essere di uguale lunghezza, di uguale contenuto e medesimo deve essere anche il rispettivo canale di trasmissione. Le voci da utilizzare nella line-up – tra cinque e sette – dovrebbero appartenere a persone della stessa età del riconoscendo, così come medesimo dovrebbe essere il dialetto o l'accento. Se è chiaro che risulti poco funzionale selezionare voci marcatamente differenti rispetto a quella da riconoscere, si sconsiglia, nel contempo, di selezionare voci troppo simili a quella dell'interessato; così, ad esempio, dovrebbero essere evitati i c.d. sound-alike (fratelli, padri, figli e così via).

In ogni caso, il saggio deve riprodurre le stesse condizioni – anche emotive – che hanno caratterizzato il contesto originario di ascolto. Così, ad esempio, la voce del sospettato risulterà inevitabilmente più riconoscibile laddove il suo saggio vocale sia rappresentato dalla registrazione di un parlato spontaneo a fronte di saggi impiegati per la comparazione costituiti da registrazioni di mere letture delle stesse frasi o delle stesse parole. Ciò accade – tipicamente laddove il discorso spontaneo sia ottenuto tramite una registrazione surrettizia della voce del sospetto – perché nella lettura differisce il tono, la frequenza vocale, il ritmo della parola in termini di pause ed esitazioni. Anche per questo aspetto, dunque, si raccomanda la costruzione di una formazione vocale uniforme, costituita cioè da registrazioni o tutte spontanee o tutte frutto di lettura.

HOLLIEN, On earwitness lineups, in Investigative Sciences Journal, 2012, n. 4, 7 ss

Ulteriori indicazioni sono state inoltre ricavate dagli studiosi di earwitness identification a partire dalle linee guida, intitolate Eyewitness Evidence: a Guide for Law Enforcement che il Dipartimento di Giustizia degli Stati Uniti, per il tramite del Technical working Group for eyewitness evidence, ha fornito alle forze di polizia per la predisposizione delle procedure di riconoscimento ad opera di testimoni oculari.

In particolare:

  • · le registrazioni – da effettuare con la medesima attrezzatura – devono avere una durata minima di 30-60 secondi.
  • · Ogni nastro dovrebbe essere selezionato da un pool di nastri nascosti alla vista del ricognitore, al quale non dovrebbe essere rivelato neppure il numero totale delle registrazioni che verranno ascoltate.
  • · L'operazione dovrebbe essere eseguita con il sistema del c.d. doppio-cieco; in altri termini, il soggetto che dirige la ricognizione – sia esso giudice, p.m. o polizia giudiziaria – deve ignorare se tra le voci che compongono la line-up sia effettivamente presente quella obiettivo; di tale condizione, inoltre, deve essere notiziato il ricognitore in modo tale da evitare che qualunque atteggiamento sia interpretato come suggerimento o segnale di rinforzo.
  • · Per contenere l'inclinazione ad affermare in ogni caso come avvenuta l'identificazione (c.d. effetto yes), il ricognitore dovrebbe essere avvertito del fatto che la voce da riconoscere potrebbe non essere compresa tra le registrazioni che verranno sottoposte al suo ascolto e che il contributo che gli si richiede è positivamente assolto anche laddove non riuscisse nell'identificazione.
  • · Per evitare ogni possibile interferenza, nel caso in cui il riconoscimento fosse sia visivo che auditivo, dovrebbe procedersi a due ricognizioni separate e quella visiva dovrebbe essere fatta per prima.
  • · Sempre a garanzia dell'attendibilità del risultato della ricognizione, è fortemente sconsigliato il ricorso al metodo del c.d. show upcioè il riconoscimento effettuato non attraverso un confronto ma sulla base dell'ascolto di una sola voce, perché il rischio di false identificazioni, stante l'assenza dei distrattori e la compromissione della funzione di controllo ad essi connessa, è significativamente più elevato.
  • · Per testare la buona riuscita della line-up vocale si suggerisce, infine, di procedere – sulla falsariga delle modalità adottate al medesimo fine in materia di ricognizione personale – al mock witnesses o al test listeners; mentre nel primo caso dei soggetti terzi sono invitati ad effettuare il riconoscimento sulla base delle informazioni contenute nella descrizione del ricognitore , nel secondo si procede ad un test per verificare, tramite un gruppo di ascoltatori, se dal confronto è opportuno escludere taluna delle voci registrate.

U.S. Department of Justice, Eyewitness Evidence: a Guide for Law enforcement, 1999, consultabile su www.ncjrs.gov.

Case Report

Nelle applicazioni giurisprudenziali il passo, dalla atipicità interna al mezzo di prova alla disinvoltura interpretativa, è assai breve e, quando si tratta dell'impiego processuale di un risultato probatorio connesso al riconoscimento di una voce, diventa brevissimo. Così, ad esempio, laddove si tratti di acquisire un saggio fonico dall'indagato per consentire l'esecuzione di una perizia, non paiono esistere limiti, divieti o questioni inerenti alla tutela della libertà morale dell'interessato.

  • Sul punto è emblematica, tra le molte, la decisione che, muovendo dal presupposto secondo cui il divieto di controllo auditivo dei colloqui dei detenuti con i congiunti è finalizzato a garantire la riservatezza dei contenuti di detti colloqui, ha ritenuto consentita la registrazione fonetica delle voci degli interlocutori e, dunque, utilizzabile la consulenza fonica del p.m. con cui si era effettuata la comparazione tra la voce risultante da comunicazioni telefoniche oggetto di intercettazione e la voce dell'imputato registrata durante il colloquio (Cass. pen., Sez. VI, 28 novembre 2008, n. 3932, Martinelli).
  • Non meno significativa è, poi, la pronuncia con cui - a fronte del rifiuto dell'imputato di fornire un saggio fonico - è stata ritenuta legittima l'utilizzazione della sua voce registrata nel corso di una conversazione telefonica con il suo difensore, a nulla rilevando l'illegittimità di detta registrazione (Cass. pen., Sez. II, 18 gennaio 1993, n. 2611, Bergamaschi).

In questo campo, inoltre, non è infrequente trovarsi di fronte a vere proprie scorciatoie probatorie e a motivazioni di provvedimenti giudiziari del tutto insoddisfacenti, che non tengono nella giusta considerazione i principi fondamentali in materia di prova.

  • Sul punto, basta prendere le mosse dalle affermazioni della giurisprudenza di legittimità in materia di c.d. riconoscimento informale, cioè effettuato nel corso della testimonianza, bypassando il ricorso allo strumento disciplinato dall'art. 216 c.p.p. Si afferma, in particolare, che ai fini dell'identificazione il giudice può utilizzare le dichiarazioni di colui che abbia asserito di aver riconosciuto la voce dell'imputato quando sia accordata attendibilità alla deposizione del testimone che, avendo ascoltato la voce dell'imputato, afferma di identificarlo con sicurezza.
  • Ove si tratti, poi, di un riconoscimento vocale effettuato dagli ufficiali o dagli agenti di polizia giudiziaria addetti all'ascolto delle intercettazioni l'approccio diventa autenticamente "fideistico", tanto che è proprio in relazione a siffatte modalità di identificazione che si è consolidato l'orientamento teso ad escludere – qualora sia contestata l'identificazione - la necessità di disporre perizia fonica (Cass. pen., Sez. VI, 28 febbraio 2012, n. 18453, Cataldo).

Colpisce la disinvoltura dell'operazione interpretativa, non nuova invero sulla scena delle ricognizioni. La prassi dei riconoscimenti informali, infatti, è ben radicata in materia di identificazione personale con la differenza, tuttavia, che in quel contesto ci si preoccupa quantomeno di giustificare l'ardimento ermeneutico tentando di inquadrare il riconoscimento a forma libera nel principio di non tassatività dei mezzi di prova (art. 189 c.p.p.) o, in alternativa, qualificando il riconoscimento diretto come oggetto di una ordinaria prova testimoniale (art. 194 c.p.p.). Nulla quaestio, invece, in materia di riconoscimento vocale, che pare autolegittimarsi sulla scorta di un'unica condizione di impiego: l'affidabilità del ricognitore.

Approdi di questo genere costituiscono innanzitutto un segnale di scarso livello di conoscenza della materia perché, come si è cercato di evidenziare in precedenza, si tratta di un contesto in cui non possono azzardarsi presunzioni di attendibilità considerato che, tanto sui metodi quanto e soprattutto sui risultati, incombe sempre l'ipoteca dell'errore derivante dalla inaffidabilità intrinseca della voce come parametro biometrico funzionale al riconoscimento.

In secondo luogo, si tratta di operazioni poco giustificabili sotto il profilo dei principi fondamentali in materia di prova. Proprio con riferimento ai riconoscimenti informali, del resto, la dottrina ha enucleato dal sistema un principio di infungibilità (Rafaraci T., Ricognizione informale dell'imputato e (pretesa) fungibilità delle forme probatorie, in Cass. pen., 1998, 1743) che discende dal dovere del giudice «di osservare l'ordine normativo che fa corrispondere ad ogni tipo di esigenza probatoria uno specifico mezzo per soddisfarla». Qui la forma - come correttamente osservato - è «parte integrante della sostanza» (Conti C., Accertamento del fatto e inutilizzabilità nel processo penale, Padova, 2007, 276): rispetto ad ogni mezzo di prova il Legislatore ha espresso un giudizio di utilità per l'accertamento dei fatti che deve ritenersi tipico. Questo giudizio è stato espresso anche rispetto alla ricognizione di voce perché, sia pure rinunciando alla predeterminazione delle scansioni operative, il Legislatore ha tracciato le caratteristiche essenziali del mezzo di prova, disegnando un perimetro di garanzie riferibile alla attendibilità dell'accertamento (art. 213 c.p.p.) e, conseguentemente, a salvaguardia dell'imputato. L'incompletezza della previsione non legittima operazioni ermeneutiche tese alla modifica del modello predisposto dal Legislatore; essa giustifica, semmai, una integrazione dello schema normativo secondo il paradigma dell'art. 189 c.p.p. Un completamento, dunque, ma non una deroga allo schema. Di conseguenza, il riconoscimento vocale svolto secondo il modulo procedimentale della testimonianza deve considerarsi inutilizzabile ex art. 191 c.p.p., in quanto acquisito eludendo le garanzie pretese dall'art. 216 c.p.p.

Criticità dell'indagine

Nonostante le prospettive aperte dalla ricerca tecnologica possano lasciar presagire importanti sviluppi nel campo dell'indagine fonica, sulla materia sembra incombere un'ipoteca di non poco momento che investe il tema della formazione degli esperti. Innanzitutto, a differenza di quanto accade in altri Paesi, come in Inghilterra e negli Stati Uniti, non c'è una disciplina di linguistica forense in Italia e non esiste neppure un albo dei periti fonici. Non sorprendono, dunque, i risultati di una serie di ricerche condotte su questo tema, dalle quali emerge una grande varietà nel percorso di formazione degli esperti – economia, statistica, ingegneria, medicina, lettere, giurisprudenza – ed un consequenziale approccio profondamente diverso nell'accertamento dell'identità che, peraltro, si proietta anche sulla tecnica utilizzata per rispondere all'incarico affidato, tanto da rendere talvolta impossibile la comparazione tra le risposte date in occasione di diverse consulenze effettuate nel medesimo procedimento .

Da questi studi, e a partire dall'assenza di una disciplina di riferimento, emerge anche tanta approssimazione nella speaker identification, perché – sul campione di esperti intervistati – accanto a coloro che non lasciano comprendere il metodo utilizzato per la perizia, l'11% dei soggetti consultati utilizza, per l'identificazione, il confronto tra sonogrammi che, come evidenziato in precedenza, è dichiaratamente considerato un metodo inaffidabile a livello internazionale e, dunque, non utilizzabile a fini processuali; emerge anche un 13% che utilizza il solo metodo auditivo, la cui affidabilità è fortemente limitata dalla già sottolineata dose di soggettivismo che lo caratterizza.

Emerge anche che laddove si utilizzi il metodo parametrico, ritenuto il più affidabile, la mancanza di solide basi culturali, possa rendere profondamente incerti i risultati dell'identificazione. In una ricerca si riporta come esempio una perizia fatta dinanzi al tribunale di Perugia in cui è stato utilizzato per l'esecuzione dell'accertamento il software Voicenet, effettuando la comparazione tra una voce anonima, di durata 1,76 secondi, e una voce nota, di durata di 1,91 secondi. Tuttavia, il manuale di questo software spiega che per effettuare una comparazione tra voci che abbia una valenza scientifica è necessario che i secondi ascoltati o analizzati siano almeno 16 e che la voce da comparare sia lunga almeno 96 secondi. In altri termini, pur se il metodo è scientificamente riconosciuto come valido, la gestione del metodo condiziona inesorabilmente l'attendibilità del risultato.

Alla luce di queste considerazioni non può non rilevarsi come il primo e più serio investimento in materia di identificazione del parlatore andrebbe effettuato, innanzitutto, nel campo della formazione, dal Legislatore con il supporto delle associazioni scientifiche, le quali, come accade in altri Paesi, dovrebbero coadiuvare l'azione degli esperti predisponendo apposite risoluzioni e linee guida, di ausilio anche per l'attività di controllo del giudice, da esplicare non solo sulle metodologie impiegate per l'accertamento ma anche, e prima ancora, sulla qualificazione dell'esperto da chiamare per effettuarlo.

Nel processo le problematiche che affliggono l'identificazione della voce non sono di certo meno accentuate. L'approccio fideistico ai risultati dei riconoscimenti informali e l'ostracismo mostrato nei confronti della perizia, se sono la testimonianza di un sistema che si culla sempre molto volentieri nel passato dei ricordi inquisitori, tradiscono una amara diffidenza verso il sapere specialistico di questo particolare settore a cui, in mancanza di un patrimonio culturale e metodologico consolidato, sembra si faccia addirittura fatica a riconoscere il crisma della scientificità.

Il «dramma di giudicare in condizioni di incertezza probatoria» (CANZIO, Prova scientifica, ricerca della “verità” e decisione giudiziaria nel processo penale, in Riv. trim. dir. e proc. civ., 2005, 55), tuttavia, non può costituire un alibi per coltivare prospettive che, a ben vedere, sono in ultima analisi di disimpegno motivazionale: se le risorse per procedere al controllo sono collocate in un campo ancora minato dalla assenza di consolidate conferme da parte della comunità scientifica, l'orecchio allenato dell'operatore non può – per ciò solo – divenire l'approdo sicuro, e più comodo, per ancorare l'attendibilità della base cognitiva.

Guida all'approfondimento

ALBANO LEONI F. - MATURI P., Fonetica sperimentale e fonetica giudiziaria, in Giust. pen., 1991, I, 316.

BIRAL M., L'identificazione della voce nel processo penale: modelli, forme di accertamento, tutela dei diritti individuali, in Riv. it. dir. e proc. pen., 2015, 1842 s.

BOVE T. - GIUA P. E. - FORTE A. - ROSSI C., Un metodo statistico per il riconoscimento del parlatore basato sull'analisi delle formanti, in Statistica, LXII, n. 3, 2002, 475.

DOMINIONi O., La prova penale scientifica, Milano, 2005, 109.

FELICIONI P., Riconoscimento vocale condotto dalla polizia giudiziaria, in Le indagini atipiche, a cura di Scalfati A., Torino, 189.

KERSTA L. G., Voiceprint identification, in Nature, 1962, 1253 ss.

LA REGINA K., L'identificazione della voce nel processo penale, Padova, 2018.

PAOLONI A., Le indagini foniche, in www.ording.roma.it/archivio/File/Articolo_OdI_v_4.pdf, 5.

ROMITO L. - GALATÀ V., Speaker recognition: stato dell'arte in Italia, valutazione dei corpora, dei metodi e delle professionalità coinvolte, in Scienze vocali e del linguaggio, III, Rimini, 2007, 223.

TOSI O., Voice identification. Theory and legal applications, Baltimore, 1979.

YARMEY A.D., The psychology of speaker identification and earwitness memory, in AA.VV., Handbook of eyewitness psychology, vol. II, New York, 2014, 101.

Vuoi leggere tutti i contenuti?

Attiva la prova gratuita per 15 giorni, oppure abbonati subito per poter
continuare a leggere questo e tanti altri articoli.

Sommario