Pubblicità | ARCHIVIO | FRASI IMPORTANTI | PICCOLO VOCABOLARIO
 













MARKETPRESS
  Notiziario
  Archivio
  Archivio Storico
  Visite a Marketpress
  Frasi importanti
  Piccolo vocabolario
  Programmi sul web








  LOGIN


Username
 
Password
 
     
   


 
Notiziario Marketpress di Martedì 23 Settembre 2008
 
   
  LA RIVOLUZIONE TECNOLOGICA ALLA BASE DELL’ESPLOSIONE DELLE APPLICAZIONI VOCALI

 
   
  Milano, 23 settembre 2008 - Come è possibile che un mercato che per quasi vent’anni cresceva a ritmo glaciale improvvisamente ingrani la quinta e inizi ad espandersi del 36 per cento l’anno ? Cosa ha fatto in modo che il riconoscimento del parlato divenga da esercizio da laboratorio o da film futuristico un’applicazione che si può trovare in un normale magazzino usata di routine dagli addetti alla movimentazione ? La risposta è semplice: tecnologia. O meglio, la sinergia tra diverse evoluzioni tecnologiche. : “Sicuramente il miglioramento degli algoritmi di riconoscimento, anche sotto il profilo della robustezza al rumore, è stato e continua ad essere un fattore importante – ci spiega Francesco Piazza, professore ordinario di Elettrotecnica presso l´Università Politecnica delle Marche ad Ancona e chairman di Voice-id -. Anche il miglioramento delle piattaforme hardware disponibili ha contribuito fortemente, mettendo a disposizione degli sviluppatori macchine più potenti dal punto di vista del calcolo, più efficienti energeticamente e meno ingombranti. Un ruolo importante è stato giocato infine dalla creazione di standard, quali Voice Xml o Salt, che hanno permesso ad alcune tipologie di applicazioni di uscire dalla fase pezzo unico e di entrare in quella dell’interoperabilità e della customizzazione a basso costo, sotto la spinta del mercato specialmente nel mondo web e multimedia”. Se la chiave sono gli algoritmi, vale la pena dare un’occhiata, senza entrare in dettagli tecnici, a quale sia lo stato dell’arte oggi. Pur tenendo conto delle differenze, ormai la maggior parte dei sistemi in uso sperimentale e commerciale usa metodi statistici per riconoscere il parlato. Il flusso vocale viene come fotografato sulla base di intervalli temporali molto brevi, dell’ordine dei 10 millisecondi. A quelle dimensioni, il segnale può essere considerato come statico e quindi analizzabile con algoritmi di tipo statistico derivati da quelli utilizzati nel riconoscimento di pattern (metodologie Hmm, Hidden Markov Model, per i curiosi). La potenza e l’efficienza dal punto di vista delle risorse di calcolo di questi algoritmi ha loro permesso di surclassare quella che sembrava la tecnologia principe per queste applicazioni, quella delle reti neurali. Queste vengono ancora usate in applicazioni estreme, ma ormai gli algoritmi statistici sono tanto flessibili da coprire con la stessa tecnologia di base entrambe le grandi aree applicative: il riconoscimento di pochi vocaboli detti da un numero ristretto di soggetti con precisione elevatissima e quello di un gran numero di vocaboli detti da un numero potenzialmente molto elevato di soggetti con una precisione accettabile. Le differenze si limitano a un tuning e una fase di “addestramento” specifici. Esistono anche sistemi adattabili, che si possono “mirare” a un particolare parlatore con interventi sul campo. Il perfezionamento degli algoritmi usati dagli attuali sistemi è ormai molto avanzato, per cui la ricerca sta puntando in tre direzioni diverse. Se si suddivide il processo di riconoscimento del parlato nelle tre fasi canoniche (pre-processing, riconoscimento, post-processing), nella seconda ci si sta concentrando su modelli statistici estesi in cui gli Hmm rappresenteranno un caso particolare, che verranno applicate a diverse caratteristiche del flusso sonoro vocale (oggi ci si concentra sullo spettro di potenza del suono, ossia si riconoscono i vocaboli sulla base del modo in cui si distribuisce la potenza del segnale in corrispondenza delle diverse frequenze). Nel pre-processing, l’obiettivo principale delle ricerche è invece il miglioramento del segnale significativo in entrata, riducendo il rumore e le interferenze (musica, altre voci). Per farlo si punta a usare microfoni multipli (array) e tecniche di analisi della scena sonora e di separazione e deconvoluzione delle sorgenti sonore (le stesse che vengono usate in modo sperimentale per de-mixare un brano musicale registrato e ricostruire la traccia Midi di ogni singolo strumento). Ci stanno lavorando anche i ricercatori dell’Università Politecnica delle Marche. Nel post-processing, infine, il campo più interessante a medio termine è quello della “comprensione” (che è cosa diversa e ben più complicata del riconoscimento) del linguaggio parlato. A breve l’area principale di applicazione è quella della traduzione dei documenti audio sul web in un formato testuale automaticamente indicizzabile dai motori di ricerca, il che permetterà per esempio di cercare documenti parlati con l’eliminazione dell’indicizzazione e dei tagging “manuali” oggi necessari. “L’ibridazione tra web e speech technologies genererà nuove e originali applicazioni con grande potenziale di mercato – conclude il prof. Piazza”. Ci sarà modo di approfondire queste potenzialità a Voice-id, in programma il prossimo 23 settembre presso il Centro Convegni dell’Hotel Michelangelo a Milano. .  
   
 

<<BACK