Pubblicità | ARCHIVIO | FRASI IMPORTANTI | PICCOLO VOCABOLARIO
 













MARKETPRESS
  Notiziario
  Archivio
  Archivio Storico
  Visite a Marketpress
  Frasi importanti
  Piccolo vocabolario
  Programmi sul web








  LOGIN


Username
 
Password
 
     
   


 
Notiziario Marketpress di Martedì 08 Maggio 2007
 
   
  BITDEFENDER, OFFRE PROTEZIONE PER 2 ANNI PER 2 PC E COMBATTE LO SPAM CON LE RETI NEURALI

 
   
   Negli ultimi anni gli utenti di posta elettronica di tutto il mondo hanno notato che nelle loro caselle arriva una quantità sempre maggiore di posta indesiderata. Sinora per risolvere questo problema sono stati proposti numerosi metodi di filtraggio quali: Bayesiano, Black-list/white-list, Immagine, Filtraggio degli Url, Euristicoe così via. Il concetto alle spalle di qualsiasi tecnica di filtraggio dello spam (euristica, probabilistica o basata su parole chiave) è la stessa: poiché i messaggi di spam di solito hanno un aspetto diverso dai messaggi legittimi, un buon modo per identificarli e fermarli è identificare queste differenze. A giudicare dai risultati di questi metodi di filtraggio e dato che lo spam cambia di giorno in giorno, il modo migliore per risolvere il problema dovrebbe essere impiegare tutte queste funzioni per ottenere un effetto combinato e più accurato. Più facile a dirsi che a farsi! Sin dalla comparsa di queste tecnologie gli spammer hanno migliorato le loro tecniche, così lo spam continua a giungere a destinazione. Sono stati usati offuscamenti, mascheramento dei vocaboli in modo che solo un umano possa comprenderli, sono state cavalcate vulnerabilità dei parser Html ed è stato persino mascherato il contenuto in modi per cui è quasi impossibile che un computer si renda conto della differenza. Le soluzioni antispam hanno dovuto aumentare la frequenza degli aggiornamenti e sviluppare nuove euristiche in tempi più stretti. La necessità di una procedura automatica che apprenda le caratteristiche del nuovo spam senza influire sull’accuratezza dell’identificazione sullo spam meno recente è divenuta essenziale. La risposta che Bitdefender ha trovato per risolvere questo problema risiede nelle reti neurali artificiali. Una rete neurale consiste di un gran numero di elementi d’elaborazione detti “neuroni”. Ciascun neurone ha uno stato interno, chiamato “di attivazione” o “livello di attività”, che è una funzione degli input ricevuti. Tipicamente, un neurone segnala la sua attivazione a diversi altri neuroni. Un neurone può inviare solo un segnale alla volta, benché questo possa raggiungere parecchi altri neuroni. Una rete neurale artificiale può essere vista anche come un paradigma di elaborazione delle informazioni ispirato al sistema nervoso biologico del cervello umano. Rispetto ai computer convenzionali le reti neurali seguono un approccio differente alla soluzione dei problemi. I normali computer adottano un approccio algoritmico – il computer segue cioè un set di istruzioni per risolvere un problema. A meno che siano già noti i passaggi specifici che il computer deve seguire, la macchina non può risolvere il problema, il che restringe le capacità di problem solving dei normali computer a problemi che già conosciamo e sappiamo risolvere. Oltre a questo, i computer convenzionali usano un approccio cognitivo alla risoluzione di problemi: il modo in cui il problema deve essere risolto va conosciuto e indicato in piccole istruzioni inequivocabili. Queste istruzioni vengono poi convertite in un linguaggio di programmazione ad alto livello e quindi in codice macchina comprensibile dal computer. Queste macchine sono completamente prevedibili: se qualcosa va storto è per via di un guasto software o hardware. Le reti neurali e i normali computer algoritmici non sono in competizione ma si complementano l’un l’altro. Alcuni compiti, quali le operazioni aritmetiche, sono più adatti a un approccio algoritmico, mentre altri richiedono l’uso di reti neurali. Ancor più compiti richiedono che il sistema adotti una combinazione dei due approcci (normalmente viene usato un computer convenzionale per supervisionare la rete neurale) per ottenere la massima efficacia. Bitdefender ga pensato di creare una procedura automatica che raccogliesse il corpus dello spam e della posta regolare su di un certo periodo di tempo, ne studiasse le caratteristiche e le apprendesse senza alcun coinvolgimento umano. Più rapidamente viene eseguito questo processo, più rapida è la risposta. Le reti neurali tuttavia hanno alcuni problemi. Quando incontrano grandi quantità di dati i risultati tendono a diminuire. Le reti neurali “feed-forward” tendono a dimenticare parte delle informazioni apprese all’inizio del processo, oppure i dati in uscita divengono sempre più caotici. Basandoci su questa osservazione e sul fatto che lo spam può essere suddiviso in diverse categorie distinte, abbiamo sviluppato un albero di reti neurali che potesse classificare grandi quantità di dati più rapidamente e senza influire sull’accuratezza del riconoscimento. Ciascuna rete neurale di questa gerarchia opera su un diverso tipo di spam, così input e output restano sufficientemente limitati da non confondere la rete e mantenere le prestazioni ai massimi livelli. Un buon esempio di ciò potrebbe essere il fatto che abbiamo creato una sottocategoria chiamata “frodi” che contiene i messaggi che cercano di ingannare l’utente per fargli inviare denaro o cedere informazioni sulla sua carta di credito. Inoltre abbiamo identificato un sottotipo di frode, ossia il “phishing”, con le sue molte varianti: una volta uno spammer può cercare di rubare informazioni sulla carta di credito dell’utente fingendosi un ricco nigeriano che deve fare espatriare del denaro e ha bisogno del suo aiuto sotto forma di un bonifico; Altre volte si tratta del trucco della lotteria, in cui lo spammer cerca di ottenere da voi informazioni personali dicendo che avete vinto parecchi milioni di dollari a una lotteria; Poi c’è la storia delle azioni, in cui si ricevono suggerimenti su quali titoli acquistare, e così via. È ovvio che tutte queste varianti abbiano qualcosa in comune e possano costituire da sole una specifica categoria. Ciascun sottotipo ha caratteristiche proprie che lo distinguono e che permettono di creare ulteriori sottocategorie. Durante l’apprendimento, se il modulo della rete neurale non trova una categoria nella quale integrare un particolare schema creerà una categoria del tutto nuova. Pertanto se si fornisce alla rete neurale una varietà troppo ampia di spam il numero di categorie aumenterà e probabilmente rallenterà l’analisi. Se tuttavia la rete neurale si specializza su un solo tipo di spam, anche con un maggior numero di euristiche il sovraccarico rapido delle categorie di output viene evitato e l’analisi risulta più precisa e raffinata. Supponiamo ora che la gerarchia di reti neurali sia stata addestrata e che sia pronta a essere collaudata. Quando arriva una email il sistema deve fornire una risposta sulla sua natura: legittima, spam (di un certo tipo) o “non so” (che verrà considerata legittima per evitare falsi positivi). Innanzitutto sulla mail verrà eseguita una euristica di tipo generale per vedere quale categoria possa accettarla. Se non viene identificata alcuna categoria riconoscibile la mail verrà considerata legittima, altrimenti verrà passata alla rete neurale successiva, che opera con quel tipo di spam e l’algoritmo verrà ripetuto. Se la mail non può essere classificata viene contata come legittima, ma se il livello successivo è una categoria finale (una foglia del nostro albero) vuol dire che il messaggio è stato classificato e la procedura termina. Pertanto la procedura opera sulla base di un’estrazione selettiva delle informazioni, che fornisce un’accelerazione all’analisi. Inoltre l’approccio per reti neurali è più raffinato e potenzialmente molto più accurato e affidabile nel portare a termine questo compito. Il tasso di identificazione aumenta in maniera consistente con l’aggiunta di nuovi input e può facilmente crescere (o raggiungere) quasi il 100%. Inoltre il numero di euristiche che possono essere aggiunte è infinito, senza tuttavia dover temere per il tempo impiegato nell’elaborazione. L’elemento chiave dell’identificazione non è quante euristiche siano disponibili, ma gli schemi che vengono scoperti nella fase di apprendimento. Una determinata parola chiave in un messaggio non significa che sia sicuramente spam, ma non vuole nemmeno dire che non lo sia. Uno schema consiste di un intero elenco di elementi chiave che si trovano nel corpo del messaggio, e la procedura di analisi può essere compiuta anche se c’è una sola parola che può essere considerata molesta. Se durante l’apprendimento nella rete neurale è entrata una email simile, la procedura di analisi la identificherà correttamente. I nostri esperimenti dimostrano che l’approccio per reti neurali è più raffinato, più matematico e potenzialmente molto più accurato e affidabile nel portare a termine il compito. Utilizzando solo questo filtro (Bitdefender Neunet – tecnologia in fase di brevetto), su un set di oltre due milioni di email (delle quali l’80% sono state usate solo nell’apprendimento e il 20% nel collaudo) abbiamo ottenuto il 100% dell’identificazione sul corpus d’addestramento e il 97,56% su quello di test, e il sistema ha operato molto più velocemente che con un filtro euristico. In conclusione consideriamo questo filtro lo sviluppo futuro nella lotta allo spam grazie all’utilizzo di reti neurali. .  
   
 

<<BACK