creación de filtros anti spam

Upload: clodia-alwaysin-thelimit

Post on 12-Jul-2015

44 views

Category:

Documents


0 download

TRANSCRIPT

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Soft ComputingElaboracin de ltros antispam o

Claudia Mar Luque Fernndez a a [email protected] Sistemas Operativos Distribuidos 1o Curso Ingenier en Informtica a a Escuela Politcnica Superior e (Universidad de Crdoba) o

16 de mayo de 2011

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Resumen I1

Introduccin o Denicin de Soft Computing o Denicin de los ltros antispam oVocabulario antispam

2

La tecnolog antispam a Primera Generacin o Segunda Generacin o Tercera Generacin o Cmo se construye un ltro antispam? oPlanteamiento Objetivos Investigacin o

3

Aplicando SoftComputing Qu tcnica fue la primera? e eClaudia Mar Luque Fernndez a a Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Resumen IIQu otras tcnicas e e nteligenteshay?Inferencia bayesiana Mquinas de aprendizaje a Redes neuronales Tcnicas basadas en contenido e

4

Ejemplos de sistemas antispam

5

Conclusiones

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Denicin de Soft Computing o Denicin de los ltros antispam o

Introduccin o

El correo electrnico es un medio de comunicacin eciente y o o cada vez ms popular. a Al ser popular, hay individuos que sacan provecho de esto con el correo basura. La consecuencia del correo basura es la prdida de tiempo de e los lectores de correo electrnico al tener que ir descartando o este tipo de mensajes. En algunos estudios se cifra el correo spam en un 10 % de los mensajes entrantes.

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Denicin de Soft Computing o Denicin de los ltros antispam o

Qu soft computing? I e

El Soft Computing es una rama de la inteligencia articial centrada en el diseo de sistemas inteligentes capaces de n manejar adecuadamente la informacin incierta, imprecisa y/o o incompleta. Permiten abordar problemas reales obteniendo soluciones ms robustas, manejables y de menor coste. a Adems problemas de gran diversidad tanto en tipolog a a (modelado, optimizacin, planicacin, etc.) como en el sector o o de aplicacin (produccin industrial, log o o stica, energ a,etc).

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Denicin de Soft Computing o Denicin de los ltros antispam o

Qu soft computing? II e

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Denicin de Soft Computing o Denicin de los ltros antispam o

Qu son los ltros antispam? I e

Un ltro de spam es un programa usado para detectar emails no deseados o no solicitados y evitar que estos mensajes lleguen a la bandeja de entrada del usuario. Este programa se ejecuta en un servidor y guarda informacin o correspondiente a los correos spam.

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Denicin de Soft Computing o Denicin de los ltros antispam o

Qu son los ltros antispam? II e

Figura: Representacin grca de la posicin de un servicio antispam. o a oClaudia Mar Luque Fernndez a a Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Denicin de Soft Computing o Denicin de los ltros antispam o

Vocabulario antispam I

Spammer El individuo o empresa que envia correo no deseado. Hacker Persona que deliberadamente viola la seguridad informtica, normalmente para causar desconcierto o a conseguir informacin condencial como datos o nancieros. Ataque de denegacin de servicio (DoS) Tipo de ataque que se o produce cuando un hacker env archivos adjuntos u a otros mensajes poco habituales o en masa para intentar colapsar sistemas de email.

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Denicin de Soft Computing o Denicin de los ltros antispam o

Vocabulario antispam IIAtaque de diccionario Programa que bombardea un servidor de email con millones de direcciones electrnicas o generadas por orden alfabtico con el propsito de e o adivinar correctamente algunas de ellas. Esta tcnica e tambin se usa para conseguir contraseas. e n Chivato (web bug) Pequeo grco insertado en un email o pgina n a a Web que avisa a un spammer cuando un mensaje se ha le o previsualizado. do Falso Negativo Cuando un programa anti-spam no consigue identicar un mensaje de spam como tal. Falso Positivo Cuando un programa anti-spam identica errneamente un mensaje leg o timo como spam.Claudia Mar Luque Fernndez a a Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Denicin de Soft Computing o Denicin de los ltros antispam o

Vocabulario antispam IIILavado de lista Proceso de eliminar direcciones de email de una lista de correo a peticin de los remitentes. o Lista blanca Lista de direcciones de email, direcciones IP y dominios desde los cuales se env mensajes que son an aceptados por la empresa o usuarios. Lista negra Funcin del software anti-spam que permite al o usuario designar direcciones IP, nombres de dominio y direcciones individuales de email desde las que no aceptar mensajes. a Lista gris Los remitentes que no estn en una lista negra a (excluidos) o en una lista blanca (aceptados) pueden colocarse en una lista gris.Claudia Mar Luque Fernndez a a Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Denicin de Soft Computing o Denicin de los ltros antispam o

Vocabulario antispam IV

Mungin Tcnica para proteger direcciones de email para que e no puedan ser recolectadas. page-jacking Se trata del robo del contenido de una Web. Se copian algunas pginas y se colocan en una Web que a parece ser leg tima y el contenido se incluye en los principales buscadores. phishing Creacin de rplicas de pginas Web para pescar.a o e a usuarios y hacerles enviar informacin personal o o nanciera o contraseas. n

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Primera Generacin o Segunda Generacin o Tercera Generacin o Cmo se construye un ltro antispam? o

Evolucin o

A mediados de los 1990s, el mtodo usado para disminuir el e ujo de spam estaba basada en las capacidades tecnolgicas o unicamente, tales como restringir el reenv de correo. o A nales de los 1990s, emergi la primera tecnolog real o a anti-spam, como fue el ltro para correo masivo no solicitado de Netscape Messaging Server.

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Primera Generacin o Segunda Generacin o Tercera Generacin o Cmo se construye un ltro antispam? o

Primera Generacin. I oControles bsicos MTA (Mail Transfer Agent) los controles MTA, a que restringen la comunicacin basada en redes y o nombres de dominios, por ejemplo, para prevenir el reenv o. Listas blancas y negras las listas blancas y negras en un MTA son extensiones lgicas de los controles MTA bsicos o a usados como una herramienta en bruto para controlar el spam. Bsqueda de palabras simples Uno de los primeros mtodos u e usados para combatir el spam fue la bsqueda simple u de palabras.Claudia Mar Luque Fernndez a a Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Primera Generacin o Segunda Generacin o Tercera Generacin o Cmo se construye un ltro antispam? o

Primera Generacin. II oPrueba del sobre y cabecera del mensaje La prueba del sobre implica que el MTA revisa la informacin pasada a o travs del protocolo SMTP, se usa cuando se e transere el mensaje y se rechaza si esta no es correcta o vlida. La prueba de la cabecera entrega al a MTA la habilidad de comprobar la informacin o guardada dentro del mensaje. Prueba dns simple Mirando la informacin del emisor o intercambiada durante el uso del protocolo SMTP y usando el sistema de dominio de nombres (DNS) de Internet, se puede validar la informacin o intercambiada.

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Primera Generacin o Segunda Generacin o Tercera Generacin o Cmo se construye un ltro antispam? o

Segunda Generacin. oLa segunda generacin de tecnolog anti-spam existe o as espec camente con el propsito de detener el spam. o Listas negras en tiempo real El concepto detrs del RBLs es a simplemente mantener una lista de direcciones Internet que env spam y las bloquea para an transmisiones futuras. Redes de rmas Son una signicativa y relativamente nueva tecnolog para combatir el spam. El concepto de a redes de rmas es coleccionar e identicar mensajes spam generando una unica rmaque puede ser usada para identicar un mensaje dado.

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Primera Generacin o Segunda Generacin o Tercera Generacin o Cmo se construye un ltro antispam? o

Tercera Generacin. o

Identicar spam (por rmas) y spammers (con RBLs) est destinado a fallar. Los spammers pueden fcilmente burlar las a a RBLs y frecuentemente una buena red de rma toma tiempo en identicar mensajes de spam; adems que nunca detectan el 100 % a de estos. Se har uso del soft computing. a

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Primera Generacin o Segunda Generacin o Tercera Generacin o Cmo se construye un ltro antispam? o

Cmo se construye un ltro antispam: I o

Figura: Clasicacin oClaudia Mar Luque Fernndez a a Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Primera Generacin o Segunda Generacin o Tercera Generacin o Cmo se construye un ltro antispam? o

Cmo se construye un ltro antispam: II o

Planteamiento Objetivos Investigacin o

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Primera Generacin o Segunda Generacin o Tercera Generacin o Cmo se construye un ltro antispam? o

Planteamiento del problema:

Antes de denir los mtodos y las tcnicas, se debe denir e e claramente las caracter sticas de los correos vlidos y de los a que deben ser considerados como SPAM. se debe tener presente es una solucin que cubra las o necesidades de la variedad de usuarios de correo electrnico, o es decir, unir criterios y obtener una solucin generalizada y o adecuada a las necesidades.

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Primera Generacin o Segunda Generacin o Tercera Generacin o Cmo se construye un ltro antispam? o

Denicin de Objetivos: oDetectar y ltrar el correo SPAM cuyo emisor ha sido previamente identicado como fuente de correo SPAM. Detectar y ltrar el correo SPAM haciendo un anlisis del a tema y cuerpo del mensaje, basado en una lista de palabras clave para buscar caracter sticas de correo SPAM. Detectar y ltrar el correo SPAM haciendo un anlisis del tema a y cuerpo del mensaje, basado en una lista de frases clave, las cuales denen por si solas a los mensajes como SPAM. Detectar y ltrar el correo SPAM haciendo un anlisis a estad stico, basado en el Teorema de Bayes, para calcular la probabilidad de frases de tamaos variables pertenezcan a un n correo SPAM. Integrar todo lo anterior.Claudia Mar Luque Fernndez a a Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Primera Generacin o Segunda Generacin o Tercera Generacin o Cmo se construye un ltro antispam? o

Un poco de investigacin: I o

Toca investigar un poco y ver como funciona eso del servicio de correo electrnico. o SMTP-Simple Mail Transfer Protocol Este protocolo es el estndar a de Internet para el env de correo electrnico. o o POP-Post Oce Protocol Este protocolo es el estndar de a internet para la recepcin de correo. Cuando se o utiliza este protocolo, los correos son descargados a travs de las aplicaciones de correo cliente. e

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Primera Generacin o Segunda Generacin o Tercera Generacin o Cmo se construye un ltro antispam? o

Un poco de investigacin: II oIMAP-Internet Message Access Protocol Este protocolo permite la recepcin de correo. Con la diferencia de que los o correos se mantienen en el servidor donde los usuarios los pueden leer y borrar. Adems IMAP a tambin permite a las aplicaciones cliente crear, e renombrar o borrar directorios en el servidor para organizar y almacenar correos. Ahora toca investigar como se administran y gestionan los correos. Hay 3 programas que desempean un papel espec n co. MUA - Mail User Agent Un MUA es un programa que permite a un usuario como m nimo leer y escribir mensajes de correo electrnico. A un MUA se le denomina a o menudo cliente de correo.Claudia Mar Luque Fernndez a a Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Primera Generacin o Segunda Generacin o Tercera Generacin o Cmo se construye un ltro antispam? o

Un poco de investigacin: III oMTA - Mail Transfert Agent Un agente MTA transere el correo electrnico entre mquinas que usan el protocolo o a SMTP. MDA - Mail Delivery Agent Los agentes MTA utilizan programas MDA para entregar el correo electrnico al buzn de o o un usuario espec co. El agente MDA es realmente un LDA (Local Delivery Agent, agente de entrega local). Una vez el correo es recibido por el destinatario, es necesario clascarlo y aqui es donde entra en juego las tcnicas de Soft e Computing.

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Primera Generacin o Segunda Generacin o Tercera Generacin o Cmo se construye un ltro antispam? o

Un poco de investigacin: IV o

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Qu tcnica fue la primera? e e Qu otras tcnicas e e nteligenteshay?

Introduccin o

Lo realmente interesante es crear un sistema inteligente que tenga capacidad de decisin y suciente exactitud como para detectar o cuando un email es deseado o no. La decisin tomada ser el o a resultado de realizar una de las tcnicas basdas en S.C. y e a basndose en unos criterios determinados. a

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Qu tcnica fue la primera? e e Qu otras tcnicas e e nteligenteshay?

Filtros Heur sticos

Los ltros heur sticos fueron uno de los primeros intentos de bloquear el spam. Se basaba en la propia experiencia del que lo sufr Si por ejemplo detectaba que muchos correos conten a. an letras en rojo, aad una nueva regla a su ltro que descartara n a estos mensajes.

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Qu tcnica fue la primera? e e Qu otras tcnicas e e nteligenteshay?

Ms tcnicas inteligentes a e

1 2 3 4

Inferencia bayesiana Mquinas de aprendizaje a Redes neuronales Perceptrn multicapa o

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Qu tcnica fue la primera? e e Qu otras tcnicas e e nteligenteshay?

Inferencia bayesiana

Esta tcnica conf en el entrenamiento de los ltros, es decir: un e a ltro bayesiano es una herramienta matemtica que permite, a retroalimentar la frmula que calcula la probabilidad de un o acontecimiento, con la experiencia adquirida anteriormente en casos similares, de modo que la formula aprende y cada vez da respuestas que acierten con ms probabilidad que en el pasado. a

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Qu tcnica fue la primera? e e Qu otras tcnicas e e nteligenteshay?

Mquinas de aprendizaje a

La principal caracter sticas de esta tcnica consiste el la capacidad e de adaptarse a la evolucin de las tcnicas del atacante. Las o e soluciones tradicionales comparaban los nuevos mensajes con lo que ya conoc proveniente de fuentes spam conocidas. Sin an, embargo las mquinas de aprendizaje darn una solucin a a o inteligente que podr detectar nuevos tipos de spam con m a nima intervencin del usuario. o

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Qu tcnica fue la primera? e e Qu otras tcnicas e e nteligenteshay?

Redes neuronalesUna red neuronal articial est conformada por elementos de a clculo aritmtico (llamadas neuronas), conectadas entre s lo a e . realmente relevante, en cualquier conguracin neuronal, es el o hecho de que, si la red ha sido diseada para ejecutar alguna tarea n especial, puede aprender a ejecutarla. Los algoritmos de aprendizaje han sido motivo de mucha investigacin en el mbito o a de las neurociencias; desde un punto de vista simplista, tales algoritmos, realizan una tarea de bsqueda de los pesos sinpticos u a que posibiliten un desempeo satisfactorio de las redes neuronales, n en tareas como: el reconocimiento de patrones, la clasicacin y, la o interpretacin de datos, principalmente. o

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Qu tcnica fue la primera? e e Qu otras tcnicas e e nteligenteshay?

Perceptrn multicapa o

Es una red neuronal en cascada (FeedForward); esto quiere decir que cada una de las neuronas ubicadas en un nivel N (o capa N), solamente puede estar conectada con neuronas de capas de nivel M (N < M). Las capas del Perceptrn, le permiten solucionar o problemas en los que, los datos no son linealmente separables (deciencia del Perceptrn simple). o

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Qu tcnica fue la primera? e e Qu otras tcnicas e e nteligenteshay?

Clasicadores basados en memoria

Caracterizados porque almacenan ejemplos de aprendizaje en una estructura de memoria a partir de la cual, las instancias se clasican en funcin de su similitud con los ejemplos almacenados. o

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Qu tcnica fue la primera? e e Qu otras tcnicas e e nteligenteshay?

Mquinas vector soporte a

Son construcciones matemticas que buscan hiperplanos no a lineales en el espacio utilizando transformaciones de Lagrange. Son muy populares en los campos de aprendizaje automtico y la a miner de datos debido a su capacidad de generalizar y de a manejar grandes dimensiones de datos a travs del uso de ncleos. e u

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Qu tcnica fue la primera? e e Qu otras tcnicas e e nteligenteshay?

Sistemas de razonamiento basados en casos

se pueden entender como un sistema h brido dotado de aprendizaje automtico perezoso, puesto que la clasicacin de a o un nuevo caso se evala en tiempo de ejecucin, la base de casos u o se actualiza continuamente y el nuevo problema planteado se hace disponible para posteriores procesos de induccin. o

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Herramientas de deteccin de spam o

SpamAssasin SpamProbe

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Conclusiones

La aplicacin de las tcnicas se produce despus de que el o e e correo sea enviado. Se siguen usando las listas negras. Las tcnicas soft computing que se usan son bastante e precisas, sobre todo las que realizan aprendizaje. Ninguna de stas es perfecta, pero con la interaccin del e o usuario y una combinacion de varias conseguira que los ltros se puedan clasicar de forma cada vez mas precisa.

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos

Introduccin o La tecnolog antispam a Aplicando SoftComputing Ejemplos de sistemas antispam Conclusiones

Soft ComputingElaboracin de ltros antispam o

Claudia Mar Luque Fernndez a a [email protected] Sistemas Operativos Distribuidos 1o Curso Ingenier en Informtica a a Escuela Politcnica Superior e (Universidad de Crdoba) o

16 de mayo de 2011

Claudia Mar Luque Fernndez a a

Sistemas Operativos Distribuidos