O que cómpre saber sobre o filtrado de spam local

by Heinz Tschabitscher

Descubre como as estatísticas axudan a manter a túa caixa de entrada limpa

Os filtros bayesianos de spam calculan a probabilidade de que unha mensaxe sexa spam en función dos seus contidos. A diferenza dos filtros baseados en contido sinxelos, o filtro de spam de Bayesian aprende do correo non desexado e do bo correo electrónico, o que supón un enfoque moi robusto, adaptable e eficiente contra o correo non desexado que, mellor que nada, devolve case ningún falso positivo.

Como recoñece correo non desexado?

Pense en como detecta spam . Unha rápida ollada adoita ser suficiente. Vostede sabe o aspecto de spam, e sabe o que parece un bo correo.

A probabilidade de que o correo non desexado sexa bo sexa en torno a ... cero.

A puntuación dos filtros baseados en contido non se adapta

Non sería óptimo que tamén funcionen os filtros automáticos de spam?

Ao rexistrar filtros de spam baseados en contido intente só iso. Eles buscan palabras e outras características típicas de spam. Cada elemento característico é asignado a puntuación, e unha puntuación de spam para toda a mensaxe compútase a partir das partituras individuais. Algúns filtros de puntuación tamén buscan as características do correo lexítimo, reducindo a puntuación final dunha mensaxe.

O enfoque dos filtros de puntuación funciona, pero tamén ten varios inconvenientes:

A lista de características está construída a partir do spam (e do bo correo) dispoñible para os enxeñeiros do filtro. Para obter unha boa comprensión do spam típico que alguén poida recibir, o correo electrónico debe ser recollido en centos de enderezos de correo electrónico. Isto debilita a eficiencia dos filtros, especialmente porque as características do bo correo serán diferentes para cada persoa , pero isto non se ten en conta.
As características a buscar están máis ou menos xuntas . Se os spammers fan o esforzo por adaptar (e fan que o seu spam considere un bo correo electrónico aos filtros), as características de filtrado deben ser modificadas manualmente: un esforzo aínda maior.
A puntuación asignada a cada palabra probablemente está baseada nunha boa estimación, pero aínda é arbitraria. E como a lista de características, non se adapta ao mundo cambiante do spam en xeral nin ás necesidades do usuario.

Os filtros de spam Bayesian axústanse a si mesmos, mellorando e mellorando

Os filtros bayesianos de spam son tamén un tipo de filtros baseados en contido. O seu enfoque elimina os problemas dos filtros simple de puntuación de spam, e iso faio de forma radical. Unha vez que a debilidade dos filtros de puntuación está na lista de características manualmente construída e as súas puntuacións, esta lista elimínase.

En cambio, os filtros de spam Bayesian compilan a lista. Idealmente, comeza cun (gran) grupo de correos electrónicos que clasificou como spam e outro bo correo. Os filtros miren tanto e analizan o correo lexítimo como o spam para calcular a probabilidade de varias características que aparecen en spam e en bo correo.

Como un filtro de spam de Bayesian examina un correo electrónico

As características que un filtro Bayesian spam pode ver pode ser:

as palabras no corpo da mensaxe, por suposto, e
os seus encabezados (remitentes e camiños de mensaxes , por exemplo!), pero tamén
outros aspectos como o código HTML / CSS (como cores e outro formato) ou mesmo
pares de palabras, frases e
meta información (onde aparece unha frase particular, por exemplo).

Se unha palabra, "cartesiana" por exemplo, nunca aparece no correo non desexado, pero moitas veces no correo lexítimo que recibe, a probabilidade de que "cartesiana" indique que o spam está preto de cero. "Tóner", por outra banda, aparece exclusivamente, e moitas veces, no correo lixo. "Tóner" ten unha probabilidade moi elevada de atoparse no correo non desexado, nin moito menos de 1 (100%).

Cando chega unha nova mensaxe, é analizada polo filtro Bayesian spam e a probabilidade de que a mensaxe completa sexa spam está calculada utilizando as características individuais.

Supoña que unha mensaxe contén tanto "cartesiana" como "toner". A partir destas palabras, por separado, aínda non está claro se temos spam ou correos legítimos. Outras características (con sorte e máis probabilidade) indican unha probabilidade que permite que o filtro clasifique a mensaxe como spam ou bo correo.

Os filtros de spam Bayesian poden aprender automaticamente

Agora que temos unha clasificación, a mensaxe pode usarse para adestrar aínda máis o filtro. Neste caso, descríbese a probabilidade de que "Cartesianas" indique un bo correo (se a mensaxe que contén "Cartesian" e "toner" é spam), ou a probabilidade de que o "toner" que indique spam debe ser reconsiderada.

Usando esta técnica de auto-adaptación, os filtros bayesianos poden aprender tanto das súas propias como das decisións do usuario (se resolve correctamente un erro de erro polos filtros). A adaptabilidade do filtrado bayesiano tamén se asegura de que sexan máis eficaces para o usuario de correo electrónico individual. Aínda que o correo non desexado da maioría das persoas pode ter características similares, o correo lexítimo é característicamente diferente para todos.

Como poden os spammers obter os filtros bayesianos anteriores?

As características do correo lexítimo son tan importantes para o proceso Bayesian de filtrado de spam como o spam. Se os filtros están adestrados específicamente para cada usuario, os spammers terán un tempo aínda máis difícil traballar cos filtros de spam de todos (ou incluso a maioría dos usuarios) e os filtros poden adaptarse a case todos os intrusos.

Os spammers só o farán pasar por filtros Bayesianos ben adestrados se fan que as súas mensaxes de spam sexan perfectamente coma o correo electrónico normal que todos poidan ter.

Os spammers normalmente non envían correos electrónicos tan normais. Supoñamos que isto se debe a que estes correos electrónicos non funcionan como correo lixo. Así, as posibilidades son que non o farán cando os correos electrónicos normais e aburridos son a única forma de facer que os filtros de correo non desexados sexan antigos.

Se os spammers cambian a maioría dos correos electrónicos de aspecto normal, veremos unha gran cantidade de spam nas nosas caixas de entrada de novo e o correo electrónico pode chegar a ser tan frustrante como nos días pre-Bayesianos (ou peor aínda). Tamén tería arruinado o mercado para a maioría dos tipos de spam, e así non durará moito tempo.

Indicadores fortes Pode ser un filtro de spam Bayesiano de Achilles & # 39; s. Talón

Pódese percibir unha excepción para que os spammers funcionen a través dos filtros bayesianos ata co seu contido habitual. É na natureza das estatísticas bayesianas que unha palabra ou característica que frecuentemente aparece en bo correo pode ser tan significativa como para converter calquera mensaxe de spam como para ser clasificado como xamón polo filtro.

Se os spammers atopan unha forma de determinar as súas palabras de correo seguro de correo bo, usando os ingresos de retorno de HTML para ver as mensaxes que abriu, por exemplo, poden incluír unha delas nun correo lixo e chegar ata a través dun ben- filtro Bayesiano adestrado.

John Graham-Cumming probou isto deixando que dous filtros bayesianos funcionen un contra o outro, o "malo" que se adapta ás mensaxes que se atopan para atravesar o filtro "bo". El di que funciona, aínda que o proceso é lento e complexo. Non cremos que veremos que isto sucederá, polo menos non a grande escala, e non se adaptará ás características de correo electrónico dos individuos. Os spammers poden (tentar) descubrir algunhas palabras clave para organizacións (algo así como "Almaden" para algunhas persoas en IBM quizais?).

Normalmente, o correo non desexado sempre será (significativamente) diferente do correo normal ou non será spam.

A liña inferior: a forza de filtrado bayesiano pode ser a súa debilidade

Os filtros bayesianos de spam son filtros baseados en contido que:

están especialmente adestrados para recoñecer o correo non desexado e o bo correo electrónico do usuario , converténdose no altamente eficaz e difícil de adaptar aos spammers.
pode continuamente e sen moito esforzo ou análise manual adaptarse aos últimos trucos dos spammers.
tome en conta o bo correo do usuario e teña unha taxa moi baixa de falsos positivos .
Desafortunadamente, se isto provoca confianza cega nos filtros anti-spam de Bayesian, fai que o erro ocasional sexa aínda máis grave . O efecto contrario dos falsos negativos (spam que se ve exactamente como un correo regular) ten o potencial de perturbar e frustrar aos usuarios.