Bayesian Spam-ийн шүүлтүүрийн талаар та юу мэдэх хэрэгтэй вэ

by Heinz Tschabitscher

Ирсэн имэйлээ цэвэрлэж хадгалах статистикийг олох

Bayesian спам шүүлтүүр нь спамын агуулга нь түүний агуулга дээр үндэслэн магадлалыг тооцоолно. Агуулга дээр суурилсан шүүлтүүрүүдээс ялгаатай нь Bayesian спам шүүлтүүр нь спам болон шуудангаас суралцдаг бөгөөд маш сайн, дасан зохицох, үр дүнтэй, хор уршигтай арга барилыг бий болгодог.

Та Junk Email-ийг хэрхэн таних вэ?

Спамыг яаж илрүүлэх талаар бод. Хурдан харах нь хангалттай байдаг. Та ямар спам харагдахыг мэддэг бөгөөд ямар сайн захидал харагдахыг мэддэг.

И-мэйл шиг харагдах спамын магадлал ойролцоогоор ... тэг.

Агуулга дээр суурилсан шүүлтүүрийг оноогоогүй байна

Автомат спам шүүлтүүрүүд иймэрхүү ажилласан бол тийм ч сайн биш байх болов уу?

Агуулга дээр үндэслэсэн спам шүүлтүүрийг оноогоод үзээрэй. Тэд спамын үг, бусад шинж чанаруудыг хайдаг. Онцлог элемент бүр оноо өгч, нийт зурвасын хувьд спам оноо онооноос хувь оноог тооцдог. Зарим онооны шүүлтүүр нь хууль ёсны мэйлийн шинж чанарыг хайж, захианы эцсийн онооыг бууруулдаг.

Скор шүүлтүүрийн арга нь ажиллах боловч хэд хэдэн сул талуудтай:

Шинж чанаруудын жагсаалтыг спамаас (мөн шуудангаар) шүүлтүүрээс инженерүүдэд олгодог. Ердийн спамын талаар сайн ойлголттой болохын тулд хэдэн зуун имэйл хаягт мэйлийг цуглуулсан байх ёстой. Энэ нь шїїлтїїрийн їр ашгийг сулруулдаг. Ялангуяа сайн мэйлийн шинж чанарууд нь хїмїїсийн хувьд ялгаатай байдаг боловч энэ нь анхаараагїй юм.
Хайж буй шинж чанар нь чулуун дээр тавьдаг . Хэрэв серверүүд дасан зохицохыг хичээдэг (мөн тэдний спам нь шуудангаар сайн мэйл шиг байдаг) бол шүүлтүүрийн шинж чанаруудыг гараар тааруулан өөрчилдөг - илүү том хүчин чармайлт гардаг.
Үг бүрт оноогдсон оноо нь сайн тооцоололд тулгуурласан байж болох ч энэ нь дур зоргын хэвээр байна. Мөн шинж чанаруудын жагсаалттай адилаар спам өөрчлөгдөж буй ертөнцөд ерөнхийдөө, эсвэл хэрэглэгчийн хэрэгцээнд тохирохгүй.

Bayesian Spam шүүлтүүрүүд өөрсдийгөө илүү сайн, илүү сайн болгох

Bayesian спам шүүлтүүр нь мөн агуулгад суурилсан шүүлтүүрүүдийг агуулсан байдаг. Тэдгээрийн арга нь ердийн онооны спам шүүгчдийн асуудлыг шийддэг бөгөөд энэ нь маш эрсдэлд байдаг. Шалгалтын шүүлтүүрүүдийн сул тал нь гараар барьсан шинж чанаруудын жагсаалт болон тэдгээрийн оноон дээр гардаг тул энэ жагсаалтыг арилгадаггүй.

Үүний оронд Bayesian спам шүүлтүүрүүд өөрсдийгөө жагсаадаг. Хамгийн гайхалтай нь, та спам гэж ангилсан (том) багцуудаас эхлээд өөр захидал илгээдэг. Шүүлтүүрүүд нь хоёуланг нь авч үздэг бөгөөд спам болон янз бүрийн шинж тэмдгийн магадлалыг тооцоолохын тулд хууль ёсны мэйлийг мөн спам хийдэг.

Bayesian Спам шүүлтүүр нь имэйлийг хэрхэн шалгах вэ

Bayesian спам шүүлтүүрийг шинж чанарууд нь харагдах болно:

мэдээжийн хэрэг, мэдээний бие дэх үгс
түүний удирдагч (жишээ нь илгээгч болон мессежийн замууд )
HTML / CSS код (бусад өнгө, бусад формат гэх мэт), эсвэл бүр адилхан
үг хос хэллэг, өгүүлбэрүүд болон
мета мэдээлэл (жишээ нь, тодорхой өгүүлбэр гарч ирдэг).

Жишээлбэл, "Декартын" гэдэг үг спамаар хэзээ ч харагдахгүй боловч таны хүлээн авсан хууль ёсны имэйлд ихэвчлэн "Декартын" спамыг тэг гэж харуулах магадлал тун ойр байна. Нөгөө талаас, "Toner" нь зөвхөн спамаар, ихэвчлэн гарч ирдэг. "Toner" нь спамаас олдох магадлал өндөр бөгөөд 1 (100%) -ээс багагүй байна.

Шинэ мессеж ирэхэд энэ нь "Bayesian" спам шүүлтүүрээр шинжилгээ хийгддэг бөгөөд спамын бүрэн мессежийн магадлал нь хувь хүний онцлогийг ашиглан тооцоологддог.

Зурвасыг "Картизион" ба "хорын" хоёуланг нь агуулна. Зөвхөн эдгээр үгсээс бид спам, эсвэл шуудан мэйл байгаа эсэх нь тодорхойгүй байна. Бусад шинж чанарууд (магадгүй, магадгүй магадгүй) шүүлтүүр нь мессежийг спам буюу сайн мэйл гэж ангилах боломж олгодог.

Bayesian Спам шүүлтүүрийг автоматаар сурч болно

Одоо бид ангилал байгаа тул шүүлтүүрийг цааш нь бэлдэхэд ашиглаж болно. Энэ тохиолдолд, "Декартын" шуудангийн мэйлийг буулгах магадлал (хэрэв "Cartesian" болон "toner" хоёуланг агуулсан мессеж нь спам байна) эсвэл спамыг зааж байгаа "хормой" -ийн магадлалыг дахин нягталж үзэх хэрэгтэй.

Энэ автомат-дасан зохицох техникийг ашиглан Bayesian шүүлтүүрүүд өөрсдийн болон хэрэглэгчийн шийдвэрээс (хэрэв шүүлтүүрээр шүүлтүүрийг буруугаар засаж залруулдаг бол) хоёуланг нь сурч болно. Bayesian-н шүүлтүүрийн дасан зохицох чадвар нь имэйл хэрэглэгчдийн хувьд хамгийн үр дүнтэй байдаг. Ихэнх хүмүүсийн спам нь ижил шинж чанартай байдаг ч хууль ёсны захидал хүн бүрийн хувьд онцлог шинжтэй байдаг.

Спамерууд өнгөрсөн Bayesian шүүлтүүрүүдийг яаж авах вэ?

Бодит мэйлийн шинж чанарууд нь спамын хувьд Bayesian-ийн спам шүүлт хийх процесст бас адил ач холбогдолтой юм. Шүүгч нь бүх хэрэглэгчдэд зориулж бэлтгэгдсэн бол серверүүд хүн бүрийн (эсвэл ихэнх хүмүүсийн) спам шүүлтүүрийг тойрон ажиллахад илүү хэцүү цаг хугацаатай байх болно, шүүлтүүрүүд нь бараг л бүх серверүүд уруу дасан зохицож чадна.

Спам алгасдаг хүмүүс зөвхөн сайн сургагдсан Bayesian шүүлтүүрийг даван туулах болно. Хэрэв тэд спам зурвасууд нь бүгдийг авч болох энгийн имэйлтэй яг ижилхэн харагдуулдаг.

Спамерууд ихэвчлэн ийм энгийн имэйлийг илгээдэггүй. Эдгээр и-мэйлүүд нь хог хаягдал маягаар ажилладаггүй тул энэ нь гарна. Ердийн, уйтгартай имэйлүүд нь спам шүүлтүүрийг хийх цорын ганц арга зам бол үүнийг хийхгүй байх магадлалтай.

Хэрвээ согтууруулах ундаа нь ихэнхдээ жирийн харагддаг имэйл рүү шилжих юм бол, Бидэнд ирсэн мэйл дотроос их хэмжээний спам харагдах болно, мөн и-мэйлээр өмнөх Bayesian өдрүүдэд (эсвэл үүнээс ч муу зүйл) шиг сэтгэлээр унах болно. Энэ нь мөн ихэнх спамын зах зээлийг сүйтгэж, улмаар удаан үргэлжлэхгүй болно.

Хүчтэй үзүүлэлтүүд нь Bayesian Spam Filter-ийн Achilles & # 39; Өсгийтэй

Саммераторын шүүлтүүрээр дамжуулж тэдний энгийн контенттой байсан ч гэсэн нэг тохиолдол гарч болзошгүй. Bayesian статистик шинж чанар нь шуудангаар маш олон удаа гарч ирдэг нэг үг юм уу шинж чанар нь ямар нэгэн зурвасыг спамтай адилхан харагдуулахын тулд шүүлтүүрээр сонирхож байгаа гэж тооцдог.

Жишээ нь, согтууруулах ундаа тань таны итгэлтэй галын мессежүүдийг олох арга замыг хайж олоход нь HTML өгөгдлүүдийг ашиглан, ямар мессежийг нээсэн болохыг нь олж мэдээрэй, жишээ нь, тэдгээрийн аль нэгийг нь хог мэйлээр оруулж болно, Bayesian шүүлтүүрийг сургасан.

Жон Грэхем-Камминг нь "Bayesian" шүүлтүүрүүд нь бие биенийхээ эсрэг ажилладаг бөгөөд үүнийг "сайн" шүүлтүүрээр дамжуулан олж авдаг "муу" шүүлтүүрийг тохируулахыг оролддог. Энэ нь үйл ажиллагаа нь цаг хугацаа шаардсан, төвөгтэй боловч үйл ажиллагаа явуулдаг гэжээ. Бид энэ үйл явдлын ихэнхийг биш, хувь хүмүүсийн имэйлийн шинж чанарт тохирохгүй байхыг харахгүй байна. Спамерууд оронд нь зарим хүмүүст зориулсан түлхүүр үгсийг (жишээ нь "Almaden" гэх мэт зарим хүмүүс IBM-д байдаг байж магадгүй) олох боломжтой байж болох юм.).

Ихэнхдээ спам үргэлж энгийн захидлаас (ихээхэн ялгаатай) эсвэл спам биш байх болно.

Доод шугам: Bayesian Filtering нь хүч чадал сул байх болно

Bayesian спам шүүлтүүр нь контент дээр тулгуурласан шүүлтүүрүүд байдаг:

Имэйлийн хэрэглэгчдийн спам болон шуудан мэйлийг таньж мэдэхээр бэлтгэгдсэн хүмүүст тусгайлан бэлтгэл хийдэг бөгөөд тэднийг софам хэрэглэгчдэд дасан зохицоход хэцүү, үр дүнтэй байдаг.
үргэлжлүүлэн, хүчин чармайлтгүй эсвэл гар аргаар дүн шинжилгээ хийх нь спермерүүдийн хамгийн сүүлийн үеийн заль мэхтэй дасан зохицдог .
хэрэглэгчийнхээ сайн мэйлийг харгалзан үзээд хуурамч эерэг үзүүлэлт маш бага түвшинд байна.
Харамсалтай нь, хэрэв энэ нь Bayesian-ийн эсрэг спам шүүлтүүрт сохроор итгэдэг бол алдаа нь бүр ч илүү ноцтой алдаа болдог. Хуурамч сөрөг тал (спиртийн шууд мэйл шиг харагддаг спам) нь хэрэглэгчдийг саад болох, сүйрүүлэх боломжтой байдаг.