Bayesian Spam-ийн шүүлтүүрийн талаар та юу мэдэх хэрэгтэй вэ

Ирсэн имэйлээ цэвэрлэж хадгалах статистикийг олох

Bayesian спам шүүлтүүр нь спамын агуулга нь түүний агуулга дээр үндэслэн магадлалыг тооцоолно. Агуулга дээр суурилсан шүүлтүүрүүдээс ялгаатай нь Bayesian спам шүүлтүүр нь спам болон шуудангаас суралцдаг бөгөөд маш сайн, дасан зохицох, үр дүнтэй, хор уршигтай арга барилыг бий болгодог.

Та Junk Email-ийг хэрхэн таних вэ?

Спамыг яаж илрүүлэх талаар бод. Хурдан харах нь хангалттай байдаг. Та ямар спам харагдахыг мэддэг бөгөөд ямар сайн захидал харагдахыг мэддэг.

И-мэйл шиг харагдах спамын магадлал ойролцоогоор ... тэг.

Агуулга дээр суурилсан шүүлтүүрийг оноогоогүй байна

Автомат спам шүүлтүүрүүд иймэрхүү ажилласан бол тийм ч сайн биш байх болов уу?

Агуулга дээр үндэслэсэн спам шүүлтүүрийг оноогоод үзээрэй. Тэд спамын үг, бусад шинж чанаруудыг хайдаг. Онцлог элемент бүр оноо өгч, нийт зурвасын хувьд спам оноо онооноос хувь оноог тооцдог. Зарим онооны шүүлтүүр нь хууль ёсны мэйлийн шинж чанарыг хайж, захианы эцсийн онооыг бууруулдаг.

Скор шүүлтүүрийн арга нь ажиллах боловч хэд хэдэн сул талуудтай:

Bayesian Spam шүүлтүүрүүд өөрсдийгөө илүү сайн, илүү сайн болгох

Bayesian спам шүүлтүүр нь мөн агуулгад суурилсан шүүлтүүрүүдийг агуулсан байдаг. Тэдгээрийн арга нь ердийн онооны спам шүүгчдийн асуудлыг шийддэг бөгөөд энэ нь маш эрсдэлд байдаг. Шалгалтын шүүлтүүрүүдийн сул тал нь гараар барьсан шинж чанаруудын жагсаалт болон тэдгээрийн оноон дээр гардаг тул энэ жагсаалтыг арилгадаггүй.

Үүний оронд Bayesian спам шүүлтүүрүүд өөрсдийгөө жагсаадаг. Хамгийн гайхалтай нь, та спам гэж ангилсан (том) багцуудаас эхлээд өөр захидал илгээдэг. Шүүлтүүрүүд нь хоёуланг нь авч үздэг бөгөөд спам болон янз бүрийн шинж тэмдгийн магадлалыг тооцоолохын тулд хууль ёсны мэйлийг мөн спам хийдэг.

Bayesian Спам шүүлтүүр нь имэйлийг хэрхэн шалгах вэ

Bayesian спам шүүлтүүрийг шинж чанарууд нь харагдах болно:

Жишээлбэл, "Декартын" гэдэг үг спамаар хэзээ ч харагдахгүй боловч таны хүлээн авсан хууль ёсны имэйлд ихэвчлэн "Декартын" спамыг тэг гэж харуулах магадлал тун ойр байна. Нөгөө талаас, "Toner" нь зөвхөн спамаар, ихэвчлэн гарч ирдэг. "Toner" нь спамаас олдох магадлал өндөр бөгөөд 1 (100%) -ээс багагүй байна.

Шинэ мессеж ирэхэд энэ нь "Bayesian" спам шүүлтүүрээр шинжилгээ хийгддэг бөгөөд спамын бүрэн мессежийн магадлал нь хувь хүний ​​онцлогийг ашиглан тооцоологддог.

Зурвасыг "Картизион" ба "хорын" хоёуланг нь агуулна. Зөвхөн эдгээр үгсээс бид спам, эсвэл шуудан мэйл байгаа эсэх нь тодорхойгүй байна. Бусад шинж чанарууд (магадгүй, магадгүй магадгүй) шүүлтүүр нь мессежийг спам буюу сайн мэйл гэж ангилах боломж олгодог.

Bayesian Спам шүүлтүүрийг автоматаар сурч болно

Одоо бид ангилал байгаа тул шүүлтүүрийг цааш нь бэлдэхэд ашиглаж болно. Энэ тохиолдолд, "Декартын" шуудангийн мэйлийг буулгах магадлал (хэрэв "Cartesian" болон "toner" хоёуланг агуулсан мессеж нь спам байна) эсвэл спамыг зааж байгаа "хормой" -ийн магадлалыг дахин нягталж үзэх хэрэгтэй.

Энэ автомат-дасан зохицох техникийг ашиглан Bayesian шүүлтүүрүүд өөрсдийн болон хэрэглэгчийн шийдвэрээс (хэрэв шүүлтүүрээр шүүлтүүрийг буруугаар засаж залруулдаг бол) хоёуланг нь сурч болно. Bayesian-н шүүлтүүрийн дасан зохицох чадвар нь имэйл хэрэглэгчдийн хувьд хамгийн үр дүнтэй байдаг. Ихэнх хүмүүсийн спам нь ижил шинж чанартай байдаг ч хууль ёсны захидал хүн бүрийн хувьд онцлог шинжтэй байдаг.

Спамерууд өнгөрсөн Bayesian шүүлтүүрүүдийг яаж авах вэ?

Бодит мэйлийн шинж чанарууд нь спамын хувьд Bayesian-ийн спам шүүлт хийх процесст бас адил ач холбогдолтой юм. Шүүгч нь бүх хэрэглэгчдэд зориулж бэлтгэгдсэн бол серверүүд хүн бүрийн (эсвэл ихэнх хүмүүсийн) спам шүүлтүүрийг тойрон ажиллахад илүү хэцүү цаг хугацаатай байх болно, шүүлтүүрүүд нь бараг л бүх серверүүд уруу дасан зохицож чадна.

Спам алгасдаг хүмүүс зөвхөн сайн сургагдсан Bayesian шүүлтүүрийг даван туулах болно. Хэрэв тэд спам зурвасууд нь бүгдийг авч болох энгийн имэйлтэй яг ижилхэн харагдуулдаг.

Спамерууд ихэвчлэн ийм энгийн имэйлийг илгээдэггүй. Эдгээр и-мэйлүүд нь хог хаягдал маягаар ажилладаггүй тул энэ нь гарна. Ердийн, уйтгартай имэйлүүд нь спам шүүлтүүрийг хийх цорын ганц арга зам бол үүнийг хийхгүй байх магадлалтай.

Хэрвээ согтууруулах ундаа нь ихэнхдээ жирийн харагддаг имэйл рүү шилжих юм бол, Бидэнд ирсэн мэйл дотроос их хэмжээний спам харагдах болно, мөн и-мэйлээр өмнөх Bayesian өдрүүдэд (эсвэл үүнээс ч муу зүйл) шиг сэтгэлээр унах болно. Энэ нь мөн ихэнх спамын зах зээлийг сүйтгэж, улмаар удаан үргэлжлэхгүй болно.

Хүчтэй үзүүлэлтүүд нь Bayesian Spam Filter-ийн Achilles & # 39; Өсгийтэй

Саммераторын шүүлтүүрээр дамжуулж тэдний энгийн контенттой байсан ч гэсэн нэг тохиолдол гарч болзошгүй. Bayesian статистик шинж чанар нь шуудангаар маш олон удаа гарч ирдэг нэг үг юм уу шинж чанар нь ямар нэгэн зурвасыг спамтай адилхан харагдуулахын тулд шүүлтүүрээр сонирхож байгаа гэж тооцдог.

Жишээ нь, согтууруулах ундаа тань таны итгэлтэй галын мессежүүдийг олох арга замыг хайж олоход нь HTML өгөгдлүүдийг ашиглан, ямар мессежийг нээсэн болохыг нь олж мэдээрэй, жишээ нь, тэдгээрийн аль нэгийг нь хог мэйлээр оруулж болно, Bayesian шүүлтүүрийг сургасан.

Жон Грэхем-Камминг нь "Bayesian" шүүлтүүрүүд нь бие биенийхээ эсрэг ажилладаг бөгөөд үүнийг "сайн" шүүлтүүрээр дамжуулан олж авдаг "муу" шүүлтүүрийг тохируулахыг оролддог. Энэ нь үйл ажиллагаа нь цаг хугацаа шаардсан, төвөгтэй боловч үйл ажиллагаа явуулдаг гэжээ. Бид энэ үйл явдлын ихэнхийг биш, хувь хүмүүсийн имэйлийн шинж чанарт тохирохгүй байхыг харахгүй байна. Спамерууд оронд нь зарим хүмүүст зориулсан түлхүүр үгсийг (жишээ нь "Almaden" гэх мэт зарим хүмүүс IBM-д байдаг байж магадгүй) олох боломжтой байж болох юм.).

Ихэнхдээ спам үргэлж энгийн захидлаас (ихээхэн ялгаатай) эсвэл спам биш байх болно.

Доод шугам: Bayesian Filtering нь хүч чадал сул байх болно

Bayesian спам шүүлтүүр нь контент дээр тулгуурласан шүүлтүүрүүд байдаг: