Мэдээллийн Удирдлагын Ангилал

Ангилал гэдэг нь илүү нарийвчлалтай таамаглал, дүн шинжилгээ хийхэд туслах зорилгоор өгөгдөл цуглуулах категорийг ангилах өгөгдөл уул уурхайн техник юм. Түүнчлэн заримдаа Decision Tree гэж нэрлэгддэг. Ангилал нь маш том мэдээллийн санг дүн шинжилгээ хийхэд зориулагдсан хэд хэдэн аргын нэг юм.

Ангилал яагаад?

Маш том өгөгдлийн сангууд өнөөгийн "том өгөгдөл" -д ердийн хэвшил болж байна. Мэдээллийн олон тоон terabytes бүхий өгөгдлийн санг төсөөлье-нэг terabyte нь нэг их наяд байтын өгөгдөл юм.

Фэйсбүүк ганцаараа өдөр бүр 600 терабитийг шинэчилдэг (2014 он гэхэд эдгээр үзүүлэлтүүдийг хамгийн сүүлд мэдээлсэн). Том өгөгдөлд тулгардаг хамгийн том сорилт бол үүнийг хэрхэн ойлгохыг ойлгох явдал юм.

Товч тоо нь зөвхөн ганц асуудал биш юм. Том өгөгдөл нь өөр өөр, бүтэцгүй, хурдан өөрчлөгдөж байдаг. Аудио, видео өгөгдөл, нийгмийн хэвлэл мэдээллийн бичлэг, 3D өгөгдөл эсвэл газарзүйн мэдээллийг оруулах. Энэ төрлийн мэдээллийг хялбархан ангилж, зохион байгуулдаггүй.

Энэхүү сорилтыг даван туулахын тулд хэрэгцээтэй мэдээллийг цуглуулах олон төрлийн автомат аргуудыг боловсруулж, тэдгээрийн ангиллаар оруулав .

Ангилал хэрхэн ажилладаг вэ

Техникийн ярианд хэтэрхий холдох аюултай тул ангилал хэрхэн ажилладаг талаар ярилцъя. Зорилго нь асуултад хариулах, шийдвэр гаргах, эсвэл урьдчилан таамаглах зан төлөвт тохирох ангиллын дүрмийг бий болгох явдал юм. Эхлэхийн тулд сургалтын тодорхой тооны шинж чанарууд болон үр дүнг агуулсан сургалтын багцыг боловсруулдаг.

Ангиллын алгоритмийн ажил нь уг шинж чанаруудын дүгнэлтэнд хэрхэн хүрэхийг олох явдал юм.

Тохиолдол : Ямар кредит картнаас кредит картын саналыг авах ёстойг тодорхойлох кредит картны компани байж магадгүй.

Энэ нь сургалтын мэдээллийн багц байж болно:

Сургалтын мэдээлэл
Нэр Нас Жендэр Жилийн орлого Кредит карт санал болгох
Жон Doe 25 М $ 39,500 Үгүй
Жэйн Doe 56 F $ 125,000 Тиймээ

"Урьдчилан таамаглах" багана Нас , Жендер , Жилийн орлогын хэмжээг "таамаглагчийн шинж чанар" -ын үнэлгээний кредит карт санал болгодог . Сургалтын багц дээр таамаглагчийн шинж чанарыг мэддэг. Ангиллын алгоритм нь урьдчилан таамагласан шинж чанарын утгыг хэрхэн олохыг тодорхойлохыг оролддог: урьдчилан таамагласан хүмүүс болон шийдвэрийн хооронд ямар харилцаа байдаг вэ? Энэ нь урьдчилан таамаглах дүрэм, ихэвчлэн IF / THEN мэдэгдлийн багцыг боловсруулах болно, жишээ нь:

IF (Нас = 18 OR Насны <75) ба Жилийн Орлого> 40,000 Дараа нь Кредит карт санал болгох = тийм

Мэдээжийн хэрэг, энэ нь энгийн жишээ бөгөөд алгоритм нь энд харуулсан хоёр бүртгэлээс илүү том түүвэр авах шаардлагатай болно. Цаашилбал, урьдчилан таамаглах дүрмүүд нь илүү төвөгтэй байж болох бөгөөд үүнд шинж чанарын дэлгэрэнгүй мэдээллийг авах дэд дүрмүүд орно.

Дараа нь алгоритм нь өгөгдлийн "урьдчилан таамаглах багц" өгөгдсөн боловч энэ нь таамаглалын шинж чанар (эсвэл шийдвэр) дутагдалтай:

Тооцооллын өгөгдөл
Нэр Нас Жендэр Жилийн орлого Кредит карт санал болгох
Жак Фрост 42 М $ 88,000
Мэри Мюррэй 16 F $ 0

Энэ таамаглалын өгөгдөл нь таамаглалын дүрмүүдийн нарийвчлалыг үнэлэхэд тусалдаг ба хөгжүүлэгчид таамаглалууд үр дүнтэй, ашиг тустай гэж тооцогдох хүртэл дүрмийг тонгойлгоно.

Ангилал дахь өдрийн өдөр

Ангилал болон бусад өгөгдөл уул уурхайн технологиуд нь хэрэглэгчдийн өдөр тутам хэрэглэж байсан туршлага дээр тулгуурладаг.

Цаг агаарын урьдчилсан таамаглалууд нь бороотой, нартай, үүлэрхэг бороотой эсэх талаар ангилахын тулд ангилалыг ашиглаж болно. Эмнэлгийн мэргэжил нь эрүүл мэндийн үр дүнг таамаглахын тулд эрүүл мэндийн нөхцөл байдалд анализ хийж болно. Ангиллын хэлбэрийн арга, Naive Bayesian нь спам имэйлүүдийг ангилах магадлалыг ашигладаг. Бүтээгдэхүүний саналыг залилангийн илрүүлгээс харахад өгөгдөлд дүн шинжилгээ хийж, таамаг гаргаж байгаа өдөр тутмын үзэгдлийн аргыг ангилж байна.