K-гэж юу гэсэн үг вэ?

К-арга алгоритмтай өгөгдлийн олборлолт

K- clustering алгоритм гэдэг нь кластерын ажиглалтыг ашигласан өгөгдлийг уул уурхай, тэдгээрийн холболтын бүлгүүдэд ашигладаг. Түүвэрлэх аргаар алгоритм нь категори, кластер, өгөгдөл нь к утга бүхий тодорхойлогдсон кластеруудын тоог харуулахыг оролддог .

К- арга алгоритм нь кластерийн хамгийн энгийн аргуудын нэг бөгөөд анагаахын дүрслэл, биометрик болон бусад холбогдох талбаруудад хэрэглэгддэг. К- классын давуу тал нь таны өгөгдлийг (хяналтгүй хэлбэрийг ашигладаг) давуу тал юм. Энэ нь алгоритмийг эхнээс нь (алгоритмын хяналтын хэлбэрээр) зааж өгөх явдал юм.

Энэ нь заримдаа Lloyd-ийн алгоритм гэж нэрлэгддэг, тухайлбал, компьютерийн шинжлэх ухааны хүрээнд байдаг. Учир нь стандарт алгоритмыг анх 1957 онд Стюарт Ллойд санал болгов. "К-арга" гэсэн нэр томъёог 1967 онд Жеймс МакКуин гэдэг.

К-гэдэг нь Алгоритмын функцүүд

К- арга алгоритм бол түүний нэрийг ашигладаг аргаасаа олж авсан хувьсалийн алгоритм юм. Алгоритм нь классын бүлгүүдэд ажиглалт хийдэг бөгөөд энд k нь оролтын параметр болж өгдөг. Дараа нь ажиглалт бүрийг кластерын дундажтай ойролцоо ажиглалтын дагуу кластерт хуваарилна. Кластерын дундажыг дахин тооцоолж, процесс дахин эхэлнэ. Энд алгоритм ажилладаг:

  1. Энэ алгоритм нь классын анхны кластер төвийг (арга) гэж дур мэдэн сонгожээ.
  2. Мэдээллийн сан дахь цэг бүр нь хаалттай кластерт цэг, цэг тус бүр болон кластер төвийн хоорондох Euclidean зайд суурилсан.
  3. Кластер төв болгоныг кластерийн дундажуудын дундажаар тооцдог.
  4. Цаашид 2 ба 3-р алхмуудыг кластерууд давтаж дуустал давтана. Нэвтрүүлэлт нь хэрэгжилтээс хамаарч өөр өөрөөр тодорхойлогдох боловч энэ нь 2, 3-р алхмуудыг дахин давтаж ажиглалтын ямар нэг ажиглалтыг өөрчлөхгүй, эсвэл өөрчлөлт нь кластерийн тодорхойлолтод материалын ялгааг өөрчилдөггүй гэсэн үг юм.

Кластерийн тоо сонгох

К кластерийн гол сул талуудын нэг нь кластын тоог алгоритм руу оруулна гэсэн үг юм. Дизайн байдлаар, алгоритм нь зохих кластерийн тоог тодорхойлох чадваргүй бөгөөд хэрэглэгчид үүнийг урьдчилан тодорхойлохоос хамаарна.

Жишээлбэл, хэрэв та хоёр эрэгтэй, эмэгтэй хүйсээр ялгагдах жендэрийн онцлогийг үндэслэн бүлэг хүмүүстэй байсан бол к- арга алгоритмыг дуудахдаа k = 3 нь хүмүүсийг зөвхөн хоёр, k = 2-ийн оролт нь илүү тохиромжтой.

Үүний нэгэн адил, хэрэв бүлэг хүмүүс гэр бүлийн төлөв байдалд үндэслэсэн хялбархан clustered бөгөөд та k- арга алгоритм гэж нэрлэдэг оролтын k = 20 гэж нэрлэдэг бол үр дүн нь үр дүн нь хэт ерөнхий байна.

Иймээс таны өгөгдлийг хамгийн сайн тохируулсан утгыг тодорхойлохын тулд k-ийн өөр өөр утгуудыг туршиж үзэх нь зүйтэй юм. Мен машинаас суралцах мэдлэгийг эрэлхийлэхдээ бусад мэдээллийн ашигт малтмалын алгоритмуудыг ашиглахыг судлах хэрэгтэй.