分類,就是確定某個(ge)對(dui)象(xiang)屬于哪個(ge)預定義(yi)的(de)目標類的(de)過程。
在機器學(xue)習中,分(fen)類法(fa)(fa)有很多種,比如(ru)決策(ce)樹分(fen)類法(fa)(fa)、基于規則的分(fen)類法(fa)(fa)、神(shen)經網絡、支持向量(liang)機和樸素貝葉(xie)斯分(fen)類法(fa)(fa),等等。
而決(jue)策樹(shu)是最常見的一種簡單卻廣泛使用的分類技術。
決策樹,是一種樹形結構(gou),其中(zhong)每(mei)個節點表示一個屬性(xing),每(mei)個分(fen)支代表屬性(xing)的取值,每(mei)個葉節點代表一種類別(bie)。
第一(yi)步:選擇一(yi)個屬性,構造根(gen)節點
比如選(xuan)擇“月(yue)收入”構(gou)造根(gen)節點,其(qi)中“月(yue)收入”有三個(ge)取舍{低、中、高(gao)},因此根(gen)節點有三個(ge)分支,這樣,形成(cheng)3個(ge)子結(jie)點(也(ye)就是有3個(ge)子類別)。
如(ru)下圖所示,根節點中(zhong)的(de)數(shu)據表示,總(zong)共(gong)有(you)14個人(ren),其中(zhong)違(wei)約用(yong)戶5個,按照“月(yue)收入”進行(xing)分類(lei),可(ke)以分成3個子(zi)類(lei)別,其中(zhong)“收入低”的(de)類(lei)別共(gong)有(you)5個人(ren),其中(zhong)違(wei)約用(yong)戶3個;“收入中(zhong)”的(de)用(yong)戶共(gong)有(you)4人(ren),沒有(you)人(ren)違(wei)約。
第二步:對(dui)于不(bu)純的子節點(dian),選擇一個屬性繼續生長(chang)
對于“收(shou)入中(zhong)”子節(jie)點(dian),只有一種用(yong)戶(hu)(非違約用(yong)戶(hu)),因此子節(jie)點(dian)是(shi)純的(de)節(jie)點(dian),不(bu)需要繼續生長了。
對于“收入低”子節(jie)(jie)點(dian)(dian),違約用戶和非違約用戶都有,屬(shu)于不純節(jie)(jie)點(dian)(dian),因(yin)此還需要繼(ji)續(xu)生長(chang)。
在(zai)“收(shou)入(ru)低”子(zi)節(jie)(jie)點中(zhong),選擇(ze)一個(ge)(ge)屬性(xing)(xing)“性(xing)(xing)別 ”繼續生長(chang),性(xing)(xing)別有2個(ge)(ge)取值{男(nan)、女(nv)},因此子(zi)結(jie)點可以分解為(wei)2個(ge)(ge)子(zi)節(jie)(jie)點。“收(shou)入(ru)低、男(nan)性(xing)(xing)”子(zi)節(jie)(jie)點中(zhong)共(gong)有3個(ge)(ge)人,全(quan)部(bu)(bu)是(shi)違(wei)約用(yong)戶;“收(shou)入(ru)低、女(nv)性(xing)(xing)”子(zi)節(jie)(jie)點共(gong)有2個(ge)(ge)人,全(quan)部(bu)(bu)都不是(shi)違(wei)約用(yong)戶。
類似(si)地(di),對于“收(shou)入高“的子(zi)節點,選(xuan)擇“行(xing)業(ye)”屬性進行(xing)生長,也得到(dao)2個子(zi)節點。
決策樹(shu)(shu):構造(zao)決策樹(shu)(shu),實(shi)現分(fen)類預測(ce)
第(di)三(san)步:停(ting)止決策樹(shu)的生長
如(ru)上圖(tu)所(suo)(suo)示,當所(suo)(suo)有的(de)子(zi)結(jie)點都滿足了(le)停止生長(chang)的(de)條件(比(bi)如(ru)所(suo)(suo)有子(zi)結(jie)點都是純的(de)),決策樹(shu)就(jiu)算完(wan)成了(le)。
此(ci)時,所有的(de)(de)葉結點就是決策樹的(de)(de)分類(lei)類(lei)別(bie)。
第四步:評估分(fen)類質量
決(jue)策樹構(gou)造好之(zhi)后,需要評估模型的好壞(huai)(質量)。
一般采用查準率和查全率來(lai)衡量模型的好壞(huai),如(ru)上例所示。
查準(zhun)(zhun)率:總(zong)共有14個人(ren),模型(xing)分類(lei)正(zheng)確的有14個人(ren),即查準(zhun)(zhun)率為100%。
查(cha)全(quan)率(lv)(lv):總共有5個人違約(yue),模型查(cha)出來的(de)也(ye)是5個人,即查(cha)全(quan)率(lv)(lv)為100%。
查準(zhun)率和(he)查全率都比(bi)較(jiao)(jiao)高,說明模(mo)型比(bi)較(jiao)(jiao)好(hao),可用。
第五步(bu):提取“違約(yue)用(yong)戶”的特征
我們將有違約用戶(hu)的葉結點用背(bei)景色標(biao)識(shi)出(chu)來,可(ke)以發現那些(xie)違約用戶(hu)的特征:
1) 月收入低,且性別為男;
2) 月(yue)收入高,且在皮具行業工作。
第六步:預測(ce)(ce)新用(yong)戶預測(ce)(ce)
當(dang)決策樹(shu)模型構造好(hao)以后,就(jiu)可以用來進行預測。
當(dang)一(yi)個(ge)新(xin)的(de)申請貨款的(de)用(yong)戶來貨款時(shi),可(ke)以根據決策樹模型,來評(ping)估(gu)用(yong)戶最有可(ke)能屬(shu)于(yu)哪一(yi)個(ge)節(jie)點,如果新(xin)用(yong)戶所屬(shu)葉節(jie)點的(de)違(wei)約風險(xian)極高,則應(ying)該拒絕給新(xin)用(yong)戶貨款;否則可(ke)以進行放貨。
決(jue)策樹的(de)構造(zao),理解起(qi)來(lai)是很簡單的(de)。而且,容易生成或提取可識別(bie)的(de)類別(bie)特征。
當然,其背后(hou)的(de)(de)實(shi)現算(suan)法還有很多需(xu)要思(si)考的(de)(de),比如應該選擇哪個屬(shu)性(xing)來進(jin)行(xing)生長?屬(shu)性(xing)的(de)(de)分支取值如何(he)確(que)定(ding)?決策樹生長的(de)(de)停止條件如何(he)確(que)定(ding)?這些內(nei)容對于(yu)開發(fa)者和算(suan)法設計者很重要,請(qing)關注我后(hou)續的(de)(de)文章(zhang)。
轉載://bamboo-vinegar.cn/zixun_detail/111850.html