當(dāng)前位置首頁(yè) > 建筑/施工 > 路橋/水利
搜柄,搜必應(yīng)! 快速導(dǎo)航 | 使用教程

分類決策樹_ID3算法

文檔格式:PPT| 51 頁(yè)|大小 786.50KB|積分 20|2022-07-15 發(fā)布|文檔ID:119729189
第1頁(yè)
第2頁(yè)
第3頁(yè)
下載文檔到電腦,查找使用更方便 還剩頁(yè)未讀,繼續(xù)閱讀>>
1 / 51
此文檔下載收益歸作者所有 下載文檔
  • 版權(quán)提示
  • 文本預(yù)覽
  • 常見問(wèn)題
  • 決策樹,決策樹基本概念,決策樹算法,主要內(nèi)容,決策樹基本概念,決策樹算法,決策樹基本概念,關(guān)于分類問(wèn)題,分類(Classification)任務(wù)就是通過(guò)學(xué)習(xí)獲得一個(gè)目標(biāo)函數(shù)(TargetFunction)f,將每個(gè)屬性集x映射到一個(gè)預(yù)先定義好的類標(biāo)號(hào)y分類任務(wù)的輸入數(shù)據(jù)是紀(jì)錄的集合,每條記錄也稱為實(shí)例或者樣例用元組(X,y)表示,其中,X是屬性集合,y是一個(gè)特殊的屬性,指出樣例的類標(biāo)號(hào)(也稱為分類屬性或者目標(biāo)屬性),決策樹基本概念,關(guān)于分類問(wèn)題,X,y,分類與回歸,分類目標(biāo)屬性y是離散的,回歸目標(biāo)屬性y是連續(xù)的,決策樹基本概念,解決分類問(wèn)題的一般方法,分類技術(shù)是一種根據(jù)輸入數(shù)據(jù)集建立分類模型的系統(tǒng)方法分類技術(shù)一般是用一種學(xué)習(xí)算法確定分類模型,該模型可以很好地?cái)M合輸入數(shù)據(jù)中類標(biāo)號(hào)和屬性集之間的聯(lián)系學(xué)習(xí)算法得到的模型不僅要很好擬合輸入數(shù)據(jù),還要能夠正確地預(yù)測(cè)未知樣本的類標(biāo)號(hào)因此,訓(xùn)練算法的主要目標(biāo)就是要建立具有很好的泛化能力模型,即建立能夠準(zhǔn)確地預(yù)測(cè)未知樣本類標(biāo)號(hào)的模型分類方法的實(shí)例包括:決策樹分類法、基于規(guī)則的分類法、神經(jīng)網(wǎng)絡(luò)、支持向量級(jí)、樸素貝葉斯分類方法等決策樹基本概念,解決分類問(wèn)題的一般方法,通過(guò)以上對(duì)分類問(wèn)題一般方法的描述,可以看出分類問(wèn)題一般包括兩個(gè)步驟:1、模型構(gòu)建(歸納)通過(guò)對(duì)訓(xùn)練集合的歸納,建立分類模型。

    2、預(yù)測(cè)應(yīng)用(推論)根據(jù)建立的分類模型,對(duì)測(cè)試集合進(jìn)行測(cè)試決策樹基本概念,解決分類問(wèn)題的一般方法,學(xué)習(xí)算法,學(xué)習(xí)模型,模型,應(yīng)用模型,訓(xùn)練集(類標(biāo)號(hào)已知),檢驗(yàn)集(類標(biāo)號(hào)未知),歸納,推論,決策樹基本概念,決策樹,決策樹是一種典型的分類方法,首先對(duì)數(shù)據(jù)進(jìn)行處理,利用歸納算法生成可讀的規(guī)則和決策樹,然后使用決策對(duì)新數(shù)據(jù)進(jìn)行分析本質(zhì)上決策樹是通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過(guò)程決策樹基本概念,決策樹的優(yōu)點(diǎn)1、推理過(guò)程容易理解,決策推理過(guò)程可以表示成IfThen形式;2、推理過(guò)程完全依賴于屬性變量的取值特點(diǎn);3、可自動(dòng)忽略目標(biāo)變量沒有貢獻(xiàn)的屬性變量,也為判斷屬性變量的重要性,減少變量的數(shù)目提供參考主要內(nèi)容,決策樹基本概念,決策樹算法,決策樹算法,與決策樹相關(guān)的重要算法,1、Hunt,Marin和Stone于1966年研制的CLS學(xué)習(xí)系統(tǒng),用于學(xué)習(xí)單個(gè)概念2、1979年,J.R.Quinlan給出ID3算法,并在1983年和1986年對(duì)ID3進(jìn)行了總結(jié)和簡(jiǎn)化,使其成為決策樹學(xué)習(xí)算法的典型3、Schlimmer和Fisher于1986年對(duì)ID3進(jìn)行改造,在每個(gè)可能的決策樹節(jié)點(diǎn)創(chuàng)建緩沖區(qū),使決策樹可以遞增式生成,得到ID4算法。

    4、1988年,Utgoff在ID4基礎(chǔ)上提出了ID5學(xué)習(xí)算法,進(jìn)一步提高了效率1993年,Quinlan進(jìn)一步發(fā)展了ID3算法,改進(jìn)成C4.5算法5、另一類決策樹算法為CART,與C4.5不同的是,CART的決策樹由二元邏輯問(wèn)題生成,每個(gè)樹節(jié)點(diǎn)只有兩個(gè)分枝,分別包括學(xué)習(xí)實(shí)例的正例與反例CLS,ID3,C4.5,CART,決策樹算法,假定公司收集了左表數(shù)據(jù),那么對(duì)于任意給定的客人(測(cè)試樣例),你能幫助公司將這位客人歸類嗎?即:你能預(yù)測(cè)這位客人是屬于“買”計(jì)算機(jī)的那一類,還是屬于“不買”計(jì)算機(jī)的那一類?又:你需要多少有關(guān)這位客人的信息才能回答這個(gè)問(wèn)題?,決策樹的用途,誰(shuí)在買計(jì)算機(jī)?,年齡?,學(xué)生?,信譽(yù)?,青,中,老,否,是,優(yōu),良,決策樹的用途,決策樹算法,誰(shuí)在買計(jì)算機(jī)?,年齡?,學(xué)生?,信譽(yù)?,青,中,老,否,是,優(yōu),良,決策樹的用途,決策樹算法,決策樹算法,決策樹的表示,決策樹的基本組成部分:決策結(jié)點(diǎn)、分支和葉子年齡?,學(xué)生?,信譽(yù)?,青,中,老,否,是,優(yōu),良,決策樹中最上面的結(jié)點(diǎn)稱為根結(jié)點(diǎn)是整個(gè)決策樹的開始每個(gè)分支是一個(gè)新的決策結(jié)點(diǎn),或者是樹的葉子每個(gè)決策結(jié)點(diǎn)代表一個(gè)問(wèn)題或者決策.通常對(duì)應(yīng)待分類對(duì)象的屬性。

    每個(gè)葉結(jié)點(diǎn)代表一種可能的分類結(jié)果,在沿著決策樹從上到下的遍歷過(guò)程中,在每個(gè)結(jié)點(diǎn)都有一個(gè)測(cè)試對(duì)每個(gè)結(jié)點(diǎn)上問(wèn)題的不同測(cè)試輸出導(dǎo)致不同的分枝,最后會(huì)達(dá)到一個(gè)葉子結(jié)點(diǎn)這一過(guò)程就是利用決策樹進(jìn)行分類的過(guò)程,利用若干個(gè)變量來(lái)判斷屬性的類別,ID3,決策樹算法,ID3算法主要針對(duì)屬性選擇問(wèn)題是決策樹學(xué)習(xí)方法中最具影響和最為典型的算法該方法使用信息增益度選擇測(cè)試屬性當(dāng)獲取信息時(shí),將不確定的內(nèi)容轉(zhuǎn)為確定的內(nèi)容,因此信息伴著不確定性從直覺上講,小概率事件比大概率事件包含的信息量大如果某件事情是“百年一見”則肯定比“習(xí)以為常”的事件包含的信息量大如何度量信息量的大???,ID3信息量大小的度量,決策樹算法,Shannon1948年提出的信息論理論事件ai的信息量I(ai)可如下度量:,其中p(ai)表示事件ai發(fā)生的概率假設(shè)有n個(gè)互不相容的事件a1,a2,a3,.,an,它們中有且僅有一個(gè)發(fā)生,則其平均的信息量可如下度量:,ID3信息量大小的度量,決策樹算法,上式,對(duì)數(shù)底數(shù)可以為任何數(shù),不同的取值對(duì)應(yīng)了熵的不同單位通常取2,并規(guī)定當(dāng)p(ai)=0時(shí)=0,信息增益用來(lái)衡量給定的屬性區(qū)分訓(xùn)練樣例的能力,中間(間接)表示屬性ID3算法在生成樹的每一步使用信息增益從候選屬性中選擇屬性用熵度量樣例的均一性,決策樹算法,信息增益用熵度量樣例的均一性熵刻畫了任意樣例集合S的純度給定包含關(guān)于某個(gè)目標(biāo)概念的正反樣例的樣例集S,那么S相對(duì)這個(gè)布爾型分類(函數(shù))的熵為信息論中對(duì)熵的一種解釋:熵確定了要編碼集合S中任意成員的分類所需要的最少二進(jìn)制位數(shù);熵值越大,需要的位數(shù)越多。

    更一般地,如果目標(biāo)屬性具有c個(gè)不同的值,那么S相對(duì)于c個(gè)狀態(tài)的分類的熵定義為,決策樹算法,用信息增益度量熵的降低程度屬性A的信息增益,使用屬性A分割樣例集合S而導(dǎo)致的熵的降低程度Gain(S,A)是在知道屬性A的值后可以節(jié)省的二進(jìn)制位數(shù)例子,注意是對(duì)當(dāng)前樣例集合計(jì)算上式,理解信息熵,1、信息熵是用來(lái)衡量一個(gè)隨機(jī)變量出現(xiàn)的期望值,一個(gè)變量的信息熵越大,那么它出現(xiàn)的各種情況也就越多,也就是包含的內(nèi)容多,我們要描述它就需要付出更多的表達(dá)才可以,也就是需要更多的信息才能確定這個(gè)變量2、信息熵是隨機(jī)變量的期望度量信息的不確定程度信息的熵越大,信息就越不容易搞清楚(雜亂)3、一個(gè)系統(tǒng)越是有序,信息熵就越低;反之,一個(gè)系統(tǒng)越是混亂,信息熵就越高信息熵也可以說(shuō)是系統(tǒng)有序化程度的一個(gè)度量4、信息熵用以表示一個(gè)事物的非確定性,如果該事物的非確定性越高,你的好奇心越重,該事物的信息熵就越高5、熵是整個(gè)系統(tǒng)的平均消息量信息熵是信息論中用于度量信息量的一個(gè)概念一個(gè)系統(tǒng)越是有序,信息熵就越低;反之,一個(gè)系統(tǒng)越是混亂,信息熵就越高6、處理信息就是為了把信息搞清楚,實(shí)質(zhì)上就是要想辦法讓信息熵變小理解信息增益,熵:表示隨機(jī)變量的不確定性。

    條件熵:在一個(gè)條件下,隨機(jī)變量的不確定性信息增益:熵-條件熵表示在一個(gè)條件下,信息不確定性減少的程度例如:假設(shè)X(明天下雨)的信息熵為2(不確定明天是否下雨),Y(如果是陰天則下雨)的條件熵為0.01(因?yàn)槿绻顷幪炀拖掠甑母怕屎艽螅畔⒕蜕倭耍┬畔⒃鲆?2-0.01=1.99信息增益很大說(shuō)明在獲得陰天這個(gè)信息后,明天是否下雨的信息不確定性減少了1.99,是很多的,所以信息增益大也就是說(shuō)陰天這個(gè)信息對(duì)下雨來(lái)說(shuō)是很重要的ID3信息量大小的度量,決策樹算法,Gain(S,A)是屬性A在集合S上的信息增益Gain(S,A)=Entropy(S)-Entropy(S,A)Gain(S,A)越大,說(shuō)明選擇測(cè)試屬性對(duì)分類提供的信息越多,決策樹算法,第1步計(jì)算決策屬性的熵,決策屬性“買計(jì)算機(jī)?”該屬性分兩類:買/不買S1(買)=641S2(不買)=383S=S1+S2=1024P1=641/1024=0.6260P2=383/1024=0.3740I(S1,S2)=I(641,383)=-P1Log2P1-P2Log2P2=-(P1Log2P1+P2Log2P2)=0.9537,決策樹算法,第2步計(jì)算條件屬性的熵,條件屬性共有4個(gè)。

    分別是年齡、收入、學(xué)生、信譽(yù)分別計(jì)算不同屬性的信息增益決策樹算法,第2-1步計(jì)算年齡的熵,年齡共分三個(gè)組:青年、中年、老年青年買與不買比例為128/256S1(買)=128S2(不買)=256S=S1+S2=384P1=128/384P2=256/384I(S1,S2)=I(128,256)=-P1Log2P1-P2Log2P2=-(P1Log2P1+P2Log2P2)=0.9183,決策樹算法,第2-2步計(jì)算年齡的熵,年齡共分三個(gè)組:青年、中年、老年中年買與不買比例為256/0S1(買)=256S2(不買)=0S=S1+S2=256P1=256/256P2=0/256I(S1,S2)=I(256,0)=-P1Log2P1-P2Log2P2=-(P1Log2P1+P2Log2P2)=0,決策樹算法,第2-3步計(jì)算年齡的熵,年齡共分三個(gè)組:青年、中年、老年老年買與不買比例為257/127S1(買)=257S2(不買)=127S=S1+S2=384P1=257/384P2=127/384I(S1,S2)=I(257,127)=-P1Log2P1-P2Log2P2=-(P1Log2P1+P2Log2P2)=0.9157,決策樹算法,第2-4步計(jì)算年齡的熵,年齡共分三個(gè)組:青年、中年、老年所占比例青年組384/1025=0.375中年組256/1024=0.25老年組384/1024=0.375計(jì)算年齡的平均信息期望E(年齡)=0.375*0.9183+0.25*0+0.375*0.9157=0.6877G(年齡信息增益)=0.9537-0.6877=0.2660(1),決策樹算法,第3步計(jì)算收入的熵,收入共分三個(gè)組:高、中、低E(收入)=0.9361收入信息增益=0.9537-0.9361=0.0176(2),決策樹算法,第4步計(jì)算學(xué)生的熵,學(xué)生共分二個(gè)組:學(xué)生、非學(xué)生E(學(xué)生)=0.7811年齡信息增益=0.9537-0.7811=0.1726(3),決策樹算法,第5步計(jì)算信譽(yù)的熵,信譽(yù)分二個(gè)組:良好,優(yōu)秀E(信譽(yù))=0.9048信譽(yù)信息增益=0.9537-0.9048=0.0453(4),決策樹算法,第6步計(jì)算選擇節(jié)點(diǎn),年齡信息增益=0.9537-0.6877=0.2660(1)收入信息增益=0.9537-0.9361=0.0176(2)年齡信息增益=0.9537-0.7811=0.1726(3)信譽(yù)信息增益=0.9537-0.9048=0.0453(4),決策樹算法,年齡,青年,中年,老年,買/不買,買,買/不買,葉子,決策樹算法,青年買與不買比例為128/256S1(買)=128S2(不買)=256S=S1+S2=384P1=128/384P2=256/384I(S1,S2)=I(128,256)=-P1Log2P1-P2Log2P2=-(P1Log2P1+P2Log2P2)=0.9183,決策樹算法,如果選擇收入作為節(jié)點(diǎn)分高、中、低,平均信息期望(加權(quán)總和):E(收入)=0.3333*0+0.5*0.9183+0.1667*0=0.4592Gain(收入)=I(128,256)-E(收入)=0.91830.4592=0.4591,I(0,128)=0比例:128/384=0.3333I(64,128)=0.9183比例:192/384=0.5I(64,0)=0比例:64/384=0.1667,注意,決策樹算法,年齡,青年,中年,老年,學(xué)生,買,信譽(yù),葉子,否,是,優(yōu),良,買,不買,買/不買,買,葉子,葉子,葉子,決策樹算法,ID3決策樹建立算法1決定分類屬性;2對(duì)目前的數(shù)據(jù)表,建立一個(gè)節(jié)點(diǎn)N3如果數(shù)據(jù)庫(kù)中的數(shù)據(jù)都屬于同一個(gè)類,N就是樹葉,在樹葉上標(biāo)出所屬的類4如果數(shù)據(jù)表中沒有其他屬性可以考慮,則N也是樹葉,按照少數(shù)服從多數(shù)的原則在樹葉上標(biāo)出所屬類別5否則,根據(jù)平均信息期望值E或GAIN值選出一個(gè)最佳屬性作為節(jié)點(diǎn)N的測(cè)試屬性6節(jié)點(diǎn)屬性選定后,對(duì)于該屬性中的每個(gè)值:從N生成一個(gè)分支,并將數(shù)據(jù)表中與該分支有關(guān)的數(shù)據(jù)收集形成分支節(jié)點(diǎn)的數(shù)據(jù)表,在表中刪除節(jié)點(diǎn)屬性那一欄如果分支數(shù)據(jù)表非空,則運(yùn)用以上算法從該節(jié)點(diǎn)建立子樹。

    決策樹算法,決策樹的數(shù)據(jù)準(zhǔn)備,原始表,決策樹算法,整理后的數(shù)據(jù)表,決策樹的數(shù)據(jù)準(zhǔn)備,Datacleaning刪除/減少noise,補(bǔ)填missingvaluesDatatransformation數(shù)據(jù)標(biāo)準(zhǔn)化(datanormalization)數(shù)據(jù)歸納(generalizedatatohigher-levelconceptsusingconcepthierarchies)例如:年齡歸納為老、中、青三類控制每個(gè)屬性的可能值不超過(guò)七種(最好不超過(guò)五種)Relevanceanalysis對(duì)于與問(wèn)題無(wú)關(guān)的屬性:刪對(duì)于屬性的可能值大于七種又不能歸納的屬性:刪,決策樹算法,決策樹的數(shù)據(jù)準(zhǔn)備,決策樹算法,處理連續(xù)屬性值,決策樹算法比較適合處理離散數(shù)值的屬性實(shí)際應(yīng)用中屬性是連續(xù)的或者離散的情況都比較常見在應(yīng)用連續(xù)屬性值時(shí),在一個(gè)樹結(jié)點(diǎn)可以將屬性Ai的值劃分為幾個(gè)區(qū)間然后信息增益的計(jì)算就可以采用和離散值處理一樣的方法原則上可以將Ai的屬性劃分為任意數(shù)目的空間C4.5中采用的是二元分割(BinarySplit)需要找出一個(gè)合適的分割閾值參考C4.5算法Top10algorithmsindataminingKnowledgeInformationSystem200814:137,決策樹算法,ID3算法小結(jié),ID3算法是一種經(jīng)典的決策樹學(xué)習(xí)算法,由Quinlan于1979年提出。

    ID3算法的基本思想是,以信息熵為度量,用于決策樹節(jié)點(diǎn)的屬性選擇,每次優(yōu)先選取信息量最多的屬性,亦即能使熵值變?yōu)樽钚〉膶傩裕詷?gòu)造一顆熵值下降最快的決策樹,到葉子節(jié)點(diǎn)處的熵值為0此時(shí),每個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)的實(shí)例集中的實(shí)例屬于同一類決策樹算法,ID3算法實(shí)際應(yīng)用-在電信行業(yè)應(yīng)用實(shí)例(1),通過(guò)ID3算法來(lái)實(shí)現(xiàn)客戶流失的預(yù)警分析,找出客戶流失的特征,以幫助電信公司有針對(duì)性地改善客戶關(guān)系,避免客戶流失利用決策樹方法進(jìn)行數(shù)據(jù)挖掘,一般有如下步驟:數(shù)據(jù)預(yù)處理、決策樹挖掘操作,模式評(píng)估和應(yīng)用電信運(yùn)營(yíng)商的客戶流失有三方面的含義:一是指客戶從一個(gè)電信運(yùn)營(yíng)商轉(zhuǎn)網(wǎng)到其他電信運(yùn)營(yíng)商,這是流失分析的重點(diǎn)二是指客戶月平均消費(fèi)量降低,從高價(jià)值客戶成為低價(jià)值客戶三、指客戶自然流失和被動(dòng)流失在客戶流失分析中有兩個(gè)核心變量:財(cái)務(wù)原因非財(cái)務(wù)原因、主動(dòng)流失被動(dòng)流失客戶流失可以相應(yīng)分為四種類型:其中非財(cái)務(wù)原因主動(dòng)流失的客戶往往是高價(jià)值的客戶他們會(huì)正常支付服務(wù)費(fèi)用,并容易對(duì)市場(chǎng)活動(dòng)有所響應(yīng)這種客戶是電信企業(yè)真正需要保住的客戶決策樹算法,ID3算法實(shí)際應(yīng)用-在電信行業(yè)應(yīng)用實(shí)例(2),數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘的處理對(duì)象是大量的數(shù)據(jù),這些數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中(該用戶相關(guān)數(shù)據(jù)存儲(chǔ)在其CRM中),是長(zhǎng)期積累的結(jié)果。

    但往往不適合直接挖掘,需要做數(shù)據(jù)的預(yù)處理工作,一般包括數(shù)據(jù)的選擇(選擇相關(guān)的數(shù)據(jù))、凈化(消除冗余數(shù)據(jù))、轉(zhuǎn)換、歸約等數(shù)據(jù)預(yù)處理工作準(zhǔn)備是否充分,對(duì)于挖掘算法的效率乃至正確性都有關(guān)鍵性的影響該公司經(jīng)過(guò)多年的電腦化管理,已有大量的客戶個(gè)人基本信息(文中簡(jiǎn)稱為客戶信息表)在客戶信息表中,有很多屬性,如姓名用戶號(hào)碼、用戶標(biāo)識(shí)、用戶身份證號(hào)碼(轉(zhuǎn)化為年齡)、在網(wǎng)時(shí)間(竣工時(shí)間)、地址、職業(yè)、用戶類別、客戶流失(用戶狀態(tài))等等,數(shù)據(jù)準(zhǔn)備時(shí)必須除掉表中一些不必要的屬性,一般可采用面向?qū)傩缘臍w納等方法去掉不相關(guān)或弱相關(guān)屬性決策樹算法,ID3算法實(shí)際應(yīng)用-在電信行業(yè)應(yīng)用實(shí)例(3),屬性刪除:將有大量不同取值且無(wú)概化操作符的屬性或者可用其它屬性來(lái)代替它的較高層概念的那些屬性刪除比如客戶信息表中的用戶標(biāo)識(shí)、身份證號(hào)碼等,它們的取值太多且無(wú)法在該取值域內(nèi)找到概化操作符,應(yīng)將其刪除,得到表1決策樹算法,ID3算法實(shí)際應(yīng)用-在電信行業(yè)應(yīng)用實(shí)例(4),屬性概化:用屬性概化閾值控制技術(shù)沿屬性概念分層上卷或下鉆進(jìn)行概化文化程度分為3類:W1初中以下(含初中),W2高中(含中專),W3大學(xué)(???、本科及以上);職業(yè)類別:按工作性質(zhì)來(lái)分共分3類:Z1一Z3;繳費(fèi)方式:托收:T1,營(yíng)業(yè)廳繳費(fèi):T2,充值卡:T3。

    連續(xù)型屬性概化為區(qū)間值:表中年齡、費(fèi)用變化率和在網(wǎng)時(shí)間為連續(xù)型數(shù)據(jù),由于建立決策樹時(shí),用離散型數(shù)據(jù)進(jìn)行處理速度最快,因此對(duì)連續(xù)型數(shù)據(jù)進(jìn)行離散化處理,根據(jù)專家經(jīng)驗(yàn)和實(shí)際計(jì)算信息增益,在“在網(wǎng)時(shí)長(zhǎng)”屬性中,通過(guò)檢測(cè)每個(gè)劃分,得到在閾值為5年時(shí)信息增益最大,從而確定最好的劃分是在5年處,則這個(gè)屬性的范圍就變?yōu)?:H1,H2而在“年齡”屬性中,信息增益有兩個(gè)鋒值,分別在40和50處,因而該屬性的范圍變?yōu)?0-50即變?yōu)榍嗄?,中年,老年:N1,N2,N3;費(fèi)用變化率:指(當(dāng)月話費(fèi)近3個(gè)月的平均話費(fèi))/近3個(gè)月的平均話費(fèi))0,F(xiàn)1:30%,F(xiàn)2:30%-99%,F3:100%變?yōu)镕1,F2,F3決策樹算法,ID3算法實(shí)際應(yīng)用-在電信行業(yè)應(yīng)用實(shí)例(5),決策樹算法,ID3算法實(shí)際應(yīng)用-在電信行業(yè)應(yīng)用實(shí)例(6),在圖中,NO表示客戶不流失,YES表示客戶流失從圖可以看出,客戶費(fèi)用變化率為100%的客戶肯定已經(jīng)流失;而費(fèi)用變化率低于30%的客戶;即每月資費(fèi)相對(duì)穩(wěn)定的客戶一般不會(huì)流失,費(fèi)用變化率在30%99%的客戶有可能流失,其中年齡在4050歲之間的客戶流失的可能性非常大,而年齡低于40歲的客戶,用充值卡繳費(fèi)的客戶和在網(wǎng)時(shí)間較短的客戶容易流失;年齡較大的客戶,則工人容易流失。

    步驟1:生成訓(xùn)練集和測(cè)試集生成訓(xùn)練集iris.train=iris2*(1:75)-1,(意思是返回原數(shù)據(jù)集1、3、5、7、8149奇數(shù)行行所有列的數(shù)據(jù))生成測(cè)試集iris.test=iris2*(1:75),(意思是返回原數(shù)據(jù)集2、4、6、8、10、150偶數(shù)行所有列的數(shù)據(jù))步驟2:生成決策樹模型model-rpart(SpeciesSepal.Length+Sepal.Width+Petal.Length+Petal.Width,data=iris.train,method=class)繪制決策樹fancyRpartPlot(model)步驟3:對(duì)測(cè)試集進(jìn)行預(yù)測(cè)iris.rp3=predict(model,iris.test,-5,type=class)注釋:iris.test,-5的意思是去掉原測(cè)試集第5列后的數(shù)據(jù)步驟4:查看預(yù)測(cè)結(jié)果并對(duì)結(jié)果進(jìn)行分析,計(jì)算出該決策樹的accuracy(分類正確的樣本數(shù)除以總樣本數(shù))table(iris.test,5,iris.rp3)注釋:iris.test,5的意思是取出測(cè)試集第5列的數(shù)據(jù)R語(yǔ)言中使用table(data)進(jìn)行頻數(shù)統(tǒng)計(jì)iris.rp3setosaversicolorvirginicasetosa2500versicolor0241virginica0322accuracy=(25+24+22)/75=94.67%步驟5:生成規(guī)則asRules(model),步驟1:生成訓(xùn)練集和測(cè)試集生成訓(xùn)練集iris.train=iris2*(1:75)-1,(意思是返回原數(shù)據(jù)集1、3、5、7、8。

    149奇數(shù)行行所有列的數(shù)據(jù))生成測(cè)試集iris.test=iris2*(1:75),(意思是返回原數(shù)據(jù)集2、4、6、8、10、150偶數(shù)行所有列的數(shù)據(jù))步驟2:生成決策樹模型model-rpart(SpeciesSepal.Length+Sepal.Width+Petal.Length+Petal.Width,data=iris.train,method=class)繪制決策樹fancyRpartPlot(model)步驟3:對(duì)測(cè)試集進(jìn)行預(yù)測(cè)iris.rp3=predict(model,iris.test,-5,type=class)注釋:iris.test,-5的意思是去掉原測(cè)試集第5列后的數(shù)據(jù)步驟4:查看預(yù)測(cè)結(jié)果并對(duì)結(jié)果進(jìn)行分析,計(jì)算出該決策樹的accuracy(分類正確的樣本數(shù)除以總樣本數(shù))table(iris.test,5,iris.rp3)注釋:iris.test,5的意思是取出測(cè)試集第5列的數(shù)據(jù)R語(yǔ)言中使用table(data)進(jìn)行頻數(shù)統(tǒng)計(jì)iris.rp3setosaversicolorvirginicasetosa2500versicolor0241virginica0322accuracy=(25+24+22)/75=94.67%步驟5:生成規(guī)則asRules(model),。

    點(diǎn)擊閱讀更多內(nèi)容
    最新文檔
    傳統(tǒng)文化道德不是高懸的明月而是腳下的星光.pptx
    世界無(wú)煙日關(guān)注青少年成長(zhǎng)健康無(wú)煙為成長(zhǎng)護(hù)航.pptx
    五四青年節(jié)詩(shī)詞贊歌五四青年自強(qiáng)不息.pptx
    XX學(xué)校班主任培訓(xùn)用心管理慧做班主任.pptx
    拒絕熬夜健康養(yǎng)生規(guī)律作息遠(yuǎn)離亞健康.pptx
    兒童成長(zhǎng)手冊(cè)時(shí)光里的童真印記.pptx
    幼兒園夏季傳染病預(yù)防指南預(yù)見夏天健康童行夏季傳染病預(yù)防科普.pptx
    高中生心理健康教育主題班會(huì)快樂學(xué)習(xí)高效學(xué)習(xí)正視壓力學(xué)會(huì)減壓.pptx
    員工職業(yè)道德與職業(yè)素養(yǎng)培訓(xùn)遵守職業(yè)道德提高職業(yè)修養(yǎng).pptx
    2025職業(yè)病防治法宣傳周健康守護(hù)職防同行.pptx
    XX幼兒園防災(zāi)減災(zāi)安全教育臨災(zāi)不亂安全童行學(xué)會(huì)保護(hù)自己.pptx
    在2025年縣教育工作大會(huì)暨高考備考工作推進(jìn)會(huì)上的講話發(fā)言材料.docx
    在2025年縣全面從嚴(yán)治黨和黨風(fēng)廉政會(huì)議上的講話發(fā)言材料.docx
    在2025年全市慶?!拔逡弧濒邉趧?dòng)模范表彰大會(huì)上的講話發(fā)言材料多篇.docx
    2025年稅務(wù)局青年代表在五四青年座談會(huì)上的發(fā)言材料3篇.docx
    在2025年市委全體會(huì)議上的主持講話發(fā)言材料.docx
    2025年黨風(fēng)廉政建設(shè)工作要點(diǎn)材料.docx
    在2025年全市青年干部慶祝五四青年節(jié)大會(huì)上的講話發(fā)言材料多篇.docx
    在入黨積極分子培訓(xùn)班上的講話發(fā)言材料.docx
    縣文旅局黨組書記在五一假期及夏季旅游安全生產(chǎn)工作部署會(huì)議上的講話發(fā)言材料.docx
    賣家[上傳人]:gooddoc2022
    資質(zhì):實(shí)名認(rèn)證