您好,欢迎访问三七文档
決策樹分類法中原資管所李維平老師決策樹的重要性在商業界最常用的方法之一DecisionTree之意義DecisionTree之意義IfWehavemuchmoneyANDWearebuyingagiftforanadultTHENBuyacarIfWehavemuchmoneyANDWerebuyingagiftforachildTHENBuyacomputerYesYesYesYesYesYesYesYesYesYesYesYesYesYesYesYesNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoYes有弦?用吹的?彎如弓的?演奏時要用下巴夾的?用彈的?有鍵盤的?木管樂器?有簧片?有雙簧片?銅管樂器?常用於通俗樂器中?比演奏者高?常用於通俗樂器中?有十根弦以上?打擊樂器?有弦?鼓棒?有音鎚的?曲型的?筆直的?彈奏?小提琴中提琴低音提琴大提琴不知道豎琴詩琴揚琴不知道電子樂器風琴Yes撥弦古鋼琴鋼琴YesNoYesNo名詞解釋根節點葉節點內部節點決策樹本質:是一個分類器收入年齡職業…分類器好普通差銀行客戶:信用分類“信用”為目標屬性:決策樹決策樹優點:可以萃取分類規則例如:銀行新客戶的信用分類問題決策樹X1X2Y決策樹例子1:信用好,2:信用差收入年齡X2X12222222111111307万5万3万年齡1111112222222年齡30年齡30收入1122221111222收入5万收入5万單純資料混亂資料例子:舊客戶購買之歷史資料No性別學院購買產品1男商電腦2男人文手機3女商電腦4女人文手機新客戶:女生、商學院,請問她最可能購買的產品?決策樹例子1:電腦,2:手機學院性別1212男女學院2211商人文單純資料男女商人文電腦電腦手機手機性別混亂資料(混亂度高)(混亂度低)決策樹目標屬性:購買產品類別輸入屬性:性別、學院、年級性別年級學院……購買產品購買產品混亂度定義:一群物件的目標屬性混亂的程度三種計算方式:P1*P2[0~1/4]P1:這群物件目標屬性值為1的機率P2:這群物件目標屬性值為2的機率Min(P1,P2)[0~1/2]Entropy:-P1log2P1-P2log2P2[0~1]練習:計算混亂度1,1,1,11,1,1,21,1,2,2Min(P1,P2)P1*P2決策樹精神挑選一輸入屬性,能將目標屬性的混亂度降到最低決策樹演算法(Step1)選擇一輸入屬性,將所有objects作分類(Step2)計算分類後之平均混亂度(Step3)選擇能使混亂度降得最低的屬性,作為節點之判別屬性(Step4)反覆(Step1~3),直到停止條件停止條件當葉節點滿足下列條件即停止1.所有物件的目標屬性,皆為同一類2.沒有輸入屬性可以降低混亂度決策樹模型:三階段模式訓練階段將決策樹訓練出來測試階段測試決策樹的準確性運用階段可對一未知資料作分類DecisionTree之準確率利用”測試資料”作測試練習ageincomestudentcredit_ratingbuys_computer=30highnofairno=30highnoexcellentno31…40highnofairyes40mediumnofairyes40lowyesfairyes40lowyesexcellentno31…40lowyesexcellentyes=30mediumnofairno=30lowyesfairyes40mediumyesfairyes=30mediumyesexcellentyes31…40mediumnoexcellentyes31…40highyesfairyes40mediumnoexcellentnoage?income?creditrating?fairexcellent=3040nonoyesyesyes30~40RootNodeChildNodeLeafNodehmlno決策樹相關演算法ID3:(前面所教)Quinlan1979輸入屬性為離散C4.5:(IBMMining軟體所採用)Breiman1984輸入屬性可為連續決策樹mining過程A決定想解決的問題B決定目標屬性與輸入屬性C決定資料範圍D資料前處理或許需要將連續變數改為”離散”變數E建構決策樹,並解釋結果F若無法解釋,應回到A或B再思考決策樹專案注意事項(1/2)目標變數應為”離散(類別)”變數值不能太多輸入變數關聯性太高不適合使用預測所得高低:輸入變數為年齡,職業,繳稅高低預測打擊率高低:輸入變數為年齡,守備位置,長打率,月薪決策樹專案注意事項(2/2)目標屬性與輸入屬性關聯性太低例如:樂透獎輸入:年,月,週,日輸出:樂透號碼作業(碩專)時間:2週請於3/24(一)前,將報告mail給老師與上課成員報告請用Word檔撰寫,約3~6頁應說明每位組員的貢獻若有問題詢問,每位組員皆可回答附錄下週報告(大學部)時間:8分鐘討論:5分鐘請於4/8(日)前mail老師與上課成員應說明每位組員的貢獻若有問題詢問,每位組員皆可回答報告(大學部)下週:請報告關聯規則實作作業外系同學如何上機練習
本文标题:决策树的重要性
链接地址:https://www.777doc.com/doc-613780 .html