您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 金融资料 > 专题题目决策树於保险选购之应用
專題題目:決策樹於保險選購之應用作者1:陳灯能教授作者2:9322021T劉宗輝作者3:9322033T羅凱文作者4:9322009T黃詩靜作者5:9322063T黃雪華作者6:9322015T蕭宇銓義守大學資訊管理系Email:d8842810@student.nsysu.edu.tw摘要由於國內人口對於保險的觀念普遍的接受,促進了保險業的發展,造成其業界間的競爭,因此保險商品種類也隨之增加,其優點是使得現今消費者可以依照其收入以及需求去評估,進而購買到最符合本身最為適切的保險商品。但也有其缺點,種類的繁多造成了消費者不知應選如何選擇一份適合的保單,因此要購買一張符合自已需求的保單,也常成為自已的一個難題。因此,若能參考與自已有著相同特性(如年齡、性別、收入..等)的人所選購的保單,想必能夠對自已在選購產品上是一大幫助。本研究主要是利用資料探勘技術中的決策樹(decisiontree)對保戶進行分類,探討消費者的特性與保險產品之間的關連。所研究的消費者特性包括了性別、職業、年齡、婚姻狀態以及已擁有的保險產品與種類做為測量的依據。由於樣本需要大筆的保戶資料。透過三商美邦人壽南區經理蔡協達先生的協助,取得了將近500至600多份的樣本,為了資料統計的準確性,在樣本數量、投保人數的考量,本研究將未滿18歲及職業等級第五、六類去除後,進行資料的歸類。最後一共取得300多份有效資料,其中壽(儲蓄)險產品購買者有?位,健康(醫療)險產品購買者有?位,投資性保險產品購買者有?位。關鍵字:保險、資料探勘、決策樹致謝感謝本組的指導教授陳灯能教授這一年來為了專題不辭辛勞的每週大老遠的跑來指導與照顧我們,使我們在這裡有所成長,並提供了許多的保貴意見,使我們的專題更趨完整。壹、概述本專題報告為藉由決策樹的技術分析保戶本身的各項因子與選購保單的關連性,並能使消費者能透過瀏覽設計出之網頁,幫助使其選購保單。以下將介紹本組研究此專題之動機、目的與所遇之問題及研解決方法….等。一、研究動機本專題所涉略到的,最主要有兩個,一者為保險;一者為決策樹,之所以要研究此兩項如下所述:1.決策樹決策樹之分析方式是一種十分適合使用者進行資料分析之工具。由於決策樹係將資料依據不同的變數循序來產生分析結果,因此使用者幾乎不需要擁有任何統計分析之知識,即可藉由決策樹之分析方式來分析顧客或消費者之特質與異同點。係由使用者之意旨來將資料依據其特性加以分類,使用者並可利用決策樹之各項不同變數來判斷及預測可能之結果。保險在此提出以下三點,並從中瞭解其作為影嚮選購保單的重要因子為何。2-1保險的意義保險是一種多數人合作以分散風險消化損失的社會互助經濟保障制度,也就是,以千千萬萬的人,大家出錢,交由壽險公司彙集成為龐大的財力,作妥善的管理運用,在千千萬萬的人當中,一旦有人發生不幸,根據公平合理的制度,給予所需的補償。2-2保險的公平性保險是集多數人的錢救濟需要幫助的人,但錢要出多少才能符合公平,因此壽險公司目前乃依據所謂的「台灣壽險業第三回經驗生命表」作為計費的標準,此表乃依據台灣人口的死亡率區分性別、年齡而制定的,其中收費也以職業的不同制定費率,因而其收費才有期公平。2-3保險的演變保單的消費者,其實跟著時代的變遷有所不同,在過去保險的觀念相當不能被接受,而漸漸的在保險業務人員的努力下,這個觀念已不在像以前那麼被厭惡,因此這個市場一直擴大,同時商品也從以前單純的醫療險、進而增加了儲蓄險(生死合險)再來又增加了最進相當熱門的投資型保單。由以上第二點的公平性我們可以從中推測出,由於保費是依照性別、年齡的不同而制定的,因此我們可以假設性別、年齡及職業是可以成為是否購買保單的三個重要因子,但以此三點作為分析大過於草率,因此經討論後決定將收入、職業類別以及婚姻狀況也作為其因子。再由第三點我們知道保險已隨著時代而市場不斷擴大,同時也知道目前最主要的商品前最主要的有醫療、儲蓄、投資型保單等,商品種類的增加,因而決定何種的保單將造成大家的問題。由以上我們可以知道保險的購買,可能跟人的各種特性有其相關性,因此本組利用了決策樹的方法應用在分析保戶的幾項特性,以預測可能之結果,進而作為大家的參考,希望幫助大家能夠合理的選購自已所需之商品。二、研究目標有鑑於此,本研究著重在個人特質的分析,為了使分析後的資料的可性度,本研究將以投保三商美邦人壽的保險者為研究對象但是未滿18歲投保者為心理成熟層面的因素,這因素會因為監護人的決定而產生不確定結果,因為在法律上這些未成年者是不具有行動能力的,且職業等級類別由於第五、六類投保人數稀少,範例不夠數量作為參考結果故在作研究之時便去掉未滿十八歲者及職業等級為第五、六類的參考範例,唯有了解保險產品與保險者之間的差異因素,來對尚未投保的大眾,作一個快速的認知,來了解在相同條件下,會購買的保險有哪些,以避免日後後悔而產生解約的行為。探討保險與保險者的情形,並利用決策樹(DecisionTree)中的自動歸納法)來探討分析個人特質(性別、年齡層、年薪收入、婚姻狀況及職業類別)是否會影響消費保險產品服務。再利用探討在人口統計變項與保險產品擁有種類上的差異性,研究結果可以協助未投保保險者找到範例並了解市場趨向。作為未投保保險客戶管理以及夠滿上的依據。本文所要討論的問題如下:(一)消費者個人特質對保險產品的採用行為之關係是否成立?(二)擁有保險產品與採用行為之關係是否成立?(三)人口統計變項和所擁有的保險產品種類與採用行為之關係為何?三、研究過程中的問題及其解決之方式1.題目訂定本專題最主要其實就是以決策樹的技術應用於資料的分析上,因此要應用在何種的資料就是非常大的難題,因為要先想想哪一方面的東西,能夠以特性來分析,在這(保險)之前本組也研究了多種可行的資料,但都無法從中獲取適當的結果,在幾經的討論不斷的失敗後,終於訂定了以保險為主題作為本次的報告內容。2.資料取得在分析資料之前,當然最重要的就是資料了,本組的五位同學並非保險業者,所以要去哪弄這些保險的資訊,成為最大的問題,最終靠著本組羅同學運用靈活的交際手腕,獲得了保險業者的支持,在此也感謝三商美邦人壽南區經理蔡協達先生的協助,取得了將近500至600多份的客戶資料。3.分析過程本研究相關之流程在研究方向及目的確定後,將著手進行相關文獻探討,建構本研究系統架構及相關功能,並進行案例探討。在分析過程中,當然會碰到無法認證的參考值,而為了歸納出有可性度的參考值,小組成員經過討論後,決定捨去一些無法參考的值。並在捨去無法參考值後,訂定以下流程圖。四、專題進度與工作分配請參閱附表。五、專題成果概述本專題已告一段落,其主要的就是希望能夠利用現在網路資訊的方便提供給想要購買保單的人有一個能作為參考的地方,我們利用決策樹自動歸納的技術、四通八達的網路作為媒介以及簡單的操作介面,讓使用者輸入基本的個人資料保含了性別、年齡層、年薪收入、婚姻狀況及職業類別等,本系統就能依其資料進行分析,給予合理的建議,同時也可作為保險公司所應用的程式。在此專題的研究分析中,我們得到了我們所要研究的答案,也因此才能完成這項系統,也就是說消費者個人特質、擁有保險產品以及保險的種類對於保險產品的採用行為都是有具影嚮的。貳、相關研究一、決策樹分析方法的探討:Quinlan(1983,1986)利用資訊原理建構一套可以自動計算的歸納分析法,稱為ID3。由以下的範例來說明ID3方法:假設有一筆訓練資料S如(表一)所示,共有六筆資料,每筆資料有四個屬性(A,B,CandD)及一個類別(class),所有的屬性和類別只有二個可能的值。我們將整個決策樹(decisiontree)視為由已知類別(pandn)的資料所組成的訊息來源(messagesource),則對trainsetS而言,決策樹的總資訊含量(informationcontent)可以下面的公式計算:npiiiPPS,2log)(Inf(1)其中Pi為第i種類別在訓練資料S中的機率(probability),根據式(1)可計算表一的訓練資料S的總資訊量為:Inf(S)=36363636122loglog(2)ID3法的特性為選擇帶有最大資訊量的屬性(attribute)將訓練資料S分成兩批。以屬性A為例,若選擇以A屬性將資料分為A=1及A=0兩批,則這兩個子集合所含有的資訊量便可以下式計算:1,0)(Inf)(InfiiiAAAASPS(3)其中PAi為屬性為Ai的子集之權值,Inf(SAi)為根據式(1)所計算之資訊量。因此,若選擇屬性A做為將資料分批(partiton)的節點(node)所計算的資訊量為:540852.043log4341log416422log2262)Inf()Inf()Inf(2221100AAAAASPSPS(4)因此以屬性A將S分類所能獲得的資訊量為:GASSA()))..Inf(Inf(105408520459148(5)同理,Inf(Inf(Inf(SSSBcD).).).0540852100918296GBGCGD().()().045914800081704(6)(表一)ID3訓練資料S由以上的範例可知,選擇以屬性A及屬性B可以獲得最大的資訊量,選擇A或B都可以得到G的最大值。而所分出的兩個子樹(subtree)必須以相同的方式遞迴的分類,直到所有子樹內的類別都相同為止。當子樹內的類別都相同時,其資訊量為零。由ID3演算法所歸納出的決策樹如(圖一)所示。(圖一)的決策樹可進一步轉換為以下條律(rule):IfA=0thenclass=p.IfA=1andB=0thenclass=p.IfA=1andB=1thenclass=n.ItemofInstanceValueofattributesABCDClass10010P21000P30111P41101N51111N61110NApA=0A=1BB=1B=0np(圖一)以ID3歸納訓練資料S所得之決策樹由以上的例子可以知道ID3法比較適用於範疇性(categorical)或不連續性(discrete)的資料。但一般資料庫的數據有一些為連續性的資料,因此連續性數據必須先轉換成為範疇性的資料才能適用於ID3法,最簡單的方法是為每一個屬性訂一個門檻(threshold),超過的為high,不足的為low。這種方法非常方便,但同時因為threshold是自訂的,因此數據的精確度可能在這一個步驟中失去,並形成misclassification。為了改進ID3不能處理數值性屬性的缺點,Breiman(1984)提出了類似ID3的演算法,稱為CART(ClassificationandRegressionTree),此方法可以適用於處理連續性的數據。首先將某屬性從最大值到最小值間區分成若干等分,並在每一個等分點計算出以該等分點為threshold所能獲得的資訊量G(Xij),並選取獲得資訊量最大的等分點Xi*為threshold將資料分成兩類。使用CART方法時,訊息量的計算如下式所示:)Inf()Inf(-)Inf()(RSLSijSPSPSXGRL(8)Inf(SPPiiiin)log,,....,21(9)wherePSListheprobabilityofsubintervalXiXijPSRistheprobabilityofsubintervalXiXijPiI其中PSL為XiXij的機率,即NSL/NS;PSR為XI=Xij的機率,即NSR/NS,Pi為類別i的機率;即Ni/NS;NS為訓練資料點的組數,NSL為XiXij的子集SL的點數,NSR為XI=Xij的子集SR的點數,Ni為屬於類別i的資料點數;i為有限種的類別。除了Quinlan提出的式(2)和式(4)之外,Breiman另外提出了其他的
本文标题:专题题目决策树於保险选购之应用
链接地址:https://www.777doc.com/doc-225103 .html