您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 金融资料 > 应用资料挖矿技术於全民健康保险研究资料库-以骨质疏松...
應用資料挖礦技術於全民健康保險研究資料庫-以骨質疏鬆症為例楊燕珠大同大學資訊經營研究所yjyang@ttu.edu.tw陳曉芬大同大學資訊經營研究所g9212009@ms2.ttu.edu.tw摘要隨著醫療水準提高,國人平均壽命逐年增加,一些慢性病也隨著壽命延長而影響到國人健康。骨質疏鬆症(Osteoporosis)是慢性病的一種,又稱為「無聲無息的流行病」或「寂靜之疾病」,患得此病通常是在不知不覺的情況下,等到發生骨折或引起其它合併症後才明白罹患此病。而世界衛生組織曾宣稱骨質疏鬆症是僅次於心臟血管疾病的第二大難題,並特別提醒這是一個常受忽視、且診斷不足的疾病,各國都必須將該疾病認定是一個應該提高警覺的重大公共衛生問題。由於健保資料庫累積了大量的門診就醫資料,而這些資料中可能隱藏許多的資訊是我們尚未發覺的知識,藉由資料挖礦的技術可將資料庫中有用的知識挖掘出來,以找出具參考意義的醫學知識。我們利用全民健康保險研究資料庫之1997~2000年的系統抽樣檔之門診處方及治療明細檔和基本資料檔之醫事機構基本資料檔為資料來源,擷取了疾病分類代碼為7330、73300、73301、73302、73303和73309的骨質疏鬆症患者為研究對象,目的為分析骨質疏鬆症患者的人口學特性與就醫習慣、骨質疏鬆症與其他疾病的關連性、並分析各醫療院所申報費用的類別。描述性統計分析結果顯示1997~2000年國人罹患骨質疏鬆症以女性居多,且年齡多數集中在51~70歲,男性年齡則集中在61~70歲。罹患縣市別以金門縣居首、台中縣次之。國人就醫習慣以掛號骨科為主,若單就女性而言則是掛婦產科居多。又病患的就醫之醫事機構層級別則以地區醫院居多。關聯規則結果顯示出已知的疾病骨質疏鬆症與婦女停經狀況有關係,也發掘出未知的規則如骨質疏鬆症與女陰陰道炎所導致更年期徵候群之關係。而利用決策樹的技術分類結果,找出各醫療院所的申報費用皆為低費用群組較多,故此研究亦可提供給健保局參考。關鍵字:骨質疏鬆症、全民健康保險研究資料庫、資料挖礦、關聯規則、決策樹壹、緒論一、研究背景與動機隨著醫療水準提高,國人的平均壽命逐年增加,根據行政院主計處的統計資料顯示,民國93年男性的平均壽命為73.6歲、女性為79.4歲,較民國80年時各多出了1.8和2.3,台灣進入了高齡化的社會人口。骨質疏鬆症又稱為「無聲無息的流行病」或「寂靜之疾病」[陳榮福2000],算是一種常見的疾病,尤其好發於年紀較大的女性。不過,年紀較輕的男人與女人也有可能罹患骨質疏鬆症[葉啟昌和林宏達2001]。據統計,國內每年因骨質疏鬆症造成股骨骨折,引起併發症而死亡者高達三千至五千人,也因此成為繼高血壓、心臟病之後受到國人關注的文明病。台灣目前老年人口的增加,骨質疏鬆症的預防亦將成為一個重要的課題。近年來電視媒體或報章雜誌都相繼報導骨質疏鬆症的相關消息,可見骨質疏鬆的問題愈來愈受到重視。世界衛生組織曾宣稱骨質疏鬆症為僅次於心臟血管疾病的第二大難題。在2001年時,亦將當年的10月20日訂為「世界骨質疏鬆日」,並特別提醒骨質疏鬆症是一個常受忽視、且診斷不足的疾病,各國都必須將該疾病認定是一個應該提高警覺的重大公共衛生問題。二、研究目的臨床上骨質疏鬆會導致骨折,最容易發生骨折的三個部位為脊椎骨、髖骨和手腕骨[張智仁1995],尤其是髖骨的骨折最為嚴重,有1/5的病人會在一年內死亡,活下來的也可能造成行動不便,終身依賴別人的照顧,這樣不僅付出了龐大的社會成本,醫療的費用更是驚人,所以對於骨質疏鬆症一定要及早制定防治的對策並加以執行。本研究利用國家衛生研究院提供之全民健康保險研究資料庫1997~2000年系統抽樣檔之西醫門診處方及治療明細檔(CD)和基本資料檔之醫事機構基本資料檔(HOSB),目的為了分析健保資料庫中:1.國人罹患骨質疏鬆症之人口學特性,包括性別和年齡等與國人就醫習慣之描述性統計分析。2.利用資料挖礦之關聯規則技術,挖掘己知或未知的骨質疏鬆症與其它疾病的關聯。3.利用資料挖礦之決策樹技術,分類找出各醫療院所的骨質疏鬆症之門診申報資料,其申請金額屬低、中、高費用群組的哪一類較多,藉此提供給健保局參考。本文架構之編排方式為:第一節介紹了研究的動機與目的;第二節的文獻回顧說明了全民健康保險研究資料庫、骨質疏鬆症和所採用的相關資料挖礦技術;第三節說明了研究方法;第四節是研究的結果;最後第五節是結論。貳、文獻回顧本節主要說明全民健康保險研究資料庫、骨質疏鬆症與相關資料挖礦技術的定義與內容,也是本研究之理論基礎。一、全民健康保險研究資料庫「全民健康保險研究資料庫」囊括全體國人珍貴的醫療資料,中央健康保險局應學界之請託,在保障民眾隱私以及資料安全的前提下,特委託國家衛生研究院(NHRI)以全民健保的資料為基礎,建立一個以學術研究為目的之資訊資料庫,提供給學術單位及非營利機構之學者專家進行醫藥衛生相關研究,希望透過學界的研究分析,能對臺灣地區的醫療保健及公共衛生相關問題有所瞭解,進而提出更完善的建議供決策者參考。國家衛生研究院由中央健康保險局取得原始資料建置而成的「全民健康保險研究資料庫」可提供的研究主題歸為三大類:一為衛生政策與醫院管理;二為臨床醫學與藥學的研究;三為流行病學相關的研究。在流行病學方面,諸如疾病的盛行狀況可透過門診或住院的診斷碼來瞭解各種疾病在不同地區、不同性別與年齡層的分佈狀況,且健保的現況資料與跨年度資料,對於描述性分析、橫斷研究及追蹤研究等具有相當的價值[曾淑芬1999;鄭守夏1999]。依據中央健康保險局提供之資料,所製之各年度資料清單光碟片,可分為四大類:一為基本資料檔,包括醫事機構、門診、住院費用總表等十類資料檔;二為系統抽樣檔,抽樣之目的以研究者能在個人電腦上使用該資料為原則,分為門診處方及治療明細檔和住院醫療費用清單明細檔;三為特定主題分檔,現提供十四種之特定主題分檔,所擷取之資料為符合該類主題擷取條件之全年資料;四為承保抽樣歸人檔,以健保承保資料檔為抽樣母群體,依簡單隨機抽樣。現階段並不提供健保財務統計資料且提供資料之機構、單位及個人號碼均已經過加密處理,目前無法與其他生命統計資料互相串聯[李中一2005]。二、骨質疏鬆症「骨質疏鬆症」的意思就是佈滿了空孔隙的骨骼。孔隙多的骨骼和正常骨骼相比較,外型是一樣,但質量卻減少了,其原因為骨頭裡的鈣質逐漸流失,使得內部骨質變為單薄,造成許多孔隙,呈現中空疏鬆的現象,簡言之,由於較低的骨量和骨顯徵結構的破壞,而造成骨的脆性增加,以及間接導致骨折機會增加的一種疾病[鄭添財2000]。骨質疏鬆症是一種多致因性的疾病,可能有許多病因同時發生,而非單一病因所致,其類型可分為原發性(primary)與繼發性(secondary)。原發性骨質疏鬆症是某種特定疾病的進程造成,又可分類為第I型「停經後骨質疏鬆症」(TypeIpostmenopausalosteoporosis)與第II型「老年性骨質疏鬆症」(TypeIIsenileosteoporosis),前者發生在更年期和更年期結束後,婦女體內構築骨骼所需的荷爾蒙雌激素濃度會降低,後者隨著年紀增長都會流失一些骨質,通常要到75歲之後,才知道患有此疾病。而繼發性骨質疏鬆症是種種疾病或藥物導致,例如肝臟疾病、腎臟疾病、類風濕性關節炎、內分泌疾病、服用類固醇、止痛劑或抗痙孿藥物等狀況所引起[楊榮森1994;楊雅婷譯2004]。骨質疏鬆症患者容易發生骨折的地方有腕部、髖部、脊椎、肩部與其它部位,通常會長期臥床,容易發生肺炎、壓瘡、靜脈炎,且常會引起死亡[陳松雄2000]。若一旦發生骨折,許多疾病都會接踵而至,引起各種併發症,造成許多醫療資源的負擔,若能及早以預防勝於治療之觀點,將可節省巨額的醫療經費。三、相關資料挖礦技術本研究主要利用的資料挖礦技術為關聯規則和決策樹,並簡單敘述之。關聯規則從所有項目決定哪些相關項目應該放在一起,最早由Agrawal和Srikant(1994)對其定義為:I={i1,i2,…,im}表示交易內所有的項目(item),D為交易資料庫,每一筆交易T為一些項目的集合,即IT。假設X為一項目集(itemset),若TX,可以說T包含X。關聯規則YX[s%,c%],IX,IY且YX,表示購買項目X也會購買項目Y,s稱為支持度(support),表示項目出現在資料庫的出現頻率,即s%筆數的資料包含YX,c稱為信賴度(confidence),表示c%筆數的資料包含X也包含Y。目前關聯規則可應用於醫學領域,以挖掘什麼樣的項目會一起發生[Viverosetal.1996]。關聯規則技術的運用上是屬非監督式,由模型自己決定它要何種結果,然後由分析者觀察結果是否有用,意即從原始資料中的型態關係[彭文正譯2001]。分類是按照分析對象的屬性分門別類加以定義,以建立類別,通常使用決策樹的方法。資料經由決策樹的分類條件,辨識出相同類別的資料,經過條件判定之後選擇符合其屬性的分支,向下移至另一節點,直到遇到樹葉為止,而樹葉就是一個類別。決策樹是一種以樹枝狀展現所欲觀測資料受各變數的影響情形之預測模型,其根據對目標變數產生之影響程度不同而建構分類的原則。不同的決策樹演算法,對於每一層允許的分岔數量、建樹時如何選擇分岔,以及如何防止建出過度學習都不相同,常用的分類方法為CART、C4.5[Quinlan1986;Quinlan1993;Breimanetal.1984]等。決策樹技術的運用上是屬監督式的資料挖礦,先決定產出,再決定創造,先測試模型,再依結果修正模型,意即嘗試解釋已經發覺的型態關係[彭文正譯2001]。參、研究方法本節將先描述資料來源與研究對象,接著建構研究架構,最後提出資料處理與分析方法。一、資料來源與研究對象本研究採用的資料來源是國家衛生研究院提供之全民健康保險研究資料庫1997~2000年系統抽樣檔之西醫部份的「門診處方及治療明細檔」(CD)和基本資料檔之「醫事機構基本資料檔」(HOSB)的次級資料。系統抽樣檔的抽樣之目的,是能在PC上使用該資料為原則,儘量完整呈現資料之原始架構。門診處方及治療明細檔之抽樣,是依健保局提供之原始檔以西、牙、中醫檔案之分類,按比率計算各檔案資料量比率分別抽取適當資料量。各檔案再以母體資料中月份占年度資料量之比率,計算每月應抽取樣本數,再以系統抽樣法自每月資料檔中抽出所需樣本數,再將每月抽樣資料整合後即為抽樣資料,資料量約佔母體樣本數之0.2%,亦即每500筆取1筆[李中一2005]。系統抽樣檔之CD檔的原始資料筆數之英文檔名S_CD19970有489,696筆、S_CD19970有520,757筆、S_CD19970有539,661筆和S_CD19970有526,693筆。基本資料檔之HOSB檔的原始資料筆數之英文檔名HOSB1997有27,637筆、HOSB19970有27,637筆、HOSB19970有29,132筆和HOSB19970有31,167筆。因中央健保局自民國89年元月開始,疾病代碼申報全面以ICD-9-CM為主,89年以前的疾病申報方式也包含了ACode疾病代碼,但因ACode疾病代碼所對應的疾病名稱有重複現象,為不影響研究之結果,即去除ACode的疾病代碼。故本研究是以罹患骨質疏鬆症的患者為研究對象,其ICD-9-CM的疾病分類代碼為7330、73300、73301、73302、73303和73309,相關骨質疏鬆症疾病名稱與對應疾病分類代碼如表一。表一骨質疏鬆症名稱與疾病分類代碼英文疾病名稱疾病分類代碼Osteoporosis7330Osteoporosis,Unspecified73300SenileOsteoporosis73301IdiopathicOsteoporosis73302DisuseOsteoporosis73303Osteoporosis,Other73309二、研究架構圖一研究架構圖一為本文的研究架構,門診處方及治療明細檔(CD)所擷取的資料欄位有醫事機構代號、案件分類、就醫科別、就醫日期、出生日期、身
本文标题:应用资料挖矿技术於全民健康保险研究资料库-以骨质疏松...
链接地址:https://www.777doc.com/doc-241694 .html