您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 资料探勘 -2 资料仓储
1第二章資料倉儲2內容概要簡介資料倉儲的操作方法與實作資料倉儲建置程序資料倉儲建置實例總結3簡介(1)資料倉儲乃是利用大量歷史資料之資料庫,提供彙總或是統計的資訊,以支援決策之使用。傳統交易資料庫很難從中挖掘出有用的資訊,原因:交易資料都是比較瑣碎、不完整,難於直接運用交易資料庫用來記錄公司營運作業,並不適用資料分析。傳統資料庫並不能回答經營者所關心的問題,例如:商品甲銷售量的增加,是否會同時帶動商品乙的銷售?用哪一種商品促銷效果最好?……..資料倉儲的誕生,為了回答主管所關切的決策問題。4簡介(2)資料倉儲的建置過程:收集資料資料整理資料整合資料載入和定期資料更新5簡介(3)資料倉儲基必須配合線上分析處理與資料探勘才能彰顯它的功能。線上分析處理系統是多維度結構的資料分析工具,能夠以不同的主題和角度,快速查出各種統計資料。資料探勘則是利用分類、群集分析、關連性、序列分析、機器自我學習及其它統計方法,自歷史資料庫中,找出隱藏、未知的,但卻有用的資訊。線上分析處理是原原本本的呈現出查詢的結果。資料探勘是探勘出新且有用的知識,在資料的運用更勝於資料倉儲。6資料來源資料倉儲的資料來源是由日常運作的資料庫系統所收集而來,例如:賣場或是連鎖店的每一筆交易資料電子商務網站所記錄的交易資料信用卡銀行記錄持卡人的消費行為人力資源網站記錄媒介結果入口網站記錄瀏覽路徑、畫面、停留時間電話公司記錄通話的型態與時間網路學習網站收集學習者的學習行為7資料名詞定義(1)資料集合(dataset)、資料表(table):資料集合是指收集並儲存於資料庫或資料倉儲中的資料,例如會員資料表用來記錄會員的基本資料、銷售交易表用來記錄購買品項。資料維度(dimension):資料集合利用有限的屬性或特徵(attribute)來描述所包含的資料,稱之為資料維度。資料維度簡單區分成連續性資料維度(continuousdimension)和類別性資料維度(categoricaldimension)。8資料名詞定義(2)資料數值(value):每一資料維度會有一相對應的值域(domain),而值域中所有可能的值即所謂的資料數值,例如:薪水可能為30,000、40,000、……等等任何數字資料。資料紀錄(record):根據資料維度所描述之每一資料數值集合。9資料倉儲的特性(1)整合的資料:將不同來源的資料以一致的命名方式、統一度量單位、相同格式等加以整合儲存,以利未來存取。主題導向的資料:各部門因為業務性質不同,所使用的作業性資料也會因部門而有所不同,像是客服部門就只會存放產品和客戶資料;製造部門就只會存放零件與供應商的資料。10資料倉儲的特性(2)歷史性資料:資料倉儲主要是提供過去某個時期的運作狀態,例如過去三年、五年,或是最近半年的銷售金額、獲利率等資訊,藉此分析、幫助決策,決定未來企業應採取的策略。唯讀資料:當我們將作業性資料轉移到資料倉儲後,應當就不需再做什麼變動,除非是輸入錯誤的資料,所以資料倉儲主要是在提供資料快速彙總與查詢的功能,而不在於資料修改的功能。11資料倉儲與一般資料庫的差異比較特性OLTP系統特性OLAP系統特性功能需求針對企業現行業務的自化而設計針對企業資料分析需求而設計資料類別資料比較偏重細節資料偏重彙總或是統計資訊異動頻率資料隨時可被新增、刪除以及變更歷史性的資料,異動機會少設計方式資料庫設計採用正規化設計為了執行效率不採用正規設計儲存方式使用關聯式資料庫架構存資料使用多維度資料庫結構完整性資料未整理過,可能缺失或是不一致資料經過整理較一致、完整12資料倉儲種類資料倉儲:分析未來決策支援的需求,建置方式是以整個公司的需求來建構的,以便取得決策資訊,像是公司業績、各分店績效等等。資料超市:通常是指規模較小、只針對某些特定主題或是部門而設計的資料倉儲。多層次資料倉儲:指的是前面兩者組合的一種方式,最上層的資料倉儲將資料提供給下層的資料超市,資料倉儲的組織有層次架構。聯合式資料倉儲:指的是整個資料倉儲系統是由多個獨立的資料倉儲、資料超市或是多層次資料倉儲組合完成。13內容概要簡介資料倉儲的操作方法與實作資料倉儲建置程序資料倉儲建置實例總結14資料倉儲的操作方法與實作範例資料倉儲的多維度立方體示意圖15下鑽(drill-down)方法(1)在時間維度(2003Q4)的下鑽(drill-down)操作16下鑽(drill-down)方法(2)在商品維度(食品類)的下鑽(drill-down)操作17上捲(roll-up)方法(1)在時間維度的上捲(roll-up)操作18上捲(roll-up)方法(2)在商品維度的上捲(roll-up)操作19切片(slice)與切塊(dice)方法(1)針對區域維度(北部客戶)的切片(slice)操作20切片(slice)與切塊(dice)方法(2)針對時間維度(2003)的切片(slice)操作21切片(slice)與切塊(dice)方法(2)針對區域維度與時間維度做切塊(dice)操作22轉軸(pivot/rotate)方法將上一張資料圖經由旋轉(pivot)90度操作後的結果23資料倉儲的實作(1)資料倉儲基本上是建立在一個多維度資料庫結構上的一個儲存體。多維度資料分析的核心是如何有效率的計算出多個維度集合上的統計值,以支援快速查詢例如2003年每一季,每個區域服飾的銷售金額。若是使用一般關聯式資料庫,就是利用「groupby」語法來求得這些統計值。24資料倉儲的實作(2)以2.2節的例子(包含時間、商品、客戶區域三個維度與一個銷售金額量值),使用者可能使用下面任何一種方式來查詢:依照時間、商品、區域分組來計算銷售總金額(形成時間、商品、區域三維度的立方體)依照時間、商品分組來計算銷售總金額(形成時間、商品二維度的立方體)依照商品、區域分組來計算銷售總金額(形成商品、區域二維度的立方體)依照時間、區域分組來計算銷售總金額(形成時間、區域二維度的立方體)25資料倉儲的實作(3)依照時間分組來計算銷售總金額(形成時間一維度的立方體)依照商品分組來計算銷售總金額(形成商品一維度的立方體)依照區域分組來計算銷售總金額(形成區域一維度的立方體)所有銷售總金額(形成0維度的立方體)26資料倉儲的實作(4)上面8種查詢分組是將三個維度所有可能的查詢組合都排列出來,這些分組查詢形成該資料立方體的晶格(lattice)三維度資料立方體形成的晶格(lattice)27資料倉儲的實作(5)為了快速回答查詢,將所有可能組合查詢的彙總資料都事先計算並加以儲存。計算的過程可以由下而上聚集而成,例如事先算出最底層的3D資料立方體的彙總資料,就可以據此以聚集方式算出三個2D資料立方體的彙總資料。儲存空間足夠,可以事先將所列的3D~0D資料立方體的彙總資料,全部事先算出並儲存,加快未來查詢速度。28內容概要簡介資料倉儲的操作方法與實作資料倉儲建置程序資料倉儲建置實例總結29資料倉儲建置程序需求分析:訪談主管,得到系統需求。資料來源:內部資料或是外購資料資料整理:正確資料,才能提供有用資訊資料倉儲架構設計事實資料表設計維度資料表設計建立時間、商品與客戶區域三個維度的資料立方體30事實資料表設計(1)事實資料指的是經過整理的原始交易資料,儲存各種事實與量值的詳細數值。一般而言,事實資料表內的欄位,不是索引鍵欄位(關聯到維度資料表),就是量值的欄位,其他欄位不能提供統計資料而被排除。31事實資料表設計(2)為了將來資料分析,事實資料表必須包含最低層級的資料列例如提供統計銷售金額資訊最小細到以週為單位、則事實資料表最低層級也必須是週,或是更細的單位。例如一筆紀錄:某一週、某一商品與某一客戶購買的金額與數量,前三個欄位(月份、商品與客戶)是事實資料也是索引鍵欄位,利用他們分別關聯到其他三個維度資料表。銷售數量與金額則是量值欄位,用來做統計數量的運算,例如計算2003年銷售金額為多少?32維度資料表設計(1)維度資料表指的是為建立某種維度(時間維度、商品維度、客戶維度等等)所需要的資料表。將來可以透過維度資料表,瀏覽或是擷取某一維度、某一層級的彙總資料,例如:瀏覽2003年的銷售金額;瀏覽2003年、服飾的銷售金額;瀏覽2003年、服飾、在中部的銷售金額。維度資料表內的欄位常常會設計有階層關係存在。沒有層級關係也是被允許,只是在計算彙總資料時無法利用層級好處來加快計算。33維度資料表設計(2)例如為方便分析某時期的銷售金額,在時間維度就會以年、季、月、日來分成四個層級。年的層級會記錄它包含那些季季的層級會記錄它包含那些月份月的層級會記錄它包含那些日,日則為最低層級。在事實資料表只會包含最低層級的詳細資料,而不會包含彙總過的資料。維度資料表恰好相反,依據事實資料表的銷售資料(例如交易日期)配合維度資料表的階層關係,事先計算各層級的彙總資料。34維度資料表設計(3)事先彙總出各個月份某項產品的銷售金額等等資料,而季的資料就可以由下層的月份資料彙總而成,年的資料就由季的資料彙總而成。在維度資料表必須有一個主鍵,用以辨識維度中的每一個成員。每個主鍵必須與事實資料表中的某個外部鍵產生關聯(形成一對多的關係),透過這些關聯,才有辦法計算彙總資料。35維度資料表設計(4)維度資料表中也可以包含不直接參與階層架構的其他欄位,例如產品維度資料表可以包含價格資料表,但他並不屬於產品與產品類別的階層架構,不屬於階層架構的欄位稱為成員屬性。36維度資料表設計(5)星狀式維度:平衡式階層架構中的維度,如果一個維度都儲存在單一資料表(例如時間維度)37維度資料表設計(6)雪花式維度:當維度資料分別存在多個資料表中時,例如有產品資料表,產品類別資料表,由兩個資料表構成一個產品維度。38資料倉儲儲存體ROLAP(RelationalOLAP)利用傳統的關聯式資料庫來存放彙總資料,好處利用現有儲存架構較容易完成,但是效率可能較差。MOLAP(MultidimensionalOLAP)真正的多維度資料庫結構來存放彙總資料,好處查詢效率較高,缺點是必須重新開發。HOLAP(HybridOLAP)前兩者的混和體,在前兩者的優、缺點之間取得平衡。39內容概要簡介資料倉儲的操作方法與實作資料倉儲建置程序資料倉儲建置實例總結40資料倉儲建置實例建立購物網站資料倉儲系統,其線上交易資料庫包含四個資料:會員資料表商品資料表商品類別資料表交易紀錄表。41資料倉儲建置實例四個資料表之關係42需求分析(1)希望能對每一位客戶做銷售分析希望能針對每一項產品做銷售業績分析希望能對每一分類產品做銷售業績分析希望能對付款方式做銷售分析希望能對年度、季、月做銷售分析43需求分析(2)分析需求發現主要的索引主軸有:客戶、產品、時間三大類。客戶除了做單一客戶的分析之外,還可以以教育程度、年收入與婚姻狀況來作分析。產品除了可以做單一產品的分析之外,還可以使用產品分類來作分析。時間則是一項基本的維度資料,他具有先天的階層關係。在會員資料表中排除會員密碼、行動電話、住址三個欄位,在商品資料表排除圖片與說明兩個欄位。44需求分析(3)經需求分析後,保留的欄位45設計事實資料表在交易資料表內,交易編號與交易數量是因為銷售所產生,所以兩者一定是事實資料。訂單中的單價與銷售總金額,也是事實資料,單價可以由產品資料表的「售價」欄位提供。在事實資料表內還需要包含關聯到三個維度資料表的索引欄位:會員帳號、商品編號、交易時間。46設計客戶維度資料表客戶資料表中有一「性別」欄位,將來可能依據此一欄位分析不同性別購買商品的不同。生日欄位可以根據此欄位分析不同年齡層的購物差異。剩下的三個欄位月平均收入、教育程度、職業都可以根據這些欄位分析等級的購物差異,對於行銷是有用的資料。47
本文标题:资料探勘 -2 资料仓储
链接地址:https://www.777doc.com/doc-1249445 .html