您好,欢迎访问三七文档
TUT'2000/06/071機械学習とデータマイニング岡田孝関西学院大学情報メディア教育センターTUT'2000/06/072はじめにデータマイニングとはデータベースからの知識発見知的データ解析紙オムツと缶ビール大容量データベースデータベースマーケティングビジネスインテリジェンス対象の多様化Web上のテキストマルチメディアTUT'2000/06/073知識発見プロセス基幹DB抽出変換統合外部DBデータウェアハウスデータマイニングパターン評価可視化知識TUT'2000/06/074マイニング技法統計学パターン認識クラスタリングニューラルネット決定木Roughset相関ルールGraphBasedInduction帰納論理プログラミング変数選択データの可視化TUT'2000/06/075Whatissupervisedlearning?InputinstancescontainsClassattributesExplanationattributes.Generaterulestodescribeclassdescriptionsinductively.IFconditionsTHENclassLearningfromexamples,Incorporationofbackgroundknowledgecf.regression,discriminantanalysis,neuralnetwork,nearestneighborTUT'2000/06/076TypicalapplicationsKnowledgeacquisitiontobeusedinplantoperatingexpertsystemActionpredictionofopponentteamsinsportsmatchDiagnosisfrommedicaltestsDiscoveryofactivemotifsinchemicalcompoundsfromstructureactivityrelationshipdatasetsTUT'2000/06/077ClassificationofProblemsTypeOutputUnderstandingExampleClassificationdefiniteanswerstoallquestionsUnnecessaryplantoperation,characterrecognitionGuessprobableanswerstosomequestionsUnnecessarysportsactionprediction,stockpricepredictionUnderstandingprobabilitytoallquestionsNecessarymedicaldiagnosis,grammaracquisitionTUT'2000/06/078StreamsinlearningresearchI.ClassificationPursuitofAccuracyUCIRepositoryofmachinelearningdatabasesMertz,C.J.andMurphy,P.M.(1996):~mlearn/MLRepository.htmlStandardprogramforcomparisonQuinlan,J.R.(1993):C4.5:ProgramsforMachineLearning,MorganKaufmann;古川(1995):AIによるデータ解析、トッパン.Review秋葉,アルモアリム,金田(1998):例からの学習技術の応用に向けて,情報処理学会誌,Vol.39,No.2,pp.145-151;No.3,pp.245-251.TUT'2000/06/079決定木の方法眼の色身長髪の色目的変数青低黒-青高黒-茶高黒-茶高ブロンド-茶低ブロンド-青低ブロンド+青高ブロンド+青高赤+ソースデータTUT'2000/06/0710決定木高,赤,青:+茶青ブロンド赤黒低,黒,青:-高,黒,青:-高,黒,茶:-低,ブロンド,青:+高,ブロンド,青:+高,ブロンド,茶:-低,ブロンド,茶:-髪の色目の色TUT'2000/06/0711平均情報量による変数選択平均情報量分類前)(log)()(log)(),(22npnnpnnppnppnpIbitnpI954.085log8583log83),(22TUT'2000/06/0712分類による平均情報量の利得身長による分類0.003bit髪の色による分類0.454bit眼の色による分類0.347bit0.003bit0.9510.954利得: 0.951bit0.918830.97185平均: 0.918bit32log3231log31低い: 0.971bit53log5352log52高い: 2222TUT'2000/06/0713数値属性間結合ルールによる糖尿病診断木SONAR:'2000/06/0714ProgressinDecisionTreeVariablewithcontinuousvaluesEntropygainratio,GiniindexSamplingPruningBagging,BoostingUserinterfaceInteractiveexpansionofatreeVisualizationRulesTUT'2000/06/071500.10.20.30.40.50.60.70.80.9100.040.080.120.160.20.240.280.320.360.40.440.48entropyginiindexVarianceGini-index=∑Pi・(1-Pi)=1-∑Pi2Giniindexvs.EntropyTUT'2000/06/0716決定木の方法秋葉,アルモアリム,金田:例からの学習技術の応用に向けて,情報処理学会誌,Vol.39,No.2,pp.145-151;No.3,pp.245-251(1998).Breiman,L.,Friedman,J.H.,Olshen,R.A.&Stone,C.J.:ClassificationandRegressionTrees,TheWadsworth&Brooks/Cole(1984).[CART]Quinlan,J.R.:C4.5:ProgramsforMachineLearning,MorganKaufmann(1993).古川訳:AIによるデータ解析,トッパン(1995).TUT'2000/06/0717StreamsinlearningresearchIII.RoughsetCharacteristicsNonexploratoryMethodologyfordecisiontableAnalysisofvariabledependenciesNPhardtoattributes&valuesReferencesPawlak,Z.:RoughSets:TheoreticalAspectsofReasoningaboutData,KluwerAcademicPublishers(1991).W.Ziarko:ReviewofBasicsofRoughSetsintheContextofDataMining,Proc.FourthInternationalWorkshoponRoughSets,FuzzySets,andMachineDiscovery,pp.447-457,Tokyo(1996).Datalogic/R:ReductSystemsInc.TUT'2000/06/0718RoughsetとはPositiveregionBoundaryregionNegativeregionTUT'2000/06/0719ClassSHECT100100210211311100402111512101610100712211800211計算過程1:離散化・クラス分類ObjSHECT123…955595569557955812.018.219.0…17.518.019.615.7132.2148.0175.8…199.1111.0186.6103.2171530151826…19172001422238327.032.311.2…4.017.129.941.17513060…14395152161Reduct1={Size,Height,Energy}Reduct2={Size,Height,Current}Core={Size,Height}TUT'2000/06/0720説明変数Pと目的変数QP={Size,Height,Energy,Current}Q={Temperature}Reduct1(P,Q)={Height,Energy}Reduct2(P,Q)={Height,Current}Core(P,Q)={Height}HeightEnergyTemperature010021110211221ClassSHECT100100210211311100402111512101610100712211800211TUT'2000/06/0721計算過程2:DecisionmatrixによるRule導出j123iOBJe1e3e61e2(S,1)(E,2)(C,1)(H,0)(E,2)(C,1)(E,2)(C,1)2e4(H,2)(C,1)(S,0)(H,2)(C,1)(S,0)(H,2)(C,1)3e5(S,1)(H,2)(H,2)(H,2)4e7(S,1)(H,2)(E,2)(C,1)(H,2)(E,2)(C,1)(H,2)(E,2)(C,1)5e8(E,2)(C,1)(S,0)(H,0)(E,2)(C,1)(S,0)(E,2)(C,1)ClassSHECTe100100e210211B11=((S,1)∨(E,2)∨(C,1))∧((H,0)∨(E,2)∨(C,1))∧((E,2)∨(C,1))=(E,2)∨(C,1)B12=((H,2)∨(C,1))∧((S,0)∨(H,2)∨(C,1))∧((S,0)∨(H,2)∨(C,1))=(H,2)∨(C,1)B13=((S,1)∨(H,2))∧((H,2))∧((H,2))=(H,2)B14=((S,1)∨(H,2)∨(E,2)∨(C,1))∧((H,2)∨(E,2)∨(C,1))∧((H,2)∨(E,2)∨(C,1))=(H,2)∨(E,2)∨(C,1)B15=((E,2)∨(C,1))∧((S,0)∨(H,0)∨(E,2)∨(C,1))∧((S,0)∨(E,2)∨(C,1))=(E,2)∨(C,1)(Energy=2)(Temperature=1)(Current=1)(Temperature=1)(Height=2)(Temperature=1)TUT'2000/06/0722VariablePrecisionRoughSetModelPositiveregionBoundaryregionNegativeregionTUT'2000/06/0723VariableDependencyAnalysisNecessaryandSufficientVariableSetsReduct2CoreReduct3Reduct1Reduct5Reduct4TUT'2000/06/0724CarsexampleReducts(1)cyl,fuelsys,comp,power,weight(2)size,fuelsys,comp,power,wei
本文标题:机械学习ー
链接地址:https://www.777doc.com/doc-130153 .html