您好,欢迎访问三七文档
贝叶斯分类的讲解和使用一、贝叶斯公式的使用()(|)()(|)()()pclassfeaturepfeatureclasspclasspclassfeaturepfeaturepfeature这就是贝叶斯公式,本质我们只要知道了,问题实际上是很简单的。贝叶斯公式是利用先验经历对未来的事情进行预测,说白了就是根据以往的经验对未来的事情进行预测。感觉好像很厉害的样子。我们具体找个例子来看看就可以了。这个例子实际上用处很广泛,只要是分类算法,一般都使用这个例子来说明。我现在的由上面这些样例,我们成为历史经验,我们要预测的是sunny,cool,high,TRUE我们需要判断这个例子是属于Yes还是No,问题很简单。OK,现在先把问题明确了,至于如何求解我们下面再说。二、使用贝叶斯分类具体过程如何判断这个记录属于哪一类,可以把问题转化成这个例子和哪一类的概率最大。这样就把问题转化为这个例子属于Class1的概率是多大?那就那问题转化了,这个想法本质上和KNN分类的转化思想是一致的,KNN使用的是距离,当然不仅仅局限于欧式距离还可以是余弦相似度,我们找一个最小的值就行了。111(,,,)(|,,)(,,)nnnpclassiXXpclassiXXpXX这里X表示特征。在使用贝叶斯公式,我们就可以得到一个更好的公式,11111(,,,)(,,|)()(|,,)(,,)(,,)nnnnnpclassiXXpXXclassipclassipclassiXXpXXpXX就是第二个式子加了一个反向的贝叶斯公式。下面我们来做一个假设:所有的特征都是独立的。在这条假设的基础上,我们得到下面的这一条公式:111111212(,,,)(,,|)()p(class-i|,,)=(,,)(,,)(|)(|)...(|)()()()...()nnnnnnnpclassiXXpXXclassipclassiXXpXXpXXpXclassipXclassipXclassipclassipXpXpX我们把东西拆开看看:()ipX:表示iX这个属性出现的概率,这个是比较好求的outlook这一个属性sunny的概率不就很好求吗?()pclassi:这个也很好求,统计一下就行了。(|)jpclassiX:表示在jX出现的情况下,这个记录属于class-i的类别的概率。三、具体的过程首先看看分类的种类只有Yes,No两类,算是二分类,但是这里我先不管是不是二分类,最起码我不可能写一个二分类的例子。9()14pYes,5()14pNo12112(|)(|)...(|)()p(class-i|,,)()()...()(|)(|)(|)(|)()()()()()nnnpXclassipXclassipXclassipclassiXXpXpXpXpsunnyYespcoolYesphighYespTrueYespYespsunnypcoolphighpTrue5()14psunny4()14pcool71()142phigh63()147pTrue2(|)9psunnyYes31(|)93pcoolYes31(|)93phighYes31(|)93pTrueYes这里我们发现,其分母是相同的,我们只需要比较分子就可以了。分子=5.291*10^-3(|)(|)(|)(|)()(|)()psunnyNophighNopTrueNopcoolNopNopNoEpE3(|)5psunnyNo4(|)5phighNo3(|)5pTrueNo1(|)5pcoolNo5()14pNo这样分子=0.02057这样就比较倾向于No类文本分词的想法和这个差不多,使用数据库统计应该更方便。
本文标题:贝叶斯分类的使用
链接地址:https://www.777doc.com/doc-2034588 .html