机器学习之朴素贝叶斯自学笔记

一,概念

朴素贝叶斯是基于贝叶斯定理的分类方法,是应用比较广泛的分类方法。

朴素贝叶斯假设特征之间相互独立,虽然在一定程度上降低了贝叶斯分类的效果,但是,在实际应用中却有很好的效果。

二,算法原理

假设有m个类别 y 1 , y 2 , . . . , y m y_1,y_2,...,y_m y1,y2,...,ym,有n个特征 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn,由朴素贝叶斯算法可以得出 P ( Y ∣ X ) P(Y|X) P(YX):
P ( Y ∣ X ) = P ( Y ) P ( X ∣ Y ) P ( X ) ( 1 ) P(Y|X)=\frac{P(Y)P(X|Y)}{P(X)} (1) P(YX)=P(X)P(Y)P(XY)1
其中, P ( Y ) P(Y) P(Y) Y Y Y的先验概率, P ( Y ∣ X ) P(Y|X) P(YX)是Y的后验概率。

由于 X X X之间是相互独立的,由独立的性质可以得到
P ( X 1 X 2 ) = P ( X 1 ) P ( X 2 ) ( 2 ) P ( X ∣ Y = y ) = P ( X 1 ∣ Y = y ) P ( X 2 ∣ Y = y ) ( 3 ) P(X_1X_2)=P(X_1)P(X_2) (2)\\ P(X|Y=y)=P(X_1|Y=y)P(X_2|Y=y) (3) P(X1X2)=P(X1)P(X2)2P(XY=y)=P(X1Y=y)P(X2Y=y)3
所以(1)式中的条件概率分布变成如下的形式:
P ( X ∣ Y = y ) = ∏ i n P ( x i ∣ Y = y ) ( 4 ) P(X|Y=y)=\prod\limits_i^nP(x_i|Y=y)(4) P(XY=y)=inP(xiY=y)4
由此可以计算出后验概率
P ( Y ∣ X ) = P ( Y ) ∏ i n P ( x i ∣ Y = y ) P ( X ) ( 5 ) P(Y|X)=\frac{P(Y)\prod\limits_i^nP(x_i|Y=y)}{P(X)} (5) P(YX)=P(X)P(Y)inP(xiY=y)5
由此得到了第J个样本所属的样本分类,即:
P ( y j ∣ x 1 , x 2 , . . . , x n ) = P ( y j ) ∏ i = 1 n P ( x i ∣ y j ) ∏ i = 1 n P ( X ) ( 6 ) P(y_j|x_1,x_2,...,x_n)=\frac{P(y_j)\prod\limits_{i=1}^nP(x_i|y_j)}{\prod\limits_{i=1}^nP(X)} (6) P(yjx1,x2,...,xn)=i=1nP(X)P(yj)i=1nP(xiyj)6

三,优缺点

优点:如果特征存在缺失的时候,朴素贝叶斯就有很好的用处。想象一下,如果某个特征缺失,预测的结果与特征之间的联系有关,预测的结果可能就不会很好。朴素贝叶斯的算法也很稳定,对于不同的数据分类结果的差异很小。如果数据的特征大多数都是独立的,那么朴素贝斯斯的分类效果会很好。

缺点:朴素贝叶斯的缺点就是,特征间的独立性。在现实生活中,往往很难找到多个特征之间是相互独立的。

四,引例

(一)提出问题

判断一个人是否去图书馆,假如与以下因素有关,天气好坏,当天是否有高数课,当天是否有其他校园活动,假设这些因素是独立的

天气 高数课 校园活动 是否去图书馆
不去
不去
不去
不去

想要知道此名学生在天气好,无高数课,有校园活动的情况下是否去图书馆?

通过贝叶斯公式可知,去图书馆的概率为:
p ( 去 ∣ 天气好,无高数课,有校园活动 ) = p ( 天气好,无高数课,有校园活动 ∣ 去 ) p ( 去 ) p ( 天气好,无高数课,有校园活动 ) p(去|天气好,无高数课,有校园活动)=\frac{p(天气好,无高数课,有校园活动|去)p(去)}{p(天气好,无高数课,有校园活动)} p(天气好,无高数课,有校园活动)=p(天气好,无高数课,有校园活动)p(天气好,无高数课,有校园活动)p()
再次条件下不去图书馆的概率为:
p ( 不去 ∣ 天气好,无高数课,有校园活动 ) = p ( 天气好,无高数课,有校园活动 ∣ 不去 ) p ( 不去 ) p ( 天气好,无高数课,有校园活动 ) p(不去|天气好,无高数课,有校园活动)=\frac{p(天气好,无高数课,有校园活动|不去)p(不去)}{p(天气好,无高数课,有校园活动)} p(不去天气好,无高数课,有校园活动)=p(天气好,无高数课,有校园活动)p(天气好,无高数课,有校园活动不去)p(不去)

(二)概率计算

1,改名学生去图书馆的概率:

天气 高数课 校园活动 是否去图书馆

p(去)=4/8=1/2

p(天气好|去)=1/4

p(无高数课|去)=1/4

p(有校园活动|去 )=1/2

p(天气好)=1/2

p(无高数课)=1/2

p(有校园活动)=5/8

p(去|天气好,无高数课,有校园活动)=[(1/4 * 1/4 * 1/2)(1/2)] / (1/2 * 1/2 * 5/8)

2,改名学生不去图书馆的概率:

天气 高数课 校园活动 是否去图书馆
不去
不去
不去
不去

p(不去)=4/8=1/2

p(天气好|不去)=3/4

p(无高数课|不去)=1/2

p(有校园活动|不去 )=1/4

p(天气好)=1/2

p(无高数课)=1/2

p(有校园活动)=5/8

p(不去|天气好,无高数课,有校园活动)=[(3/4 * 1/2 * 1/4)(1/2)] / (1/2 * 1/2 * 5/8)

3,比较

p(去|天气好,无高数课,有校园活动) < p(不去|天气好,无高数课,有校园活动)

所以我们根据朴素贝叶斯算法可以给改名学生的答案,是不去图书馆

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


学习编程是顺着互联网的发展潮流,是一件好事。新手如何学习编程?其实不难,不过在学习编程之前你得先了解你的目的是什么?这个很重要,因为目的决定你的发展方向、决定你的发展速度。
IT行业是什么工作做什么?IT行业的工作有:产品策划类、页面设计类、前端与移动、开发与测试、营销推广类、数据运营类、运营维护类、游戏相关类等,根据不同的分类下面有细分了不同的岗位。
女生学Java好就业吗?女生适合学Java编程吗?目前有不少女生学习Java开发,但要结合自身的情况,先了解自己适不适合去学习Java,不要盲目的选择不适合自己的Java培训班进行学习。只要肯下功夫钻研,多看、多想、多练
Can’t connect to local MySQL server through socket \'/var/lib/mysql/mysql.sock问题 1.进入mysql路径
oracle基本命令 一、登录操作 1.管理员登录 # 管理员登录 sqlplus / as sysdba 2.普通用户登录
一、背景 因为项目中需要通北京网络,所以需要连vpn,但是服务器有时候会断掉,所以写个shell脚本每五分钟去判断是否连接,于是就有下面的shell脚本。
BETWEEN 操作符选取介于两个值之间的数据范围内的值。这些值可以是数值、文本或者日期。
假如你已经使用过苹果开发者中心上架app,你肯定知道在苹果开发者中心的web界面,无法直接提交ipa文件,而是需要使用第三方工具,将ipa文件上传到构建版本,开...
下面的 SQL 语句指定了两个别名,一个是 name 列的别名,一个是 country 列的别名。**提示:**如果列名称包含空格,要求使用双引号或方括号:
在使用H5混合开发的app打包后,需要将ipa文件上传到appstore进行发布,就需要去苹果开发者中心进行发布。​
+----+--------------+---------------------------+-------+---------+
数组的声明并不是声明一个个单独的变量,比如 number0、number1、...、number99,而是声明一个数组变量,比如 numbers,然后使用 nu...
第一步:到appuploader官网下载辅助工具和iCloud驱动,使用前面创建的AppID登录。
如需删除表中的列,请使用下面的语法(请注意,某些数据库系统不允许这种在数据库表中删除列的方式):
前不久在制作win11pe,制作了一版,1.26GB,太大了,不满意,想再裁剪下,发现这次dism mount正常,commit或discard巨慢,以前都很快...
赛门铁克各个版本概览:https://knowledge.broadcom.com/external/article?legacyId=tech163829
实测Python 3.6.6用pip 21.3.1,再高就报错了,Python 3.10.7用pip 22.3.1是可以的
Broadcom Corporation (博通公司,股票代号AVGO)是全球领先的有线和无线通信半导体公司。其产品实现向家庭、 办公室和移动环境以及在这些环境...
发现个问题,server2016上安装了c4d这些版本,低版本的正常显示窗格,但红色圈出的高版本c4d打开后不显示窗格,
TAT:https://cloud.tencent.com/document/product/1340