决策树---ID3算法介绍及Python实现

<p style="text-align: center;"><span style="font-size: 18pt;">决策树---ID3算法

 

决策树:

以天气数据库的训练数据为例。

<table style="width: 564px;" border="1" cellspacing="0" cellpadding="0">
<tr>
<td width="100">
<p align="center">Outlook


</td>
<td width="147">
<p align="center">Temperature


</td>
<td width="105">
<p align="center">Humidity


</td>
<td width="105">
<p align="center">Windy


</td>
<td width="107">
<p align="center">PlayGolf?


</td>
</tr>
<tr>
<td width="100">
<p align="center">sunny


</td>
<td width="147">
<p align="center">85


</td>
<td width="105">
<p align="center">85


</td>
<td width="105">
<p align="center">FALSE


</td>
<td width="107">
<p align="center">no


</td>
</tr>
<tr>
<td width="100">
<p align="center">sunny


</td>
<td width="147">
<p align="center">80


</td>
<td width="105">
<p align="center">90


</td>
<td width="105">
<p align="center">TRUE


</td>
<td width="107">
<p align="center">no


</td>
</tr>
<tr>
<td width="100">
<p align="center">overcast


</td>
<td width="147">
<p align="center">83


</td>
<td width="105">
<p align="center">86


</td>
<td width="105">
<p align="center">FALSE


</td>
<td width="107">
<p align="center">yes


</td>
</tr>
<tr>
<td width="100">
<p align="center">rainy


</td>
<td width="147">
<p align="center">70


</td>
<td width="105">
<p align="center">96


</td>
<td width="105">
<p align="center">FALSE


</td>
<td width="107">
<p align="center">yes


</td>
</tr>
<tr>
<td width="100">
<p align="center">rainy


</td>
<td width="147">
<p align="center">68


</td>
<td width="105">
<p align="center">80


</td>
<td width="105">
<p align="center">FALSE


</td>
<td width="107">
<p align="center">yes


</td>
</tr>
<tr>
<td width="100">
<p align="center">rainy


</td>
<td width="147">
<p align="center">65


</td>
<td width="105">
<p align="center">70


</td>
<td width="105">
<p align="center">TRUE


</td>
<td width="107">
<p align="center">no


</td>
</tr>
<tr>
<td width="100">
<p align="center">overcast


</td>
<td width="147">
<p align="center">64


</td>
<td width="105">
<p align="center">65


</td>
<td width="105">
<p align="center">TRUE


</td>
<td width="107">
<p align="center">yes


</td>
</tr>
<tr>
<td width="100">
<p align="center">sunny


</td>
<td width="147">
<p align="center">72


</td>
<td width="105">
<p align="center">95


</td>
<td width="105">
<p align="center">FALSE


</td>
<td width="107">
<p align="center">no


</td>
</tr>
<tr>
<td width="100">
<p align="center">sunny


</td>
<td width="147">
<p align="center">69


</td>
<td width="105">
<p align="center">70


</td>
<td width="105">
<p align="center">FALSE


</td>
<td width="107">
<p align="center">yes


</td>
</tr>
<tr>
<td width="100">
<p align="center">rainy


</td>
<td width="147">
<p align="center">75


</td>
<td width="105">
<p align="center">80


</td>
<td width="105">
<p align="center">FALSE


</td>
<td width="107">
<p align="center">yes


</td>
</tr>
<tr>
<td width="100">
<p align="center">sunny


</td>
<td width="147">
<p align="center">75


</td>
<td width="105">
<p align="center">70


</td>
<td width="105">
<p align="center">TRUE


</td>
<td width="107">
<p align="center">yes


</td>
</tr>
<tr>
<td width="100">
<p align="center">overcast


</td>
<td width="147">
<p align="center">72


</td>
<td width="105">
<p align="center">90


</td>
<td width="105">
<p align="center">TRUE


</td>
<td width="107">
<p align="center">yes


</td>
</tr>
<tr>
<td width="100">
<p align="center">overcast


</td>
<td width="147">
<p align="center">81


</td>
<td width="105">
<p align="center">75


</td>
<td width="105">
<p align="center">FALSE


</td>
<td width="107">
<p align="center">yes


</td>
</tr>
<tr>
<td width="100">
<p align="center">rainy


</td>
<td width="147">
<p align="center">71


</td>
<td width="105">
<p align="center">91


</td>
<td width="105">
<p align="center">TRUE


</td>
<td width="107">
<p align="center">no


</td>
</tr>

这个例子是根据报告天气条件的记录来决定是否外出打高尔夫球。

作为分类器,决策树是一棵有向无环树。

由根节点、叶节点、内部点、分割属性、分割判断规则构成

生成阶段:决策树的构建和决策树的修剪。

根据分割方法的不同:有基于信息论(Information Theory的方法和基于最小GINI指数(lowest GINI index的方法。对应前者的常见方法有ID3、C4.5,后者的有CART

 ID3 算法

       ID3的基本概念是:

热力学中表征物质状态的参量之一,用符号S表示,其物理意义是体系混乱程度的度量。热力学第二定律(second law of thermodynamics),基本定律之一,又称“熵增定律”,表明在自然过程中,一个孤立系统的总混乱度(即“熵”)不会减小。

在信息论中,变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。信息熵是中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统程度的一个度量。

 信息增益的计算

定义1:若存在个相同概率的消息,则每个消息的概率是,一个消息传递的信息量为。若有16个事件,则,需要4个比特来代表一个消息。

定义2若给定概率分布则由该分布传递的信息量称为的熵,即

例:若是,则是1;若是,则是0.92;若

是,则是0(注意概率分布越均匀,其信息量越大)

定义3若一个记录的集合根据类别属性的值被分为相互独立的类,则识别的一个元素所属哪个类别所需要的信息量是,其中是的概率分布,即

仍以天气数据库的数据为例。我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)。如果给出新一天的气象指标数据,判断一下会不会去打球。在没有给定任何天气信息时,根据历史数据,我们知道一天中打球的概率是9/14,不打的概率是5/14。此时的熵为:

定义4:若我们根据某一特征属性将分成集合,则确定中的一个元素类的信息量可通过确定的加权平均值来得到,即的加权平均值为:

<table style="width: 568px;" border="1" cellspacing="0" cellpadding="0">
<tr>
<td colspan="3" valign="top" width="147">

Outlook

temperature

humidity

windy

play

</td>
<td valign="top" width="39">

yes

no

</td>
<td rowspan="4" valign="top" width="110">

</td>
<td valign="top" width="47">

</td>
<td valign="top" width="37">

yes

no

yes

no

sunny

2

3

False

6

2

9

5

overcast

4

0

True

3

3

</td>
<td valign="top" width="37">

</td>
</tr>
<tr>
<td valign="top" width="69">

rainy

3

2

</td>
<td valign="top" width="37">

</td>
<td valign="top" width="37">

</td>
<td valign="top" width="38">

</td>
<td valign="top" width="37">

</td>
</tr>

针对属性Outlook,我们来计算

定义5:将信息增益定义为:

即增益的定义是两个信息量之间的差值,其中一个信息量是需确定的一个元素的信息量,另一个信息量是在已得到的属性的值后确定的一个元素的信息量,即信息增益与属性相关。

针对属性Outlook的增益值:

若用属性windy替换outlook,可以得到,。即outlook比windy取得的信息量大。

ID3算法的Python实现

def calcShannonEnt(dataset):
numEntries = len(dataset)
labelCounts = {}
for featVec in dataset:
currentLabel = featVec[-1]
if currentLabel not in labelCounts.keys():
labelCounts[currentLabel] = 0
labelCounts[currentLabel] +=1

shannonEnt = 0.0
for key in labelCounts:
    prob = float(labelCounts[key])/numEntries
    shannonEnt -= prob*math.log(prob,2)
return shannonEnt

def CreateDataSet():
dataset = [[1,1,'yes' ],[1,'no'],[0,'no']]
labels = ['no surfacing','flippers']
return dataset,labels

def splitDataSet(dataSet,axis,value):
retDataSet = []
for featVec in dataSet:
if featVec[axis] == value:
reducedFeatVec = featVec[:axis]
reducedFeatVec.extend(featVec[axis+1:])
retDataSet.append(reducedFeatVec)

return retDataSet

def chooseBestFeatureToSplit(dataSet):
numberFeatures = len(dataSet[0])-1
baseEntropy = calcShannonEnt(dataSet)
bestInfoGain = 0.0;
bestFeature = -1;
for i in range(numberFeatures):
featList = [example[i] for example in dataSet]
uniqueVals = set(featList)
newEntropy =0.0
for value in uniqueVals:
subDataSet = splitDataSet(dataSet,i,value)
prob = len(subDataSet)/float(len(dataSet))
newEntropy += prob * calcShannonEnt(subDataSet)
infoGain = baseEntropy - newEntropy
if(infoGain > bestInfoGain):
bestInfoGain = infoGain
bestFeature = i
return bestFeature

def majorityCnt(classList):
classCount ={}
for vote in classList:
if vote not in classCount.keys():
classCount[vote]=0
classCount[vote]=1
sortedClassCount = sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)
return sortedClassCount[0][0]

def createTree(dataSet,labels):
classList = [example[-1] for example in dataSet]
if classList.count(classList[0])==len(classList):
return classList[0]
if len(dataSet[0])==1:
return majorityCnt(classList)
bestFeat = chooseBestFeatureToSplit(dataSet)
bestFeatLabel = labels[bestFeat]
myTree = {bestFeatLabel:{}}
del(labels[bestFeat])
featValues = [example[bestFeat] for example in dataSet]
uniqueVals = set(featValues)
for value in uniqueVals:
subLabels = labels[:]
myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet,bestFeat,value),subLabels)
return myTree

myDat,labels = CreateDataSet()
createTree(myDat,labels)

运行结果如下:

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


本文从多个角度分析了vi编辑器保存退出命令。我们介绍了保存和退出vi编辑器的命令,以及如何撤销更改、移动光标、查找和替换文本等实用命令。希望这些技巧能帮助你更好地使用vi编辑器。
Python中的回车和换行是计算机中文本处理中的两个重要概念,它们在代码编写中扮演着非常重要的角色。本文从多个角度分析了Python中的回车和换行,包括回车和换行的概念、使用方法、使用场景和注意事项。通过本文的介绍,读者可以更好地理解和掌握Python中的回车和换行,从而编写出更加高效和规范的Python代码。
SQL Server启动不了错误1067是一种比较常见的故障,主要原因是数据库服务启动失败、权限不足和数据库文件损坏等。要解决这个问题,我们需要检查服务日志、重启服务器、检查文件权限和恢复数据库文件等。在日常的数据库运维工作中,我们应该时刻关注数据库的运行状况,及时发现并解决问题,以确保数据库的正常运行。
信息模块是一种可重复使用的、可编程的、可扩展的、可维护的、可测试的、可重构的软件组件。信息模块的端接需要从接口设计、数据格式、消息传递、函数调用等方面进行考虑。信息模块的端接需要满足高内聚、低耦合的原则,以保证系统的可扩展性和可维护性。
本文从电脑配置、PyCharm版本、Java版本、配置文件以及程序冲突等多个角度分析了Win10启动不了PyCharm的可能原因,并提供了解决方法。
本文主要从多个角度分析了安装SQL Server 2012时可能出现的错误,并提供了解决方法。
Pycharm是一款非常优秀的Python集成开发环境,它可以让Python开发者更加高效地进行代码编写、调试和测试。在Pycharm中设置解释器非常简单,我们可以通过创建新项目、修改项目解释器、设置全局解释器等多种方式进行设置。
Python中有多种方法可以将字符串转换为整数,包括使用int()函数、try-except语句、正则表达式、map()函数、ord()函数和reduce()函数。在实际应用中,应根据具体情况选择最合适的方法。
本文介绍了导入CSV文件的多种方法,包括使用Excel、Python和R等工具。同时,还介绍了导入CSV文件时需要注意的一些细节和问题。CSV文件是数据处理和分析中不可或缺的一部分,希望本文能够对读者有所帮助。
mongodb是一种新型的数据库,它采用了面向文档的数据模型,具有灵活性、高性能和高可用性等优势。但是,mongodb也存在数据结构混乱、安全性和学习成本高等问题。
当Python运行不了时,我们应该从代码、Python环境、操作系统和硬件设备等多个角度来排查问题,并采取相应的解决措施。
Python列表是一种常见的数据类型,排序是列表操作中的一个重要部分。本文介绍了Python列表降序排序的方法,包括使用sort()函数、sorted()函数以及自定义函数进行排序。使用sort()函数可以简单方便地实现降序排序,但会改变原始列表的顺序;使用sorted()函数可以保留原始列表的顺序,但需要创建一个新的列表;使用自定义函数可以灵活地控制排序的方式,但需要编写额外的代码。
本文介绍了如何使用Python输入一段英文并统计其中的单词个数,从去除标点符号、忽略单词大小写、排除常用词汇等多个角度进行了分析。此外,还介绍了使用NLTK库进行单词统计的方法。
虚拟环境可以帮助我们在同一台机器上运行不同版本的Python、安装不同的Python包,并且不会相互影响。创建虚拟环境的命令是python3 -m venv myenv,进入虚拟环境的命令是source myenv/bin/activate,退出虚拟环境的命令是deactivate。在虚拟环境中可以使用pip安装包,也可以使用Python运行程序。
本文从XHR对象、fetch API和jQuery三个方面分析了JS获取响应状态的方法及其应用。以上三种方法都可以轻松地发送HTTP请求,并处理响应数据。
桌面的命令包括常见的操作命令、系统命令、批处理命令以及第三方应用程序提供的命令。我们可以通过鼠标右键点击桌面、创建快捷方式、创建批处理文件等方式来运用这些命令,从而更好地管理计算机,提高工作效率。
本文分析了应用程序闪退的多个原因,包括应用程序本身存在问题、手机或平板电脑系统问题、硬件问题、网络问题和其他原因。同时,本文提供了解决闪退问题的多种方式,包括更新或卸载重新下载应用程序、升级系统或进行修复、清理手机缓存、清理不必要的文件或者是更换电池等方式来解决、确保网络信号的稳定性、注意用户隐私和安全问题。
本文介绍了使用Python下载图片的多种方法,包括使用Python标准库urllib.request、第三方库requests、多线程和异步IO。这些方法在不同情况下都有它们的优缺点。使用这些方法,我们可以轻松地将网络上的图片下载到本地,方便我们在离线状态下查看或处理这些图片。
MySQL数据文件是指存储MySQL数据库中数据的文件,存储位置的选择对数据库的性能、可靠性和安全性都有着重要的影响。本文从存储位置的选择、存储设备的选择、存储空间的管理和存储位置的安全性等多个角度对MySQL数据文件的存储位置进行分析,最后得出需要根据实际情况综合考虑多个因素,选择合适的存储位置和存储设备,并进行有效的存储空间管理和安全措施的结论。
AS400是一种主机操作系统,每个库都包含多个表。查询库表总数是一项基本任务。可以使用命令行、系统管理界面以及数据库管理工具来查询库表总数。查询库表总数可以帮助用户更好地管理和优化数据,包括规划数据存储、优化查询性能以及管理空间资源。