如何使用NLTK正确进行多类分类？

时间：2019-04-29分类：Python作者：编程之家用户

所以,我正在尝试进行文本多类分类.我一直在阅读很多旧的问题和博客文章,但我仍然无法完全理解这个概念.

我也从这篇博客文章中尝试了一些例子. http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/

但是当谈到多类分类时,我不太明白.假设我想将文本分为多种语言,法语,英语,意大利语和德语.我想使用NaviesBayes,我认为这是最容易开始的.从我在旧问题中读到的内容来看,最简单的解决方案是使用one vs all.因此,每种语言都有自己的模型.所以,我会有3种法语,英语和意大利语模型.然后我会针对每个模型运行一个文本,并检查哪个模型的概率最高.我对么？

但是当谈到编码时,在上面的例子中他有这样的推文,它将被分类为正面或负面.

pos_tweets = [('I love this car','positive'),('This view is amazing',('I feel great this morning',('I am so excited about tonight\'s concert',('He is my best friend','positive')]

neg_tweets = [('I do not like this car','negative'),('This view is horrible',('I feel tired this morning',('I am not looking forward to tonight\'s concert',('He is my enemy','negative')]

这是积极的还是消极的.那么,当谈到为法语训练一个模型时,我应该如何标记文本？会这样吗？那么这将是积极的吗？

[('Bon jour','French'),'je m'appelle','French']

否定的是

[('Hello','English'),('My name','English')]

但这是否意味着我可以添加意大利语和德语,只有4种语言的模型？或者我真的不需要否定？

那么,问题是使用ntlk进行多类分类的正确方法是什么？

解决方法

没有必要采用Naive Bayes的一对一方案 – 它是开箱即用的多类型模型.只需将(样本,标签)对列表提供给分类器学习器,其中label表示语言.

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

相关推荐

Python中的函数（二）

Python中的函数（二）在上一篇文章中提到了Python中函数的定义和使用，在这篇文章里我们来讨论下关于函数的一些更深的话题。在学习C语言函数的时候，遇到的问题主要有形参实参的区别、参数的传递和改变、变量的作用域。同样在Python中，关于对函数的理解和使用也存在这些问题。下面来逐一讲解。一.函

Python中的字符串

Python中的字符串可能大多数人在学习C语言的时候，最先接触的数据类型就是字符串，因为大多教程都是以"Hello world"这个程序作为入门程序，这个程序中要打印的"Hello world"就是字符串。如果你做过自然语言处理方面的研究，并且用Python

Python 面向对象编程（一）

Python 面向对象编程（一）虽然Python是解释性语言，但是它是面向对象的，能够进行对象编程。下面就来了解一下如何在Python中进行对象编程。一.如何定义一个类在进行python面向对象编程之前，先来了解几个术语：类，类对象，实例对象，属性，函数和方法。类是对现实世界中一些事物的封装，

Python面向对象编程（二）

Python面向对象编程（二）在前面一篇文章中谈到了类的基本定义和使用方法，这只体现了面向对象编程的三大特点之一：封装。下面就来了解一下另外两大特征：继承和多态。在Python中，如果需要的话，可以让一个类去继承一个类，被继承的类称为父类或者超类、也可以称作基类，继承的类称为子类。并且Pytho

Python中的函数（一）

Python中的函数（一）接触过C语言的朋友对函数这个词肯定非常熟悉，无论在哪门编程语言当中，函数（当然在某些语言里称作方法，意义是相同的）都扮演着至关重要的角色。今天就来了解一下Python中的函数用法。一.函数的定义在某些编程语言当中，函数声明和函数定义是区分开的（在这些编程语言当中函数声明

在windows下如何快速搭建web.py开发框架

在windows下如何快速搭建web.py开发框架用Python进行web开发的话有很多框架供选择，比如最出名的Django，tornado等，除了这些框架之外，有一个轻量级的框架使用起来也是非常方便和顺手，就是web.py。它由一名黑客所创建，但是不幸的是这位创建者于2013年自杀了。据说现在由

将Sublime Text 2搭建成一个好用的IDE

将Sublime Text 2搭建成一个好用的IDE 说起编辑器，可能大部分人要推荐的是Vim和Emacs，本人用过Vim，功能确实强大，但是不是很习惯，之前一直有朋友推荐SUblime Text 2这款编辑器，然后这段时间就试了一下，就深深地喜欢上这款编辑器了...

Python中的模块

Python中的模块有过C语言编程经验的朋友都知道在C语言中如果要引用sqrt这个函数，必须用语句"#include<math.h>"引入math.h这个头文件，否则是无法正常进行调用的。那么在Python中，如果要引用一些内置的函数，该怎么处理呢？在Python中

Python的基础语法

Python的基础语法在对Python有了基础的认识之后，下面来了解一下Python的基础语法，看看它和C语言、java之间的基础语法差异。一.变量、表达式和语句 Python中的语句也称作命令，比如print "hello python"这就是一条语句。表达式，顾名思义，是

Eclipse+PyDev+Django+Mysql搭建Python web开发环境

Eclipse+PyDevʽjango+Mysql搭建Python web开发环境 Python的web框架有很多，目前主流的有Django、Tornado、Web.py等，最流行的要属Django了，也是被大家最看好的框架之一。下面就来讲讲如何搭建Django的开发环境。一.准备工作需要下载的

在windows下安装配置Ulipad

在windows下安装配置Ulipad 今天推荐一款轻便的文本编辑器Ulipad，用来写一些小的Python脚本非常方便。 Ulipad下载地址： https://github.com/limodou/ulipad http://files.cnblogs.com/dolphin0520/u...

Python中的函数（三）

Python中的函数（三）在前面两篇文章中已经探讨了函数的一些相关用法，下面一起来了解一下函数参数类型的问题。在C语言中，调用函数时必须依照函数定义时的参数个数以及类型来传递参数，否则将会发生错误，这个是严格进行规定的。然而在Python中函数参数定义和传递的方式相比而言就灵活多了。一.函数参数的

在Notepad++中搭配Python开发环境

在Notepad++中搭配Python开发环境 Python在最近几年一度成为最流行的语言之一，不仅仅是因为它简洁明了，更在于它的功能之强大。它不仅能够完成一般脚本语言所能做的事情，还能很方便快捷地进行大规模的项目开发。在学习Python之前我们来看一下Python的历史由来，"Pytho

Python中的条件选择和循环语句

Python中的条件选择和循环语句同C语言、Java一样，Python中也存在条件选择和循环语句，其风格和C语言、java的很类似，但是在写法和用法上还是有一些区别。今天就让我们一起来了解一下。一.条件选择语句 Python中条件选择语句的关键字为：if 、elif 、else这三个。其基本形式如

关于raw_input()和sys.stdin.readline()的区别

关于raw_input( )和sys.stdin.readline( )的区别之前一直认为用raw_input( )和sys.stdin.readline( )来获取输入的效果完全相同，但是最近在写程序时有类似这样一段代码：import sysline = sys.stdin.readline()

初识Python 跟学习所有的编程语言一样，首先得了解这门语言的编程风格和最基础的语法。下面就让我们一起来了解一下Python的编程风格。1.逻辑行与物理行在Python中有逻辑行和物理行这个概念，物理行是指在编辑器中实际看到的一行，逻辑行是指一条Python语句。在Python中提倡一个物理行只

retry重试常见场景及实现

当我们的代码是有访问网络相关的操作时,比如http请求或者访问远程数据库，经常可能会发生一些错误，有些错误可能重新去发送请求就会成功，本文分析常见可能需要重试的场景，并最后给出python代码实现。

python迭代器和生成器

1.经典迭代器 2.将Sentence中的__iter__改成生成器函数改成生成器后用法不变，但更加简洁。 3.惰性实现当列表比较大，占内存较大时，我们可以采用惰性实现，每次只读取一个元素到内存。或者使用更简洁的生成器表达式 4.yield from itertools模块含有大量生成器函数可

python-kafka源码解析之socketpair

本文介绍简单介绍socket的常用函数,并以python-kafka中的源码socketpair为例，来讲解python socket的运用

彻底弄懂python编码

python实践中经常出现编码相关的异常，大多网上找资料而没有理解原理，导致一次次重复错误。本文对常用Unicode、UTF-8、GB2312编码的原理进行介绍，接着介绍了python字符类型unicode和str以及常见编解码错误UnicodeEncodeError和UnicodeDEcodeEr

热门文章

最新文章