AI导航网

栏目导航

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

自然语言处理概述(前沿、数据集、下游任务)

时间：2022-09-04分类：NLP作者：编程之家原文地址

自然语言处理

First at all

因为本人换系统之前都在用oneNote，在ubuntu上部署不便，所以将一些常用的信息写成博客
本文主要引用Ruder大神的 NLP-proress 做了一下翻译和提取

原文地址:传送门

1.前沿技术 State of the Art

机器学习和自然语言处理（NLP）的研究近来发展如此之快，很难跟上。这对于该领域的人来说是一个问题，但对于想要进入NLP的人和那些寻求从教程到复制论文和进行自己研究的人来说，这是一个更大的障碍。如果没有专家指导和先验知识，确定最常见的数据集以及您感兴趣的任务的当前最新技术可能是一个艰苦的过程。
以下是几个本人常用的看state of the art的网站和论文实现以及数据集的网站

2.自然语言处理下游任务

2.1 任务列表

自动语音识别 ASR

state of the art

CCG 组合范畴语法
Common sense
区域解析
Coreference resolution
依赖解析
对话

state of the art

Domain Sentiment analysis

Multi-Domain Sentiment Dataset

实体链接 EL Entity linking
语法纠错
信息抽取
语言建模
词汇规范
机器翻译
多任务学习
多模态
命名实体识别
自然语言推理
词性标注
QA问答
关系预测
关系抽取
语义文本相似度
语义角色标记
情感分析
Shallow syntax
Simplification
姿态检测
概要
分类学习
时间处理
文本分类
词义消歧WSD
中文分词

2.2 个别任务前沿和数据集

自动语音识别 ASR
state of the art
对话 dialog(chatbot)
state of the art
Domain Sentiment analysis
Multi-Domain Sentiment Dataset
Machine translation
WMT 2014
BPEmb
多任务学习 Multi-task learning
decaNLP
GLUE
命名实体识别(NER)
CoNLL
关系提取
dataset and state of art

关系提取是从文本中提取语义关系的任务。提取的关系通常发生在某种类型的两个或多个实体（例如，人，组织，位置）之间，并且属于许多语义类别（例如，与之结合，被其雇用）

QA & Reading comprehension 问答和阅读理解
overview
情感分析
IMDb dataset
Stanford Sentiment Treebank (SST)
SemEval

3 thanks for all

State-of-the-art result for all Machine Learning Problems

NLP-pregress

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

相关推荐

python入门-day1.1

python方向·数据分析 ·自然语言处理nlp 案例：中文分词·社交网络分析案例：人物关系分析·人工智能·深度学习·计算机视觉案例：行人检测·网络爬虫·量化交易案例：多...

nlp资料网站

原文地址http://blog.sina.com.cn/s/blog_574a437f01019poo.html昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文，这让我想起自己刚读研究生时茫然四顾的情形：看着学长们高谈阔论领域动态，却不知如何入门...

Python下载PTB数据集的方法附NLP常用数据集

ptb数据集是语言模型学习中应用最广泛的数据集，常用该数据集训练RNN神经网络作为语言预测，tensorflow对于ptb数据集的读取也定义了自己的函数库用于读取，在python1.0定义了models文件用于导入ptb库函数，然而当pyt...

Newtonsoft.Json Json工具的使用、类型方法大全

Newtonsoft.JsonNewtonsoft.Json是.Net平台操作Json的工具，他的介绍就不多说了，笔者最近在弄接口，需要操作Json。以某个云计算平台的Token为例，边操作边讲解。Json转为Model将Model转为Json将LINQ转为JSONLinq操...

TechDay实录|摘取皇冠上的明珠，中文NLP的不二选择——PaddlePaddle

NLP(NaturalLanguageProcessing)自然语言处理是人工智能的一个子领域，它是能够让人类与智能机器进行沟通交流的重要技术手段，同时也是人工智能中最为困难的问题之一。因此，NLP的研究处处充满魅力和挑战，也因此被称...

做一个中文文本分类任务，首先要做的是文本的预处理，对文本进行分词和去停用词操作，来把字符串分割成词与词组合而成的字符串集合并去掉其中的一些非关键词汇（像是：的、地、得等）。再就是对预处理过后的文本进行...

TechDay实录|摘取皇冠上的明珠，中文NLP的不二选择——PaddlePaddle

NLP(NaturalLanguageProcessing)自然语言处理是人工智能的一个子领域，它是能够让人类与智能机器进行沟通交流的重要技术手段，同时也是人工智能中最为困难的问题之一。因此，NLP的研究处处充满魅力和挑战，也因此被称...

比较两个生产级NLP库：训练Spark-NLP和spaCy的管道

编者注：文中超链接如果不能访问可以点击“阅读原文”访问本文原页面；可以参考2018年5月21-24日伦敦Strata数据会议上的教学辅导课《使用spaCy和SparkNLP进行自然语言理解》。本系列博客的目地是通过使用两个领先的生...

100个大型机器学习数据集汇总CV/NLP/音频方向

网站首页：网址：数据集

NLP文本相似度

NLP文本相似度相似度相似度度量：计算个体间相似程度相似度值越小，距离越大，相似度值越大，距离越小最常用--余弦相似度：一个向量空间中两个向量夹角的余弦值作为衡量两个个体之间差异的大小余弦值接近1，夹角趋...

小编推荐