TRFL 强化学习构建模块库

程序名称：TRFL

授权协议: Apache-2.0

操作系统: 跨平台

开发语言: Python

TRFL 介绍

TRFL（发音为“truffle”）建立在 TensorFlow 之上，它是一个强化学习构建模块库。

它是 DeepMind 内部大量用于诸如 DQN、DDPG 和 Importance Weighted Actor Learner Architecture
这些成功的代理如的关键算法组件的集合。

TRFL 库包括实现经典 RL 算法以及更尖端技术的功能，提供的损失函数和其它操作在纯 TensorFlow
中实现。它们不是完整的算法，而是实现了在构建全功能强化学习代理时需要的数学运算。

对于基于值的强化学习，TRFL 提供了 TensorFlow 操作用于在离散动作空间中学习，例如 TD-learning、Sarsa、Q-learning
及其变体，同时也提供了用于实现连续控制算法的操作，例如 DPG。此外 TRFL 还包括用于学习分配值功能的操作。

使用示例

import tensorflow as tf
import trfl

# Q-values for the previous and next timesteps, shape [batch_size, num_actions].
q_tm1 = tf.constant([[1, 1, 0], [1, 2, 0]], dtype=tf.float32)
q_t = tf.constant([[0, 1, 0], [1, 2, 0]], dtype=tf.float32)

# Action indices, pcontinue and rewards, shape [batch_size].
a_tm1 = tf.constant([0, 1], dtype=tf.int32)
pcont_t = tf.constant([0, 1], dtype=tf.float32)
r_t = tf.constant([1, 1], dtype=tf.float32)

loss, q_learning = trfl.qlearning(q_tm1, a_tm1, r_t, pcont_t, q_t)

大多数情况下，您可能只对损失感兴趣：

loss, _ = trfl.qlearning(q_tm1, a_tm1, r_t, pcont_t, q_t)

# You can also do this, which returns the identical `loss` tensor:
loss = trfl.qlearning(q_tm1, a_tm1, r_t, pcont_t, q_t).loss

reduced_loss = tf.reduce_mean(loss)

optimizer = tf.train.AdamOptimizer(learning_rate=0.1)
train_op = optimizer.minimize(reduced_loss)

该模块中的所有损失函数使用上述约定返回损失张量和额外信息。

TRFL 官网

https://github.com/deepmind/trfl

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

机器学习/深度学习

相关推荐

欧盟第7框架计划(FP7)的LarKC项目的目标是开发大规模知识加速器(LarKC，其发音为“lark”)，LarKC被设计为一个大规模分布式不完备推理平台，该平台用于突破语义万维网(Semantic Web)推理系统目前面临的知识处理规

Salad 是一种有效且灵活的实现著名的异常检测方法回文构词法王et al . 2006(RAID)。Salad

multilanguage 是一个多语开发工具包，用于缓存多语系统的多语值，它拥有良好的性能，并且能防止内存泄露。

go-cortex 是一个服务，通过倾听你的句子，并视图理解你的意思，然后执行相应的动作。它使用 Wit.ai

DKPro Core 是基于 Apache UIMA 框架之上的自然语言处理（NLP）的软件组件。DKPro Core 提供了这样的第三方工具以及原NLP组件的包装。

NLTK 会被自然地看作是具有栈结构的一系列层，这些层构建于彼此基础之上。那些熟悉人工语言（比如

ERNIE 是基于持续学习的语义理解预训练框架，使用多任务学习增量式构建预训练任务。

Algorithm research AC 编译及使用方法实例1返回值实例2返回值

Algorithm research 基于 AC 有限状态自动状态机的过滤服务。 AC 编译及使用方法 1. 编译之前请先确认安装好 libevent

spaCy 是一个 Python 和 CPython 的 NLP 自然语言文本处理库。示例代码： >>> import spacy.en

Lango 是自然语言处理库，类似乐高游戏，可以把各个语言块构建在一起工作。

SyntaxNet 是一个框架，即学术圈所指的SyntacticParser，他是许多NLU系统中的关键组件。在这个系统中输入一个句子，他会自动给句子中的每一个单词

FudanNLP主要是为中文自然语言处理而开发的工具包，也包含为实现这些任务的机器学习算法和数据集。

HanLP: Han Language Processing 汉语言处理包 HanLP 是由一系列模型与算法组成的 Java 工具包，目标是普及自然语言处理在生产环境中的应用。HanLP

TextTeaser是一个自动摘要算法,结合了自然语言处理的力量和机器学习产生好结果。

专门针对中文文档的simhash算法库简介此项目用来对中文文档计算出对应的 simhash 值。 simhash 是谷歌用来进行文本去重的算法，现在广泛应用在文本处理中。

Lacona 是语言无关的 JavaScript 语言解析器。Lacona 可以根据一个任意但是定义良好的模式来预测自然语言。也就是说，你告诉 Lacona

UBY是一个大规模的统一的文章资源,为自然语言处理(NLP)基于ISO标准词汇标记框架(LMF)。

CRF是著名的条件随机场开源工具，也是目前综合性能最佳的CRF工具。CRF本身已经是个比较老的工具了，但鉴于其性能较好，仍然是自然语言处理很重要的一个工具。

OpenNLP 是一个机器学习工具包，用于处理自然语言文本。支持大多数常用的 NLP 任务，例如：标识化、句子切分、部分词性标注、名称抽取、组块、解析等。

LingPipe是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能，包括主题分类（Top

热门文章

最新文章