transformer - 编程之家

我正在应用转换器模型，并将 padding_mask + look_a_head_mask 应用到注意力层。但是掩码不会传播到输出。有

我可以在 Transformer 的最后一个输出层使用多个 softmax 吗？如果是这样，我如何从中计算损失。我在 pytorc

我正在使用 Pytorch 的 <code>nn.TransformerEncoder</code> 模块。我得到了（正常）形状（<code>batch-size, seq-len, emb-d

我正在尝试使 Transformer 模型生成句子。现在我正在尝试使用光束搜索生成句子。但我的模型只生

在论文 (<a href="https://arxiv.org/pdf/1706.03762.pdf" rel="nofollow noreferrer">https://arxiv.org/pdf/1706.03762.pdf</a>) 中，Trans

我一直在学习 <a href="https://arxiv.org/abs/1706.03762" rel="nofollow noreferrer">new popular Transformer model</a>，它可用于

我正在研究一个新的 Pytorch 模型，该模型将顺序数据作为输入，我只需要输出一个值，然后我将使用二

我为回归问题构建了一个带有预处理器和回归器的 sklearn 管道。 <pre><code>Regressor = GradientBoostingRegressor

我已经在一台新机器上安装了 python 3.8、pytorch 1.7 和 fairseq 0.10.1，然后从使用 python 3.6、pytorch 1.4 和 fairse

在输入传递到transformer模型之前，将位置编码添加到输入中，否则注意力机制将是顺序不变的。然而，编

我想用流利的东西来转换 <pre><code>{ "source_app":"client", "location":"cn" } </code></

我正在尝试在 Google Collaboratory 上实施 XLNET。但是我遇到了以下问题。 <pre><code>ImportError: XLNetToken

我正在尝试了解变压器模型。请考虑我下面的例子并帮助我理解这个概念。示例：英语到法语的转

我正在尝试使用和学习带有 DeepMind 数学数据集的 PyTorch Transformer。我已经标记了输入模型的（字符不是

说到传统Transformer（分别是BERT和GPT3）的Encoder部分或Decoder部分的分配趋势，我理解有问题除了屏蔽

我目前正在将 Transformer 模型用于我的 NLP 任务。我正在研究来自 Tensorflow.org 的转换器模型 <a href="https://w

我在使用 nn.Transformer 执行机器翻译任务时遇到了一个令人困惑的错误。下面是我的代码显示变压器的定

我正在尝试使用 HuggingFace 库使用我自己的数据集从头开始训练 BERT 模型。我想以一种具有原始 BERT 模型

我有标准的多对一不同的 RNN 模型，我将这些模型用于使用其他时间序列作为特征的 1 个目标时间序列预

我有离散的日常特征和目标时间序列，我正在尝试为 seq2seq 建模实现一个基本的 Transformer。我构建我的