如何解决Python Keras LSTM功能顺序相关性
我想知道阵列上特征的顺序是否会干扰训练模型和验证分数。 例如,如果我有以下功能列表来训练我的模型:
[“ close”,“ close_returns”,“ log_returns”,“ open”,“ open_returns”,“ open_log_returns”]
如果我像这样颠倒顺序:
[“关闭”,“打开”,“ log_returns”,“ close_returns”,“ open_log_returns”,“ open_returns”]
这对预测模型有什么影响?还是排序指令干扰? 如果顺序干扰。我怎么知道野兽的顺序?
我怎么知道确定功能与Keras上的lstm模型是否相关?
解决方法
要确定要素的相关性,可以使用几种方法,例如ALE,锚点,LIME和SHAP。从这些内容中,我推荐SHAP,因为它提供了非常漂亮且内容丰富的可视化效果,例如力,依赖性和特征重要性图。这是使用Keras LSTM for IMDB Sentiment Classification到Python笔记本的链接,其中针对该特定问题生成了力图。尽管如此,SHAP也可以应用于回归问题。这是SHAP API的另一个link,您可以在其中找到如何获取其他图。请记住,某些可视化是针对特定样本(如力图)生成的,而另一些则针对整个样本集(功能的重要性)的生成。
有关here的SHAP的工作方式以及其优点和缺点的信息。
,功能的顺序没有多大区别,因为每个功能都有一个单独的输出节点。
重要的是事件的顺序(行)。这是您将要使用模型进行建模和预测的序列。要确定要使用哪些功能,您必须知道要建模的内容。将它们全部放入将为您提供所有列的预测,但也可能会使模型更难以训练和优化。
因此,您应该考虑实际上需要在模型中包括哪些功能。例如,您可以从特征B推断特征A吗?如果是这样,则无需包含功能A,因为它易于计算。
那些不会增加太多信息的功能(如不经常更改的列)呢?他们有必要吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。