如何解决清理数据集中的短片段
我正在尝试为我的分类模型创建一组因变量,如下图所示,当紫色线高于和低于某些限制时,0为False,90为True(红色)。但是,我发现很难删除的短片段。有没有可以用来删除这些细分的算法?
解决方法
不能100%地确定要消除的内容,结尾处的额外尖峰或中间的空隙。无论如何,这种东西对您正在使用的数据极为敏感。适用于一个数据集的内容可能不适用于另一数据集。
要删除段,您基本上可以选择检查段长度。 IE:段长度必须至少为X
。
关于填充间隙,相同的想法,但是比较第一段,间隙和最后一段的长度之比。 IE:如果段的总大小大于间隙大小的X%
,则这两个段实际上是1个段。
实际上,您可以使用上面的方法来删除第二段。如果一个分段大于另一个分段的X%
,并且间隙小于较小/较大/组合分段的Y%
,则删除较小的分段。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。