如何解决来自多台计算机的时间序列聚类?
我有一个时间序列,并且从多台机器上收集了近两年的数据。每台机器每周记录一个样本。例如,对于一台机器,一个月中有4个样本,因此一年中有48个样本(4 * 12),依此类推。这些数据是累积的,这意味着每周一项度量(一项功能)的价值会增加。在此数据集中,有2000台唯一的计算机,每台计算机通过不同的传感器记录了近500个特征。数据如下所示:
date f1 f2 f3
m0 2016-01-01 2.3 0.3 13.2
m0 2016-01-08 2.8 0.34 21.4
m0 2016-01-15 3.0 1.3 22.5
m1 2016-01-01 0.47 1.7 4.9
m1 2016-01-08 1.2 1.9 5.5
m1 2016-01-15 1.73 2.3 6.5
... ... ... ...
m1295 2017-07-01 23.7 1.01 1.24
m1295 2017-07-08 34.0 2.20 4.05
m1295 2017-07-15 34.12 3.65 4.29
我想对这些机器在不同季节(春季,夏季,秋季和冬季)的使用情况进行分类。我还想比较四个季节中这些集群的相似性和差异性。基本上,我打算对一段时间内机器的使用情况以及它们从一个季节到另一个季节的变化进行建模。我已完成的步骤如下:
- 从数据集中选择信息最丰富的功能(在我的情况下,我选择了30个最重要的功能),
- 根据记录的数据将计算机划分为四个季节。意思是,在每个季节,我们都有该时期内记录的数据,例如,春季,数据从“ 2016-03-01”到“ 2016-05-31”,
- 将数据标准化为0到1
- 应用k均值算法并计算Silhouette得分以找到最佳数目的聚类。在这种情况下,我发现前两个季节有3个类群,而秋季和冬季有2个类群。
- 然后,我尝试使用箱形图比较每个季节的聚类和使用统计显着性检验比较每个聚类中的种群。.
我的问题是,对此类数据进行聚类的最佳方法是什么?以及我对这种类型的数据进行聚类和比较聚类的方式有意义吗?
如果您有任何更好的聚类时间序列数据的想法,请指导我!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。