使用K-Means聚类算法对来自风力涡轮机的SCADA数据进行探索性分析-米儿火

在本节中，我们将介绍并简要讨论一些与应用于不同领域的聚类技术相关的有趣工作。目的是展示如何将聚类算法应用于我们的数据，同时指出可以进一步研究的可能替代方案。已评审论文的列表见表1，而每篇论文的简要说明将在下面的小节中介绍。

本文重点介绍K-means聚类方法，更具体地说是核K-means，它是一种非线性扩展，可以通过使用高斯、多项式或双曲正切等核函数来识别不可线性分离的聚类。为了消除依赖于所使用的核函数的偏好，通过归一化互信息来评估性能。

归一化互信息是一种需要训练集的监督方法。由于训练集并不总是可用的，本文研究了一种无监督的方法，剪影指数的发展，以评估性能。为了更好地对超市购物的顾客进行细分，提出了一种直觉模糊聚类算法。

虽然该论文处理来自另一个应用程序的数据，但该方法非常有趣，因为它使用软计算方法，非常适合边界数据。这些数据是最难分配的，因为它们接近不止一个组。这项研究的结果表明，软计算方法是一种很好的分割方法，比传统的聚类模型产生更可靠的结果。

«——【·材料和方法·】——»

使用相同数据库的先前工作试图使用不同的方法提前识别故障。使用分类方法。研究了变量的特征选择，并使用k-NN模型对结果进行了评估。数据不平衡和缺乏警告或警报使得这种方法在实际应用中无用。然后使用了一种不同的方法，侧重于正态模型。

结果在表明，极限学习机是从其他变量预测一个变量然后评估模型产生的误差的良好候选。如果误差高于阈值，则可以得出结论，随着模型偏离真实数据，一些故障开始发生。最后，通过同时使用从风电场的所有WTs可获得的相同变量的信息，修改了先前的想法。

这使得通过计算信号和中值信号之间的差异来检测故障成为可能。本文采用的方法包括将K-means算法应用于一组风力涡轮机SCADA数据。这些数据是从风力发电机上的不同传感器获得的，例如:风速、风力涡轮机温度、输出功率、叶片桨距角等。

通过将K-means算法应用于不同的数据组，有望获得聚类，这些聚类一旦被解释，将有助于理解风力涡轮机的行为，以便能够应用预测性维护策略。这种方法很简单，根据，有助于理解风力发电场中风力发电机的不同行为。

«——【·结果·】——»

为了确定最佳的聚类数目，使用Matlab软件工具“evalclusters ”,其包括创建聚类标准评估对象。K-means算法将用作函数参数和“剪影”标准。结果的值越高，每个分类的质量越好。剪影标准是由样本数据、聚类数据和用于评估数据聚类的最优数量的剪影标准值组成的对象。

每个点的轮廓值是该点与同一个聚类中的其他点的相似性的度量。如果大多数点具有高轮廓值，则聚类解决方案是适当的。如果许多点具有低的或负的轮廓值，则聚类解决方案可能具有太多或太少的聚类。

«——【·讨论·】——»

一旦从每个测试中获得的结果被呈现出来，就该对它们进行详细的解释和分析了。为了评估K-means算法在一组风力涡轮机SCADA数据上的表现，给出了六个不同的测试。最初，SCADA数据可用于五个风力涡轮机。

但是其中一个，风力涡轮机84，显示出不稳定的行为，并且被丢弃，以便不扭曲从其余健康风力涡轮机的SCADA数据获得的结果。在测试2中，根据测试1中获得的结果，使用Mahalanobis距离将K-means算法应用于变量平均风速和平均有功功率。

据观察，考虑到这些点的分布，给出两个不同的分组可以得到一个读数，其中大多数点的平均功率在0-2500 W之间，平均风速在1-15m/s之间。第二个组对应于不在本试验所选变量值范围内的其余点。

虽然不能肯定第二个聚类的点代表风力涡轮机的故障值，但有趣的是，注意到距离质心非常远的点可能指示一些可能的奇怪行为，专家们稍后将调查这些行为。这是给wnd公园的管理者带来新信息的有趣结果之一。

接下来，考虑测试3，并且将K均值算法应用于变量平均油压和平均有功功率。观察到两组，一组用于大多数点分组的区域，平均功率在0-2500 W之间，平均油压在1。5–2.5 Pa，第二个少数群体负责其余的点。

如果我们观察将不同风力涡轮机中的这些值范围分组的群的质心，这可以在大约500 W的平均功率和2 Pa的平均油压中发现。在这种情况下，聚类2中的一些点可能指示可能的问题，特别是那些远离质心的点。同样，专家可以检查在这些特定点发生了什么，以更好地了解WTs的行为。

«——【·结论·】——»

在风力涡轮机的SCADA数据环境中处理警报和警告提出了许多挑战，包括管理它们的发生频率。SCADA系统同时记录来自所有系统的数百个警报和警告。对这些事件的分析表明，它们广泛分布在SCADA运行时中，很难将它们与具体的硬件故障联系起来。

因此，最好使用无人监管的方法，因为在数据标签上输入信息来分类数据通常是不可靠的。这项工作的主要目的是调查聚类算法是否以及如何用于检测风力涡轮机可能的奇怪行为。K-means算法和分析变量的箱线图已被用于确定异常值或识别风力涡轮机的这些奇怪行为。

这允许我们执行风力涡轮机的预测性维护和预测。在K-means算法和强制两组的情况下，观察到首先对于变量平均有功功率和平均风速，然后对于变量平均油压和平均有功功率,其中大多数点被分组在一起的组被识别，这将暗示风力涡轮机的正确操作。

其中一个聚类对大多数点进行分组，并解释WTs的正确行为，而这些实验中的第二个聚类对一个变量中离差最高的点进行分组。该群集中远离质心的点可能表示性能不足，应该由专家进行检查和分析。

这是检测风力涡轮机中某些系统或子系统的异常行为的一种可能方式，但有必要由专家深入探究这些点，以确认或否认这种假定的异常行为。将风力涡轮机数据作为一个整体一起分析，从而获得风电场的总体视图，可以看出，所获得的结果与单独进行的分析一致。

但是允许识别具有稍微不同的特定行为的涡轮机。这里，当这些点被一起分析时，表现不同于相邻风力涡轮机的风力涡轮机可以被识别。如果风力涡轮机表现不同，很可能集群将捕获这些点。通过这种方式，再次可以更详细地调查这些情况，并且可以改进涡轮机维护。

可以推导出箱线图规则来帮助风电场管理者检测潜在的风力涡轮机故障。简单的图形表示允许创建这些规则，这些规则可以免费应用，并为维护团队提供进一步的信息。有效地将风电场中的风力涡轮机分组可以减少分析数据所需的人力，同时减少监控和维护系统的计算负担。

将K-means算法应用于风力涡轮机SCADA数据的预测能力可以是一个很好的起点，但同时，这种策略需要由专家进行监督，以获得更确定和可靠的数据，这些数据可以成功地应用于可持续、高效和有效的预测性维护，这可以改善我们今天所知的工业维护世界的范式。

然而，这项研究有局限性。首先，在数据分析中只使用了一种聚类算法。还有其他算法可以应用于SCADA数据，例如模糊C-均值算法，它是K-均值算法的变体，自组织映射或使用极限学习机训练的前馈神经网络。

此外，这些策略还可以通过引入预处理和后处理工具来补充，这有助于优化算法的性能。最后，只测试了一些特性的组合，而许多其他的特性在本文中还没有被研究。如果要在实际情况中实现这样的系统，应该考虑这些方面。

«——【·参考文献·】——»

【1】斯塔克，《产品生命周期管理》，2022年，哈佛大学出版社。

【2】戈德哈尔，《实用机械振动分析和预测维修》，2010年，剑桥大学出版社。

【3】穆尼奥斯，《可靠性和可维护性论文集》2017年，加州理工学院出版社。

为您推荐

《历史研究》六十年论文选编

王受吉名师工作室与永州七中历史教师集体研修

台湾著名历史学家张玉法

历史学的新视角和研究方法

王受吉名师工作室与永州七中历史教师集体研修

历史学实证研究再认识