当前位置:首页 > 范文大全 > 公文范文 >

公文范文

泛在电力物联网下基于DPSO-Kmeans的客户用电行为分析

2022-08-16 18:56:02公文范文
王莹 项雯 张群 高秀云摘要:在泛在电力物联网的建设中,电力企业针对客户的用電行为进行分析是必不可少

王莹 项雯 张群 高秀云

摘要:在泛在电力物联网的建设中,电力企业针对客户的用電行为进行分析是必不可少的。在以往的研究中,k均值聚类算法是常用的客户用电行为分析方法之一,然而由于初始质心采用随机选择的方式,使得其容易陷入局部最优且难以收敛到全局最小值。针对该问题,提出了基于改进的动态粒子群算法优化的K-means算法(DPSO-Kmeans),并将其用于客户用电行为的分析中。在实验中,通过对312个家庭用户的用电消费行为记录进行聚类分析,结果证明DPSO-Kmeans相对于传统的K-means算法具有更好的聚类效果,能够提取更为典型的客户用电行为模式。

关键词:用电行为分析;K-means聚类算法;初始质心;动态粒子群算法;用电行为模式

DOI:10.15938/j.jhust.2022.02.014

中图分类号:
TP301

文献标志码:
A

文章编号:
1007-2683(2022)02-0106-08

Analysis of Customer Power Consumption Behavior Based on

DPSO-Kmeans under the Ubiquitous Power Internet of Things

WANG Ying XIANG Wen ZHANG Qun GAO Xiuyun

(1.College of Intelligent Systems Science and Engineering, Harbin Engineering University, Harbin 150001, China;

2.College of Electrical and Information, Northeast Agriculture University, Harbin, 150038, China;

3.Economic and Technological Research Institute of State Grid, Heilongjiang Electric Power Co., Ltd., Harbin 150036,China)

Abstract:In the construction of the ubiquitous power Internet of Things, it is indispensable to analyze customers′ electricity consumption behavior for power companies. In previous studies, the K-means clustering algorithm is one of the commonly used methods for analyzing customer electricity consumption behavior. However, because the initial centroid is randomly selected, it is easy to fall into a local optimum and difficult to converge to a global minimum. To this problem, an improved K-means algorithm (DPSO-Kmeans) based on an improved dynamic particle swarm optimization algorithm is proposed and used in the analysis of customers′ electricity consumption behavior. In the experiment, the electricity consumption behavior records of 312 household users were used for cluster analysis. The results prove that DPSO-Kmeans has a better clustering effect than the traditional K-means algorithm, and can extract more typical customers′ electrical behavior pattern.

Keywords:Analysis of electricity consumption; K-means clustering algorithm; initial centroid; dynamic particle swarm algorithm; electricity usage behavior model

0引言

随着国家市场经济的不断发展,电力体制改革进程也在不断深化。对电力企业经营和发展而言,电力市场分析工作显得愈发重要。在中国,国家电网有限公司和南方电网公司都在进行大范围的信息基础设施建设,在移动互联、人工智能等通讯技术的加持下,构建具备全面感知、高效应变、灵活处理的泛在电力物联网[1]。

作为泛在电力物联网建设中的基础设施,智能电表的广泛普及使得可以获得客户用电数据越来越多,其中包含了大量关于客户的用电行为。准确的了解电力客户用电行为模式已成为电力供应商的一项宝贵资产。出于这个原因,以合适的方法对客户用电行为模式进行分析已成为当前的研究热点之一[2]。一般来说,用电客户大致分为商业类、住宅类、工业类等。以往的研究重点均是放在工业类或者商业类客户上,很少关注住宅类客户的用电行为。这主要是由于住宅类客户的用电行为具有随机性,使得客户用电行为的分析比较困难。因此,本文重点对住宅类客户用电行为进行分析[3]。

聚类技术是根据客户的实际用电量数据进行用户行为分析最常用的方法,在以前的研究中眾多学者已经提出了各种各样的聚类方法。王浩等[4]通过经验模态分解方法分解振动信号,利用K-means算法确定了振动信号特征集的可分类别数,利用高斯混合模型聚类实现了齿轮箱故障的快速识别。Kristina P等[5]提出了一种新的无监督k-means聚类算法(unsupervised k-means, U-k-means),可以自动找到最佳聚类数,而无需进行任何初始化和参数选择。Khanmohammadi Sina等[6]提出了一种结合k谐波均值和重叠K-means算法的医学数据聚类方法(K harmonic mean and overlap K-means, KHM-OKM),结果表明KHM-OKM算法明显优于原始OKM算法,可作为一种有效的医疗数据集聚类方法。Xie Hailun等[7]为了解决K-means初始化敏感性和局部最优陷阱的问题,提出了萤火虫算法(firefly algorithm, FA)的两种变体,即向内强化探索FA和复合强化探索FA,用于进行K-means的优化。结果表明,所提出的方法实现了具有初始质心的快速寻找,分类效果明显优于其他聚类模型。梁京章等[8]为了提高电力负荷曲线聚类精度,将基于核函数的主成分分析(principal component analysis based on kernel function, KPCA)和K-means结合起来,提出了基于DK-means的电力负荷曲线聚类方法,以Davies-Bouldin指数(DBI)作为算法聚类性能评价指标,将DK-means与K-means等其余四种方法进行对比,结果表明DK-means可以实现电力负荷曲线的高效降维、精确聚类。刘柏森等[9]为了实现对于无先验知识的高光谱图像进行聚类分析,将堆栈自动编码器与K-means结合起来,构建了一个高光谱图像聚类系统。实验结果,该系统的聚类精度可以达到96%,具备很高的实用价值。Batrinu Florentin等[10]提出了一种新的迭代改进聚类方法来克服传统方法中存在的局限性,结果表明该算法能够有效的实现聚类,同时在分离异常负载模式方面亦具有很好的效果。Hino Hideitsu等[11]利用混合的高斯分布来模拟一个家庭的用电行为模式,所有用电量数据可聚类到一个具有对称广义KL散度的典型消耗模式中。理论上,聚类可以被视为一个优化问题,其目标是最小化几个聚类有效性指标。而群体智能算法由于自身较强的寻优能力,近年来常被用于目标问题聚类分析中。比如,Chicco等[12]将蚁群算法和K-means算法结合起来用于电力负载异常模式聚类,结果表明该方法能够检测到异常负载模式,将该异常模式分成与其他正常模式一起的聚类。同样地,文[13]中亦创新性地引入了一种生物启发算法来解决聚类任务问题。

很多聚类方法都可以完成用户用电量聚类,实现对于用电行为模式的分析,作为最简单和最流行的聚类方法,K-means相对于其他算法具备易于实现和计算复杂度低的优点。然而,在传统的K-means算法中所有聚类的初心质心是随机选择的,算法可能收敛到局部最优值,难以实现全局最优解。为此,论文利用粒子群算法(particle swarm algorithm,PSO)进行K-means算法的优化,以期提升K-means算的聚类性能。但是PSO算法在搜索的后期阶段存在种群多样性缺乏的问题,这使得其容易陷入局部最优[14]。针对这个问题,论文提出一种改进的动态粒子群算法(dynamic particle swarm algorithm, DPSO)。在DPSO中,粒子权重参数及学习因子可依据迭代次数的变化而变化,更好的实现了算法局部搜索与全局搜索能力的平衡。基于提出的DPSO算法,论文利用其进行Kmeans的优化,并将优化后的Kmeans用于客户用电行为分析,提出了基于DPSO-Kmeans的客户用电行为分析方法。

1特征提取

根据输入数据的大小,聚类技术可以分为两类:直接聚类和间接聚类。直接聚类技术是指基于智能电表直接收集的数据进行模式聚类。间接聚类是指对用电量用电数据在聚类之前通过降维技术或其他方法进行处理。直接聚类技术具有很高的计算复杂度,特别是当数据的负载时间较长或数据集包含数百万个客户时。考虑到实际应用,本文选择间接聚类进行用户用电行为分析。对用户用电行为模式进行聚类时需要对合适的可区分的特征进行识别,为此,本文提取了4种用于区分不同模式的特征[15]。

数据集包含了居民用户一天每小时的用电记录,4个特征的定义如下:

2基于DPSO-Kmeans的客户用电行为分析

2.1K-MEANS聚类算法

作为最常用的聚类方法之一,K-means算法可以将一组N个未标记的数据向量分组到K个聚类中。聚类K的大小是影响算法的性能一个重要参数,每个聚类的质心可以通过计算该聚类内所有数据点的平均值得到。理论上,K-means可以最小化所有聚类的平方误差总和[16]。

2.2改进的动态粒子群算法

PSO是由Kennedy and Eberhart提出的一种进化计算方法[19]。在PSO中,每个问题的最优解被抽象为一个没有质量和体积的粒子,每个粒子都有自己的飞行速度、空间位置和适应度值(由优化函数决定),每个粒子都知道自己过去的飞行中的最佳位置,同时知道整个种群的最佳位置。

2.3基于DPSO-Kmeans的客户用电行为分析

客户用电行为是一个优化问题,目的是使同一聚类中的客户具有相似的用电行为模式,而不同聚类中的客户应该表现出显着的差异。本文利用DPSO算法进行K-means算法的优化,构建了基于DPSO-Kmeans的客户用电行为分析模型。利用DPSO优化后的K-means算法可以在算法初始阶段快速找到初始区域,然后进行更精确的搜索,最终达到全局优化。

2.3.1适应度值函数

在进行客户用电行为聚类分析时,随机的选择客户用电量数据集X中的K个数据点作为K-means算法的初始质心。确定质心后,数据集X中剩余的数据点将根据式(5)被分配到对应的K个聚类中。在利用DPSO算法进行K-means优化时,种群中第i个粒子的适应度值函数计算公式如下:

2.3.2DPSO-Kmeans算法流程

在客户用电行为聚类分析中,DPSO-Kmeans包括两个阶段;

第一阶段:使用DPSO算法在解空间中搜索全局最优解。由于DPSO具有良好的全局优化能力,可以避免陷入局部最优状态。当找到全局最优解或近似全局最优解时,DPSO算法停止,改为运行k-means聚类。

第二阶段:使用k-means实现快速收敛,完成客户用电行为分析。

在第一阶段发现的全局最优解可以看作是k-means聚类的初始质心。因此,K-means聚类不再依赖于初始质心数量。DPSO-Kmeans的处理过程如图1所示。

3实验结果及讨论

3.1DPSO性能对比分析

为评估DPSO算法的有效性,本文将PSO与DPSO算法分别在表1中的4种基准函数上进行算法优化性能对比分析,DPSO、PSO算法的参数设置如表2所示。

本文利用4个函数对PSO及DPSO两个算法进行了多次测试,表3给出了两种算法在多次测试过程中适应度值的最大值、最小值及平均值,图2为两个算法在多次测试过程中最快达到收敛时的适应度值变化曲线。

图2给出了PSO及DPSO在4个函数上的适应度值变化曲线,从中可以看出,在进行100迭代的过程中,两个算法都可以快速收敛到最优值,且快速跳出局部最优位置;但是DPSO相比于PSO具有更好的搜索性能,更快的收敛速度,能够更快的收敛到全局最优值时。

为了进一步比较DPSO与PSO的运行效率,表4中给出了DPSO和PSO在4个基准函数上的运行时间。

由表4可知,在100次迭代的过程中,DPSO的所有运行时间均小于PSO,与图2中的结果一致。表4和图2中的结果表明DPSO的表现优于PSO,因此可以预测,当DPSO与K-means集合时,DPSO-Kmeans相比于PSO-Kmeans具有更好聚类性能。为了证明这一点,下面针对客户用电行为数据进行聚类分析。

3.2客户用电行为分析

3.2.1实验数据

为了验证DPSO-Kmeans在客户用电行为聚类分析中的有效性,本文使用包括312户住宅客户的每日用电量数的Pecan street数据库数据作为实验数据。由于数据中存数值小于0的用电量记录,为保证实验的有效性,本文在实验前将这些数据进行删除,所得数据变成216行向量。

3.2.2评估指标

为了评估评估算法的有效性,本文使用MIA和DBI两个指标进行聚类算法有效性的评估。

MIA代表同一聚类内每个数据点与其质心之间的平均距离。算法的MIA值越小,聚类的有效性越好。MIA的计算公式如下:

DBI代表任意两个聚类内各自所有数据点间的平均距离之和除以两聚类质心的距离的最大值。算法的DBI值越小意味着聚类内数据点间距离越小,而聚类间的距离越大。

3.2.3仿真结果对比分析

在实验中,本文将DPSO-Kmeans与K-means分别在实验数据上进行聚类仿真对比,为减少随机性对实验结果造成的影响,每种算法均运行100次。另外,针对分聚类个数,本文分别进行了两种算法在不同聚类数下的对比仿真实验。图3和图4分别显示了当聚类个数在2到15之间取值时两种算法的MIA和DBI值。

如图3所示,DPSO-Kmeans的MIA值明顯低于K-means,这表明了利用DPSO优化后的K-means是有效性。同时可以看出,随着分聚类个数的增加,两种算法的MIA值都是越来越低的,因此无法通过MIA确定最为合适的聚类数。而从图4中可以看出,当聚类数为5时,两个算法DBI值为最小,因此本文选择5作为DPSO-Kmeans的集群个数。

图5给出了实验数据在三维空间中的分布,其中三维空间中的每个点都表示输入的特征向量,3个坐标轴分别对应于3个输入特征。从中可以看出选择5作为DPSO-Kmeans的集群个数能够很好地实现数据的聚类。

本文利用DPSO-Kmeans算法对实验数据进行聚类后,通过计算同一集群中所有数据点的平均值,提取了五种客户用电行为模式,详见图6。表5给出了5种客户用电行为模式的特征说明。其中,40个客户的用电行为模式为模式1,此类客户的用电高峰发生的比较早,之后的用电量逐步下降;与模式1相比,模式2中用户的用电量高峰发生的更早,下降的更迅速;对于模式3,客户的用电量变化趋势与模式1和2相似,但用电量低;相反,模式4中客户的用电量一整天都很高;模式5的客户数量最多,其特点为每天中午的用电时间远高于早上和晚上。

4结论

本文针对K-means聚类算法存在的问题,提出了一种改进的动态粒子群算法——DPSO,利用其较好的全局寻优能力进行K-means算法的优化,并将优化后的K-means用于客户用电行为分析,为泛在电力物联网下用电行为模式的准确提取起到了关键支持作用。在实验中,本文首先将DPSO算法与PSO算法在4个基准函数上进行对比实验,结果表明DPSO具有更好的优化性能和更快的收敛速度;然后将DPSO-Kmeans与K-means分别进行用客户用电量数据聚类,结果表明DPSO-Kmeans在评估指标MIA、DBI上均具有更好的表现,相对于K-means具有更好的聚类效果;最后利用DPSO-Kmeans算法的聚类结果,提取了五种客户用电行为模式,并对每种行为模式的特征进行了分析。

参 考 文 献:

[1]郑富永, 熊小舟, 朱正刚, 等. 基于泛在电力物联网的用户侧电力大数据关键技术探讨及业务模式创新[J]. 电力与能源, 2019, 40(5):
483.ZHENG Fuyong, XIONG Xiaozhou, ZHU Zhenggang, et al. Discussion on Key Technologies of User-side Power Big Data and Business Model Innovation Based on Ubiquitous Power Internet of Things[J]. Electricity and Energy, 2019, 40(5):
483.

[2]戴晖, 秦镜, 程帅. 基于泛在电力物联网的用电行为特征解析与应用研究[J]. 电气自动化, 2021, 43(3):76.DAI Hui, QIN Jing, CHENG Shuai. Characteristic Analysis and Application Research of Electricity Consumption Based on Ubiquitous Power Internet of Things[J]. Electrical Automation, 2021, 43(3):
76.

[3]朱天怡, 艾芊, 李昭昱,等. 一种数据驱动的用电行为分析模型研究[J]. 电器与能效管理技术, 2019, 580(19):101.ZHU Tianyi, AI Qian, LI Zhaoyu, et al. Research on a Data-driven Analysis Model of Electricity Consumption[J]. Electrical Appliances and Energy Efficiency Management Technology, 2019, 580(19):101.

[4]王浩, 刘胜兰, 刘晨. 基于K-means和高斯混合模型聚类的齿轮箱故障识别研究[J]. 机电工程, 2021, 38(7):873.WANG Hao, LIU Shenglan, LIU Chen. Research on Gearbox Fault Identification Based on K-means and Gaussian Mixture Model Clustering[J]. Mechanical and Electrical Engineering, 2021, 38(7):873.

[5]SINAGA K P,  YANG M S. Unsupervised K-Means Clustering Algorithm[J]. IEEE Access, 2020(99):1.

[6]KHANMOHAMMADI S, ADIBEIG N, SHANEHBANDY S . An Improved Overlapping K-means Clustering Method for Medical Applications[J]. Expert Systems with Applications, 2017, 67:12.

[7]XIE H, ZHANG L, LIM C P, et al. Improving K-means Clustering with Enhanced Firefly Algorithms[J]. Applied Soft Computing, 2019, 84:105763.

[8]梁京章, 黄星舒, 吴丽娟, 等. 基于KPCA和改进K-means的电力负荷曲线聚类方法[J]. 华南理工大学学报(自然科學版), 2020, 48(6):143.LIANG Jingzhang, HUANG Xingshu, WU Lijuan, et al. Power Load Curve Clustering Method Based on KPCA and Improved K-means[J]. Journal of South China University of Technology (Natural Science Edition), 2020, 48(6):143.

[9]刘柏森, 刘志衡, 孔伟力. 一种自动编码机与K-means相结合的高光谱图像聚类方法[J]. 黑龙江工程学院学报, 2020, 34(6):23.LIU Bosen, LIU Zhiheng, KONG Weili. A Hyperspectral Image Clustering Method Combining Automatic Encoder and K-means[J]. Journal of Heilongjiang Institute of Technology, 2020, 34(6):
23.

[10]BATRINU F, CHICCO G, NAPOLI R, et al. Efficient Iterative Refinement Clustering for Electricity Customer Classification[C]//2005 IEEE Russia Power Tech. IEEE, 2005:
1.

[11]HINO H, SHEN H, MURATA N, et al. A Versatile Clustering Method for Electricity Consumption Pattern Analysis in Households[J]. IEEE Transactions on Smart Grid, 2013, 4(2):
1048.

[12]CHICCO G, IONEL O M, PORUMB R. Electrical Load Pattern Grouping Based on Centroid Model with Ant Colony Clustering[J]. IEEE Transactions on Power Systems, 2012, 28(2):
1706.

[13]MUNSHI A A, YASSER A R I M. Photovoltaic Power Pattern Clustering Based on Conventional and Swarm Clustering Methods[J]. Solar Energy, 2016, 124:
39.

[14]SENNAN S, RAMASUBBAREDDY S, BALASUBRAMANIYAM S, et al. T2FL-PSO:
Type-2 Fuzzy Logic-based Particle Swarm Optimization Algorithm Used to Maximize the Lifetime of Internet of Things[J]. IEEE Access, 2021, 9:
63966.

[15]XU X, XIAO B, LI C Z. Critical Factors of Electricity Consumption in Residential Buildings:
An Analysis from the Point of Occupant Characteristics View[J]. Journal of Cleaner Production, 2020, 256:
120423.

[16]CHAKRABORTY S, PAUL D, DAS S, et al. Entropy Weighted Power K-means Clustering[C]//International Conference on Artificial Intelligence and Statistics. PMLR, 2020:
691.

[17]KARCAMAREK P, KIERSZTYN A, PEDRYCZ W, et al. K-Means-based Isolation Forest[J]. Knowledge-Based Systems, 2020, 195:
105659.

[18]JAHWAR A F, ABDULAZEEZ A M. Meta-heuristic Algorithms for K-means Clustering:
A Review[J]. PalArch′s Journal of Archaeology of Egypt/Egyptology, 2020, 17(7):
12002.

[19]WANG X, TING D S K, HENSHAW P. Mutation Particle Swarm Optimization (M-PSO) of a Thermoelectric Generator in a Multi-variable Space[J]. Energy Conversion and Management, 2020, 224:
113387.

(編辑:温泽宇)

推荐访问:用电 联网 电力