当前位置:首页 > 范文大全 > 公文范文 >

公文范文

基于多源信息融合的组合预测模型及其应用

2022-03-05 10:51:33公文范文
祝雅洁张瑜陈曦若宋楠【摘 要】“互联网+大数据”背景下,搜索引擎为预测提供了多源瞬时信息。现有的组合

祝雅洁 张瑜 陈曦若 宋楠

【摘  要】“互联网+大数据”背景下,搜索引擎为预测提供了多源瞬时信息。现有的组合预测模型通常是建立在历史数据的基础上,无法体现搜索指数等多源信息融合的特点。因此,论文为提高预测的精度,充分利用多源信息,根据信息来源的不同,从不同视角构建了3种单项预测模型。最后,为降低预测的风险,从合作对策的角度出发,构建组合预测模型。实证结果表明,论文提出的模型从预测稳定性和精度方面都有显著提高。

【Abstract】In the context of "internet + big data", search engines can provide multi-source instantaneous information for prediction. Current combined prediction model is usually constructed based on historical data, which cannot reflect the characteristics of multi-source information fusion such as internet search index. Therefore, in order to improve the prediction accuracy and make full use of multi-source information, this paper constructs three single prediction models from different perspectives according to different information sources. Finally, in order to reduce the risk of prediction, a combined prediction model is constructed from the perspective of cooperative game. The empirical results show that the prediction stability and accuracy of the proposed model are improved significantly.

【关键词】多源信息;搜索指数;组合预测;合作对策

【Keywords】multi-source information; search index; combined prediction; cooperative game

【中图分类号】O211.67;TP277                                             【文献标志码】A                                                 【文章编号】1673-1069(2021)08-0078-04

1 引言

在“互联网+”大数据时代,大数据预测作为大数据核心应用之一,主要依赖大数据的来源[1]。例如,新冠肺炎出现以来,在短短时间内迅速传播。预测病情的蔓延程度成为公共卫生组织和专家学者们做好预防的核心工作。研究人员利用谷歌搜索引擎和百度搜索引擎,搜集了与武汉新冠肺炎相关关键词的大量数据,并根据大数据和智能预测方法预测疫情的拐点,为政府和相关管理部门制定管控措施提供了科学依据。事实上,在2009年美国甲型H1N1流感病毒出现前,谷歌的数据分析师就在《自然》杂志上发表论文[2],正是根据人们在谷歌上的搜索记录,成功预测了病情的蔓延程度以及流感出现的区域。可见大数据预测能够充分利用网络搜索获得的多源信息对预测目标进行准确的预测。

近年来,随着计算机网络技术的广泛和深入发展,移动互联网、云计算和智能手机等不同传感器的广泛使用,为人们提供了海量的数据。搜索引擎使用的频繁,为人们了解信息提供了新的渠道。在复杂系统预测中,预测信息往往呈现多源化,可以从不同视角解释预测目标,它们并不是独立的,而是存在交互影响的,在预测过程中可以通过不同来源信息的互补来提高预测的精度。如何有效地融合多源信息成为专家学者们研究的热点课题之一。信息融合是将获取的各种信息进行归纳整合,以获取更精确、更适用的信息的集成技术[3]。信息融合可以将不同信息源的数据进行集成,能够使信息之间起到互相补充的作用,因此被广泛地应用到军事、工业工程以及医疗等领域。随着“互联网+”时代的来临,专家學者们发现,预测的结果不仅受到历史数据等相关结构化数据的影响,基于网络搜索的非结构化数据也会在某种趋势上影响预测的精度。网络搜索的非结构化数据可以从人类行为学视角提供相关信息,这些信息为学者们研究预测问题提供了一个新的思路,受到了广泛的关注。

基于网络搜索的预测模型与传统预测方法相比要更为灵活与及时。Yu L. A.等基于谷歌趋势的在线大数据驱动预测方法对全球石油消费量进行实证预测,结果表明,利用网络搜索的预测结果要在方向精度和误差上都明显优于没有使用谷歌趋势的传统预测方法[4]。Ling Tang等利用网络搜索多种影响原油价格因素的数据从多个时间尺度上预测了布伦特原油价格的波动情况,实证表明基于网络搜索数据预测模型可以改进预测的精度[5]。Wang J.等考虑原油市场及相关事件的网络关注度,利用谷歌搜索数据并结合机器学习方法对原油价格进行多尺度预测,结果表明互联网搜索是一种量化投资者关注度的实用方法,有助于预测短期原油市场的价格波动[6]。Jingjing Li等考虑到网络搜索关键词数据时只使用一种语言,提出了一种全球视角下的新型多语言驱动预测方法对原油价格进行预测,实践表明新的模型具有更强的鲁棒性[7]。Vosen等从人类的消费行为学视角,将谷歌搜索消费关键词数据用于私人消费预测中,提高了预测的精度[8]。董倩等以百度搜索指数为基础,对二手房与新房的价格进行预测,发现网络搜索指数对预测房价的趋势起到重要作用[9]。

基于以上分析,本文以碳价格预测为例,考虑到与碳价格的历史数据以及相关影响因素指标等多源数据,首先构建适合的单项预测模型,其次将单项预测模型的预测结果看作合作对策中的方案,通过Shapley值计算权重系数,构建基于多源信息融合的组合预测模型,得到组合预测值,并对预测的结果进行有效性检验。

2 基于多源信息融合的组合预测模型

2.1 模型构建的基本思路

本文首先通过数据库和网络搜集到与预测目标相关的结构化数据和非结构化数据,其次根据不同的数据源构建相应的单项预测方法,最后融合各单项预测方法的长处,构建基于多源信息融合的组合预测模型,建模思路如图1所示。

2.2 基于多源信息融合组合预测模型构建的基本过程

2.2.1 基于网络搜索指数流形学习的最小二乘支持向量回归(LSSVR)预测模型

收集与预测目标相关的非结构化数据,考虑到数据的冗余性,首先利用流形学习方法对数据进行降维处理,继而构建LSSVR预测模型,给定一组训练样本{zt,yt},其中zt=(zt1,zt2,…,ztd,yt-1)为数据预处理后得到的序列即输入变量,yt为第t时刻历史数据实际值序列即输出变量。基于流形学习的LSSVR预测模型可构建如下:

minJ(ω,b,ζ)=||ω||2+ζ                    (1)

s.t.ω·?覬(xt)+b+ζt=yt,t=1,2,…,N

其中,b是偏置,ζt是容忍误差,C为惩罚参数,为了对式(1)进行求解,引入拉格朗日乘子,此时式(1)转化为:

L(ω,b,ζ,λ)=J(ω,b,ζ)-λt{[ω·?覬(xt)+b]+ζt-yt }

=||ω||2+ζ-λt{[ω·?覬(xt)+b]+ζt-yt }     (2)

对式(2)中未知参数进行求偏导,可得:

=0,=0,=0,=0                 (3)

从而可得LSSVR预测模型如下:

yt=λt ·K(x,xt)+b,t=1,2,…,N                 (4)

其中,K(x,xt)=?覬(x)·?覬(xt)為核函数,根据式(4)可得基于流行学习和非结构化数据的时间序列预测值1t。

2.2.2 基于相关影响因素的偏最小二乘(PLS)预测模型

针对预测目标相关影响因素的数据源,由于系统的复杂性,影响预测对象的因素一般较多,为了消除不同影响因素变量之间的多重共线性,本文采用PLS回归预测模型对预测目标时间序列进行预测。

假设因变量为实际值时间序列,记作Y=(y1,y1,…,yN)T,自变量为预测目标相关的影响因素所形成的结构化数据,记作X=[X1,X2,…,Xq],则相应的单因变量PLS回归预测模型可建立如下:

Y=Xβ+                           (5)

其中,β为所有解释变量的回归系数,为随机误差项,服从正态分布。

在PLS回归预测模型的实践过程中,解释变量和被解释变量的原数据都要先进行标准化处理,继而在解释变量中提取成分,必须要最大程度包括X中的变异信息,并且要对被解释变量的解释能力要好,接着判断是否达到建模的标准,如果达到则模型构建完成,否则,继续在剩余信息中提取其他成分,直到达到模型的终止准则,可通过交互验证确定PLS回归预测模型中回归的成分数量。根据式(5)可得基于预测目标影响因素的PLS回归预测值为2t。

2.2.3 基于变模式分解(VMD)多尺度分解的广义回归神经网络(GRNN)预测模型

考虑到预测对象历史数据可能是不平稳、非线性的,为提高预测的精度,首先利用VMD分解算法对原始时间序列进行多尺度分解,VMD分解算法过程如下。

变模式分解过程:

① 初始化xt=(t=1,2,…,T)

②   set{ },{ },1 ←0

③      迭代

④      n←n+1

⑤      for  k=1到N  do

⑥         对全部的v≥0更新k

⑦       g←

⑧          继续更新vk:

⑨         v←

⑩          end for

{11}      for v≥0

{12}       n+1(v)←n(v) +τ((v)- (v))

{13}        直到g达到收敛:<ε

{14}       得g,k=1,2,…,M

根据VMD分解得到一组平滑的时间序列后,再利用GRNN对每一列序列进行预测,最后将所有的序列简单集成得到最后的多尺度分解预测值。GRNN的预测过程如下:

假设预测对象的历史数据利用VMD分解后得到第k个模态,现根据GRNN模型对此模态进行预测,即将第k个模态作为输入变量Gt(k)=(gt-3(k),gt-2(k),gt-1(k)),其输出变量为(gt(k))T ,t=1,2,…,N。GRNN中,各层如下。

①输入层。

在输入层中,神经元的数量与输入变量的维数是相同的,此时将输入变量传到下一层。

②模式层。

在模式层中,神经元的数量与设定训练样本的维度相同,此时,第t个神经元的输出为:

pt(k)=e,(t=1,2,…,N)    (6)

③求和层。

求和层传递函数分别为算术求和与加权求和:

Ss=pt (k)                       (7)

Swt=wt (k)pt(k),t=1,2,…,N                     (8)

④输出层。

在输出层中,神经元的数量与训练集中输出变量的维度要相等,此时,第个k模态的预测结果为:

yt(k)=,t=1,2,…,N                         (9)

类似地,对每个模态的预测值进行简单集成,可得基于多尺度分解的GRNN预测值3t:

3t=yt(k),t=1,2,…,N                       (10)

2.2.4 Shapley值与多源信息融合组合预测模型

组合预测模型可以有效地融合各单项预测模型的优势,达到降低预测误差,同时还能够分担预测的风险。组合的实质是将各单项预测的信息进行有效的信息集成,其核心问题就是求各单项模型的权重系数,本文从博弈论视角出发,将各单项模型当成合作对策中的备选方案,根据各单项预测方法对组合预测模型的贡献度,计算Shapley值,具体计算过程如图2所示。

根据上述3种单项预测方法得到的单项预测值以及Shapley值计算的各方法的权重系数,可得组合预测值为:

t=wiit,t=1,2,…,m                   (11)

3 实例仿真与结果分析

3.1 数据来源与处理

本文选取了深圳市碳市场2015/01/05到2018/06/29共844個碳价格历史数据作为样本,为预防在预测的过程中出现过拟合问题,我们将样本分成训练样本(2015/1/5-2017/12/29)、验证样本(2018/1/2-2018/2/28)与测试样本(2018/3/1-2018/6/29)。数据来源于中国碳交易网。同时我们还在百度指数上收集了与碳价格相关非结构化数据,本文选取了碳汇、碳交易、碳排放、低碳经济、减排和、低碳生活、碳足迹、碳关税、碳中和以及减排和10个关键词来反映人们对碳价格的关注程度,最后我们还选取了与碳价格相关的沪深300指收盘价、天然气价格、欧盟碳排放配额结算价、WTI原油价格、煤炭价格、WTI原油价格和核证减排量结算价作为碳价格其他相关影响因素指标,并对数据进行预处理,统一样本维度。

此时,我们可得基于多源信息融合的组合预测模型结果如图3所示。

3.2 预测的评价指标

为验证本文所提模型的有效性,计算误差平方和(SSE)和平均绝对百分比误差(MAPE)来度量预测的总体误差与相对误差,计算公式如下:

SSE=(yt-t)2                        (12)

MAPE=                         (13)

同时,我们为了验证所提模型的稳定性,引入预测有效度,计算了预测精度的均值和方差,该指标能够从预测误差的分布角度来评价预测的稳定性,第i种方法二阶预测有效度公式如下:

Mi=E(ai)(1-σ(ai))                        (14)

其中,E(ai)为第i种预测方法预测精度的期望,σ(ai)表示第i种预测方法预测精度的标准差,可计算如下:

E(ai)=Qt·ait,σ(ai)=Qt(ait-E(ai))2,ait=1-(yt-it)/yt

一般地,Qt先验信息是未知的,通常取Qt=1/T。

根据式(12)~(14)计算各预测方法的预测如表1所示。

通过表1来比较模型3种单项预测模型与本文提出的组合预测模型对应的误差评价指标,结果表明本文模型的3种误差评价指标无论从总体误差、相对误差,还是预测有效度表现都是最好的。从实践证明,引入多源信息对提高预测的精度是有积极作用的,因而引入多源信息融合的组合预测模型是有必要的。

4 结论

本文根据信息来源的不同,为充分利用这些信息,从多个角度构建预测方法,同时为分散预测的风险,以及将不同单项预测方法根据其自身特点和预测效果,利用Shapley值计算各单项方法的权重,进而得到最终的组合预测结果,实践结果表明,本文所提的方法,无论从精确性还是稳定性都要高于单项预测方法。在将来的研究中,我们还将继續考虑网络舆情对预测对象的影响,使得模型适用性更强。

【参考文献】

【1】吕本富,陈健.大数据预测研究及相关问题[J].科技促进发,2014(1):60-65.

【2】Ginsberg J.Detecting influenza epidemics using search engine query data[J].Nature,2009,457(7232):1012.

【3】王耀南,李树涛.多传感器信息融合及其应用综述[J].控制与决策,2001,16(05):518-522.

【4】Yu L. A., Zhao Y. Q., Tang L., Yang Z. B., Online big data-driven oil consumption forecasting with Google trends[J]. International Journal of Forecasting,2019,35(1):213-223.

【5】Ling Tang et al. A multi-scale method for forecasting oil price with multi-factor search engine data[J].Applied Energy,2020,257.

【6】Wang J., Athanasopoulos G. Hyndman R. J., Wang S. Y., Crude oil price forecasting based on internet concern using an extreme learning machine[J].International Journal of Forecasting,2018,34(4):665-677.

【7】Jingjing Li and Ling Tang and Shouyang Wang. Forecasting crude oil price with multilingual search engine data[J].Physica A:
Statistical Mechanics and its Applications,2020,551.

【8】Vosen S., Schmidt T., Forecasting private consumption:
survey-based indicators vs. Google trends[J].Journal of Forecasting,2011,30(6):565-578.

【9】董倩,孙娜娜,李伟.基于网络搜索数据的房地产价格预测[J].统计研究,2014,31(10):81-88.

推荐访问:组合 及其应用 融合