3)对系统中任意一段时间()的采样数据,可以定义函数。
大数据挖掘体系包含高维数据建模与分析所涉及的基础理论、数学工具和处理算法等,其实现的难点在于高维度—维度高(而非数据量大)也是大数据的最主要特征。高维度(即多量测点)开辟了数据集的空间维度,从而得以通过高维统计分析计算出多个变量间的相关性,即得到高维统计信息。高维度与高密度(即高采样率)的融合即构成了高维时空数据结构—数据维度N和样本数T均较大且相当(N/T=c>0)。对于这种结构,绝大部分的工具往往无法从中提取到有效的统计信息——传统的物理模型和分析算法往往是低维的,如前文所述的三维Park变换,低维工具往往通过分而治之的方式处理高维数据集,即进行多次独立分析而每次分析仅处理低维数据,这种处理方式割裂了高维时空数据(又称时空大数据)的时空联合相关性,丢失了最主要的统计信息;更重要的是,从统计学角度来说,传统意义上的大数定律和中心极限定理不再适用——采用以经典极限理论为基础的参数/非参数统计方法来处理时空大数据其结果可能严重错误。
数据驱动的核心思想是将数据视为研究对象的表象,通过直接挖掘数据而非依靠将数据带入预设模型来认知对象继而分析出所关注的对象属性。数据模型的建模与分析可独立于工程系统,即利用数据集和统计工具即可实现。数据驱动范式在一定程度上规避了在电网系统中基于物理运行机理难以建模、大量数据难以利用等问题,并可采用统计工具分析各个环节和数据模型其高维特征的统计性质(收敛性、置信度、精度、训练/测试误差),所得的高维特征为系统认知提供了新的依据。就目前而言,高维特征主要包括基于大数据统计分析BDA的高维统计量(high-dimensional statistics),以及基于深度神经网络的深层特征(deep feature)。
对于高维数据驱动模式的配电网认知,借助高维分析工具提取数据的高维特征是其优越性的主要体现——高维特征相比于低维特征更适合用于认知指标:高维特征的构建涉及多个量测数据,包含更多的统计信息(从信息量的角度考虑,高维特征包含低维特征),且对原始数据丢失、异常等瑕疵有较强的鲁棒性;更重要的是,原始数据及其对象本身就是高维的,高维特征在构建过程中考虑了噪声空间(不确定性、数据质量、干扰、误差等)与信号空间(对象属性)的高维统计规律(如时空联合相关性,仅体现在高维空间中),并可依此分离两者从而提高所建特征对信号的表征能力,故高维特征的统计性质往往更加稳定(收敛性好、方差小)。
B. 随机矩阵理论及其高维指标构建
随机矩阵理论(random matrix theory, RMT)的研究起源于原子核物理领域。Wigner在研究量子系统中得出结论,对于复杂的量子系统,随机矩阵理论的预测代表了所有可能相互作用的一种平均[25]。偏离预测的那部分属性反映了系统中特殊非随机的性质,这为了解和研究潜在的相互作用和关系提供了理论支撑。
RMT以矩阵为单位,可以处理独立同分布(independent identically distributed,IID)的数据。RMT并不对源数据的分布、特征等做出要求(如满足高斯分布,为Hermitian矩阵等),仅要求数据足够大(并非无限)。故该工具适合处理大多数的工程问题,特别适合用于分析具有一定随机性的海量数据系统。随机矩阵理论认为当系统中仅有白噪声、小扰动和测量误差时,系统的数据将呈现出一种统计随机特性;而当系统中有信号源(事件)时,在其作用下系统的运行机制和内部机理将会改变,其统计随机特性将会被打破。单环定律(Ring Law)、Marchenko-Pastur定律(M-P Law)均是RMT体系的重大突破。在这些理论基础上,可进一步研究随机矩阵的线性特征根统计量(linear eigenvalue statistics, LES),而平均谱半径(mean spectral radius)则是LES所构造出的一个具体对象。
B1. 随机矩阵理论基本定理