
亚太科研论坛
Asia-Pacific Research Forum
- 主办单位:未來中國國際出版集團有限公司
- ISSN:3079-3645(P)
- ISSN:3079-9945(O)
- 期刊分类:人文社科
- 出版周期:月刊
- 投稿量:0
- 浏览量:150
相关文章
暂无数据
选取插值密度估计的最优窗宽的一种方法研究
A Study on a Method for Selecting the Optimal Bandwidth of Interpolated Density Estimation
引言
在如今的数字化时代,数据处理是一个非常关键的技术手段。对未知的参数进行估计则是数据处理的一个重要过程。非参数密度估计属于非常经典的数据估计的方法之一,许多专家对非参数密度估计进行了研究。本文聚焦于非参数密度估计中的插值密度估计方法的关键内容,如何选取最优窗宽。旨在通过最优权重 和最优窗宽 选取进行研究,提供一种选取插值密度估计的最优窗宽的一种方法。该方法在数据模拟中展现了其在数据处理中良好的表现,为插值密度估计中最优窗宽选取方面提供了一种新的解决方法。
1 背景介绍
非参数密度估计是一种重要的非参数统计方法,作用是估计未知数据的概率密度函数。它在许多方面都有广泛地应用。Chenglu Jin等人基于非参数核密度的最优copula选择方法的理论构建,发现信用风险和市场风险之间存在显著的尾部依赖性,而操作风险是独立的。这个研究可以帮助金融机构制定更有效地规避风险的策略,提高金融机构的风险控制能力。Bo Gu等人利用非参数密度估计,提出了一种改进的长短期记忆网络用于风电功率预测方法,为风电功率预测研究提供有价值的见解。Xu-Yang Cao等人开发了一种基于核密度的非参数方法,用于地震脆性估计,为非参数地震脆性估计的发展提供了新的视野,为地震防灾提供重要的理论支持和实践指导。这只是非参数密度估计应用中的一小部分,它在实际中还有着更为广泛的应用。
在非参数密度估计中,窗宽的选取是至关重要的,它直接影响到密度估计的准确性、平滑性和偏差方差权衡。窗宽的选取主要作用。(1)窗宽的大小决定了密度估计曲线的平滑程度。较小的窗宽会导致估计出来的密度曲线过于波动,可能反映了数据中的噪声而非真实的模式;而较大的窗宽则会使得估计曲线过分平滑,掩盖了真实的数据特征。(2)窗宽还影响了密度估计结果的精细程度。窗宽越小,密度估计曲线越能够捕捉到数据中的细微波动和不规则性,但也容易受到局部数据的影响而产生较大的方差;窗宽越大,密度估计曲线则更加平滑,可能无法完全反映数据的局部特征。
窗宽的选取不仅在非参数密度估计中具有重要作用,是决定密度估计的结果有效性的一个关键因素,其在参数密度估计中也有同等重要的作用。为了得到一个准确有效的密度估计,要根据研究目的,结合数据特征,选择合适的窗宽。下面对常用的密度估计的窗宽方法进行简单的介绍。(1)根据数据的样本量来选择窗宽,如Silverman's rule、Scott's rule等。(2)基于交叉验证(Cross-Validation)的方法,如最小均方误差(Least Squares Cross Validation)、直接交叉验证(Direct Cross Validation)等。在实际应用中,可以根据具体情况选择适合的窗宽选择方法,以获得最佳的密度估计结果。
本文最优权重 和最优窗宽 的选取过程中,将会使用“z-score方法”标准化数据。“z-score方法”在标准化数据中的作用至关重要。通过将原始数据转换为标准化,能够实现数据的一致性、稳定性、可比性、可解释性,从而更好地进行后续的分析。“z-score方法”将数据标准化可以起到消除量纲影响的作用;有许多的机器学习算法对数据的尺度较为敏感。将数据进行标准化,能加速模型的收敛速度,提高算法的性能和准确度;除此之外,可以使异常值更易识别,并进行假设检验,得到可靠性结果。“z-score方法”通过将数据标准化,让研究变得更加简单有效,为后续的研究的顺利进行提供良好的基础。我们将根据已有的研究,求解在给定条件下非参数密度估计的最优窗宽公式,通过使用“z-score方法”,然后进行数值求解的方式,来选取密度估计的最优窗宽的。
2 基本假设
根据内容需要,在此给出一些基本假设与定理。
(A1)当 , 时,。
(A2)对 , 阶可积函数类用 表示,并且对 ,记 。
以下内容在独立样本下边缘加权非参数频率插值密度估计条件下进行。
定理1
设(1) 为在 上一致连续的概率密度函数;(2) 存在三阶导数,且三阶导数有界;(3)满足(A1)假设。则有:
(1)
当 时:
(2)
3 窗宽的选取
定理2
当 时,在定理1的条件下,当窗宽 取值为:
(3)
此时,均方误差 达到最小,最小值为:
(4)
均方误差的主部包含了分布数据所有信息,能够反映出分布数据的整体表现。所以,进行均方误差的讨论研究时,我们只需求均方误差的主部,这样就可以简化计算问题,又能有效反映出数据的整体状态。下面均方误差最优窗宽的证明过程中,仅考虑均方误差的主部的部分。
证明:设 为 的主部,根据定理1的公式(2),可得 为:
(5)
对公式(5)两边同时进行求导,有:
(6)
令 ,整理可得:
(7)
对其进行一移项,则有:
(8)
因此:
(9)
所求 即为最优窗宽。
接下来,我们利用所求出来的最优窗宽 ,来进行最小均方误差 的计算。我们引入两个记号,记 ,,有:
(10)
则,公式(2)可改写为:
(11)
将 ,代入公式(11),可得:
(12)
证毕。
最优权重 和最优窗宽 的选取,可以通过利用定理1,使用“z-score方法”将数据进行标准化来实现。依照“z-score方法”,设密度函数 服从正态分布 ,则有密度函数:
(13)
对密度函数 分别进行一阶求导,然后进行二阶求导,有:
(14)
然后,分别求出 一阶导数、二阶导数取平方后在 上求积分,则:
(15)
同理,可得:
(16)
如果直接对均方误差 计算比较麻烦,我们同样考虑去掉它的高阶无穷小项,用剩下的主部来近似代替均方误差 的值,化简计算。从而,根据定理1可知, 的主部表示为:
(17)
于是上式可改写为:
(18)
最优权重和最优窗宽就是使得 的主项 达到最小值 的 和 。
观察该方程可知,方程的显式解不存在,不能直接获得最优权重 和最优窗宽 ,在此,通过使用数值求解的方法来解决方程的显示解不存在的问题。接下来给出数值模拟使用的数据,在标准差 和标准差 的两种条件下,记样本数为 ,我们将以不同的样本数,有100、200、400、600、900、2000、3500、5000,8组不同的样本数来,使用R语言,研究最优权重 和最优窗宽 的选取。随着样本数的增加, 和 都逐渐减少,并且 的数值也随着减少。在相同样本数下,相应的最优权重 和最优窗宽 随着标准差 的增大而增大,而最小均方误差 则随着标准差 的增大而相应的减少。观察表1可知,最优权重 的值有的大于0.5,实际上,越靠近 点区间给越大的权重,这表明其符合实际意义,并且当样本数不是太大时最优权重 明显大于0.5,综上所述,该插值密度估计引入权重 是有意义的。
4结语
本文的主要内容是研究独立样本下加权边缘频率插值密度估计的窗宽选取。主要过程如下,第一,找到使得均方误差达到最小值的最优窗宽 ,将均方误差的主部进行一阶求导,然后计算极值,找出最优窗宽公式。第二步,利用所求的最优窗宽公式,进行最小均方误差 的计算。第三步,使用“z-score方法”将数据标准来简化计算,确定该频率插值密度估计的最优权重 和最优窗宽 ,并通过将 的主部表达式改写成关于 和 的公式。最后利用数值求解的方法解决其没有显示解的问题,来完成最优窗宽和最优权重的选取。
在未来的研究中,将会希望能够研究下列这几个问题。第一,该估计是否是渐近无偏的。第二,该估计是否符合强相合性,也就是研究其渐进性质,还可以通过实证分析进行验证。此外,实际上很多数据都不满足独立性、混合的数据,可考虑在混合样本下,对该估计及其性质进行研究。
参考文献:
- [1] 马薇,曹晓舟.组合方法视角下复杂协整关系的非参数识别[J]. 数量经济技术经济研究,2022(05):168-189.
- [2] 王江涛, 周勇. 高频数据瞬时波动率核估计的窗宽选择及算法研究[J]. 中国管理科学,2018(07):1-8.
- [3] Jin C, Chen R, Cheng D, et al. The dependency measures of commercial bank risks: Using an optimal copula selection method based on non-parametric kernel density[J]. Finance Research Letters,2020.
- [4] Gu B, Zhang T, Meng H, et al. Short-term forecasting and uncertainty analysis of wind power based on long short-term memory, cloud model and non-parametric kernel density estimation[J]. Renewable Energy,2021(168):687-708.
- [5] Xu-Yang C, De-Cheng F, Michael B. A KDE-based non-parametric cloud approach for efficient seismic fragility estimation of structures under non-stationary excitation[J]. Mechanical Systems and Signal Processing,2023,205.
- [6] 赵兴昌,张宇献,邢作霞. 基于最优窗宽核密度估计的短期负荷区间预测[J]. 电测与仪表,2019,56(14):56-61.
- [7] Fang F, Qiwei Y, Wenling T. Cross-validation for selecting the penalty factor in least squares model averaging[J]. Economics Letters,2022,217.
- [8] Chen B, Liang J, Zheng N, et al. Kernel least mean square with adaptive kernel size[J]. Neurocomputing,2016,191:95-106.
- [9] Kirkby J L, Leitao A, Nguyen D. Particle swarm optimization for bandwidth determination and feature selection of kernel density estimation based classifiers in diagnosis of breast cancer[J]. Computational Statistics & Data Analysis,2021(159):170202.
