
新经济研究
Journal of New Economic Studies
- 主办单位:未來中國國際出版集團有限公司
- ISSN:3079-3416(P)
- ISSN:3079-9589(O)
- 期刊分类:经济管理
- 出版周期:月刊
- 投稿量:0
- 浏览量:181
相关文章
暂无数据
淡水鱼价格预测——基于机器学习与多变量概率模型的组合算法
Freshwater Fish Price Prediction — A Combined Algorithm Based on Machine Learning and Multivariate Probability Models
引言
水产品作为世界上贸易最广泛的动物蛋白,具有重要的营养和经济价值。中国淡水鱼类产量和消费量位居世界前列,其价格波动直接影响生产者、消费者以及供应链中各环节的利益。此外,食品价格与营养健康之间的这种关系在鱼类中尤为重要,这是因为鱼类是许多人群蛋白质、必需脂肪酸和微量营养素的主要来源,尤其是在发展中国家或地区。淡水鱼价格的意外波动严重威胁着粮食和营养安全,尤其是对贫困人口等弱势群体而言。因此,为了确保淡水养殖业的可持续发展和国民生活质量的稳步提高,获取及时准确的淡水鱼市场价格信息并进行精准预测,具有极其重要的现实意义。
一、研究背景
淡水鱼价格的形成机制复杂,受到全球气候变化、消费需求变动、养殖产量波动、政策调整、疫病风险,甚至文化偏好等多种因素的综合影响。这些因素的交织使得淡水鱼价格序列呈现出高度不确定性、非线性和非平稳性等特征,极大增加了预测难度。传统的经济学研究,通常基于理论范式和理论假设,构建模型和开展检验来揭示和应用经济规律的研究范式,但随着大数据和人工智能技术的发展,实证经济学研究范式向更加依赖于在大数据基础上,基于机器学习发现关系和规律,开展经济关系识别等诸多融合与应用的方向转变。在此背景下,机器学习(ML)算法凭借其强大的非线性处理和从复杂数据中自动学习模式的能力,为淡水鱼价格预测带来了新的机遇。然而,单一的机器学习算法在处理高度复杂和非平稳的时间序列数据时,仍存在局限性。在对价格进行初步预测后,机器学习模型训练集上的残差往往并非理想的白噪声,此时使用残差分析可以有效提高预测精度。对于淡水鱼价格预测领域,这些残差中可能蕴含着没有被初始模型完全捕捉的结构化信息。
基于上述挑战与现有研究基础,本研究提出一种基于机器学习与多变量经验概率(MVE)模型相结合的组合预测方法。本文旨在将MVE模型应用于机器学习模型预测的残差建模和修正,构建ML-MVE组合模型,以期提升淡水鱼价格预测精度,为决策者提供不确定性评估和风险预警。本研究将通过对中国草鱼、鲤鱼、鲫鱼、鲢鱼四种主要淡水鱼批发价格的实证分析,验证ML-MVE组合模型的有效性和应用前景。
二、研究方法
(一)机器学习算法
1. 随机森林算法
随机森林算法由自助聚集(Bagging)算法和决策树算法共同组成。Bagging算法的目标是实现随机且有放回地采样,决策树算法是一种基本的分类与回归方法,经济学研究主要涉及回归部分,在回归问题中主要是基于MSE或者MAE的均方差最小化准则进行特征选择的二分递归算法。
2. 支持向量机回归算法
支持向量机回归(SVR)的基本原理是将输入数据映射到多维特征空间,并在该空间中执行线性回归,以最大限度地降低经验风险。支持向量机的泛用性能就在于内核函数的选取,SVR最常见的内核是线性内核、多项式内核和径向基函数内核。我们可以根据输入的特征来选择内核。通常,核函数的常见示例是高斯径向基函数(RBF),本研究选择RBF作为我们的内核。
3. 长短期记忆模型
循环神经网络(RNN)因其在序列数据处理中的优势被广泛应用于时间序列分析,但其在长序列建模中常遇到梯度消失和梯度爆炸问题。为了解决这些问题,长短期记忆网络(LSTM)应运而生,作为RNN的一种变体,其设计目标在于更好地保留和传递长期依赖信息。LSTM的核心在于其独特的记忆单元结构和门控机制,即在标准RNN模型的基础上添加三个门(遗忘门 ,输入门 ,输出门 ),这些门控装置使得信息能够在较长时间范围内有效传递。
(二)多变量经验概率模型的原理
多变量经验概率模型的建立主要有两个阶段,第一阶段是对MVE概率分布的参数进行估计,第二阶段则是将MVE概率分布参数应用于模拟预测,相关方法的具体操作步骤可参考此两篇文献。
(三)评估指标
(1)
(2)
(3)
很明显,上述指标的值越小则表明预测的结果越准确,预测的效果越好。
三、数据描述与预测应用分析
(一)数据描述
为了验证MVE方法与机器学习算法结合的可行性,本文在此部分选取多个研究对象进行分别预测,包括草鱼、鲤鱼、鲫鱼、鲢鱼这四种淡水鱼2006年7月7日至2025年2月28日的每周批发价格,此数据来源于商务部水产品批发价,单位均为元/公斤。对四种淡水鱼的描述性统计如表1所示。
| 种类 | 数据量 | 均值 | 标准差 | 最小值 | 最大值 | 变异系数 |
|---|---|---|---|---|---|---|
| 草鱼 | 963 | 13.88 | 2.14 | 8.67 | 20.8 | 0.15 |
| 鲤鱼 | 963 | 12.12 | 1.91 | 7.30 | 18.04 | 0.16 |
| 鲫鱼 | 963 | 16.05 | 3.88 | 8.66 | 26.24 | 0.24 |
| 鲢鱼 | 963 | 9.81 | 2.22 | 5.18 | 14.94 | 0.23 |
结合表1信息可知,从变动系数来看,鲫鱼的批发价格波动最大,变动系数为0.24,草鱼的批发价格波动最小,变动系数为0.15。从价格变动趋势来看,四种淡水鱼的批发价格在2021年之前均呈现明显的波动上升趋势。
由于时间序列数据可能包含不同量级的特征,若直接输入模型,可能导致优化过程中的梯度更新不稳定,影响模型收敛速度和预测效果。因此,对数据进行归一化处理,可以使不同特征的数值范围保持一致,增强模型的泛化能力,归一化的公式如下所示:
(4)
(二)模型训练
在将机器学习应用于长时间序列预测的过程中,对于训练模型的常用方法就是滑动窗口,其中数据被划分为不同的训练区间以便使机器学习模型能够更好地捕获时间序列趋势,本文选取窗口大小为4,即以4为恒定长度窗口并以单位步长向前移动。本文将数据集划分为训练集(80%)和测试集(20%)。
本研究采用网格搜索法对预处理后的数据建立的随机森林、支持向量机以及LSTM模型进行超参数搜索,经过多次实验优化后随机森林、支持向量机以及LSTM模型超参数搜索范围如表2所示。
| 模型 | 超参数 | 网格搜索 |
|---|---|---|
| RF | max_depth | 5,7,10 |
| min_samples_leaf | 1,2,4 | |
| min_samples_split | 2,4,6 | |
| n_estimators | 100,150,200 | |
| SVR | C | 0.1,1,10 |
| gamma | 0.03,0.05,0.1 | |
| epsilon | 0.03,0.05,0.1 | |
| LSTM | hidden_size | 70,100,130 |
| num_layers | 1,2 | |
| lr | 0.001,0.002 | |
| dropout | 0,0.2,0.3 |
(三)预测性能分析
本小节重点是采用机器学习算法对四种淡水鱼批发价格分别进行预测,在此基础上,先对机器学习算法训练集残差进行分析之后,再将MVE方法与机器学习结合预测,然后通过评估指标体系比较两种方法的预测性能。
1.机器学习预测结果
在上述数据处理和搜索超参数范围之后选取最为合适的参数进行机器学习的模拟预测,并且在测试集上进行评估,RF、SVR、LSTM模型的参数排列顺序分别为[max_depth, min_samples_leaf, min_samples_split, n_estimators]、[C,gamma, epsilon]、[hidden_size, num_layers, lr, dropout],预测结果如表3所示。
| 种类 | 模型 | 最优参数 | MAE | MAPE | RMSE |
|---|---|---|---|---|---|
| 草鱼 | RF | [7,4,2,100] | 0.985 | 5.78 | 1.449 |
| SVR | [10,0.03,0.03] | 0.221 | 1.31 | 0.279 | |
| LSTM | [160,1,0.002,0.2] | 0.571 | 3.37 | 0.773 | |
| 鲤鱼 | RF | [5,2,2,200] | 0.777 | 5.33 | 0.978 |
| SVR | [10,0.03,0.05] | 0.176 | 1.21 | 0.217 | |
| LSTM | [160,1,0.001,0.3] | 0.703 | 4.87 | 0.785 | |
| 鲫鱼 | RF | [7,2,6,100] | 0.268 | 1.21 | 0.430 |
| SVR | [10,0.03,0.05] | 0.200 | 0.93 | 0.257 | |
| LSTM | [130,1,0.001,0.2] | 0.617 | 2.88 | 0.732 | |
| 鲢鱼 | RF | [5,2,2,100] | 0.584 | 4.33 | 0.624 |
| SVR | [10,0.03,0.05] | 0.146 | 1.07 | 0.178 | |
| LSTM | [100,1,0.002,0.2] | 0.382 | 2.83 | 0.427 |
综合分析表3的所有结果,可以得出结论:在本研究使用的数据集和优化参数条件下,支持向量回归模型是预测草鱼、鲤鱼、鲫鱼和鲢鱼这四种淡水鱼批发价格最有效的机器学习方法。虽然RF和LSTM在某些情况下表现尚可,但SVR模型在本研究的淡水鱼价格预测任务中展现出了一致且卓越的性能,证明了其在处理此类时间序列相关的价格预测问题上具有强大的泛化能力和精度优势。
2. 残差分析
在将MVE方法应用于机器学习对时间序列预测过程中,对残差的分析是至关重要的,此过程包括残差时间序列平稳性检验、残差分布检验以及残差自相关检验。残差表示确定性模型无法捕获的信息,在MVE的模拟过程中,仿真模拟需要准确捕获残差结构。因此我们对训练集残差进行ARMA模型诊断,检验训练集残差是否存在高阶自相关。相关检验的统计量汇总如表4所示。
| 种类 | 模型 | ADF
统计量 |
ARMA 模型诊断 | JB
统计量 |
P(JB) | |
|---|---|---|---|---|---|---|
| ARMA(p , q) | AIC | |||||
| 草鱼 | RF | -22.6704 | (1,0) | -4649.434 | 406.34 | 0.00 |
| SVR | -6.9094 | (1,0) | -4400.210 | 343.49 | 0.00 | |
| LSTM | -6.7341 | (1,1) | -4405.994 | 270.04 | 0.00 | |
| 鲤鱼 | RF | -7.5918 | (1,0) | -4605.653 | 30.47 | 0.00 |
| SVR | -7.3251 | (1,0) | -4453.449 | 221.06 | 0.00 | |
| LSTM | -5.7802 | (1,1) | -4468.031 | 83.26 | 0.00 | |
| 鲫鱼 | RF | -8.0826 | (1,0) | -5240.455 | 64.72 | 0.00 |
| SVR | -7.2338 | (1,0) | -4882.228 | 81.20 | 0.00 | |
| LSTM | -5.4985 | (1,1) | -4825.430 | 72.45 | 0.00 | |
| 鲢鱼 | RF | -24.5306 | (1,0) | -4656.370 | 77.37 | 0.00 |
| SVR | -17.5492 | (1,0) | -4412.668 | 382.93 | 0.00 | |
| LSTM | -7.5111 | (1,1) | -4366.194 | 256.11 | 0.00 | |
3.组合模型预测结果
在上述机器学习模型采取最优参数预测以及训练集残差检验之后,将机器学习模型与MVE方法结合预测的结果如表5所示。
| 种类 | 组合模型 | MAE | MAPE | RMSE |
|---|---|---|---|---|
| 草鱼 | RF-MVE | 0.984 | 5.77 | 1.445 |
| SVR-MVE | 0.179 | 1.06 | 0.239 | |
| LSTM-MVE | 0.536 | 3.18 | 0.708 | |
| 鲤鱼 | RF-MVE | 0.759 | 5.20 | 0.954 |
| SVR-MVE | 0.136 | 0.93 | 0.177 | |
| LSTM-MVE | 0.614 | 4.25 | 0.701 | |
| 鲫鱼 | RF-MVE | 0.263 | 1.19 | 0.428 |
| SVR-MVE | 0.191 | 0.89 | 0.251 | |
| LSTM-MVE | 0.368 | 1.65 | 0.599 | |
| 鲢鱼 | RF-MVE | 0.583 | 4.32 | 0.623 |
| SVR-MVE | 0.136 | 1.00 | 0.168 | |
| LSTM-MVE | 0.368 | 2.73 | 0.414 |
结合表3和表5可以发现,引入MVE模型后,大部分模型的预测精度都得到了不同程度的提升,尤其是在表现最佳的SVR模型上,这种提升尤为显著。这表明MVE策略对于改善这些机器学习模型在淡水鱼价格预测任务上的表现是有效的,这与本文的研究预期是契合的。
具体来说,单独RF模型表现相对较差。结合MVE后(RF-MVE),虽然各项误差指标略有下降,但整体性能提升有限,与其他模型相比仍有较大差距。SVR模型在单独使用时已展现出明显优于RF和LSTM的预测性能,引入MVE策略后,其优势得到进一步巩固和显著增强,表现为所有鱼种的MAE、MAPE和RMSE在经过SVR-MVE模型预测后均有明显下降。单独LSTM模型在不同鱼种上表现不一。结合MVE后,模型性能也得到了普遍提升,尤其是在原本表现欠佳的情况下改善显著。
四、结论与建议
(一)结论
本研究聚焦于中国草鱼、鲤鱼、鲫鱼、鲢鱼这四种主要淡水鱼的批发价格预测,旨在探索如何通过结合机器学习算法的非线性建模能力与多变量经验概率(MVE)方法对预测残差进行非参数化建模,以提升预测精度。
通过对机器学习模型在训练集上产生的残差进行详细分析(如表4所示),本研究首先证实了机器学习模型虽能捕捉价格的主要趋势,但其残差并非简单的白噪声。实证结果表明,残差序列具有统计上的平稳性,但残差分布显著偏离正态分布,且存在明显的自相关性。这些发现表明机器学习在时间序列预测中缺少了对误差的处理,即单一的机器学习算法可能不足以完全刻画复杂时间序列预测中残差的实际特性,突显了对残差进行建模的必要性。
本研究进一步构建了机器学习与MVE相结合的组合预测模型,并将它们的预测性能与单独的机器学习模型进行了对比评估(如表3和表5所示)。结果显示,SVR模型在单独应用时已展现出相对最佳的预测性能,这印证了其在处理此类时间序列预测问题上的优势。将MVE方法引入后,所有组合模型的预测精度都得到了不同程度的提升,这证明了MVE方法能够有效捕捉和利用机器学习模型未能完全解释的残差结构,从而对单点预测进行有效修正,提升预测精度。
(二)建议
本次研究中我们将MVE理念应用于单变量(即单一鱼种价格)的残差建模,但由于数据限制,MVE模型潜能并没有充分发挥出来,未来可以进一步探索将其应用于更复杂的场景。如建模多种鱼类价格残差之间的联合分布和跨市场相关性。此外,可以将更多可能影响价格的外部变量(如饲料价格、天气指数、政策变量等)纳入机器学习模型或 MVE 框架中,进一步提升预测能力。
参考文献:
- [1] Asche F, Bellemare M F, Roheim C, et al. Fair enough? Food security and the international trade of seafood. World development,2015,67:151-160.
- [2] Hicks C C, Cohen P J, Graham N A, et al. Harnessing global fisheries to tackle micronutrient deficiencies. Nature,2019,574(7776):95-98.
- [3] Mohanty B P, Mahanty A, Ganguly S, et al. Nutritional composition of food fishes and their importance in providing food and nutritional security. Food chemistry,2019,293:561-570.
- [4] Bennett A, Basurto X, Virdin J, et al. Recognize fish as food in policy discourse and development funding. Ambio,2021,50:981-989.
- [5] Liverpool‐Tasie L S O, Sanou A, Reardon T, et al. Demand for imported versus domestic fish in Nigeria. Journal of agricultural economics,2021,72(03):782-804.
- [6] Eissa A E, Zaki M M. The impact of global climatic changes on the aquatic environment. Procedia environmental sciences,2011,4:251-259.
- [7] 洪永淼, 汪寿阳. 大数据如何改变经济学研究范式? 管理世界,2021,37(10):40-55.
- [8] 洪永淼, 汪寿阳. 大数据,机器学习与统计学: 挑战与机遇.计量经济学报,2021,1(01):17-35.
- [9] Zhang G P. Time series forecasting using a hybrid ARIMA and neural network model. Neurocomputing,2003,50:159-175.
- [10] Júnior D S D O S, de Mattos Neto P S, de Oliveira J F, et al. A hybrid system based on ensemble learning to model residuals for time series forecasting. Information sciences,2023,649:119614.
- [11] Richardson J W, Klose S L, Gray A W. An applied procedure for estimating and simulating multivariate empirical (MVE) probability distributions in farm-level risk assessment and policy analysis. Journal of agricultural and applied economics,2000,32(02):299-315.
- [12] 陈永福, 吴蓓蓓, 王晶晶. 基于多变量经验概率模型的中国粮食产量模拟预测分析. 系统工程理论与实践,2012,32(11):2363-2371.
- [13] Breiman L. Random forests. Machine learning,2001,45:5-32.
- [14] Kim K J. Financial time series forecasting using support vector machines. Neurocomputing,2003,55(1-2):307-319.
- [15] Smola A J, Schölkopf B. A tutorial on support vector regression. Statistics and computing,2004,14:199-222.
- [16] Basak D, Pal S, Patranabis D C. Support vector regression. Neural information processing-letters and reviews,2007,11(10):203-224.
- [17] Siami-Namini S, Tavakoli N, Namin A S. The performance of LSTM and BiLSTM in forecasting time series.2019 IEEE International conference on big data (Big Data).2019.
- [18] Singh D, Singh B. Feature wise normalization: An effective way of normalizing data. Pattern recognition,2022,122:108307.
- [19] Selvin S, Vinayakumar R, Gopalakrishnan E A, et al. Stock price prediction using LSTM, RNN and CNN-sliding window model.2017 International conference on advances in computing, communications and informatics (icacci).2017.
