前言:想要寫出一篇引人入勝的文章?我們特意為您整理了農產品市場價格數據挖掘預測分析范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:本文運用大數據采集、清洗、存儲、挖掘等技術實現農產品市場價格的挖掘預測。通過建立ARIMA模型以玉米銷售價格的時間序列走勢,完成對玉米未來銷售價格的短期預測,并通過數據可視化的圖表形式呈現。
關鍵詞:Python技術;網絡爬蟲;數據挖掘預測;ARIMA
引言
隨著大數據時代的到來,人們對數據的獲取、統計的需求日益增大。爬蟲技術的不斷成熟為人們獲取互聯網數據提供了極大的便利。在農業領域,人們開始將農業數據與大數據技術相結合,運用大數據的采集、存儲、分析以及可視化等技術,幫助人們快速挖掘、分析出數據背后有價值的信息,降低農產品生產、銷售過程中不必要的風險。本文以中國飼料行業信息網中玉米的銷售價格為數據源,采用網絡爬蟲軟件GeeSooker進行數據采集和存儲,以玉米市場價格的歷史時間序列建立價格預測的ARI-MA模型[1],進一步分析玉米市場價格的波動狀況和變化趨勢。
1預測技術的概述
1.1網絡爬蟲技術
農產品市場價格挖掘預測是基于互聯網農業數據,為了滿足農產品市場價格數據挖掘預測的需求,本文采用網絡爬蟲技術獲取互聯網數據,數據獲取過程如圖1所示。其中,爬蟲引擎[2]用于處理爬蟲系統的數據流處理并觸發事務;調度器用于接受引擎發送的請求,將其放入處理隊列,并在引擎再次請求時返回;數據清洗模塊是將下載下來的信息進行處理,剔除無效信息和冗余信息;下載器用于下載網站頁面內容,并將其傳遞給下一個處理業務;爬蟲規則用來指定下載網頁,編寫用于分析網站源碼并聽取信息。
1.2數據的采集過程
本文采用GeeSooker爬蟲瀏覽器對中國飼料信息網的2018年1月到2019年2月玉米銷售價格進行采集,采集過程[3]如下:1)加載網頁,定義加載規則、主題;2)點選待采信息生成標簽,抓取內容并提交;3)測試,保存規則,開始爬取數據;4)DataScraperworks文件夾中查看數據。
1.3數據清洗
數據清洗是整個數據分析過程中不可或缺的一部分,結果的質量與模型的效果和最終結論直接相關。本文重點對采集數據進行缺失值清洗、邏輯錯誤清洗和關聯性驗證,最終得到表1中2018/1/2~2019/2/28玉米的銷售價格數據。
2模型建立的分析
2.1ARIMA模型
ARIMA模型是差分整合移動平均自回歸模型,它是時間序列預測分析方法之一。該模型可以通過時間序列數據了解數據或預測系列中的未來預測點。在數據顯示非平穩性證據的一些情況下,可以應用初始差異步驟一次或多次消除非平穩性。
2.2ARIMA模型運用流程
首先獲得時間序列數據;觀察模型可視化得到的原始時間序列圖是否平穩,如果不平穩,可通過差分運算平穩化;通過差分運算后得到新的自相關圖和偏自相關圖來驗證模型的穩定性;對模型進行參數檢驗,使結果更具合理性;利用已通過檢驗的模型進行預測。差分平穩時間序列建模步驟如圖2所示。
3模型的實現
3.1建立模型
首先,利用Python語言將抓取數據對接[4],為后文模型的建立做鋪墊,具體代碼如下所示。從圖3原始序列的時序圖可以看出2018年1月~2019年2月玉米的歷史銷售價格波動情況呈現上升趨勢,說明模型沒有達到平穩化要求,需要進行處理。進一步利用Python語言建立原始序列的自相關圖。圖4原始序列的自相關圖顯示玉米銷售價格波動具有很強的非平穩性。通過一階差分運算對原始數據序列進行平穩化處理,使玉米銷售價格波動趨向平穩,如圖5所示。利用差分運算轉化得到新的自相關圖和偏自相關圖,如圖6和圖7。結果顯示玉米銷售價格波動趨向穩定。
3.2模型檢驗
利用表2原始序列的單位根檢驗所示,進一步證明數據趨向穩定性得到可靠的模型來提前預測短期玉米銷售價格的實際情況,為農業預測合理數據,避免供大于求或供不應求的現象。差分序列的單位根檢驗如表3所示。表2和表3數據顯示,原始序列的單位根檢驗沒有使模型平穩化。然后通過差分序列之后得到的單位根檢驗數據逐漸趨向平穩,通過P值可以看到其結果小于0.05,證明新的序列已達到平穩。
3.3模型預測
建立的ARIMA模型進行短期預測,為了得到可靠合理的數據,使誤差降到最小,我們只能做未來1個月的預測[5,6]。所以應用ARIMA模型對2019/3/1~2019/3/31玉米的銷售價格數據做為期31天的預測,結果如表2所示。
4結語
本文利用Python語言進行程序實現ARIMA模型,實現了玉米銷售價格的預測。通過建立模型得到可視化預測圖表以驗證模型的可靠性,并形象直觀表達價格波動情況,得到為期1個月的短期預測數據。該模型的優點是,在短期預測中誤差較小、數據變化較穩定。但在長期預測中,由于時間延遲,數據波動較大,預測結果尚不穩定。
參考文獻
[1]徐克.基于價格分解的鮮活農產品短期價格預測模型[D].北京:中國農業科學院,2016.
[2]楊國志,江業峰.基于Python的聚焦網絡爬蟲數據采集系統設計與實現[J].科學技術創新,2018(27):73-74.
[3]陳維潔.大蒜價格預測及大數據服務系統研發[D].泰安:山東農業大學,2019.
[4]張良均,王路,譚立云,等.Python數據分析與挖掘實戰[M].北京:機械工業出版社,2017.
[5]吳玉霞,溫欣.基于ARIMA模型的短期股票價格預測[J].統計與決策,2016(23):83-86.
[6]徐雅卿,魏軼華,李旭剛.農產品價格預測模型的構建[J].統計與決策,2017(12):75-77.
作者:趙宇蘭 單位:山西大學商務學院信息學院