快速檢索        
  農業資源與環境學報  2021, Vol. 38 Issue (6): 1132-1141  DOI: 10.13254/j.jare.2021.0201
0

引用本文  

陳宇, 周悟, 胡月明, 等. 耕地質量評價缺失數據填充方法研究[J]. 農業資源與環境學報, 2021, 38(6): 1132-1141.
CHEN Yu, ZHOU Wu, HU Yueming, et al. Research on filling methods of missing data in cultivated land quality evaluation[J]. Journal of Agricultural Resources and Environment, 2021, 38(6): 1132-1141.

基金項目

國家重點研發計劃課題(2020YFD1100204);國家自然科學基金項目(U1901601)

Project supported

National Key R&D Program of China(2020YFD1100204); The National Natural Science Foundation of China(U1901601)

通信作者

胡月明??E-mail: yueminghugis@163.com

作者簡介

陳宇(1998-), 男, 湖北荊州人, 碩士研究生, 從事土地資源大數據研究。E-mail: yc980718@163.com

文章歷史

收稿日期: 2021-04-06
錄用日期: 2021-06-10
耕地質量評價缺失數據填充方法研究
陳宇1 , 周悟1 , 胡月明1,2,3,4,5,6 , 謝健文1,2,3,4,6     
1. 華南農業大學資源環境學院, 廣州 510642;
2. 廣東省土地信息工程技術研究中心, 廣州 510642;
3. 廣東省土地利用與整治重點實驗室, 廣州 510642;
4. 自然資源部建設用地再開發重點實驗室, 廣州 510642;
5. 青海大學農牧學院, 西寧 810016;
6. 青海-廣東自然資源監測與評價聯合重點實驗室, 西寧 810016
摘要: 在耕地質量數據調查與采集過程中會由于人為、環境等因素造成數據缺失,而目前數據缺失填充方法都存在適用性不足的問題,為完善耕地質量數據庫從而提高耕地質量評價精度,對耕地質量評價缺失數據填充方法的研究是十分重要的。本研究以廣州市從化區耕地質量數據庫為樣本集,根據空間相關性和空間分布將數據集劃分為空間關聯性數據集和非空間關聯性數據集,利用多種填充方法對其進行缺失填充模擬,采用十字交叉法進行精度驗證。結果表明:選取數據整體異常值比例不足1.2%,且高程、氣溫、有效鋅等25組因素具有空間相關性。對空間關聯性數據填充精度最高的是四象最近鄰算法,在缺失率20%以下時精度仍高達80%,精度隨缺失率增大而降低,其次為K最鄰近(KNN)算法、期望最大化法、多重填充法、回歸模型算法,四象最近鄰算法相較于KNN算法在數據密集時精度更好。對非空間關聯性數據填充精度最高的是相似聚集填充算法,在缺失率25%以下時精度超過80%,其次為期望最大化法、多重填充法、回歸模型算法。綜上,本研究提出的四象最近鄰算法和相似聚集填充算法相比其他算法在耕地質量評價缺失數據填充中精度更高,效果更穩定,且實用性更廣。
關鍵詞: 耕地質量評價    缺失    數據    填充    從化區    精度    
Research on filling methods of missing data in cultivated land quality evaluation
CHEN Yu1 , ZHOU Wu1 , HU Yueming1,2,3,4,5,6 , XIE Jianwen1,2,3,4,6     
1. College of Natural Resources and Environment, South China Agricultural University, Guangzhou 510642, China;
2. Guangdong Province Engineering Research Center for Land Information Technology, Guangzhou 510642, China;
3. Guangdong Provincial Key Laboratory of Land Use and Consolidation, Guangzhou 510642, China;
4. Key Laboratory of the Ministry of Natural Resources for Construction Land Transformation, Guangzhou 510642, China;
5. College of Agriculture and Animal Husbandry, Qinghai University, Xining 810016, China;
6. Qinghai-Guangdong Joint Key Laboratory of Natural Resources Monitoring and Evaluation, Xining 810016, China
Abstract: In the process of cultivated land quality data investigation and collection, there will be missing data due to human, environmental, and other factors. However, the current missing data-filling methods have insufficient applicability. In order to improve the cultivated land quality database and evaluation accuracy, it is important to explore missing data-filling methods in cultivated land quality evaluation. In this study, the cultivated land quality database of Conghua District Guangzhou City was used as the sample set. According to the spatial correlation and spatial distribution, the dataset was divided into spatial and non-spatial correlation datasets. Various filling methods were used to simulate the missing data filling, and a cross method was used to verify the accuracy. The results indicated the proportion of total outliers was less than 1.2%, and 25 factors such as elevation, temperature, and available zinc showed spatial correlation. The four-image nearest neighbor algorithm presented the highest filling accuracy for spatial association data, and the accuracy was as high as 80% when the missing rate was less than 20%. The accuracy decreased with the increase in the missing rate. The four-image nearest neighbor algorithm was followed by K-nearest neighbor algorithm(KNN), expectation maximization algorithm, multiple interpolation algorithm, and regression model algorithm. The four-image nearest neighbor algorithm showed better accuracy than K-nearest neighbor algorithm when the data was dense. For the non-spatial correlation dataset, the highest filling accuracy was the similar aggregation filling algorithm, which could maintain more than 80% accuracy within 25% of the missing rate, followed by expectation maximization algorithm, multiple interpolation algorithm, and regression model algorithm. To sum up, the four-image nearest neighbor algorithm and the similar aggregation filling algorithm proposed in this study show higher accuracy, more stable effect, and wider practicability than other algorithms for filling missing data in cultivated land quality evaluation.
Keywords: evaluation of cultivated land quality    missing    data    filling    Conghua District    accuracy    

耕地是一種特定的土地,是人類活動的產物,是人類開墾之后用于種植農作物并經常進行耕耘的土地[1]。它是人類所需食物的主要源泉,是農業生產發展的主要物質基礎,而耕地關乎糧食安全,糧食安全關乎國家發展與社會穩定[2]。耕地質量評價可準確評估耕地生產力與適宜性,是耕地保護、開發、政策完善等的重要前提[3]。

耕地質量評價數據是對耕地質量產生影響的指標數據集,而耕地質量評價缺失數據即是數據集中部分遺漏、未采集、已知錯誤的數據。耕地質量評價數據量大、類型眾多,在數據獲取、輸入、傳輸過程中,存在因人員操作不當、機器故障等原因導致的數據錯誤與缺失的情況,而數據的錯誤也是數據缺失的表現形式,進而直接影響數據分析與挖掘,使得評價結果不準確、數據利用不充分[4]。而目前對于缺失數據填充方法已有相關研究,尤其插值法、最近鄰填充、回歸模型、期望最大化法、多重填充等方法應用相對廣泛,但這些方法都存在明顯的不足??臻g插值法在不同區域不同數據中的最優表現有明顯差異,如克里格插值、反距離加權兩種方法在不同研究中表現出各自最優,但空間插值法存在方法的選擇和結論的不確定性問題[5-7];最近鄰填充法是簡單高效且相對高精度的填充算法,但面對不同數據集難以有穩定的填充效果,并且存在K值難以度量的問題[8-10];回歸模型法填充局限性較大,對于數據之間的相關性要求極高,即需要數據存在必然的因果關系,并且根據數據關系構建模型費時費力,修改也極其不易[11-13];期望最大化法是一種迭代優化過程,執行簡單且穩定,逐步尋找最優解,但該算法適用于大樣本,且數據集應服從正態分布[9-10, 14];多重填充法是對每個數據缺失值生成多個預測值,與上述方法不同的是該算法表現了數據集原有的不確定性,其隨機性強,但運算過程復雜,精度相對較低[15]。

數據的填充能彌補數據自身的缺失或滿足應用的需求,如儀器設備測量問題、操作員錄入問題、分析問題等會使得數據結果與真實值存在較大差異,最終嚴重影響耕地質量評價結果[16]。某些數據的直接測量極其復雜或耗時耗力,甚至無法實現,因而需要采用數據填充法,如劉菲等[14]利用相關性因子對森林地林木平均胸徑的填充,就是間接運用數據之間的關聯性得到所需的數據。目前耕地數據庫日益增加,數據規范性、完整性不足的問題愈發突出,導致數據的缺失填充愈發重要;同時對耕地調查評價愈發頻繁,評價指標不斷豐富,新增指標數據的獲取也成為主要問題。

目前數據缺失已是不可避免的現實,而對耕地質量評價數據而言,數據的完整才是耕地質量評價的基礎,由于耕地數據的采樣極其復雜耗時,所以對于耕地質量評價數據的缺失填充研究迫在眉睫。當前耕地質量評價缺失數據填充沒有得到系統地研究,現有的研究基本上只對耕地土壤成分缺失數據進行空間插值填充,為了科學評價耕地質量,保證土地政策和制度的有效推行,必須對當前方法進行合理利用與改進,提出耕地質量評價缺失數據填充方法,提高耕地質量評價結果的精確性和可信度。針對目前耕地質量評價數據缺失現狀,本研究對耕地缺失數據的填充方法進行探討,旨在提高耕地質量評價缺失數據的填充精度,從而完善耕地質量評價數據體系,為今后耕地質量評價等相關研究提供的理論依據,并對填充算法的應用提供更多思路與可能。

1 材料與方法 1.1 研究區概況及數據來源 1.1.1 研究區概況

從化區地處廣東省中部、廣州市東北部,位于113°17′ ~114°04′ E、23°22′ ~23°56′ N,全區總面積1 984.2 km2,2019年末人口64.17萬。屬于亞熱帶季風氣候,年平均氣溫21.2 ℃,降水充足,河道縱橫,水資源豐富。從化區處于珠江三角洲到粵北山區過渡地帶,地勢自北向南傾斜,東北高,西南低,地形呈階梯狀。2019年農村人口占比54.89%,而基本農田面積為174.9 km2,占全區面積不足10%。從化區地理位置、耕地及采樣點分布如圖 1所示。

圖 1 從化區地理位置、耕地及樣點分布圖 Figure 1 Geographical location, cultivated land and samples distribution of Conghua District
1.1.2 數據來源

本研究數據主要來源于廣東省/廣州市統計年鑒、第二次全國土壤調查、廣州市基本農田調查、數據挖掘及問卷調查等。根據常用的評價指標發現[17-18],土壤條件對耕地質量影響最大,而地形、氣候雖然在小區域變化不大,但也是影響耕地質量的重要因子。本研究主要選取從化區基本農田數據、土壤重金屬數據(76個樣點)、樣點基礎數據(204個樣點)等,將其劃分為地類地形、土壤條件、氣候條件3個方面(表 1),共32個指標,5 888條耕地質量評價數據,這些數據充分體現了從化區耕地質量的現狀,為耕地質量評價奠定了基礎。

表 1 耕地質量評價指標 Table 1 Cultivated land quality evaluation index
1.2 方法與設計

缺失數據填充方法從應用對象上主要分為兩大類型,即空間性和非空間性??臻g性方法是充分考慮到數據本身存在空間關聯性,從而利用自身空間關聯特征來通過已知數據對缺失數據進行填充的方法;而非空間性數據之間不存在任何地理關聯性,只能尋找與其他數據內部的關聯性,利用其關聯性對未知數據進行預測填充[17]。而對于耕地質量評價數據而言,其自身的復雜多樣性決定了單一方法無法解決,因此本研究在缺失數據填充方法基礎上進行改進后對耕地質量評價缺失數據進行填充,并與傳統方法進行精度比較。

1.2.1 空間相關性分析

空間自相關分析是檢驗具有空間屬性的要素是否對相鄰空間點屬性值產生影響,所以空間相關性分析必須對其屬性的空間位置和屬性值進行統計。目前對空間相關性分析的方法較多,最常用的是Moran′s I指數,當I>0時,為正相關;I=0時不相關;I < 0為負相關。具體計算見公式(1)[19]:

(1)

式中: xixj分別為ij所在位置的屬性值;為該元素屬性平均值;Wij為權重。

1.2.2 填充方法

缺失數據填充方法研究已近百年,方法在不斷被提出與完善,目前已提出的方法有回歸模型填充、期望最大化填充(Expectation maximization,EM)、多重填充(Multiple imputation,MI)、K最鄰近填充(K-nearest neigbor,KNN)、空間插值、神經網絡、隨機森林等,本研究選取常用的幾種缺失數據填充方法進行簡單介紹并提出改進方法。

(1) 常用填充方法

回歸模型填充是通過對自變量與因變量之間的關系進行建模預測[5-7]。該方法對于數據之間的相關性要求極高,即需要數據存在必然的因果關系。因此主要用于分析結果數據預測,多用于時間序列預測法。

KNN填充是利用歐氏距離度量與當前數據最相似的K條記錄,然后用這K條記錄在當前屬性出現頻率最高的值進行填充或者利用這K條記錄對缺失位置的屬性利用距離的歸一化進行加權填充[20-22]。該方法多用于空間樣點數據的填充,與常用空間插值反距離權重插值原理相同,該插值方法常應用于土壤數據、氣候數據的填充,不同之處在于前者是對已知點缺失值的填充,后者是對未知點數據的預測[23-24]。

多重填充方法是對每個數據缺失值生成多個預測值,呈現缺失數據的不確定性;每個值都用來填充數據集中的缺失值,產生若干個完整數據集合;再利用相同的方法對多個數據集進行分析,篩選出最優解[15]。

期望最大化法是一種迭代算法,由兩步組成: 第一步是求出期望,第二步則是將隨機參數進行極大化。先給隨機變量一個初始值,求出模型中各個參數的估計值,然后再利用新估計出的模型對該隨機變量進行估計,如此反復迭代,直至模型收斂為止[9-10, 14]。

(2) 四象最近鄰填充

四象最近鄰填充是在KNN填充的基礎上進行改進,由于KNN法是直接篩選出最近的K個對象,有可能會存在K個對象都趨向于一方的現象,導致最終的填充結果有較大偏差,所以針對該方法的不足進行改進,提出四象最近鄰填充方法[23]。四象最近鄰填充方法是針對某個對象屬性缺失值,在數據樣本中尋找該對象每個象限中最鄰近的n個對象,并利用其對應屬性進行反距離加權運算,最終結果為該對象缺失值的預測值。該方法既彌補了KNN的不足,也避免了K值選擇的困難。具體過程如下:

① 距離度量的確定: 計算出所有耕地數據對象的屬性距離,用于衡量兩兩之間的影響程度。本研究采用目前最常用的距離度量算法——歐式距離。

(2)

式中: dab為對象a和對象b之間的度量距離,m;xia表示第a個對象的第i維坐標,m;xib表示第b個對象的第i維坐標,m;i代表對象數據維度(本研究耕地數據為二維);ab代表某個數據對象。

② 鄰近篩選: 對缺失數據對象點周邊其他對象進行逐一象限篩選,對存在對象的每個象限選擇n(n≤ 3)個對象用來填充缺失數據,n過大會導致距離太遠,從而關聯性降低,對于周邊對象少的n取值為1,保證數據具有較高的關聯性。

③ 權重分配: 采用距離權重反比,根據缺失對象與樣本點對象的距離進行加權度量,一般取值權重與距離平方成反比。具體計算表達式見公式(3):

(3)

式中: wak為對象k對對象a的影響權重系數;dak為對象a和對象k之間的度量距離,m;k為缺失數據對象篩選出的第k個對象。

④ 缺失填充: 根據缺失對象篩選出的樣本對象對應屬性值與權重系數計算缺失填充值。存在的特殊分類數據先將其轉換為數值數據,直接選取重復率最高的進行填充。具體計算表達式見公式(4):

(4)

式中: T為缺失填充值;vk是第k個對象對應的屬性值。

(3) 相似聚集填充

相似聚集填充是將數據集劃分為完整數據集和缺失數據集,通過對完整數據集內部數據自身相似關聯性進行分析,通過不斷迭代運算計算出數據對象間的相似性,最終利用缺失數據集中已知數據和對象相似性結果預測缺失數據集中缺失值。該方法具體步驟如下:

① 數值歸一化: 由于耕地數據類型眾多、數據量大,數據會因為屬性值范圍不一、文本數據、離散數據等原因,導致數據不同屬性產生影響的不平衡性,所以需要將所有數據屬性值歸到相同數值范圍內,將文本數據轉換為數值數據,使所有屬性影響相同。為簡化歸一結果,一般都選擇[0, 1]。數值歸一化過程具體計算見公式(5)、(6):

(5)

其中

式中: 為屬性值的平均值;ai為該屬性第i個屬性值;n為該屬性中屬性值的個數;S為該屬性的標準差;Ci為數據格式化該屬性第i個屬性值。

(6)

式中: 數據集U={C1,C2,…,Cn},UmaxUmin是表示該屬性數據集的最大值和最小值;Di為歸一化處理后該屬性中第i個屬性值。

② 相似度度量: 計算完整數據集中對象之間的相似度,連續變量相似度計算見公式(7),離散變量相同為1,否則為0;構建相似度矩陣S。再通過構建吸引度矩陣X和歸屬度矩陣G(初始值為0)不斷迭代直到聚集中心不變后停止,確定最終對象相似度矩陣[25]。

(7)
(8)
(9)
(10)

式中: aij為對象j的第i個屬性的值;sij為第i和第j的對象之間的相似度;xij為第ij的對象之間的吸引度;gij為第ij的對象之間的歸屬度;i′和j′均表示非i和非j;當gjj+xjj>0時,迭代停止,此時與對象相似度最高的為該對象的聚集中心。

③ 缺失值填充: 選擇與缺失值對象最高相似度的k個對象作為參考值,如果其中對象也存在對應缺失值,即向下尋找下一個相似度最接近的對象。權重確定方法選擇距離權重反比,具體計算同公式(2);再通過權重和已知樣品數值計算缺失值,計算式同公式(3);對離散數據選擇重復率最高的作為預測值。

1.2.3 實驗設計

由于耕地數據覆蓋面廣、類型眾多、結果復雜、數據量大、數據采集周期長等原因,對耕地質量評價缺失數據的研究較少,本研究在原有填充算法不足的前提下,提出四象最近鄰和相似聚集填充方法較以往填充方法的優勢。提出的兩種方法是針對耕地質量評價數據結構特征,具有針對性,所以該方法在本研究的適用性較好。為驗證其方法的精度并與其他填充方法比較,利用Python 3.7和SPSS 26進行數據處理和精度計算,具體過程如下。

(1) 缺失處理: 為驗證數據填充方法的精度,選取真實完整的數據進行實驗。首先使用正態分布對數據異常值進行剔除,避免數據填充過程中數據異常值影響過大,導致填充精度過低。利用空間相關性和空間分布圖分析將數據集劃分為空間數據集和非空間數據集;再對空間數據集中數據除去坐標數據外隨機刪除1%、5%、10%、15%、20% 數據信息,用于模擬缺失數據集,采用四象最近鄰填充方法和其余傳統填充方法進行填充;對非空間數據集中隨機選取5%、10%、15%、20%、25%屬性因素,在其中隨機刪除部分屬性信息,模擬缺失數據集,采用相似聚集填充方法和其余傳統填充方法進行填充。

(2) 精度檢驗: 由于數據對方法的適應能力不同,為了避免偶然性,每次試驗都得出不同的精度,一般取多次結果的精度平均值對模型方法精度進行估計,本研究取10次計算結果的平均值為最終精度。精度采用預測值與真實值相關系數計算,具體見公式(11):

(11)

式中: X為真實值;X′為預測值;n為填充個數;Q為填充精度。

2 結果與討論 2.1 數據統計結果

由于采集的數據會存在少量異常值,需對所有數據進行正態分布檢驗,本研究取置信區間為(-3σ, + 3σ),將置信區間外的屬性值劃為異常值,數據檢驗結果(表 2)表明,32組屬性數據基本符合正態分布,異常值比例均小于3.5%,平均異常值比例僅為1.2%。

表 2 從化區數據統計結果 Table 2 Statistical results of Conghua District
2.2 空間相關性分析

利用ArcMap10.2的空間自相關(Moran′ s I)工具對32組屬性數據進行空間相關性檢驗,Moran′ s I指數取值范圍為[-0.261 9,0.652 1],其中具有空間正相關的因素有高程、氣溫等25個,具有空間負相關的因素有全氮、粉砂粒等7個,具體相關性統計結果見表 3。

表 3 Moran′s I指數統計結果 Table 3 Statistical results of Moran′s I index

雖然空間自相關分析較為客觀,但為避免偶然性,本研究再利用ArcMap10.2生成空間分布圖,進一步分析數據是否具有聚集相關性[26],部分空間分布圖如圖 2所示。

圖 2 高程、pH值、全氮、微生物含量空間分布圖 Figure 2 Elevation, pH value, total nitrogen and microbial content spatial distribution map

圖 2可以看出: 從化區西南部海拔低、東北部海拔較高,具有明顯的空間分布差異性;pH值基本呈現西南部偏低、東部較高、北部居中,也具有明顯的空間分布差異性;而全氮含量分布不存在明顯的規律和特征;微生物含量呈現與海拔高度相反的趨勢,西南部含量高,東北部含量低,具有顯著的空間分布差異性。而氣候條件中氣溫與高程分布特征基本相似,東北部山區氣溫偏低,西南部平原氣溫偏高;降水及濕度與地形特征具有較大關聯性,降水量相對較高的地區分布在東北部山區南坡和西南地區。數據空間分布結果分析與空間自相關分析整體基本一致,根據最終分析結果將32組數據集分為空間性數據和非空間性數據。

2.3 空間性數據填充精度評價

根據空間相關性分析得出耕地質量評價數據中的空間性數據,如高程、氣溫、有效鋅等25組數據,并對上述空間性數據采用回歸模型法、KNN法、期望最大化填充法、多重填充算法及四象最近鄰填充法進行缺失填充,并計算不同填充方法不同缺失率下的填充精度(表 4)。

表 4 不同缺失率下空間性數據各填充方法的填充精度比較(%) Table 4 Comparison of filling accuracy of different filling methods for spatial data with different missing rate(%)

表 4可以得出,所有填充方法的填充精度均隨著缺失率的上升逐漸降低,空間性數據中填充算法的整體精度表現為: 四象最近鄰填充>KNN填充>期望最大化填充>多重填充>回歸模型填充。四象最近鄰填充算法的數據填充精度最高,在1.0% 缺失率時填充精度高達92.6%;而KNN算法在缺失率較低時,精度略低于四象最近鄰填充算法,隨著缺失率的不斷提高,兩種填充方法的精度逐漸趨于接近,主要原因是缺失率較高時,四象最近鄰方法篩選各象限鄰近點愈發靠遠,尋找較遠點導致關聯性較低從而降低了填充精度。其他三種算法中期望最大化法精度相對較高,并且隨著缺失率的提高精度降幅較為平緩;多重填充法在缺失率為1.0% 時精度超過80%,而隨著缺失率上升精度急劇下降;回歸模型填充算法的精度普遍較低,在缺失率15% 以下填充精度趨于穩定,而缺失率為20% 時精度快速下滑。期望最大化法填充、多重填充和回歸模型填充三種方法的精度相對較低可能是由于數據具有空間相關性,而這幾種方法并沒有對數據內部關聯性進行分析,而只是運用數據值進行分析預測。

綜上所述,對于耕地質量評價空間性數據,本研究提出的四象最近鄰填充算法在精度上相對突出并穩定,整體上優于其他方法。

2.4 非空間性數據填充精度評價

在耕地質量評價數據中,非空間性數據包括全氮、粉砂粒等7組因素,對該數據類型采取非空間性填充方法進行數據缺失填充,采用回歸模型填充、多重填充、期望最大化法填充、相似聚集填充,對非空間性缺失數據進行不同缺失率下的精度計算,結果見表 5。

表 5 不同缺失率下非空間性數據各填充方法的填充精度比較(%) Table 5 Comparison of filling accuracy of different filling methods for non-spatial data with different missing rate(%)

表 5可知: 隨著數據缺失率的提高,四種數據填充算法的精度都有所降低。而在這些算法中,相似聚集填充算法精度最高,在缺失率為5%~10% 時,數據填充精度超過90%,主要原因是該方法集聚關聯因素而避免了不同類型因素之間的相互影響。并且該算法在缺失率25% 以下時,算法的精度均平穩下降,而期望最大化法填充、多重填充和回歸模型填充在缺失率達到15% 時精度降幅明顯加快,而多重填充和回歸模型填充算法在整體上的填充精度較低,即使在缺失率為5% 時的精度也僅為80% 左右,所以相似聚集填充算法比較穩定,且在缺失率較高時仍然能保持較好的填充精度。綜上所述,相似聚集填充算法對本研究中耕地質量評價非空間關聯性數據缺失填充具有優勢,在精度上明顯優于其他填充算法,集中表現了其精度高、穩定性強的特點。

3 結論

本研究以廣州市從化區耕地質量評價數據為樣本數據集,采用多種數據缺失填充方法進行分析,對數據進行空間相關性分析,并對缺失數據進行填補,結論如下:

(1) 從化區耕地質量評價數據基本服從正態分布,異常數據較少,32組數據中有25組具有空間自相關性。

(2) 對空間關聯性數據填充精度最高的方法是四象最近鄰算法,在缺失率20% 以下時精度均高達80%,精度隨缺失率增大而降低,其次為KNN算法、期望最大化法、多重填充法、回歸模型法。

(3) 對非空間關聯性數據填充精度最高的是相似聚集填充法,在缺失率25% 以下時可保持80% 以上的高精度,其次為期望最大化法、多重填充法、回歸模型法。

(4) 本研究提出的四象最近鄰算法和相似聚集填充算法不僅在相同缺失率情況下精度更高,同時缺失率閾值范圍更廣,說明其方法的實用性更強。綜上,本研究提出的四象最近鄰填充方法和相似聚集填充方法對耕地質量評價缺失數據填充的精度較其他方法有較大提升,并且更加適用于耕地領域。下一步將進行不同研究區的驗證研究,來證實本研究提出方法的實用性和可靠性。

參考文獻
[1]
沈仁芳, 陳美軍, 孔祥斌, 等. 耕地質量的概念和評價與管理對策[J]. 土壤學報, 2012, 49(6): 1210-1217.
SHEN R F, CHEN M J, KONG X B, et al. Conception and evaluation of quality of arable land and strategies for its management[J]. Acta Pedologica Sinica, 2012, 49(6): 1210-1217.
[2]
成升魁, 李云云, 劉曉潔, 等. 關于新時代我國糧食安全觀的思考[J]. 自然資源學報, 2018, 33(6): 911-926.
CHENG S K, LI Y Y, LIU X J, et al. Thoughts on food security in China in the new period[J]. Journal of Natural Resources, 2018, 33(6): 911-926.
[3]
WANG Z, WANG L M, XU R N, et al. GIS and RS based assessment of cultivated land quality of Shandong Province[J]. Procedia Environment Sciences, 2012, 12: 823-830. DOI:10.1016/j.proenv.2012.01.354
[4]
劉思謙. 不完全數據填充算法的研究與應用[D]. 大連: 大連理工大學, 2017.
LIU S Q. Research and application of incomplete data imputation algorithm[D]. Dalian: Dalian University of Technology, 2017.
[5]
李新, 程國棟, 盧玲. 空間內插方法比較[J]. 地球科學進展, 2000, 15(3): 260-265.
LI X, CHENG G D, LU L. Comparison of spatial interpolation methods[J]. Advances in Earth Science, 2000, 15(3): 260-265. DOI:10.3321/j.issn:1001-8166.2000.03.004
[6]
朱求安, 張萬昌, 余鈞輝. 基于GIS的空間插值方法研究[J]. 江西師范大學學報(自然科學版), 2004, 28(2): 183-188.
ZHU Q A, ZHANG W C, YU J H. The spatial interpolations in GIS[J]. Journal of Jiangxi Normal University(Natural Sciences Edition), 2004, 28(2): 183-188. DOI:10.3969/j.issn.1000-5862.2004.02.022
[7]
林忠輝, 莫興國, 李宏軒, 等. 中國陸地區域氣象要素的空間插值[J]. 地理學報, 2002, 57(1): 47-56.
LIN Z H, MO X G, LI H X, et al. Comparison of three spatial interpolation methods for climate variables in China[J]. Acta Geographica Sinica, 2002, 57(1): 47-56. DOI:10.3321/j.issn:0375-5444.2002.01.006
[8]
TROYANSKAYA O, CANTOR M, SHERLOCK G, et al. Missing value estimation methods for DNA microarrays[J]. Bioinformatics, 2001, 17(6): 520-525. DOI:10.1093/bioinformatics/17.6.520
[9]
嚴遠亭, 吳亞亞, 趙姝, 等. 構造性覆蓋下不完整數據修正填充方法[J]. 智能系統學報, 2019, 14(6): 1225-1232.
YAN Y T, WU Y Y, ZHAO S, et al. Improving missing data recovery with a constructive covering algorithm[J]. CAAI Transactions on Intelligent Systems, 2019, 14(6): 1225-1232.
[10]
花琳琳. 不同缺失值處理技術的模擬比較[D]. 鄭州: 鄭州大學, 2012.
HUA L L. Simulated comparison of different filling methods in missing values[D]. Zhengzhou: Zhengzhou University, 2012.
[11]
謝花林, 李波. 基于Logistic回歸模型的農牧交錯區土地利用變化驅動力分析——以內蒙古翁牛特旗為例[J]. 地理研究, 2008, 27(2): 294-304.
XIE H L, LI B. Driving forces analysis of land-use pattern changes based on logistic regression model in the farming-pastoral zone: A case study of Ongiud Banner, Inner Mongolia[J]. Geographical Research, 2008, 27(2): 294-304. DOI:10.3321/j.issn:1000-0585.2008.02.007
[12]
鄧銀燕. 缺失數據的填充方法研究及實證分析[D]. 西安: 西北大學, 2010.
DENG Y Y. Study on the filling method of missing data and empirical analysis[D]. Xi'an: Northwest University, 2010.
[13]
HANSEN B E. Regression kink with an unknown threshold[J]. Journal of Business & Economic Statistics, 2017, 35(2): 228-240.
[14]
劉菲, 李明陽, 劉雅楠, 等. 森林資源抽樣調查缺失數據填充方法[J]. 林業資源管理, 2018(6): 130-137.
LIU F, LI M Y, LIU Y N, et al. Filling method for missing data of forest resource sampling investigation[J]. Forest Resources Management, 2018(6): 130-137.
[15]
申寧寧, 房瑞玲, 高宇釗, 等. 縱向研究缺失數據多重填補及混合效應模型分析[J]. 中國藥物與臨床, 2015, 15(7): 901-905.
SHEN N N, FANG R L, GAO Y Z, et al. Using multiple imputation and mixed-effects model on missing data: A longitudinal study[J]. Chinese Remedies and Clinics, 2015, 15(7): 901-905.
[16]
萬義良. 空間數據質量檢查與評估理論研究[D]. 武漢: 武漢大學, 2015.
WAN Y L. Research on the theory for spatial data quality inspection and assessment[D]. Wuhan: Wuhan University, 2015.
[17]
邱小倩, 胡月明, 朱阿興, 等. 基于關聯規則的耕地質量評價數據檢錯方法研究——以廣州市為例[J]. 中國土地科學, 2020, 34(3): 75-83.
QIU X Q, HU Y M, ZHU A X, et al. Research on associated rule-based error checking method on assessment index database of cultivated land quality: A case study on Guangzhou City[J]. China Land Science, 2020, 34(3): 75-83.
[18]
林子聰, 任向寧, 朱阿興, 等. 基于隨機森林算法的耕地質量定級指標體系研究[J]. 華南農業大學學報, 2020, 41(4): 38-48.
LIN Z C, REN X N, ZHU A X, et al. Research on the index system of cultivated land quality grading based on random forest algorithm[J]. Journal of South China Agricultural University, 2020, 41(4): 38-48.
[19]
邱炳文, 王欽敏, 陳崇成, 等. 福建省土地利用多尺度空間自相關分析[J]. 自然資源學報, 2007, 22(2): 311-320.
QIU B W, WANG Q M, CHEN C C, et al. Spatial autocorrelation analysis of multi-scale land use in Fujian Province[J]. Journal of Natural Resources, 2007, 22(2): 311-320. DOI:10.3321/j.issn:1000-3037.2007.02.019
[20]
趙地, 李光強, 李晶晶. 空間不完備數據及其填補方法研究[J]. 西部探礦工程, 2009, 21(1): 137-140.
ZHAO D, LI G Q, LI J J. Incomplete data of space and the resume methods on these data[J]. China Exploration Engineering, 2009, 21(1): 137-140. DOI:10.3969/j.issn.1004-5716.2009.01.053
[21]
邱英, 馮春雨, 謝鋒云, 等. 基于K鄰近算法的轉向架構架狀態識別研究[J]. 測控技術, 2019, 38(8): 48-53.
QIU Y, FENG C Y, XIE F Y, et al. State recognition of bogie frame based on K-nearest neighbor algorithm[J]. Measurement and Control Technology, 2019, 38(8): 48-53.
[22]
黃樑昌. KNN填充算法的分析和改進研究[D]. 桂林: 廣西師范大學, 2010.
HUANG L C. The analysis and improvement research of KNN-imputation algorithm[D]. Guilin: Guangxi Normal University, 2010.
[23]
趙業婷. 基于GIS的陜西省關中地區耕地土壤養分空間特征及其變化研究[D]. 楊凌: 西北農林科技大學, 2015.
ZHAO Y T. Spatial characteristics and changes of soil nutrients in cultivated land of Guanzhong region in Shaanxi Province based on GIS[D]. Yangling: Northwest A&F University, 2015.
[24]
張灝, 王嬌, 鄭新奇. 針對地質云鉆孔數據的空間插值方法選擇[J]. 礦山測量, 2020, 48(3): 12-16.
ZHANG H, WANG J, ZHENG X Q. Selection of spatial interpolation method for geological cloud drilling data[J]. Mine Surveying, 2020, 48(3): 12-16. DOI:10.3969/j.issn.1001-358X.2020.03.004
[25]
冷泳林, 陳志奎, 張清辰, 等. 不完整大數據的分布式聚類填充算法[J]. 計算機工程, 2015, 41(5): 19-25.
LENG Y L, CHEN Z K, ZHANG Q C, et al. Distributed clustering and filling algorithm of incomplete big data[J]. Computer Engineering, 2015, 41(5): 19-25.
[26]
胡克林, 張鳳榮, 呂貽忠, 等. 北京市大興區土壤重金屬含量的空間分布特征[J]. 環境科學學報, 2004, 24(3): 463-468.
HU K L, ZHANG F R, Lü Y Z, et al. Spatial distribution of concentrations of soil heavy metals in Daxing County, Beijing[J]. Acta Scientiae Circumstantiae, 2004, 24(3): 463-468. DOI:10.3321/j.issn:0253-2468.2004.03.017