7.3.1 數據處理
1.樣本選取
省會城市與計劃單列市報告部分選取的樣本是包括省會城市、計劃單列市、直轄市在內的36個城市,以市為單位進行區域民生發展指數的測算與比較。由於曆史原因,中國台灣、香港、澳門等地區的統計數據與中國其他城市的數據具有不同程度的差異,未被列入本報告研究範圍。地級城市報告部分選取的樣本是27個省(區)的260個地級市,以市為單位進行區域民生發展指數的測算與比較。[1]
2.數據收集
為保障數據科學、準確,本報告采用的基礎數據全部來源於公開出版的年鑒或者相關部門公布的權威指標數據,主要有2017年各省會城市、副省級城市、計劃單列市、地級市國民經濟和社會發展統計公報。
3.缺失數據處理
對於缺失的數據主要有兩種處理方法:(1)報告中,有些城市的統計指標各個年度出現變化,一些指標在2017年統計公報中找不到數據,使用了2016年公報中的數據。(2)在使用第一種數據處理方法後仍未能夠對數據進行補全的,取所在省(區)該指標平均值的方法進行補全,第二種方法主要體現在地級市民生發展報告中。
4.逆向指標處理
在本報告的中國民生發展指數4.0指標體係中,共有25個三級指標,其中正向指標20個,逆向指標5個。在對指標數據進行無量綱化之前,必須對逆向指標數據進行處理,將其轉變為正向指標,以方便統一測算。依據各逆向指標的實際含義和表征內容,對於比值類的指標數據,本報告采取了取其倒數的方法將其轉化為正向指標;對於百分率類的指標,則主要通過公式“100-指標值”即求補法來將其正向化,基本原則是保證正向化後的指標仍有明確、具體的實際含義和表征內容,不影響用其進行測算和分析。各逆向指標具體的正向化操作方法可參見表7-2。