公務員期刊網 精選范文 測度論在統計學中的應用范文

    測度論在統計學中的應用精選(九篇)

    前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的測度論在統計學中的應用主題范文,僅供參考,歡迎閱讀并收藏。

    測度論在統計學中的應用

    第1篇:測度論在統計學中的應用范文

    關鍵詞:統計測度;統計學;大數據;數據科學;

    作者簡介:李金昌,男,50歲,浙江義烏人。浙江財經大學校長,統計學教授,博士生導師。研究方向為經濟統計學,統計理論與方法,抽樣技術,政府統計等。

    最近兩年,統計學界對大數據問題所進行的理論探討逐漸增多,視角也各有千秋,引起了一些共鳴。圍繞大數據問題,由統計學、計算機科學、人工智能、數學等學科共同支撐的數據科學開始形成。但大數據畢竟是一個新課題,因此遠未達到對其有一個系統完整的認識,仍然需要從不同的方面加以研究,其中有一個重要但又容易被忽視的問題,即統計測度問題,值得去探討。

    一、什么是統計測度

    漢語上,測度是指猜測、揣度、估計。數學上,測度是一個函數,它對一個給定集合的某些子集指定一個數,這個數可以比作大小、體積、概率等等。通俗地說,測度把每個集合映射到非負實數來規定這個集合的大小:空集的測度是0;集合變大時測度至少不會減小(因為要加上變大的部分的測度,而它是非負的)。

    除了數學角度的測度論,查閱國內文獻資料,帶有測度這個詞匯的文獻不少,但專門針對統計測度(或測度)內涵的討論幾乎沒有。一些對社會經濟現象進行分析測度的文獻,例如新型工業化進程測度、貨幣流動性測度、全面小康社會發展進程測度、收入分配公平性測度、技術效率測度、人力資本測度、金融風險測度、產業關聯測度等等,所做的測度都是再測度,均不對測度本身進行討論。查閱國外文獻資料(關鍵詞:measurement),也同樣存在這樣的問題,只能收集到一些比較零散的表述。LudwikFinkelstein(1975)[1]認為,在我們對事物或現象進行描述時,測度可以被定義為對現實世界中某一現象的個體屬性或特征進行量化的過程。JamesT.Townsend和F.GregoryAshby(1984)[2]認為,如果按照極端的觀點,那么統計分析中的基本測度理論的含義仍然是存在爭議的。LudwikFinkelstein(2003)[3]指出,測度在那些原來尚未得到卓有成效或廣泛應用的領域,也已取得了明顯的進步,社會、政治、經濟和行為科學正在更大程度地利用定量技術;測度是現代思維的一種實際有效的工具,是我們借以描述世界的一種方法。GiovanniBattistaRossi(2007)[4]認為,用以表示測度結果的,是數字或者數字符號。LucaMari(2013)[5]認為,測度的基礎特征是被公認為世界上獲取并正式表達信息的基本方法,這讓它成為一種跨學科的工具。LudwikFinkelstein(2014)[6]指出,在自然科學技術中,測度的重要性不可否認,它是科學調查和發現必不可少的工具,它可將宇宙中的復雜現象用精確、簡潔和普遍的數學語言來描述。

    那么,到底什么是統計測度呢?目前沒有一個統一的定義。本文認為,統計測度具有不同于測度的意義,并且大大超越數學上的界定,即它具有數學定義的一般屬性,但又不受制于函數表現形式,因為統計測度所要面對的是現實世界,實際問題要比理論上可以定義的問題復雜得多。按照我們的理解,統計測度就是用一定的符號和數字,用一定的形式和載體,對所研究的現象或事物的特征進行量化反映,表現為可用于統計分析的數據的過程。它應該具有這樣一些屬性:以實際現象為測度對象,測度結果具有實際意義;以量化為目的,把信息轉化為數量,提供人們容易理解的定量結論;個體特征的測度符合形成總體定量結論的要求,同時能夠體現個體差異。可以發現,統計測度需要借用數學工具,但更重要的是對具體測度現象本質特征的認識和掌握。

    統計測度可以從若干不同角度進行分類。邱東教授(2012)[7]曾在“宏觀測度的邊界悖律及其意義”一文中,從邊界的角度對宏觀測度進行了分類:一是因事物本身可測度性而形成的邊界,即本體論意義上的測度邊界;再一是由人的認知能力而形成的邊界,即認識論意義上的測度邊界;第三則是由統計相關性偏好和投入約束而形成的邊界,即操作意義上的測度邊界。這三條測度邊界,應該以本體論意義的測度邊界最大,認識論意義的測度邊界次之,而操作意義的測度邊界最小。這樣的分類,對于我們正確理解統計測度的內涵很有幫助。受此啟發,筆者認為統計測度還可以有如下分類:

    1.從測度的實現形式看,可以分為原始測度和再測度。原始測度也可以稱為直接測度,它通過對測度對象進行直接測度來獲取數據,例如清點庫存物品數量、丈量作物播種面積、觀察培育細菌數目、檢測藥物成分等獲得的數據,以及各種登記、記錄的原始數據等等。再測度也稱為間接測度,它以其他已知的測度數據為基礎去計算、推算或預測所需的未知數據,例如根據GDP和人口數測度人均GDP、根據人口普查分年齡人口數據測度老齡化系數和社會負擔系數、根據相關指標數據測度CPI的變化等等。復雜的再測度則需要借助相應的統計模型作為工具,因為它實際上是對相關變量之間的關系進行定量反映。從兩者關系上看,原始測度是基礎,是根本,沒有科學的原始測度就不會有可靠的再測度;再測度則是測度功能提升的必然要求,以解決原始測度不能解決的問題。

    2.從測度的計量方式看,可以分為自然測度、物理測度、化學測度、時間測度和價值測度。自然測度是利用現象的自然屬性所進行的一種統計測度,例如人口規模、企業數量等的測度,采用自然計量單位;物理測度是利用現象的物理屬性所進行的一種統計測度,例如公路長度、作物播種面積、天然氣產量等的測度,采用物理計量單位;化學測度是利用現象的化學屬性所進行的一種統計測度,例如醫學、生物學中化學合成物的成分結構測度,采用百分數、千分數或特定標識為計量單位;時間測度是利用現象的時間屬性所進行的一種統計測度,例如勞動用工、閑暇時間等測度,采用時間計量單位;價值測度是利用現象的價值屬性所進行的一種統計測度,例如勞動報酬、經濟活動成果等測度,采用貨幣計量單位。在這些測度計量方式中,價值測度因最具有綜合功能而應用最為廣泛。

    3.從測度的方法看,可以分為計數測度、測量測度、實驗測度、定義測度和模型測度。計數測度是一種通過觀測計數來獲得數據的方法,最為簡單,一般用于自然測度或時間測度;測量測度是一種根據物理或化學規制對現象進行測量、測算來獲得數據的方法,一般用于物理測度或化學測度;實驗測度是一種按照科學實驗原理、通過觀察實驗對象在既定條件下的反應來獲得數據的方法,一般與測量測度相結合,用于獲取科學研究數據;定義測度也可以稱之為指標測度,是一種通過探究現象的本質特征和活動規律、歸納出表現其數量特征的范疇、給出統計指標定義(包括內容、口徑、計算方法和表現形式等)來獲取數據的方法,最常用于價值測度,也用于其他形式的測度。可以說,定義測度方法應用最為廣泛,但也最為困難。模型測度是一種根據現象與現象之間的內在聯系關系、或者現象自身的發展變化規律,通過建立一定的方程模型來獲取數據的方法。前面三種統計測度方法基本上都屬于直接測度,定義測度既可能是直接測度、也可能是間接測度,而模型測度都屬于間接測度方法。

    4.從測度的維度看,可以分為單一測度與多維測度。單一測度是指采用單一的方式方法對所研究現象或事物進行單一角度的測度,獲得單一的數據。多維測度是指對所研究現象或事物進行多角度的測度,測度過程中可能需要采用多種測度方法和計量方式,例如多指標綜合評價就需要借助統計指標體系對評價對象進行多角度的測度。顯然,單一測度是多維測度的基礎。

    二、統計測度是統計學的立足之本

    首先,從統計學的發展歷史看,是統計測度使統計學破繭而出。為什么主流觀點認為政治算術是統計學的起源而不是國勢學?正是因為威廉·配第首次采用統計測度的方式進行了國家實力的統計分析和有關推算,得出了令人信服的結論。威廉·配第在1693年出版的《政治算術》[8]中寫道“因為和只使用比較級或最高級的詞匯以及單純作思維的論證相反,我卻采用了這樣的方法(作為我很久以來就想建立的政治算術的一個范例),即用數字、重量和尺度的詞匯來表達我自己想說的問題,只進行能訴諸人們的感官的論證和考察在性質上有可見的根據的原因”,這一觀點在統計學的發展過程中產生了非常重要的影響。他的這段話雖然沒有出現測度一詞,但卻道出了測度的本質,即讓事物變得明白、變得有根據,因為“數字、重量和尺度”就是測度、就是根據,用“數字、重量和尺度的詞匯來表達想說的問題”就是一種測度的思想,盡管測度的方式方法還很簡單。相反,國勢學雖然提出了歸納法這一統計學的基本方法并首創了統計學一詞,但由于沒有采用統計測度的方式進行國勢問題的研究而難以修成正果。正如邱東教授[7]所說:“在配第之前,統計學的研究對象雖然是國家的態勢,但它在方法論上只是定性言說。一個國家的財富總量在本體論意義上是可以測度的。然而只是到了配第時期,人類才想到了要測度它,并發明了如何測度的基本方法。政治算術,即開創期的經濟統計學,實現了從無到有的轉變,大大擴展了宏觀測度的認識論邊界,因而才具有了統計學范式創新的革命性意義。”同樣,格朗特的《關于死亡表的自然觀察和政治觀察》也是人口統計測度方面的經典之作,無論是原始測度還是再測度,都給后人留下了寶貴的財富。之后,統計學就是沿著如何更加科學、準確測度世界這一主線而發展的。筆者曾在“從政治算術到大數據分析”一文[9],對數據的變化與統計分析方法的發展進行了粗淺的歸納,其主題實際上就是統計測度問題。

    其次,從統計學的研究對象上看,統計測度是體現統計學數量性特征的前提條件。統計學的研究對象是現象的數量方面,或者說統計學是關于如何收集和分析數據的科學。統計數據從何而來?從統計測度中來。數據不同于數字,數字是統計測度的符號,數據是統計測度的結果,這也正是統計學區別于數學之處。所以說,數據的本質問題就是統計測度問題,故此統計測度是統計學的基本問題。這里重點討論兩個問題:一是統計測度與統計指標的關系,二是統計測度面臨的新問題。關于第一個問題,本文認為統計測度與統計指標是一個事物的兩個方面,這個事物就是數據。統計指標法是統計學的基本方法之一,盡管前面對統計測度從方式方法上進行了分類,但從廣義上說所有統計測度都是定義測度,都表現為指標。也就是說,任何統計測度———不論是直接測度還是間接測度,最終目的是獲得能夠讓人明白的數據,而表現數據的最主要形式就是統計指標,其他表現數據的形式都是派生出來的。所以,統計測度就是根據所設定的統計指標去獲得所需的數據。關于第二個問題,與后文所要論及的大數據有關,就是定性測度問題。在統計學中,數據可以分為兩類———定性數據與定量數據,其中定性數據又包括定類數據與定序數據兩種,它們屬于非結構化或半結構化數據。相應地,統計測度也可分為定性測度與定量測度。很顯然,只有定性測度與定量測度方法得到同步發展,統計學才能更加完善。總體上看,定量數據的統計測度已經比較完善,但定性數據的統計測度還有很多問題尚待解決,難點就在于測度的切入點———如何提取有效的信息、如何最終轉化為統計指標。盡管關于定性數據分析的論著已經不少,但還沒有從理論方法上建立起定性數據統計測度的體系,因此統計學在這方面的任務依然很重。

    第三,從統計學的永恒主題看,通過科學的數據分析、得出有效的結論是其不變的追求,而數據分析過程就是綜合的統計測度過程。獲得數據的目的是為了發現隱含其中的有價值的信息,即發現數據背后的數據,讓數據再生數據,從而滿足人們認識事物、掌握規律、科學決策的需要。除了總量、結構等基本信息外,更重要的是通過數據分析來呈現現象的變化規律與相互關系。不難發現,這種數據分析的過程,就是不斷進行各種統計測度的過程,所以最終的統計分析結果實際上就是各環節、各方面的各種類型的統計測度的疊加結果,或者說是統計測度不斷放大的過程。大量針對社會經濟現象進行分析研究的文獻(不論是否冠以“測度”兩字),只要有數據分析,都是如此。可以說,統計測度貫穿于統計數據分析的全過程。但是,為什么很多統計數據分析并沒有得出有效的結論呢?本文認為原因就出在統計測度上,尤其是沒有首先解決好原始統計測度問題。應該說,圍繞數據分析已經建立起一整套比較完整的統計方法體系,很多方法也都身經百戰、行之有效,但一旦原始統計測度有問題、數據不準確或不真實,那么任何方法都只是擺設。仔細研讀很多所謂的實證分析文獻,其重點均在于構建什么樣的模型或運用什么樣的方法,雖然有的文獻也必須要討論選擇什么樣的變量(指標)這個問題,但并不是系統地從測度的角度進行闡述,因此所用的模型越來越復雜,但所得的結論卻離實際情況越來越遠。學界總是有這樣一種觀念:變量越多、符號越新奇、模型越復雜的文章才越有水平,似乎這樣分析所得的結論才越可靠。殊不知,不以科學可靠的原始統計測度為基礎,任何數據分析都會成為無源之水、無本之木,所得的結論也只是更精確的錯誤而已。本文認為,任何脫離科學統計測度的統計分析都是毫無意義的,充其量是一種數字游戲而已。應該樹立這樣一種觀念:科學的統計數據分析首先取決于科學的統計測度,而不是首先取決于什么樣的分析模型,雖然模型也很重要。這也再一次證明,統計測度問題是統計學的根本問題。其實,歸根結底看,在統計數據分析過程中,每一步分析都以前一步的測度為原始測度,每一步所用的方法都是統計測度方法,因此所有的統計分析方法都是統計測度方法。甚至可以說,統計學方法體系就是統計測度方法體系。

    當然,在實際的統計分析中,統計測度往往遇到一些困難,即有些指標數據由于各種原因無法獲得,這就不得不采用替代這種途徑。例如,綠色GDP核算的概念已經提出很多年,但為什么還沒有哪個國家真正公布綠色GDP數據,原因就是自然資源價值、生態環境價值等的統計測度目前還面臨著很大的困難,其背后存在著一系列有待進一步研究和解決的理論與實踐問題,因此不少學者進行了替代測度的探討。這一方面說明統計測度的重要性,另一方面說明統計測度替代的無奈性。但是,替代測度必須遵守相應的規則與邏輯,要經得起推敲。有的文獻明明知道有關變量無法測度、有關數據無法獲得,卻隨意地、不符合邏輯地進行所謂的替代,結果是最后的結論不知替代成什么樣了,很難理解它的意義。關于替代測度的有效性問題,邱東教授[7]已有精辟的論述,在此不再展開討論。

    三、統計測度是數據科學的基礎

    籠統地講,數據科學就是以大數據為研究對象的科學,需要多學科交叉融合、共同支撐。由于大數據是快速增長的復雜數據,因此大數據分析僅有統計思維與統計分析方法是不夠的,還需要強大的數據處理能力與計算能力。只有把統計思維、統計方法與計算技術結合起來,才有可能真正挖掘出大數據中的有價值信息。本文認為統計思維、統計方法與計算技術相結合的基礎就是科學的統計測度。

    首先,大數據技術不能自行解決其計算和分析應從何處著手的問題。現代信息技術與互聯網、物聯網技術的快速發展,使人類進入大數據時代,也有人說進入到數聯網時代,這意味著我們一方面被各種越來越多、越來越復雜的數據所包圍,另一方面又被數據中巨大的信息價值所吸引,想從中挖掘出可供決策之用的信息。如何挖掘大數據?人們已經進行了艱苦的探索,發展了很多專門的方法技術,并已嘗到了不少甜頭,但遠未達到充分利用大數據中有效信息的目的,因為已有的大數據分析研究主要集中于計算機科學與技術、軟件工程、計算數學等領域,重點是計算能力與算法研究,而很少從統計學的角度進行有針對的探討,還沒有真正進入數據分析的深層。這里面實際上忽略了最基礎的統計測度問題。如果說,計算技術的發展能夠解決數據儲存與計算的能力問題,算法模型的改進能夠解決大數據分析的綜合能力問題,那么它們仍然不能解決對誰進行計算與分析的問題,也即從何處著手的問題。無論是傳統的結構型數據,還是現在的包含大量非結構型數據的大數據,要對它們進行分析都必須找到正確的切入口,即分析的基本元素是什么,或者說需要測度什么。當然,還有如何測度的問題。然后,才能進行分組、綜合和構建模型,否則大數據分析不會達到人們的預期。

    其次,大數據之所以催生數據科學,就是為了通過多學科交叉融合來共同解決大數據分析中存在的問題,其中包括統計測度問題,這一點對于非結構化數據尤為突出。實際上,大數據的本質就是非結構化數據,一是體量大、比重高(超過95%),二是變化快、形式多,三是內容雜、不確定。通過各種社交網絡、自媒體、富媒體,以及人機對話和機器感應記錄等產生的各種非結構化數據,例如各種文字、各種表情符號、各種聲音、各種圖像,到底表示什么?綜合在一起能體現什么規律?如何綜合各種信息?存在著大量有待研究的問題。其實,文字的長短、用詞、表達形式(敘述式、議論式、散文式、詩歌式,等)甚至字體大小與顏色,表情類型與偏好,聲音高低、頻率與情緒,圖像顏色等等,都是有特定意義的,即在特定環境條件下的反應。所以,一句話或一段聲音的意義并非文字本身的意思,一個表情符號的意義并非符號表征的意思,一個圖像的意義并非圖像內容與色彩本身的意思,因為背后有太多的未知。人們瀏覽檢索各種信息的習慣、收看與回復郵件等信息的習慣、參與信息網絡的習慣、購物習慣與支付習慣等等,也是如此。更何況,同樣的網絡詞匯在不同的時間代表著不同的語義。這背后隱藏著的是人們的行為與社會關系,既具有個性又具有共性,極其復雜。所以對這樣的數據進行分析,首先絕非是計算問題,也不是用什么模型問題,而首先是從何處著手、如何選取關鍵詞、如何選定關聯詞、可以用什么樣的指標來綜合、可以用什么樣的表式來表現等問題,一句話就是統計測度問題。非結構化數據的統計測度將主要是定義測度,這些問題不解決,分析模型也是難以構建的,或者難以得出令人信服的結論。

    例如,關于《紅樓夢》前80回與后40回是否同一作者的爭論,韋博成[10]進行了綜合性的比較研究并提出了自己的觀點,他指出已有美國威斯康辛大學華裔學者陳炳藻教授(1980)[11]、我國華東師范大學陳大康教授(1987年)[12]和復旦大學李賢平教授(1987年)[13]等學者從統計學的角度進行過專門的研究,但卻得出了不同的結論:陳炳藻教授認為前80回與后40回均是曹雪芹所著;陳大康教授認為前80回與后40回為不同人所著;李賢平教授認為前80回是曹雪芹根據《石頭記》增刪而成,后40回是曹雪芹親友搜集整理原稿加工補寫而成。此外,還有其他一些學者進行過類似的研究,也有一些不同的結論。為什么都通過提取關聯詞和統計的方法卻得出不同的結論?原因就在于用以分析的關聯詞不同,即統計測度的切入點不同,當然也有統計方法上的差異,但前者是根本。至少存在幾個統計測度上的問題:提取單一維度的關聯詞還是多維度的關聯詞?提取什么類型的關聯詞(例如:關聯詞是名詞、形容詞還是動詞;是花卉、樹木、飲食、醫藥還是詩詞)?這些關聯詞可以綜合為什么樣的指標?等等。由此可見,原始統計測度代表著數據分析的方向。

    相比《紅樓夢》,大數據分析要復雜得多、困難得多。所以,數據科學除了需要數學、統計學、計算機科學與技術、人工智能等學科的交叉融合外,還需要與行為科學、語言學、社會學、經濟學等學科相結合,以便能很好地解決作為數據分析之前提的統計測度問題。

    第三,數據科學將進一步拓展統計測度的邊界,并提出更高的要求。伴隨著人類認識世界的范圍的不斷拓展,統計測度的范圍也不斷擴大,從自然現象統計測度到人口現象、經濟現象統計測度,再到社會現象、環境現象、政治現象等統計測度,幾乎已經滲透到了所有可以想象到的領域。相應地,統計數據分析也從少量數據的分析進入到了大數據分析。大數據的復雜性、不確定性和涌現性(王元卓等,2013)[14],意味著統計測度的內容大大增加,原來一些不能測度的數據被納入到了統計測度的范圍,按照邱東教授的說法就是統計測度的邊界大大擴展了。統計測度邊界的擴大,必須以統計測度能力的提升為前提,即要求統計學借助現代信息技術進一步提升處理和分析數據的能力———對大數據“化繁為簡”、“變厚為薄”的能力,這就必須以科學準確的大數據統計測度為前提,既改變統計思維,又創新統計分析方法,其中就包括統計測度思維、統計測度方法與統計測度標準。面對大量繁雜的數據,如果沒有更好的統計測度思路與方法,包括個體標志定義方法、最小數據細胞分組與聚類方法、關聯詞含義的時間影響計量方法、定性測度指標篩選方法、再測度路徑與方法、大數據統計測度評價標準等,那么統計學在數據科學發展過程中就難以發揮應有的作用,數據科學也將裹足不前。這就是統計學邁向數據科學的重要挑戰之一。

    綜上所述,統計測度的基礎性問題從統計學延伸到了數據科學,是兩者的共同基礎,并且對于數據科學而言顯得更為重要。大數據的復雜性、不確定性和涌現性導致了統計測度的難度猛增,亟需建立面向大數據分析的統計測度理論與方法。要通過研究大數據的復雜性、不確定性和涌現性特征的基本因素,以及這些因素之間的內在聯系、外在指標和測度方法,進而研究基于先進計算技術的大數據度量模型,構建尋找面向計算的數據內核或者數據邊界的基本方法。總之,建立有效易行的數據表示方法,即科學的統計測度方法,是數據科學必須解決的基礎問題之一。

    四、創新與完善大數據統計測度方法

    如前所述,統計學研究對象已經從結構化數據延伸到了包括非結構化數據在內的一切數據,統計測度邊界得到了大大的擴展。按照邱東教授[7]曾經引用過的海德格爾的話:“界限并不表示某一事物的發展到此為止,而是像希臘人所認知的那樣,界限是某種事物開始展現的地方”,預示著統計學在數據科學發展階段的新起點已經展現在我們面前。新的統計測度邊界催生統計測度方法的創新,統計測度方法的創新促進統計測度邊界的拓展,兩者相輔相成,共同推動統計學與數據科學的發展。為此,我們要系統梳理統計測度方法的發展歷程,面對大數據提出的新挑戰,大膽探索統計測度的新思路、新理論和新方法,為數據科學奠定堅實的統計學基礎。為此提出如下幾點建議:

    首先,要緊密結合現象的本質去探求更科學的統計測度方法。本質決定一切,既然統計測度的目的是獲得客觀反映現象本質的數據,那么深入到現象本質、認識和掌握現象的本質,是科學統計測度的關鍵,也是探求新的統計方法的出發點。換句話說,科學的統計測度方法能夠體現出數據的真正意義。例如,要探求社交網絡數據的統計分析和測度方法,就必須了解社交網絡的產生背景、構成要素、表現形式與基本特征,既要研究它的共性問題,又要研究它的個性問題與差異性,同時還要研究它的變化趨勢。只有這樣,才能掌握社交網絡數據的構成要件或元素,才能建立起科學的、能有效體現社交網絡數據意義的統計測度方法。再如,要分析研究電子商務數據,也必須先弄清楚什么是電子商務,尤其是弄清楚它與傳統的商業模式有什么不同(包括物流、資金流與信息流)、有哪些新生事物(包括時空特征、法律監管)等等,否則統計測度無從下手或者抓不住要害。同時,作為一個新的研究領域,數據科學的理論基礎將與計算機科學、統計學、人工智能、數學、社會科學等有關,離不開對相關學科領域知識與研究方法的借鑒,因此對相關領域的知識與研究方法的學習十分重要。否則,就會嚴重扭曲統計測度方法,胡亂設置測度標志,這需要引起高度關注。

    其次,要緊密結合大數據的特點去創新統計測度方法。大數據的特點是復雜性、不確定性和涌現性并存,構成了多維的數據空間,里面蘊藏著豐富的信息資源,這是傳統的統計數據不可比擬的。那么該從何處進入這樣的數據空間?怎么進去?又怎么出來?這歸根結底還是統計測度方法問題。因此,在開展大數據分析之前,首先要研究大數據的基礎性問題,包括大數據的內在機理(包括大數據的演化與傳播機制、生命周期),數據科學與社會學、經濟學、行為科學等之間的互動機制,以及大數據的結構與效能的規律性等等,為創新統計測度方法提供導向。本文認為,再復雜的數據也有共性,再不確定的數據也有規律,再涌現的數據也有軌跡。網絡大數據背后的網絡平均路徑長度、度分布、聚集系數、核數、介數等具有共性的特征與參數,是開展復雜網絡數據分析的基礎(李國杰、程學旗,2012)[15];大數據在時空維度上的分布形式、內在結構、動態變化和相關聯的規律,是找到大數據分析切入口、進而簡化大數據表征的前提;大數據的涌現性軌跡(包括模式涌現性、行為涌現性和智慧涌現性),是研究更多的社會網絡模型和理解網絡瓦解失效原因,理解人們網絡行為涌現特征(例如人們發郵件數量的時間分布特征),以及探求大量自發個體語義融合連接形成有特定意義的通用語義之過程的路徑(靳小龍等,2013)[16]。也就是說,這些共性、規律和軌跡就是統計測度的主要依據,也是重點內容。發展和創新能夠準確發現大數據的共性、規律和軌跡的定量方法,其實就是發展和創新大數據統計測度方法。

    第三,要緊密結合現代信息技術以完善統計測度方法。復雜、多變和不斷涌現的大數據,不僅需要借助現代信息技術(包括硬件與軟件)來解決極其復雜的分析計算問題,也需要利用現代信息技術來解決其繁雜多樣的統計測度問題。對于大數據,不論是原始統計測度還是再測度,其復雜性或難度都不是傳統的結構化數據所能相提并論的,哪怕是基本的關聯詞計數、分類與匯總,其工作量之大也超乎想象,不借用現代信息技術幾乎是不可能完成的。而事實上,有些統計測度的內容與方法本身也是以數據處理能力的提升為前提的。可以說,脫離現代信息技術,人們難以承受大數據的統計測度與分析任務;要把統計測度思想變為可實現的統計測度方法,必須借助現代信息技術。為此,要充分利用各種信息技術和手段,把統計測度與數據清洗相結合、與數據分析模型相結合、與計算方法相結合,努力建立融自動搜索統計測度、動態演化統計測度和自主優選統計測度為一體的大數據統計測度方法體系。

    精選范文推薦
    主站蜘蛛池模板: 国内外成人在线视频| 成人妇女免费播放久久久| 777奇米四色成人影视色区| 亚洲欧美日韩国产成人| 亚洲欧美日韩成人高清在线一区| 成人免费看www网址入口| 成人免费网站在线观看| 国产成人精品午夜视频'| 久久成人免费大片| 成人国产精品一级毛片视频| 国产成人免费片在线观看 | 国产成人一区二区三区| 国产成人午夜片在线观看| 69成人免费视频无码专区| 在线成人综合色一区| 香蕉久久成人网| 成人欧美一区二区三区的电影| 国产成人在线电影| 成人欧美一区二区三区在线观看| 国产成人v爽在线免播放观看| 中国成人在线视频| 成人妇女免费播放久久久| 亚洲欧洲精品成人久久曰| 成人免费淫片免费观看| 欧美成人精品大片免费流量| 国产成人无码精品久久久免费 | 99久久国产综合精品成人影院| 成人国产精品免费视频| 亚洲一成人毛片| 国产成人一区二区动漫精品| 成人免费看片又大又黄| 欧洲成人午夜精品无码区久久| 免费成人av电影| 国产成人19禁在线观看| 天天成人综合网| 国产成人精品福利网站在线| 成人毛片无码一区二区三区| 久久精品成人免费观看| 亚洲AV无码成人精品区狼人影院| 四虎成人影院网址| 国产69久久精品成人看|