前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的統計學大數據分析主題范文,僅供參考,歡迎閱讀并收藏。
關鍵詞 泛在學習 學習生態 有效學習 英語學習 大數據
近年來,移動互聯網、大數據等信息技術發展日新月異,已經成為推動教育變革的重要力量。移動通信終端的普及為學生營造了泛在英語學習環境,大數據技術開啟了個性化智能教育時代,翻轉課堂、MOOC、微課等新型教學模式層出不窮,雖然它們不能取代傳統教學模式,但英語教師必須與時俱進,重視信息技術對傳統英語課堂的改造和提升,以全新的視角思考英語教學的變革方向。
一、研究理論概述
1.泛在學習理論
泛在學習是指任何人在任何時間和任何地點都可以通過泛在網絡實現任何知識內容的學習。泛在網絡和泛在計算技術為人類實現隨時隨地的泛在學習提供了技術保障,信息技術和教育技術的融合發展正深刻改變著知識的傳播方式和學生的學習方式,不斷重構著教育和學習的生態環境。一方面,移動通信終端的多元化發展解除了傳統英語學習對地點的約束,翻轉課堂、MOOC等新型教學模式使學生可以自由地選擇學習時間、進度、內容和學習方式。另一方面,傳統教學設備正在向數字教學設備變遷,教育領域信息基礎設施建設有效地推動跨區域教學資源整合,海量的多媒體教學內容必須和學生的碎片化時間有效結合,教師需要針對不同學情的學生進行精準施策和差異化施策。
2.學習生態理論
學習生態是由學習群體及其所處的環境共同構成的生態系統。系統由信息技術、多媒體教學設施等支撐,通過以合作、交流、共享、互動為特征的教育實踐,實現知識信息傳遞和有效學習,從而促進系統的不斷優化。學生與學習環境、學生和學習群體之間密切聯系、相互作用,通過知識的吸納、內化、創新、外化、反饋等過程實現有效學習[1]。在泛在學習的背景下,學習生態研究的是教育信息、學習主體、教師、教育信息環境之間相互作用的生態系統,需要從教育信息化建設和應用的視角研究各個生態系統成員之間的相互作用規律,維護生態系統的平衡發展。
3.有效學習理論
有效學習是指學生在教師的指導下,針對學習內容采取適合自己的學習策略,積極主動地參與到學習過程中,高效率地完成知識建構,從而實現學習目標并優化自身知識結構的學習行為。有效學習是對學習內容、學習方法、學習過程、學習結果的價值追求[2],學生可以實現對知識的深層次理解和靈活應用。學習內容的優化在大數據背景下表現為對海量學習內容的篩選、清洗與轉化[3],使之滿足學生的學習需要。學習方法調整是建立在對學生學習情況進行多元評價的基礎上,根據學生個人學習偏好、認知習慣、學習方式、情感態度因素、學習內容的變化而動態進行的。學習過程的積極參與是指學生能夠積極主動地學習,充分和師生進行合作、交流,善于提出問題、分析問題和解決問題。學習評價是學生改變學習計劃、優化學習方法的重要手段,對學生學習可以起到引導、激勵、啟示和教育作用。
二、當前英語泛在學習模式存在的主要問題
1.傳統課堂教學和線上教學環節缺乏有效銜接
首先,魍晨翁媒萄Ш拖呱轄萄г誚萄Ы謐?、肿R范圍上沒有有效銜接。例如,學生不知道如何在線上學習課堂上沒有掌握的知識點,或者在線上環節重復學習課堂中已經掌握的知識點。其次,缺乏對課堂英語學習和個性化英語自主學習的融合創新設計。在傳統課堂教學中,整齊劃一的教學標準無法滿足英語學習分層分級的差異化教學要求。不同學情的學生對學習時間、空間、內容、方式的需求不盡相同,教師在教學中沒能和學生線上學習的大數據分析結果進行有效的融合對接,僅根據自身的教學經驗和主觀判斷作為實施因材施教的依據,因此其決策缺乏精準性和穩定性。
2.泛在學習缺乏生態性系統設計,學生英語泛在學習的用戶黏性不高
當前泛在學習過程特別是在線學習過程缺乏師生互動性、社交互動性、線上線下互動性。泛在學習僅停留在將文字、圖像、視頻等教學資料數字化、網絡化、集成化和泛在化的階段,這在某種程度上增加了學生英語學習的選擇性和便利性,但缺乏針對不同學生的學習黏性設計,因此泛在學習效果并不理想。
3.英語泛在學習體系缺乏具有“參與感”和“現場感”的語言學習環境
建構主義理論認為,知識的獲得是在學習環境的特定情境作用下,借助教師的幫助與學習伙伴的協作,通過意義的建構過程實現的。因此在英語泛在學習過程中,必須增強學生在特定情境下的溝通和交際活動的參與性[4]。例如,如果在英語課程設計和在線學習設計環節,鼓勵學生廣泛參與學習內容、學習方法、學習偏好的設計,就會讓學生感受到教師對學生的愛與尊重,從而增強學生學習的主動性和積極性,使不同學情的學生都能在學習過程中體驗自我實現感,實現自主學習。另外,教師缺乏對學生多元需求的感知和把握,缺乏語言鍛煉的“現場感”設計,使學生無法在接近真實生活情境的語言環境中得到語言交際鍛煉。
三、基于大數據分析的英語泛在學習生態系統
移動通信和大數據分析技術的發展為有效解決當前英語泛在學習模式存在的問題提供新的方式和途徑?;诖髷祿治龅挠⒄Z泛在學習生態系統以學生的英語學習需求、特征、習慣、喜好等大數據挖掘為切入點,聯合學校、互聯網教育機構、教材編寫人員、教師、信息化支撐機構、教育管理機構、在校學生和在職學員等生態系統成員共同把泛在學習落實到教學環境、模式設計、資源開發、評價機制和管理機制等工作中,不僅僅是教育內容資源和信息的共享空間,而且是實施素質教育和個性化學習的公共服務平臺。因此,本文構建了基于大數據分析的英語泛在學習生態系統,主要包括大數據采集、大數據存儲、大數據分析、大數據應用四個子系統,并構建了系統體系結構模型(圖1)。
1.大數據采集子系統
首先,大數據采集子系統要實現數據、文字、圖像、音頻、視頻、多媒體等結構化數據和非結構化數據采集,實現跨區域、跨機構、跨教學環節的數據互聯互通和數據采集功能,解決教育數據資源配置效率不高的問題。其次,實現英語教學設計、教學實施、課程內容建設、網絡學習內容資源建設、語料庫建設、學生學習認知過程監控、學生學習情感態度監控和學習評價等全教學鏈條的數據采集功能,為生態系統成員之間的共生發展提供良好的數據資源基礎。
英語教學設計數據主要采集教師按照教學大綱和教學目標要求對不同學生制定的學習內容、學習進度、學習路徑等數據,厘清學生在課堂上和網絡上分別學什么、在哪學、怎么學的問題。教學過程數據主要采集教師在教學中幫助學生解決英語學習問題的經驗、做法和策略,包括情感態度、認知因素的調控、語言情境的構建、師生的有效互動等。課程內容數據主要是采集教師、學校、互聯網教育機構課程教學內容數據,包括教材內容、課件、題庫、案例等授課內容資料,以及以上資料經過碎片化處理的數據資料。
網絡資源數據庫主要采集互聯網、校園網上英語學習方面的相關資料。英語語料庫數據主要采集中國學習者英語語料庫、美國當代英語語料庫等語料庫內容,以及英語教材、英美小說、散文、演說詞、電影劇本、新聞稿等英文自然語料。學習行為數據庫主要采集學生課堂學習行為和線上學習行為數據。課堂學習行為包括是否預習、復習等,線上學習行為數據采集學習日志、學習習慣、學習時長和學習路徑等。學習評價數據主要采集教師或者在線學習系統對學生的學習能力、學習方法、學習策略運用、學習過程和學習結果的評價數據。學習情感態度數據主要是通過問卷、訪談等方式采集影響學生英語語言習得的動機、態度、焦慮、自信等指標。
2.大數據存儲子系統
大數據存儲子系統主要實現對大數據采集子系統采集的海量結構化、非結構化數據進行數據清理、歸檔、壓縮,實現一體化數據存儲。可以實現跨區域、跨系統的英語泛在學習數據的融合,解決不同教學機構、數據結構、操作系統帶來的信息孤島問題。英語學習數據倉庫是指集成了大數據分析子系統和應用子系統決策分析所需的泛在學習數據,這些數據是按照一定的英語學習主題進行組織,是在對原有分散的各類英語泛在學習數據庫數據進行加工、匯總和整理后得到的,有效地消除了各類源數據中的不一致性,所以英語學習數據倉庫的信息均是關于學生英語泛在學習全局情況的一致性信息。數據倉庫的這些全局性信息同r通過網絡云平臺實現英語泛在學習數據的云端存儲,可以直接由大數據應用子系統調用。
3.大數據分析子系統
認知因素和情感因素是影響英語習得效果的兩個重要方面。大數據分析子系統首先結合學生應該達到的學習目標對學生個體的英語學習認知行為和學習的情感態度進行數據挖掘,分析學生的動機、態度、焦慮、自信、興趣等情感因素,以及學習毅力、能力、習慣、方法、英語水平和常犯錯誤等認知行為因素,對數據挖掘結果進行聚類運算和分類處理,根據學生的學習認知行為和學習態度情況將學生細分,以識別不同學生之間相似的泛在學習需求,以及某個學生個體在不同學習階段泛在學習需求的差異性。同時,大數據分析子系統會對學生的學習過程和學習結果進行動態綜合評價,并根據學習評價結果判斷學習方案的優劣,有針對性地進行線上和線下學習方案的調整。
4.大數據應用子系統
大數據應用子系統包括學習信息推送系統、學習信息定制系統、在線互動學習系統、語言情境仿真系統、知識關聯推薦系統、知識精準搜索系統、知識樹形管理系統和娛樂在線學習系統等應用。學生可以通過學習終端連接到相關應用系統進行英語語言知識的有效學習。學習信息推薦系統自動推薦給學生的學習信息是學生應掌握而目前未掌握的英語知識。學習信息定制系統可以滿足學生根據自身學習需求而定制某類主題的學習信息。學生一方面通過在線互動學習系統可以和輔導教師進行交流互動,解決學習中遇到的問題,另一方面可以通過社交軟件實現和其他學習者的溝通和交流,共享英語學習經驗。
語言情境仿真系統可以實現某類主題的英語學習情境的在線仿真,讓學生在接近真實環境的英語語言情境中進行英語交際鍛煉。知識關聯推薦系統是根據學生所學知識點,自動關聯推薦對應的拓展知識點。知識精準搜索系統可以幫助學生快速實現英語知識的精準有效搜索,從而進行有針對性的學習。知識樹形管理系統可以實現學生已掌握知識和未掌握知識的樹形目錄管理,實現線上學習和課堂學習知識管理的無縫鏈接。
基于大數據分析的英語泛在學習生態系統有利于充分發揮信息技術對傳統英語教育的改造提升作用,可以有效促進信息技術與教學過程、內容、方法和教學評價體系的深度融合。在生態系統的價值取向上注重以促進學生全面健康發展為中心,注重需求導向的個性化學生培養模式。在學生習得效果評價體系上注重加強學習過程評估,強調過程評估和結果評估相結合。系統注重充分挖掘學生的個體差異,充分挖掘學生的學習潛能,圍繞學生英語學習習慣的形成和學習情感態度的培養,以現代信息技術為輔助手段,將英語語言知識進行碎片化、情境化、可視化處理,通過采取教育信息推送、關聯推薦和定制化相結合的方式實現知識的在線傳播,給學生提供個性化、定制化的英語學習信息服務,帶給學生全新的英語泛在學習體驗。
參考文獻
[1] 張豪鋒,卜彩麗.略論學習生態系統[J].中國遠程教育,2007(4).
[2] 曹貞.以有效學習為目標的大學課堂教學[J].教育與職業,2007(26).
[3] 陳明選,陳舒.論信息化環境下大學生的有效學習[J].高等教育研究,2013(9).
關鍵詞:大數據時代;統計學;影響
隨著大數據時代的到來,各企業采用了新的策略,獲得了更多的利潤。對于統計專業來說,改變發展策略,使培養出來的專業人才能夠適應大數據背景的需求是其主要任務。目前,高校統計學專業逐漸認識到大數據時代綜合性人才培養的重要性,并對專業建設進行了相關改革。
一、大數據時代對統計學的影響
大數據時代的到來對現代統計專業的發展造成了新的沖擊,要確保培養出來的人才能夠起到應有的作用,首先要了解大數據時代對統計專業所造成的影響。
(一)大數據時代使數據結構和數據性質發生變化
網絡技術以及基于網絡技術的電子商務等新的數據記錄模式標志著大數據時代的到來。大數據時代,不再依賴于抽樣調查的記錄模式,網站瀏覽、視頻監控都將形成大量數據。傳統的數據結構甚至是數據性質發生了變化。大量的數據信息對于需求者來說,如何甄別其可用價值成為關鍵。傳統的數據可以二維表格顯示和整理。但大數據時代所產生的數據具有多樣化和復雜化特征,往往包含了大量的音頻、視頻、HTML等。這要求大數據的收集具有較強的目的性,才能實現其價值。
(二)大數據時代要求統計分析方法和統計思維更新
大數據時代的主要特征為數據多且復雜,數據分析要求分析者對總體進行分析。在這一背景下,參數統計不再具有意義,假設檢驗法也隨著總體分析而失去價值。數據的復雜化對傳統大數據統計思維造成了巨大的沖擊,要求統計者具有活躍的思維。只有對傳統數據的改變進行分析,并且樹立新的統計方法。
二、大數據時代下的統計學發展新策略
為適應大數據時代的需求,統計學專業的發展勢必要對傳統模式進行改革。目前,多數高校統計學專業已經認識到大數據對于其發展帶來的沖擊。為此,本文提出了以下策略,以及能夠幫助統計學取得更好發展。
(一)加強統計應用性教學
根據大數據時代數據的總體分析特征,數據分析人員應掌握全面的分析方法。在人才培養過程中,應致力于培養實踐分析能力,提高數據和資料收集能力,并且培養其強烈的數據價值觀,使其能夠從眾多數據中找到所需的。另外,對傳統模式進行改革,增加大數據統計內容,以適應時代的需求。基于大數據的結構特點,實施資料透視化教學,提高分析者對復雜數據的分析能力。
(二)培養大數據統計思維
在人才培養過程中,新的統計思維的培養具有重要意義,即強調數據分析實踐能力的提高。統計思維的培養有助于數據分析者對復雜的數據進行區分,從而整理有效信息。在大數據時代,不僅要以傳統的平均思維、動態思維和變異思維為基礎,還要注重基于整體分析的大數據思維。另外,還要培養數據分者的復雜性思維,以應對復雜的數據庫。總之,大數據時代需要數據分析者具有全面的、創新性的思維。
(三)強化基礎性統計知識
統計學自身具有復雜性,其改變多且抽象?;A的統計知識是進一步掌握大數據分析思維的基礎,可見學習基礎性統計知識的重要性是不言而喻的。為此,應該采取深入淺出的方法,利用多媒體等方式使復雜的數據統計清晰化、簡單化。結合具體的案例使數據分析者正確認識統計概念、掌握統計原理和方法。此外大數據分析不再是一種專業,而是更傾向于一種技術,這要求我們將大數據分析與統計學以外的相關知識相互聯系。注重真實相關與偽相關的講解,強調商務智能的開發和分析。只有具有堅實的基礎,才能確保數據分析者大數據分析思維的養成,適應現代社會的需求。
(四)加強復合型人才培養
為適應大數據時代的需求,復合型人才的培養是關鍵。所謂復合型人才,是指其不但要具有專業的數據分析能力,還要相應的具備管理以及其從事專業的技術。大數據時代,高校應建立全面的人才培養模式,注重培養人才的數據分析能力、編程能力等,使其真正了解大數據,懂得如何利用大數據對其所處的行業起到積極作用才是關鍵??傊?,大數據時代對綜合性人才具有更高的需求,大數據時代不僅培養的是一種能力,而且是一種思維,是對全新模式下的數據的分析和利用。高校作為人才培養的重要基地,其教學模式的改革、對大數據時代所需教學模式的認識是高校的主要任務。
三、總結
統計學是經濟學的基礎課程,傳統的統計人才培養具有定向性。而隨著大數據時代的到來,數據產生的形式多樣,且具有復雜性。大數據分析不僅是作為一種專業存在,而是應以一項必備的技術而存在。大數據時代,傳統的統計思維和統計方法發生了改變,統計人才培養方式的改革也就勢在必行。(作者單位:海南師范大學)
參考文獻:
[1] 朱懷慶.大數據時代對本科經管類統計學教學的影響及對策[J].高等教育研究,2014(3).
[2] 姚壽福.經濟管理類本科專業統計學課程教學改革思考[J].高等教育研究,2012(3).
[3] 孫耀東.大數據背景下統計學專業課程教學探究[J].廊坊師范學院學報(自然科學版),2015(06).
統計學研究的對象是數據,數據科學顧名思義也是以數據為研究對象,這產生一種直觀的錯覺,似乎數據科學與統計學之間存在某種與生俱來的淵源關系。Wu(1998)直言不諱,數據科學就是統計學的重命名,相應地,數據科學家替代了統計學家這個稱謂。若此,那是什么促成了這種名義上的替代?顯然僅僅因為數據量大本身并不足以促成“統計學”向“數據科學”的轉變,數據挖掘、機器學習這些概念似乎就已經足夠了。問題的關鍵在于,二者所指的“數據”并非同一概念,數據②本身是一個很寬泛的概念,只要是對客觀事物記錄下來的、可以鑒別的符號都可以稱之為數據,包括數字、文字、音頻、視頻等等。統計學研究的數據雖然類型豐富,如類別數據、有序數據等定性數據,定距數據、定比數據等定量數據,但這些都是結構化數據;數據科學所謂的數據則更為寬泛,不僅包括這些傳統的結構型數據,而且還包括文本、圖像、視頻、音頻、網絡日志等非結構型和半結構型數據,即,大數據。大數據(以半/非結構型數據為主)使基于關系型數據庫的傳統分析工具很難發揮作用,或者說傳統的數據庫和統計分析方法很難在可容忍的時間范圍內完成存儲、管理和分析等一系列數據處理過程,為了有效地處理這類數據,需要一種新的范式———數據科學。真正意義上的現代統計學是從處理小數據、不完美的實驗等這類現實問題發展起來的,而數據科學是因為處理大數據這類現實問題而興起的。因此數據科學的研究對象是大數據,而統計學以結構型數據為研究對象。退一步,單從數量級來講,也已發生了質變。對于結構化的大規模數據,傳統的方法只是理論上的(可行性)或不經濟的(有效性),實踐中還需要借助數據挖掘、機器學習、并行處理技術等現代計算技術才能實現。
二、數據科學的統計學內涵
(一)理論基礎
數據科學中的數據處理和分析方法是在不同學科領域中分別發展起來的,譬如,統計學、統計學習或稱統計機器學習、數據挖掘、應用數學、數據密集型計算、密集計算方法等。在量化分析的浪潮下甚至出現了“metric+模式”,如計量經濟學、文獻計量學、網絡計量學、生物統計學等。因此,有學者將數據科學定義為計算機科學技術、數學與統計學知識、專業應用知識三者的交集,這意味著數據科學是一門新興的交叉學科。但是這種沒有側重的疊加似乎只是羅列了數據科學所涉及到的學科知識,并沒有進行實質性的分析,就好似任何現實活動都可以拆解為不同的細分學科,這是必然的。根據Naur(1960,1974)的觀點,數據科學或稱數據學是計算機科學的一個替代性稱謂。但是這種字面上的轉換,并沒有作為一個獨立的學科而形成。Cleveland(2001)首次將數據科學作為一個獨立的學科提出時,將數據科學表述為統計學加上它在計算技術方面的擴展。這種觀點表明,數據科學的理論基礎是統計學,數據科學可以看作是統計學在研究范圍(對象)和分析方法上不斷擴展的結果。一如統計學最初只是作為征兵、征稅等行政管理的附屬活動,而現在包括了范圍更廣泛的理論和方法。從研究范圍的擴展來看,是從最初的結構型大規模數據(登記數據),到結構型的小規模數據(抽樣數據)、結構型的大規模數據(微觀數據),再擴展到現在的非(半)結構型的大規模數據(大數據)和關系數據等類型更為豐富的數據。從分析方法的擴展來看,是從參數方法到非參數方法,從基于模型到基于算法,一方面傳統的統計模型需要向更一般的數據概念延伸;另一方面,算法(計算機實現)成為必要的“可行性分析”,而且在很多方面算法模型的優勢越來越突出。注意到,數據分析有驗證性的數據分析和探索性的數據分析兩個基本取向,但不論是哪一種取向,都有一個基本的前提假設,就是觀測數據是由背后的一個(隨機)模型生成,因此數據分析的基本問題就是找出這個(隨機)模型。Tukey(1980,2000)明確提到,EDA和CDA并不是替代關系,兩者皆必不可少,強調EDA是因為它被低估了。數據導向是計算機時代統計學發展的方向,這一觀點已被越來越多的統計學家所認同。但是數據導向仍然有基于模型與基于算法兩種聲音,其中,前文提到的EDA和CDA都屬于基于模型的方法,它們都假定數據背后存在某種生成機制;而算法模型則認為復雜的現實世界無法用數學公式來刻畫,即,不設置具體的數學模型,同時對數據也不做相應的限制性假定。算法模型自20世紀80年代中期以來隨著計算機技術的迅猛發展而得到快速成長,然而很大程度上是在統計學這個領域之外“悄然”進行的,比如人工神經網絡、支持向量機、決策樹、隨機森林等機器學習和數據挖掘方法。若響應變量記為y,預測變量記為x,擾動項和參數分別記為ε和β,則基于模型的基本形式是:y=f(x,β,ε),其目的是要研究清楚y與x之間的關系并對y做出預測,其中,f是一個有顯式表達的函數形式(若f先驗假定,則對應CDA;若f是探索得到的,則對應EDA),比如線性回歸、Logistic回歸、Cox回歸等。可見,傳統建模的基本觀點是,不僅要得到正確的模型———可解釋性強,而且要得到準確的模型———外推預測能力強。而對于現實中復雜的、高維的、非線性的數據集,更切合實際的做法是直接去尋找一個恰當的預測規則(算法模型),不過代價是可解釋性較弱,但是算法模型的計算效率和可擴展性更強?;谒惴ǖ幕拘问筋愃朴诜菂捣椒▂=f(x,ε),但是比非參數方法的要求更低yx,因為非參數方法很多時候要求f或其一階導數是平滑的,而這里直接跳過了函數機制的探討,尋找的只是一個預測規則(后續的檢驗也是基于預測構造的)。在很多應用場合,算法模型得到的是針對具體問題的解(譬如某些參數是被當作一個確定的值通過優化算法得到的),并不是統計意義上的推斷解。
(二)技術維度
數據科學是基于數據的決策,數據分析的本質既不是數學,也不是軟件程序,而是對數據的“閱讀”和“理解”。技術只是輔助數據理解的工具,一個毫無統計學知識的人應用統計軟件也可以得到統計結果,但無論其過程還是結果都是可疑的,對統計結果的解釋也無法令人信服。“從計算機科學自身來看,這些應用領域提供的主要研究對象就是數據。雖然計算機科學一貫重視數據的研究,但數據在其中的地位將會得到更進一步的加強”。不可否認,統計分析逐漸向計算機科學技術靠近的趨勢是明顯的。這一方面是因為,數據量快速膨脹,數據來源、類型和結構越來越復雜,迫切需要開發更高效率的存儲和分析工具,可以很好地適應數據量的快速膨脹;另一方面,計算機科學技術的迅猛發展為新方法的實現提供了重要的支撐。對于大數據而言,大數據分析丟不掉計算機科學這個屬性的一個重要原因還不單純是因為需要統計軟件來協助基本的統計分析和計算,而是大數據并不能像早先在關系型數據庫中的數據那樣可以直接用于統計分析。事實上,面對越來越龐雜的數據,核心的統計方法并沒有實質性的改變,改變的只是實現它的算法。因此,從某種程度上來講,大數據考驗的并不是統計學的方法論,而是計算機科學技術和算法的適應性。譬如大數據的存儲、管理以及分析架構,這些都是技術上的應對,是如何實現統計分析的輔助工具,核心的數據分析邏輯并沒有實質性的改變。因此,就目前而言,大數據分析的關鍵是計算機技術如何更新升級來適應這種變革,以便可以像從前一樣滿足統計分析的需要。
(三)應用維度
在商業應用領域,數據科學被定義為,將數據轉化為有價值的商業信息①的完整過程。數據科學家要同時具備數據分析技術和商業敏感性等綜合技能。換句話說,數據科學家不僅要了解數據的來源、類型和存儲調用方式,而且還要知曉如何選擇相應的分析方法,同時對分析結果也能做出切合實際的解釋②。這實際上提出了兩個層面的要求:①長期目標是數據科學家從一開始就應該熟悉整個數據分析流程,而不是數據庫、統計學、機器學習、經濟學、商業分析等片段化碎片化的知識。②短期目標實際上是一個“二級定義”,即,鼓勵已經在專業領域內有所成就的統計學家、程序員、商業分析師相互學習。在提及數據科學的相關文獻中,對應用領域有更多的傾向;數據科學與統計學、數學等其他學科的區別恰在于其更傾向于實際應用。甚至有觀點認為,數據科學是為應對大數據現象而專門設定的一個“職業”。其中,商業敏感性是數據科學家區別于一般統計人員的基本素質。對數據的簡單收集和報告不是數據科學的要義,數據科學強調對數據多角度的理解,以及如何就大數據提出相關的問題(很多重要的問題,我們非但不知道答案而且不知道問題何在以及如何發問)。同時數據科學家要有良好的表達能力,能將數據中所發現的事實清楚地表達給相關部門以便實現有效協作。從商業應用和服務社會的角度來看,強調應用這個維度無可厚非,因為此處是數據產生的土壤,符合數據科學數據導向的理念,數據分析的目的很大程度上也是為了增進商業理解,而且包括數據科學家、首席信息官這些提法也都肇始于實務部門。不過,早在20世紀90年代中期,已故圖靈獎得主格雷(JimGray)就已經意識到,數據庫技術的下一個“大數據”挑戰將會來自科學領域而非商業領域(科學研究領域成為產生大數據的重要土壤)。2008年9月4日刊出的《自然》以“bigdata”作為專題(封面)探討了環境科學、生物醫藥、互聯網技術等領域所面臨的大數據挑戰。2011年2月11日,《科學》攜其子刊《科學-信號傳導》、《科學-轉譯醫學》、《科學-職業》專門就日益增長的科學研究數據進行了廣泛的討論。格雷還進一步提出科學研究的“第四范式”是數據(數據密集型科學),不同于實驗、理論、和計算這三種范式,在該范式下,需要“將計算用于數據,而非將數據用于計算”。這種觀點實際上是將數據從計算科學中單獨區別開來了。
三、數據科學范式對統計分析過程的直接影響
以前所謂的大規模數據都是封閉于一個機構內的(數據孤島),而大數據注重的是數據集間的關聯關系,也可以說大數據讓孤立的數據形成了新的聯系,是一種整體的、系統的觀念。從這個層面來說,將大數據稱為“大融合數據”或許更為恰當。事實上,孤立的大數據,其價值十分有限,大數據的革新恰在于它與傳統數據的結合、線上和線下數據的結合,當放到更大的環境中所產生的“1+1>2”的價值。譬如消費行為記錄與企業生產數據結合,移動通訊基站定位數據用于優化城市交通設計,微博和社交網絡數據用于購物推薦,搜索數據用于流感預測、利用社交媒體數據監測食品價等等。特別是數據集之間建立的均衡關系,一方面無形中增強了對數據質量的監督和約束;另一方面,為過去難以統計的指標和變量提供了另辟蹊徑的思路。從統計學的角度來看,數據科學(大數據)對統計分析過程的各個環節(數據收集、整理、分析、評價、等)都提出了挑戰,其中,集中表現在數據收集和數據分析這兩個方面。
(一)數據收集方面
在統計學被作為一個獨立的學科分離出來之前(1900年前),統計學家們就已經開始處理大規模數據了,但是這個時期主要是全國范圍的普查登記造冊,至多是一些簡單的匯總和比較。之后(1920-1960年)的焦點逐漸縮聚在小規模數據(樣本),大部分經典的統計方法(統計推斷)以及現代意義上的統計調查(抽樣調查)正是在這個時期產生。隨后的45年里,統計方法因廣泛的應用而得到快速發展。變革再次來自于統計分析的初始環節———數據收集方式的轉變:傳統的統計調查方法通常是經過設計的、系統收集的,而大數據是零散實錄的、有機的,這些數據通常是用戶使用電子數碼產品的副產品或用戶自行產生的內容,比如社交媒體數據、搜索記錄、網絡日志等數據流等,而且數據隨時都在增加(數據集是動態的)。與以往大規模數據不同的是,數據來源和類型更加豐富,數據庫間的關聯性也得到了前所未有的重視(大數據的組織形式是數據網絡),問題也變得更加復雜。隨著移動電話和網絡的逐漸滲透,固定電話不再是識別住戶的有效工具變量,相應的無回答率也在增加(移動電話的拒訪率一般高于固定電話),同時統計調查的成本在增加,人口的流動性在增加,隱私意識以及法律對隱私的保護日益趨緊,涉及個人信息的數據從常規調查中越來越難以取得(從各國的經驗來看,拒訪率或無回答率的趨勢是增加的),對時效性的要求也越來越高。因此,官方統計的數據來源已經無法局限于傳統的統計調查,迫切需要整合部門行政記錄數據、商業記錄數據、個人行為記錄數據等多渠道數據源,與部門和搜索引擎服務商展開更廣泛的合作。
(二)數據分析方面
現代統計分析方法的核心是抽樣推斷(參數估計和假設檢驗),然而數據收集方式的改變直接淡化了樣本的意義。比如基于瀏覽和偏好數據構建的推薦算法,誠然改進算法可以改善推薦效果,但是增加數據同樣可以達到相同的目的,甚至效果更好。即所謂的“大量的數據勝于好的算法”這與統計學的關鍵定律(大數定律和中心極限定理)是一致的。同樣,在大數據分析中,可以用數量來產生質量,而不再需要用樣本來推斷總體。事實上,在某些場合(比如社會網絡數據),抽樣本身是困難的。數據導向的、基于算法的數據分析方法成為計算機時代統計學發展無法回避的一個重要趨勢。算法模型不僅對數據分布結構有更少的限制性假定,而且在計算效率上有很大的優勢。特別是一些積極的開源軟件的支撐,以及天生與計算機的相容性,使算法模型越來越受到學界的廣泛重視。大數據分析首先涉及到存儲、傳輸等大數據管理方面的問題。僅從數量上來看,信息爆炸、數據過剩、數據泛濫、數據墳墓、豐富的數據貧乏的知識……這些詞組表達的主要是我們匱乏的、捉襟見肘的存儲能力,同時,存儲數據中有利用價值的部分卻少之又少或塵封窖藏難以被發現。這除了對開采工具的渴求,當時的情緒主要還是遷怨于盲目的記錄,把過多精力放在捕捉和存儲外在信息。在這種情況下,開采有用的知識等價于拋棄無用的數據。然而,大數據時代的思路改變了,開始變本加厲巨細靡遺地記錄一切可以記錄的數據。因為:數據再怎么拋棄還是會越來越多。我們不能通過刪減數據來適應自己的無能,為自己不愿做出改變找借口,而是應該面對現實,提高處理海量數據的能力。退一步,該刪除哪些數據呢?當前無用的數據將來也無用嗎?顯然刪除數據的成本要大于存儲的成本。大數據存儲目前廣泛應用的是GFS、HDFS等基于計算機群組的文件系統,它可以通過簡單增加計算機來無限地擴充存儲能力。值得注意的是,分布式文件系統存儲的數據僅僅是整個架構中最基礎的描述,是為其他部件服務的(比如MapReduce),并不能直接用于統計分析。而NoSQL這類分布式存儲系統可以實現高級查詢語言,事實上,有些RDBMS開始借鑒MapReduce的一些思路,而基于MapReduce的高級查詢語言也使MapReduce更接近傳統的數據庫編程,二者的差異將變得越來越模糊。大數據分析的可行性問題指的是,數據量可能大到已經超過了目前的存儲能力,或者盡管沒有大到無法存儲,但是如果算法對內存和處理器要求很高,那么數據相對也就“大”了。換句話說,可行性問題主要是,數據量太大了,或者算法的復雜度太高。大數據分析的有效性問題指的是,盡管目前的硬件條件允許,但是耗時太久,無法在可容忍的或者說可以接受的時間范圍內完成。目前對有效性的解決辦法是采用并行處理。注意到,高性能計算和網格計算也是并行處理,但是對于大數據而言,由于很多節點需要訪問大量數據,因此很多計算節點會因為網絡帶寬的限制而不得不空閑等待。而MapReduce會盡量在計算節點上存儲數據,以實現數據的本地快速訪問。因此,數據本地化是MapReduce的核心特征。
四、結論
(一)數據科學不能簡單地理解為統計學的重命名,二者所指“數據”并非同一概念,前者更為寬泛,不僅包括結構型數據,而且還包括文本、圖像、視頻、音頻、網絡日志等非結構型和半結構型數據;同時,數量級也是后者難以企及的(PB以上)。但是數據科學的理論基礎是統計學,數據科學可以看作是統計學在研究范圍(對象)和分析方法上不斷擴展的結果,特別是數據導向的、基于算法的數據分析方法越來越受到學界的廣泛重視。
(二)從某種程度上來講,大數據考驗的并不是統計學的方法論,而是計算機科學技術和算法的適應性。譬如大數據的存儲、管理以及分析架構,這些都是技術上的應對,核心的數據分析邏輯并沒有實質性的改變。因此,大數據分析的關鍵是計算機技術如何更新升級以適應這種變革,以便可以像從前一樣滿足統計分析的需要。
(三)大數據問題很大程度上來自于商業領域,受商業利益驅動,因此數據科學還被普遍定義為,將數據轉化為有價值的商業信息的完整過程。這種強調應用維度的觀點無可厚非,因為此處是數據產生的土壤,符合數據科學數據導向的理念。不過,早在20世紀90年代中期,已故圖靈獎得主格雷就已經意識到,數據庫技術的下一個“大數據”挑戰將會來自科學領域而非商業領域(科學研究領域成為產生大數據的重要土壤)。他提出科學研究的“第四范式”是數據,不同于實驗、理論、和計算這三種范式,在該范式下,需要“將計算用于數據,而非將數據用于計算”。這種觀點實際上將數據從計算科學中單獨區別開了。
(四)數據科學范式對統計分析過程的各個環節都提出了挑戰,集中表現在數據收集和數據分析這兩個方面。數據收集不再是刻意的、經過設計的,而更多的是用戶使用電子數碼產品的副產品或用戶自行產生的內容,這種改變的直接影響是淡化了樣本的意義,同時增進了數據的客觀性。事實上,在某些場合(比如社會網絡數據),抽樣本身是困難的。數據的存儲和分析也不再一味地依賴于高性能計算機,而是轉向由中低端設備構成的大規模群組并行處理,采用橫向擴展的方式。
關鍵詞:管理統計學;教學模式;大數據;案例教學
中圖分類號:G4 文獻標識碼:A doi:10.19311/ki.1672-3198.2016.33.147
1 引言
管理統計學是一門應用統計學方法和理論研究經濟管理問題的應用性學科,它通過收集、分析、表述、解釋數據來探索經濟管理問題的規律,并輔助企業進行管理決策和提高管理效率。傳統的統計學關注小規模數據下的數據描述、推斷和科學分析用。與之相應,管理統計學的課堂教學主要關注統計學原理的講述、小數據的推斷分析和經濟管理問題的簡單應用。
然而,自2008年Nature雜志發表“Big data:science in the peta byte era”以恚大數據的發展方興未艾,備受學術界,企業界等關注。大數據的理念和技術不僅在互聯網、金融、機器人、人工智能等領域取得突破性進展,也將對企業的生產、經營和決策等活動帶來深刻的影響,通過對企業大數據的深度挖掘,有助于實現企業的商業價值,規避企業的決策風險,提高企業的競爭力。
大數據時代的到來,對管理統計學來說既是機遇又是挑戰,機遇在于:大數據的分析主要建立在統計學的基礎上對數據進行處理、分析,從而使得大數據可視化;而挑戰在于:當下管理統計學的教學方法和教學手段難以匹配大數據時代對數據分析從業者的要求,這就要求對管理統計學的課堂教學模式進行進一步的發展與創新,以期適應大數據背景下的新要求。
如何結合大數據時代的新要求設計合適的課堂教學模式,如何結合豐富的大數據應用案例開展課堂教學活動,如何增強大數據背景下學生的數據驅動的管理決策意識,培養適應大數據時代要求的高素質人才,這些都是大數據背景下傳統的管理統計學課堂教學模式所面臨的問題和挑戰,這也促使管理統計學教學工作者不得不去探究、優化甚至改革現有的管理統計學課堂教育模式。
2 傳統管理統計學教學模式的概述
筆者所在的教學團隊來自于武漢科技大學管理學院,承擔全院《管理統計學》課程教學任務,在教學方法、實踐教學等有較為豐富的教學經驗。然而,在多年的教學過程實踐和與學生的教學互動當中發現:現有的管理統計學教學模式盡管相對較為成熟,在培養學生的數據分析意識方面起到的重要作用,但是仍存在以下不足,而這些不足恰恰難以適應大數據背景下對管理統計學教學帶來的挑戰。
2.1 注重理論講授,忽視應用教學
受技術發展和數據規模等因素的制約,傳統的管理統計學教學大都采用理論驅動的教學模式,教師依托教材,注重統計學基本原理和方法的傳授,學生掌握基本原理,對統計學的實際應用等關注較少。
盡管管理統計學課堂教學會涉及到一定的應用案例,但是這些案例大都簡單,陳舊,數據來源單一,難以接觸實際原始數據,統計建模思路也相對固定,這些教學案例既不能反映管理統計學的最新發展和應用思想,也無法將其帶入企業經營的情景,對企業決策過程缺乏了解,這些因素都使得學生對該課程的學習興趣不高,不利于培養學生應用統計學解決實際問題的能力,進而影響課堂教學效果。
2.2 注重數學推導,忽視工具應用
管理統計學要求學生掌握一定的數學基礎,教材也都有較多的數學公式和理論推導,忽視了培養學生應用SPSSvSASvR等統計軟件工具解決統計問題的操作能力。
根據經管類專業的培養定位,對于經管類專業的學生而言,相比于統計的數學公式,真正實用的如何借用SPSSvSASvR等統計軟件工具來解決企業經營決策面臨的實際問題,尤其是在大數據背景下,需要處理海量、復雜、多源、異質的高維數據。這些是單憑數學推導和簡單的手動計算無法完成的。
近年來,大數據、互聯網等技術的快速發展催生了一類新型且前景廣闊的職業方向-數據分析師。綜合數據分析師的職業要求,可以發現,這些職位大都要求從業者了解基本的統計學原理和方法,熟練掌握SPSSvSASvR等統計軟件工具,并應用這些工具解決企業經營管理面臨的實際問題。
2.3 注重知識考核,忽視項目訓練
受限于教學管理制度和考核手段等因素,目前管理統計學課堂教學考核方式大都以閉卷為主,主要考察學生對統計學基本知識點的掌握情況,以及學生應用統計學知識解決簡單案例的綜合能力。
然而,在大數據時代背景下,除了要求掌握統計學基本原理,更應培養學生應用統計學知識解決實際問題的綜合能力,而這種綜合能力往往涉及數據獲取、數據預處理、數據探索、統計建模、模型檢驗、模型評價、模型解釋、模型部署和模型修正等數據分析的全過程,這種綜合能力的掌握是無法通過現有的知識考核來達到的,這些必然要求學生通過參與實際項目或模擬情景來實現。
3 大數據背景下管理統計學教學模式探討
如何結合大數據時代的新要求設計合適的課堂教學模式,如何結合豐富的大數據應用案例開展課堂教學活動,如何增強大數據背景下學生的數據驅動的管理決策意識,培養適應大數據時代要求的高素質人才,這些都是大數據背景下傳統的管理統計學課堂教學模式所面臨的問題和挑戰。而現有的管理統計學課堂教學模式難以匹配大數據時代對其提出的要求,這就要求對管理統計學的課堂教學模式進行進一步的發展與創新,以期適應大數據背景下的新要求。
(兗州煤業榆林能化有限公司,陜西榆林719000)
[摘要]隨著信息技術的發展與應用,各種數據信息通過互聯網、云終端、交際圈、物聯網等之間的大規模傳遞,人類進入到一個大數據時代,數據信息之間的傳遞影響著人們的決策成本,傳統的信息不對等所造成的差距條件已經消失,而不起眼的數據卻能夠創造巨大的價值。本文對大數據時代背景下數據分析理念進行分析和指導。
[
關鍵詞 ]大數據時代;數據分析理念;分析
[DOI]10.13939/j.cnki.zgsc.2015.22.074
在傳統的商業運作模式中,在運營過程中對自身經營發展的分析只停留在數據的簡單匯總層面,缺乏有效地對客戶網絡、業務范圍、營銷產品、競爭對手優劣等方面進行深入解析;而在當今大數據時代,通過所接收的大量內部和外部數據中所蘊含的信息中透露的市場彈性,可以預測市場需求,進行分析決策,從而制定更加行之有效的戰略發展計劃?!按髷祿笔且粋€量特別大,數據類別特別大的數據集,并且這樣的數據集無法用傳統數據庫工具對其內容進行抓取、管理和處理。在當今信息時代,很多企業用戶在實際應用中把多個數據集放在一起,已經形成了PB級的數據量;數據類型廣,數據來源種類多,且數據種類和格式日漸豐富,囊括了半結構化和非結構化數據,早已打破傳統的結構化數據范疇,如何在大數據時代背景下進行科學有效的數據分析這需要加強對市場的了解,對泡沫經濟的規避,了解數據所傳遞的信息真假。
1數據化決策的興起與運用
在大數據時代,信息之間的爆炸增長,使得各種信息傳遞非常之快,只需要拿起網絡終端就可以了解到地球另一邊發生了什么。文字、圖形、影像都化作數據流在網絡中以電信號的方式傳遞著信息。數據流在傳遞各行各業的信息同時形成了滲透于各行業的核心資產和創新驅動力。在大數據時代,企業所擁有的數據集合規模及數據的分析和處理能力決定著企業在市場中的核心競爭力。
因此通過數據分析進行決策漸漸成為新的分析理念,例如,在支付寶上進行對電影票房的投資,這些投資通過對導演往期作品和演員的表演張力,及投資方的選角等數據進行分析,預測電影的票房,選取投資可獲利的電影,進行票房投資,從而獲取票房分紅。我國的石油油田根據地震技術的收集數據,進行科學統一規劃的分析處理,形成對地下油田的分析建模,能夠有效直觀地展示地下油藏的分布情況,從而選擇油井的開采點。中國人民銀行通過對人民幣匯率的漲幅,進行數據分析,來制定符合中國國情的外匯貨幣政策,對貨幣進行宏觀調控,這能夠有力的保護人民幣升值時,在國際貿易市場中國進出口貿易所面臨的壓力。在大數據時代背景下,通過直覺和經驗進行決策分析的優勢不斷下降,在商業、政治及公共服務領域中,通過對大數據進行數據分析從而做出符合時代背景的決策,已成了目前的潮流。
2數據分析理念及方法
(1)數據分析要引入統計學思想。在大數據時代背景下,傳統的抽樣分析已經并不適用于對大數據的分析中,在大數據時代應當要轉變思維,轉變抽樣思想,樣本就是總體,要分析與某事物相關的所有數據,而不是依靠少量數據樣本,這樣才能夠在最大限度地明白事物發展變更過程,能夠對數據所表露的信息進行更好地處理[1]。要更樂于接受數據的紛繁蕪雜,不再追求精確的數據,這并不是說其嚴謹性降低了,而是往往不起眼,不符合常理的數據更能夠反映實際的情況。通過對數據網絡之間的聯系進行分析,不再探求難以捉摸的因果關系,通過數據的分析處理更能夠反應數據的變更。這些想法都與統計學相關通過所收集的數據,進行有效的分類處理,能夠更好地反應事物的變化,更有利于做出決策[2]。
(2)數據分析流程。在實際的數據分析過程中,因大數據貫穿區域較廣,在地域和行業之間穿插交錯,顛覆了傳統的線性數據收集模式,而形成了顛覆傳統的、非線性的決策基礎,這種決策方式要求我們通過對數據進行收集,將各行各業所收集的基本信息,轉化為數據,將數據經過初步的整合分類,做出符合當地當時的數據信息,將數據進行深層次的技術處理,將處理過后的信息化為知識,運用到實際的決策中去。在大數據時代,數據的積累并不會貶值,而且還會不斷增值,為了更全面、深入地了解研究對象,往往需要對數據進行整合,這就使得數據的積累尤為重要。
(3)數據分析對統計學的意義。在大數據時代背景下數據分析理念能夠有效地對數據流進行合理地分類處理,進行科學的統計行為,統計與分析主要利用分布式數據庫,或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等,這就意味著所有有用的數據信息均來源于數據分析處理之后的結果。大數據的數據分析理念擴寬了統計學的研究范圍,而不僅僅只是實現數據的對比,而是從根本上豐富了研究的內容,如:一些實時性需求會用到EMC 的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數據的需求可以使用Hadoop,滿足大多數常見的分析需求,對傳統的統計工作有著四個轉變。統計研究過程的轉變,使統計過程成為收集與研究。統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,統計研究工作思想的轉變,數據的收集不斷增加,信息的錄入不斷升級,其對系統資源,特別是I/O會有極大的占用。這就使得能夠更好地進行數據分析處理決策[3]。
3數據分析過程中注意事項
3.1數據分析要明確變量
將數據收集進行處理是為了明確市場中的某一個變量意義,這就使得在進行數據分析的時候要能夠明確地找尋變量存在前后所發生的變化,通過數據對比可以知道該變量在大數據的市場中所存在的影響因素。是否對市場有著風險或有利于市場的開發利用,能夠在數據分析后做出合理決策。
3.2統計中不再追求精確的數據
大數據時代下,數據的不精確性不僅不會破壞總體信息可靠性,還有利于進行剝絲抽繭,從而了解總體情況。大數據時代,越來越多的數據提供越來越多的信息,也會讓人們越來越了解總體的真實情況。錯綜復雜的數據能夠反映數據之下到底是泥潭還是機遇。數據之間傳遞的信息良莠不齊,如果要一一追求準確性不利于統計工作的開展,因此可以將個別的異常值剔除。大數定律告訴我們,隨著樣本的增加,樣本平均數越來越接近總體,這就使得樣本與總體的差異性很小,更加符合實際情況。
4結論
綜上所述,大數據包含結構內外的海量數據,隨著云計算平臺進行大規模收集處理,通過建立數據庫的手段,對數據分流,使用數據挖掘等方法進行處理、分析,使得所數據結果更加符合顯示狀況。數據分析理念是通過闡明存在于世界、物質、感官享受上的復雜網絡關系,從而做出符合時代背景的分析決策。
參考文獻:
[1]維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數據時代:生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013.
關鍵詞:大數據;大數據人才;發展戰略
人類進入信息時代,意味著大數據時代業已來臨。大數據時代將為人類社會帶來全新挑戰。大數據,顧名思義,大就是海量,數量龐大。大數據時代信息容量更加巨大,數據類型趨于多樣化,要求更快的反應速度和處理速度。
一、大數據人才重要性
“麥肯錫全球研究院將‘大數據’定義為‘無法在一定時間內使用傳統數據庫軟件工具對其內容進行獲取、管理和處理的數據集合’”[1]。新世紀以來,世界發達資本主義國家十分重視數據人才培養和相關科學問題的研究。“如美國紐約大學、英國鄧迪大學均從2013年起設立數據科學碩士學位,美國哥倫比亞大學將從2015年起設立數據科學博士學位”[2]?!霸趪鴥?,香港中文大學自2008年起就設立了“數據科學商業統計”科學碩士學位,清華大學新近成立了數據科學研究院,自今年9月起開始招收研究生;西安交大、浙江大學、華東師大等高校也先后設立了數據科學研究中心”[2]。2013年《上海推進大數據研究和發展三年行動計劃》正式啟動。大數據時代去缺乏有深入的數據分析能力的人,在市場上是緊缺狀態。
明代高攀龍《答袁節寰中丞》:“今天下難聯者人心,難得者人才。”“科技興國”的第一步是“人才發展戰略”,人才資源已經成為“第一資源”,可見人才在大數據時代的重要性不容忽視?!秶抑虚L期人才發展規劃綱要(2010-2020年)》具體包含12項重大人才工程??梢妵覍θ瞬艈栴}重視程度之高。大數據時代最重要的日程之一就是計算機人才培養問題。唯有解決好這一問題,中國才能在大數據浪潮中立于不敗之地。一個國家對大數據的掌握,甚至可以影響一個國家的綜合國力,對數據的占有權將成為國家競爭中的核心問題之一。
二、大數據人才是打破發展困局的關鍵
我國大數據雖然發展很快,但在智慧城市建設、基礎軟件研發、數據流動性等方而尚存在一些不足。
現階段中國僅處于大數據時代的萌芽階段。以往人們認知的傳統的數據并不能夠等同于大數據,傳統的數據分析和數據統計手段也并不適用于大數據領域。國內企業在數據庫、數據倉庫、商業智能等領域基礎薄弱,大數據的意識和重視程度甚至創新精神,都較為薄弱或者有所或缺。現階段中國國內缺乏領軍企業占據大數據生態系統主導地位。做大數據產業不難,但是真正做精做強,占據以核心軟件產品為主導地位的生態系統很難?,F階段中國數據獲取壁壘和行業間壁壘存在。
對大數據人才的培養力度不足、人力物力投入不夠,人才導致中國大數據發展陷入難題。人才發展是大數據發展的關鍵和重中之重。
三、 大數據時代的計算機人才發展戰略
大數據時代的計算機人才需求發展趨勢是復合型人才,與此同時,對數據科學家、數據分析師專門人才的極為渴求,而由于學校培養與企業環境經常性脫節,應該大力加強校企合作,逐步形成產學研聯動發展。
(一)培育大數據復合型人才
“中國急需對數學、統計學、數據分析、機器學習和自然語言處理等多方面知識綜合掌控”[3]的復合型計算機人才。在傳統的大學培養和教育體制下,我們在一些與大數據相關的專業學科領域已經儲備了大量人才,包括統計學、數學、人工智能、可視化等方面,但是大數據需要的是復合型的人才,需要將深厚的技術背景與所在行業和業務領域的需求相結合[4]。
(二) 培育數據科學家群體
大數據最關鍵的部分是數據分析和挖掘數據價值……就需要大量的數據科學家[3]?!皵祿茖W家……一定要懂得算法,知道用什么樣的方法可以更好地挖掘出大數據的價值。”[4]。在某種程度上,數據科學家就像是一個轉換器,在大數據項目中起到了承上啟下的作用。[4]。
(三) 強化數據分析隊伍力量
知其然而知其所以然,在當前,中國數據分析與管理人才極端緊缺,中國企業必須加大招聘和人才挽留力度,同時學校應該加大這方面的專業教育力度。數據分析專業在高校的設立也是勢在必行,但目前這方面仍是大數據教育的軟肋。在學校的領導層決策層必須適時地重視數據分析專業的設立,重視數據分析專業學生的招收工作,實時跟進,不容懈怠。
(四) 利用校企合作作為有效途徑
僅僅依靠偏向于理論研究的大學教育,很難培養出更符合企業和市場實際需求的實用型的大數據人才,因為學校往往并沒有提供真正的大數據環境給學生。所以大數據技術與應用必須特別強調與企業實踐的有機結合。具有大數據專業的學與大數據企業的互動聯合,將造成孵化大數據精英人才的最佳環境。一方面,積極聘請企業中的大數據專家到學校授課。以其大數據實踐經驗為主要傳授內容,使得學校的大數據教育能夠緊跟企業、社會發展速度,把握市場需求脈搏。另一方面希望大數據企業為大數據專業學生提供實習機會,給予優先錄用的機會,以提高學生的積極性。
參考文獻:
[1]朱東華,張嶷,汪雪鋒.大數據環境下技術創新管理方法研究[J].科學學與科學技術管理,2013,(4):172-180.
[2]沈湫莎.上海啟動大數據人才培養計劃[J].現代人才,2014,(3):8.
[3]謝然.大數據人才“求賢若渴”[J].互聯網周刊.2014,(20):22-23.
關鍵詞:大數據;小數據;數據分析;發展;變革
中圖分類號:TP31 文獻標識碼:A 文章編號:1001-828X(2014)010-00-01
如果說互聯網的浪潮改變了人們的生活,那么大數據將再一次改變整個世界,只有擁有數據的人才有最終話語權,眾多互聯網公司的巨頭們都紛紛追逐這夢想成為時代的弄潮兒,在原本近乎生疏的名詞“大數據”搖身一變,成了我們耳熟能詳的詞匯,無論是傳統企業或是互聯網公司都在邁開步伐向著大數據領域加速前進,然而現階段大數據的火熱程度如同盛夏的溫度一樣,大數據時髦,但非萬能,不必事事、時時與之相連。因此我們需要認清企業本身實際情況,不要盲目一味追求大數據,而忽略了小數據所帶來更精準、精確的數據分析。
《美國計算機學會通訊》幾次刊文談到了小數據,第一位意識到“小數據”重要性的是美國康奈爾大學教授德波哈爾?艾斯汀。他的父親去世之前幾個月,這位計算機科學教授就注意到老人在數字社會脈動中的些許不同,他不再發送電子郵件,不去超市買菜,散步的距離也越來越短。這種逐漸衰弱的狀態,到醫院檢查時,不管是測脈搏還是查病歷,這位90歲的老人都沒有表現出特別明顯的異常。可事實上,追蹤他每時每刻的個體化數據,他的生活其實已經明顯與之前不同。這種日常小數據帶來的生命訊息的警示和洞察,啟發了這位計算機科學教授,小數據可以看作是一種新的醫學證據,它是“your row of their data”。
一、大數據與小數據的對比
大數據技術(Big Data),或稱巨量資料,指的是所涉及的資料兩規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營更積極目的的資訊。大數據的特點,簡單總結為高容量、多元化、持續性、高價值。
小數據(iData),并不是指數據量小,而是圍繞個人為中心全方位的數據,及其配套的收集、處理、分析和對外交互的綜合系統。人產生的數據,包括生活習慣、社交、財務、行為等,全部被收集和利用進行分析,并對外形成一個富有個人色彩的數據系統,小數據的特點在于以單個人為對象,重點在于深度,對個人數據全方位全天候的挖掘利用。
大數據和小數據有些本質的區別,雖然以創造數據價值為目的思維和大數據是相似的,但是在具體方式上,還是有些不同的區別:
1.數據處理方式:大數據強調標準化,只有數據標準化,才能大規模采集,以后的數據處理概率統計才有了可能??墒菙祿粯藴驶?,就失去了其數據產生時的特性和背景。而小數據的用戶數據的最大特點就是來源和使用者是同一人,只不過存和取時間和背景不一樣。
2.人的作用:在大數據模式下,數據從人身上產生被收集后,接下來的數據處理分析,就再也跟數據的主人無關了。而在小數據里,所有數據都圍繞一個人產生,所以人在系統發揮中心作用。
3.其他數據性質的區別:比如小數據的數據量相對大數據的數據量小。小數據對數據不需要全部快速反應,相反大數據對數據需要做出快速反應。小數據更加注重非結構化數據之間的關聯,重視深度挖掘,而大數據重在包容所有個體的數據,數據覆蓋面廣。
二、利用大數據中的小數據分析
Amazon(亞馬遜)的一句名言“最成功書籍應該只有一本書,就是用戶要買的下一本書”,即使大數據的先行者Amazon,預測用戶要買的下一本數也并不容易。然而Amazon一向敢于嘗試新的商業模式,Amazon正利用其數據優勢,基于各種小數據分析,通過了解客戶平時關注商品、新聞、愛好等信息,提前預測客戶需求,可以在顧客購物確定下單前預先發貨。
北京朝陽大悅城也有類似研究結果,信息研策部發現,平均每個駕車用戶一次可為商場貢獻約700元的收入,銷售變化與車流變化幅度的相關性接近92%。這都是小數據的魅力,相比電商背后的云數據,朝陽大悅城10萬人的數據樣本只算是小數據,但對于一家要自我革命的購物中心而言足夠了。這對于任何一個可進行數據分析的企業來說,極具借鑒意義。
三、小數據時代的發展未來
1.小數據的未來趨勢
通過數據分析提高銷售水平和服務質量,是任何公司未來發展的重要手段。目前國內對于小數據的分析和利用仍處于起步階段,企業可利用現有數據進行全面分析,并對數據中變量的全面把握,充分利用小數據分析結果對公司進行發展預測;考慮小數據的人文因素,在數據分析日益完善的基礎上,引入社會、心里、人文等因素,能夠多方位、多維度的進行分析,使分析結果更加準確。
2.小數據預測對人才的要求
為了使得數據分析的結果更加精準、精確,從而做出有預測性、有價值的分析。小數據分析人員要求具有統計學、商業分析和自然語言處理能力,能夠對數學、統計學、計算機等多方面知識的全方位掌握。
3.小數據的大服務
小數據作為數據時代的重要組成部分,任何銷售、服務、金融企業可以充分利用數據資源,在做好大數據的基礎上,提取具有鮮明特征且具有價值的小數據,挖掘可利用的客戶個人信息,獲取有價值的客戶信息,降低公司成本,提高運行效率,曾加銷量,更好地為客戶提供量身訂做的優質服務。
一切數據存在的根本在于人。人的需求是所有科技變革發展的動力。不遠的將來,數據變革下一步將從大數據時代進入以人為本的小數據時代。
參考文獻:
[1]董奎勇.說說小數據[M].紡織導報,2014,8.
[2]楊旭珠,岳亞楠.小數據早就大未來[J].環球市場信息導報,2014,4.
[3]王成文.數據力:“大數據”PK“小數據”[J].中國傳媒科技,2013,19.
關鍵詞:大數據;統計學;教學改革
中圖分類號:C829.29 文獻識別碼:A 文章編號:1001-828X(2015)024-000-01
一、引言
最早提出“大數據”時代到來的是全球知名咨詢公司麥肯錫,現在的社會是一個高速發展的社會,科技發達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就是這個高科技時代的產物。大數據具有以下的鮮明特點:第一個特征是數據量大。第二個特征是數據類型繁多,多類型的數據對數據的處理能力提出了更高的要求。第三個特征是數據價值密度相對較低,如何通過強大的機器算法更迅速地完成數據的價值“提純”,是大數據時代亟待解決的難題。第四個特征是處理速度快,時效性要求高,這是大數據區分于傳統數據挖掘最顯著的特征。
統計學專業是與數據分析處理聯系最為緊密的學科之一。大數據時代的到來不僅為統計學專業的發展帶來的前所未有的機遇,同時也帶來了巨大挑戰。傳統的統計學專業已不再適應大數據時代的信息爆發式增長的要求,這就要求我們應該對統計學專業進行重新定位,并在此基礎上調整相關課程,改革傳統的教學手段以及完善教學評價體系,以適應大數據時代的到來。
二、統計學專業改革的建議
(一)人才培養目標的重新定位
如果說以往的統計學專業是以培養簡單的“應用型”人才為目標,那么隨著大數據時代的到來,社會不僅僅需要會應用基礎統計知識處理相關領域的問題的單一的應用型人才,而是對人才提出了更高的要求:大數據時代下的統計學專業的人才除了應該具備基礎的數據收集,處理和分析的能力之外,還應該了解相關應用領域的背景知識,而且應具備很強的自我學習能力,以適應大數據時代數據量大,總類繁多,時效性高等發展特點。因此,統計學人才培養目標應該重新作出調整,應該以培養全新的“復合型”統計人才為新的目標。
(二)課程設置的調整
隨著人才培養目標的重新定位,隨之而來的就是應該對不再適應時展要求的課程進行必要的調整。
首先,大數據的分析和處理與以往的經典分析方法有很大不同,以往的統計分析方法主要是建立在抽樣基礎之上,而大數據時代信息處理迅速,信息獲得途徑廣泛,而且信息價值密度低,這就要求數據處理時,可以以全體作為樣本,而不是進行抽樣;分析時必須考慮所有數據而不是剔除所謂的異常數據。因此,以往的經典統計分析方法已不再適應大數據的處理和分析,必須適當的調整經典分析方法的課程設置,增加新的適用于大數據分析的課程。
其次,隨著數據量的爆發式增長,所有的統計工作對計算機的依賴程度越來越高,這就要求統計學專業的學生不僅掌握統計學專業的基礎知識,同時應該熟練掌握計算機專業知識相關知識,因此,在課程安排時,應注意計算機相關課程的適當增加。
基于上述原因,可以考慮增加如下課程:機器學習,模擬算法,數據挖掘,R語言軟件分析等課程,同時適當降低傳統分析方法課程的學時比重。此外,為了使學生能夠對相關應用領域的背景知識有所了解,可適當增設與應用領域相關的通識課程。
(三)教學模式與手段的創新
以往的教學模式,通常是以課堂教學,掌握書本經典理論為主。雖然,傳統教學手段有著學生理論基礎扎實等諸多優點,但是同時也存才學生過于偏重理論知識的掌握,動手能力不足,理論與實踐脫節等缺點。隨著社會的發展,尤其統計學專業自身具有鮮明的應用專業特點。只采用傳統的教學模式和手段顯然不再適合大數據時代的需要;同時,隨著大數據時代的到來,多媒體手段日益豐富多彩,為傳統教學的創新提供了必要的支持。因此,為了適應大數據時代人才的要求,必須改革傳統的教學手段和模式,在傳統教學基礎上,加大實驗教學的比重,在傳統教學外,增加社會實踐環節,引入微課慕課,翻轉課堂等全新教學模式,以提高學生的學習興趣,鍛煉學生理論應用于實踐的能力,從而為以后使用大數據時代的工作打下堅實的基礎。
(四)教學評價體系的完善
傳統的教學評價體系,通常是采用書面考核的方式對學生的學習進行評價,隨著時代的發著,單純的筆試評價不足以衡量學生的全面能力,最后導致出現高分低能的情況的出現。
為了適應大數據時代對人才多方面能力的需求,必須對傳統的考核評價體系做出適當的調整,以評價學生的多方面能力,尤其是動手能力,學習能力和應用相關理論處理實際問題的能力。具體可以采用多種考核方法相結合的方式。如:增加平時的考核力度,增加實踐項目的考核,通過布置適當的項目論文,采用答辯的形式,以鍛煉學生適應以后工作,獨立分析解決問題的能力。
此外,傳統教學評價體系通常是單方面的,只有對學生成績的評價,為了適應大數據時代的到來,全面提高教學質量,可采取雙向教學評價體系,如:增加學生對教學環節的評價體系。以及教師間同行間的評價體系等。
關鍵詞:大數據;經管類專業;課程體系
中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2016)13-0054-02
大數據時代給社會經濟發展帶來了機遇和挑戰,社會各行各業對數據分析需求大幅上升,需要借助數據分析實現數據的增值,挖掘數據背后的潛在價值,為其經營管理決策、投資決策提供智力支持。隨著社會經濟發展對具有數據管理和數據分析能力的應用創新型經濟管理人才的需求逐漸攀升,也引發了對高校經管類專業學生能力的更高要求。面對紛繁復雜的社會經濟環境,經管類專業學生必須能夠廣泛應用定量分析技術,能夠從海量數據中獲取有效數據,運用科學的方法從這些數據中提取出有用信息,建立相應的模型,作出最優決策。
統計學是培養經管類專業學生定量分析能力的一門重要課程,是眾多高等院校經管類專業的專業基礎必修課,是以后深入學習相關定量方法類課程(諸如計量經濟學、管理運籌學、市場調查與預測等)的基礎。因此,統計學課程體系設置是否合理,將直接影響到學生獲取有效數據和分析數據應用能力的培養,進而影響學生定量分析能力的培養。
一、經管類專業統計學課程體系存在的問題
1.課程教學定位模糊。我國高等院校經管類專業統計學教學中的最大弊端在于一直按照前蘇聯劃分方式將其歸類為一門偏重于簡單數據整理課程,而將相應的統計分析所采用方法和理論歸為數理統計,因此在教學中不重視對后者的學習。然而,西方發達國家的統計學課程是同時包括這兩個部分內容的,尤其是后一個部分內容是定量分析的重要基礎。因此,在傳統統計學教學定位下,學生只認識了基本理論與概念,卻掌握不了處理和分析數據的能力,這與經管類專業應用型人才培養目標相背離,難以適應大數據時代社會各領域對經濟管理人才素質的新需求。
2.課程體系有待完善,與經管類專業融合不夠。目前,大多數高等院校經管類專業統計學課程設置只涉及理論統計學這一領域,未將統計分析方法與相關經管類專業知識有機結合。在這樣的課程體系安排下,學生雖然掌握了統計基本理論和方法,但難以體會到統計在本專業學習中的應用價值,當面臨現實的經濟、管理問題卻無能為力,不會運用所學統計方法,結合專業知識對實際問題進行定量分析。這種狀況與經管類人才定量分析能力培養目的相違背,難以實現具有創新能力的經管類人才的培養目標。
因此,如能結合經管類專業特點,對統計學的課程體系進行優化建設,勢必能夠培養出具有定量分析技能,滿足社會需求和企業需求,符合大數據時代人才素質要求的經濟管理人才。
二、大數據時代經管類專業統計學課程體系構建
1.明確課程教學定位。目前,統計學教學中偏重于統計學基本概念、基本模型和基本方法的理論知識學習,系統性較強,有利于學生全面了解統計學的知識體系,但是對統計思維能力的培養和統計方法的應用重視不夠,這不僅會讓學生望而生畏,從而失去學習的主動性與積極性,更為重要的是學生不能夠學以致用,在自己本專業深入學習過程中不會運用統計學知識來解決實際的經濟管理問題,而在教與學中出現的這些問題源頭在于教學定位不夠準確。因此,本文提出新的課程教學定位:以應用創新型人才培養為導向,提高經管類專業學生定量分析能力為目標,結合經濟學科和管理學科的特點,通過統計學的理論教學、案例分析、課程設計、實驗(踐)等教學環節,培養學生統計思維能力和統計應用能力,具備運用統計學理論與方法,研究社會經濟管理領域有關數據收集、整理、分析等解決實際問題的綜合能力,以適應大數據時代對經濟管理人才的新需求。
2.課程體系優化建設。根據新的教學定位,統計學課程體系優化建設的基本思路:一是課程體系設置要強調基礎知識、注重靈活應用、突出定量分析的教學理念和教學目標;二是課程結構上,突出專業針對性,強調統計學科和經濟學科、管理學科的有機結合,使課程特色化;三是建立實踐教學體系,加強學生實踐能力的鍛煉,為學生提供綜合素質和能力提高的實訓平臺;四是將統計分析軟件的運用融入到課程體系之中,加強統計分析軟件的技能培養。
因此,本文將運用模塊化系統集成思想,根據經濟與管理類各專業的要求,提出按專業分模塊,按模塊分層次,按層次定內容的改革方案,構建“課程體系課程子系統課程模塊具體內容”的遞階控制結構模型,具體如圖1所示。
在統計學課程體系優化建設中,我們運用系統科學的方法構建出模塊化、層次化集成的課程體系在整體功能上達到了最佳狀態。
課程基礎子系統是統計學理論基礎和統計思維培養階段,由統計學基本原理和基本理論構成,體現了“厚基礎”的功能。課程應用子系統和課程案例子系統是統計分析能力訓練階段,首先結合認知性案例模塊系統介紹統計分析方法,讓經管類專業學生了解統計分析方法的基本原理,其次進一步結合專業特色案例模塊和統計分析軟件模塊,通過分專業教學方式,使不同專業學生能夠體會到統計學在本專業中的應用,增強學生的學習興趣,體現了“強能力”的功能。課程實踐子系統是統計應用能力實踐階段,是培養大數據時代應用型經管人才的重要環節。課程實踐主要包括課堂實踐和實驗室模擬,課外實踐主要包括社會實踐活動、實訓實習和相關競賽,通過課程實踐和課外實踐兩大平臺訓練學生運用所學統計調查、統計整理和統計分析等知識解決實際問題的綜合能力。課程選修子系統是統計應用能力擴展階段,該階段在學生掌握統計學相關知識的基礎上,通過選修統計預測與統計決策兩大模塊,進一步培養學生的定量分析能力。
三、結束語
大數據時代經管類專業統計學課程體系構建,應注重強化基礎理論,突出知識的實用性和創新性,做到統計知識與實例分析相結合,與軟件應用相結合,理論教學與實踐教學相結合,與實際應用相結合。根據經管類各專業特色,以“知識+能力+應用”模式進行模塊化、層次化課程體系設置,從本質上提升學生的數據素養和信息素養,提高解決實際問題的定量分析能力,以適應大數據時代對人才素質的新需求,使具有數據管理和數據分析能力的經濟管理人才在就業市場上更具有競爭力。
參考文獻:
[1]孫根年.課程體系優化的系統觀及系統方法[J].高等教育研究,2001,(2).
[2]曾五一,肖紅中、龐皓,朱建平.經濟管理類統計學專業教學體系的改革與創新[J].統計研究,2012,(2).
[3]姚壽福.經濟管理類本科專業統計學課程教學改革思考[J].高等教育研究(成都),2012,(3).
[4]朱懷慶.大數據時代對本科經管類統計學教學的影響及對策[J].高等教育研究(成都),2014,(3).