前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的大數據分析論文主題范文,僅供參考,歡迎閱讀并收藏。
DSE雜志主編、哈爾濱工業大學李建中教授認為,現在大數據概念過熱,幾乎每個人都在談大數據,但真正了解大數據的人并不多。所以,對于大數據到底是什么,應該怎樣促進大數據的實際應用是學術界首先要探討的問題。DSE雜志希望成為全世界大數據研究者的交流平臺,讓我國大數據方面優秀的研究成果能夠發表在國際學術期刊上,推動我國的學術界走向世界。另外它也為全世界的企業界和學術界搭建了一個橋梁,促進大數據的研究成果向實際應用的轉化。
在很多技術領域,中國的發展都是在跟隨國外的腳步,但發展到今天,我們需要在一些領域做出創新,數據分析就是其中的一個突破口。現在國內很多領域、尤其銀行領域用的數據分析軟件都是國外產品。
對于此次合作,中新賽克CEO凌東勝說道,作為軟件開發供應商,中新賽克希望通過這次合作能夠把學術界的研究成果轉化到產品的實際解決方案中去,提升產品的核心競爭力,開發出領先的數據分析軟件,讓國內企業在大數據領域真正做強、做大。在2015年,中新賽克將把信息安全領域和銀行領域作為大數據產品的主要研發方向,努力推出優秀的產品解決方案。
對于大數據從學術研究到實際產品的應用,清華大學計算機系博士生導師、計算機系學術委員會主任周立柱教授認為還存在一些問題需要克服。首先就是要保證數據質量,目前數據噪聲、數據不一等問題還有待通過研究來解決;其次是數據大了以后,如何利用合適的數據模型從復雜性的數據中篩選出目標數據;再次是數據分析得出的結果如何向用戶解釋,背后的基礎是什么。
云計算、物聯網和互聯網的快速發展,使得數據量以極快的速度增長,大數據成為研究熱點。大數據的價值產生于分析過程,所以大數據挖掘與分析是整個大數據處理流程的核心。本文介紹了大數據數據體量巨大、數據類型繁多、價值密度低、處理速度快的4V特征、以及基于這些特征的大數據挖掘與分析需要解決的關鍵技術。
關鍵詞:
大數據大數據分析大數據挖掘可視分析
隨著云計算、物聯網和互聯網等技術的快速發展,各種移動設備、傳感網絡、電商網站、社交網絡時時刻刻都在生成各種各樣類型的數據,大數據時代已經到來。大數據即數據體量巨大、數據類型多樣、數據的質量低、處理速度迅速的數據。大數據分析的核心是從大量數據中獲取有價值的內容,更準確、更深層次的知識,而不是對數據簡單的統計和分析。
1大數據的定義與特征
大數據已經進入了我們每個人的生活,各行各業都在討論如何發展和運用大數據,那么什么是大數據,大數據的特征是什么?大數據是指所涉及的數據規模巨大到無法通過目前主流的軟件工具在合理時間內擷取、管理、處理、挖掘這些數據,并整理成為企業經營決策有用的信息。IBM提出大數據的4V特征,得到了業界的廣泛認可。第一,數量(Volume),即數據巨大,從TB級別躍升到PB級別;第二,多樣性(Variety),即數據類型繁多,不僅包括傳統的格式化數據,還包含來自互聯網的大量視頻、圖片、位置和日志等;第三,速度(Velocity),即處理速度快;第四,價值性(Veracity),即追求高質量的數據。大數據具有4V特征,給人們帶來了新的機遇與挑戰。
2大數據挖掘與分析的意義
在大數據處理的過程中,數據分析是核心,因為大數據的價值全部在數據分析過程中產生。互聯網、硬件等技術迅猛發展,加深了人們對數據分析的需求。如果大數據是一種產業,賺錢的重點在于如何提高數據的分析能力,通過分析發現數據的更多潛在的價值。在大數據時代,數據分析是數據價值發現的最重要環節,也是決策的決定性元素。傳統的數據分析主要針對結構化數據,且已經形成一整套非常有效果的分析體系。但是在大數據時代,半結構化和非結構化數據量的快速增長,給傳統的分析技術帶來了巨大的挑戰和沖擊。大數據分析于傳統數據分析有哪些區別呢?
3大數據挖掘與分析的關鍵技術
大數據挖掘與分析的關鍵技術一般包括:大數據采集、大數據預處理、大數據存儲及管理、大數據實時處理、大數據可視化和應用等。
3.1大數據采集技術大數據采集一般分為大數據智能感知層和基礎支撐層。智能感知層重點攻克針對大數據源的智能識別、感知、適配、傳輸、接入等技術。基礎支撐層重點攻克提供大數據服務平臺所需的虛擬服務器、數據庫及物聯網絡資源等處理技術。
3.2大數據預處理大數據預處理是指在大數據挖掘前期對大數據進行的一些提前處理。預處理包括數據清理、數據集成、數據變換和數據歸約等幾種方法(表1)。大數據的特點是數據量大,但并沒有增加數據價值,相反增多了數據噪音,有很多數據放在存儲器里就沒再用過。數據量的突然增加,各種媒體數據被任意碎片化。在應對處理大數據的技術挑戰中,大數據的降噪與清洗技術值得高度重視。早期主要是結構化數據的挖掘,可從數據庫中發現時序知識、關聯知識和分類知識等。在大數據時代,數據庫已經不能滿足人們的需求了。大數據中數據類型繁多,我們進入了一個非結構化數據挖掘時代。因此,非結構化數據模型是大數據預處理的重要研究方向。
3.3大數據管理大數據不斷地從復雜的應用系統中產生,并且將會以更多、更復雜、更多樣化的方式持續增長。多樣化的物聯網傳感設備不斷地感知著海量的具有不同格式的數據。物聯網系統中大數據的復雜化和格式多樣化,決定了物聯網系統中針對大數據的應用場景和服務類型的多樣化,從而要求物聯網大數據管理系統必須采用特定技術來處理各種格式的大數據,而現在針對特定數據類型和業務的系統已經無法滿足多樣化需求,因此,設計新的具有可擴展性的系統架構已經成為大數據管理的研究熱點。
3.4大數據實時處理根據大數據速度快的特點,時間越長,數據的價值也在不斷衰減,因此很多領域需要對數據進行實時處理。大數據時代,伴隨著各種應用場景的數據分析從離線轉向了在線,實時處理的需求不斷提高。大數據的實時處理面臨著一些新的挑戰,主要體現在數據處理模式和算法的選擇及改進。
3.5大數據可視分析大數據可視分析是指在大數據自動挖掘的同時,融合計算機的計算能力和人的認知能力,利用人機交互技術和可視化界面,獲得大規模復雜數據集的分析能力。在大數據時代,大數據可視化是必須盡快解決的關鍵問題,為大數據服務的研究指明了方向。
4結語
傳統數據處理方法已經不能滿足大數據挖掘與分析的需求。近年來,大數據挖掘與分析領域已經出現了很多新技術,并成為大數據采集、存儲、處理和呈現的堅實基礎。但是對大數據分析的價值尚缺少深入的理解,大數據分析中的很多重要技術還不成熟,還有很多其他關鍵技術難題需要去繼續研究。
參考文獻
[1]韓晶.大數據服務若干關鍵技術研究[D].北京郵電大學博士學位論文,2013.
[2]程學旗,靳小龍,王元卓等.大數據系統和分析技術綜述[J].軟件學報,2014,25(09):1889-1908.
[3]任磊,杜一,馬帥等.大數據可視分析綜述[J].軟件學報,2014,25(09):1909-1936.
[4]McKinseyGlobalInstitute。Bigdata:Thenextfrontierforinnovation,competition,andproductivity[J],2011.
關鍵詞:信息管理與信息系統專業;實踐教學平臺;課程群
1引言
隨著信息技術不斷發展,物聯網、云計算、大數據、移動互聯網等技術已經在各行各業中發揮越來越重要的作用,現代企業信息管理也利用信息系統轉變為利用相關信息技術進行敏捷化、智能化、柔性化、一體化和社會化的商業模式創新[1-2]。信息管理與信息系統專業所培養的學生在知識儲備以及實踐能力方面有了新的要求,因此專業建設需要適時調整人才培養方式以及課程體系來主動迎合社會對于相關人才的需求[3]。
信息管理與信息專業作為一門由管理學基礎理論與計算機科學技術相結合的交叉學科,是一門強調實踐性與應用性的學科[4]。信息管理與信息系統專業的實踐能力主要是運用所學的專業課程知識,進行信息的設計開發,實現資源的充分利用,解決相關問題。因此,所培養的學生除了具有信息開發的能力,還需要具備數據分析能力。其中,數據分析能力主要是對信息系統數據加以挖掘和分析,獲取自身需要的信息[5],對學生未來從事與專業相關的工作有重要影響。
近年來,不少高校的信息管理與信息系統專業開始推動課程群建設,明確專業定位,減少不同課程的內容重復,加強課程之間的聯系,從而有效地整合現有的教學資源[6-7]。由于專業的特點,信息管理與信息系統專業對實踐教學平臺建設的要求更為迫切,高質量、高效率和高水平的實踐教學平臺既對課程群建設提供有力支撐,也是提升學生實踐能力和專業素質的重要手段[8-9]。
本文以中國地質大學(武漢)經濟管理學院信息管理與信息系統專業往屆畢業生以及相應實習企業的調研,發現部分專業畢業生的實踐能力較弱,面對實際業務中出現的問題或者需求,往往是“紙上談兵”,而無法獨立自主解決。因此,本文依托信管專業課程群和實驗軟件平臺建設項目,在整合專業核心課程,形成專業課程群的基礎上,進行實踐教學平臺的建設。該平臺以培養學生的信息系統開發能力與數據分析能力為目標,整合了教學團隊,軟件平臺和企業等資源,分別形成了課程教學軟件平臺、實踐課程資源平臺、專業實驗室平臺、校外實習基地平臺四大實踐平臺,幫助我校信息管理與信息系統專業的學生提升專業技能和實踐能力。
2實踐教學平臺建設存在的問題
從中國地質大學(武漢)經濟管理學院的信息管理與信息系統專業課程群和實驗軟件平臺建設項目出發,項目組一方面調查了2011年-2015年的信息管理與信息系統專業畢業生的工作情況,了解學生的主要就業行業、崗位、能力需求等,同時對我院現有的信管專業實踐教學平臺建設情況進行分析總結;另一方面,項目組調研了國內外高校的實踐教學平臺建設情況,了解其他高校的信息管理與信息系統專業實踐教學平臺建設的進展與成效。通過上述兩個方面的系統調研,項目組充分意識到我院現有的信管專業實踐教學平臺迫切需要加強建設,以增強學生的專業實踐能力。因此,我們比較分析了我校信息管理與信息系統專業實踐教學平臺建設主要存在以下幾方面的不足:
第一,師生對實踐教學的重要性認識不足。由于專業的特點,實踐教學是信息管理與信息系統專業本科人才培養的重要組成部分,但少數師生對實踐教學的重要性認識不足,還存在著“重知識、輕實踐”的現象,他們認為實踐教學環節僅僅是課堂理論教學中可有可無的輔助。所以,在教學工程中出現了以下現象:一是學生認為實驗課程相比課堂理論知識無關緊要,造成了實驗課的缺勤較多;二是實驗課在考核中占的比例相對較少,造成學生對實驗教學的不夠重視;三是教師相對于理論課對實驗課的要求不高,造成實驗課課堂紀律渙散。這些現象導致實踐教學環節不能很好地支撐理論教學,不僅造成理論知識掌握不牢,而且實踐操作能力也不能得到很好的鍛煉。
第二,軟件平臺對理論課程教學的支撐不夠。信息管理與信息系統專業的課程較多,而且要求的軟件也種類繁雜,而該專業所擁有的軟件不足,設置的實踐教學環節的教學定位未能與課程密切聯系而造成的軟件平臺對專業課程教學缺少強有力的支撐,而且實踐環節的課程設計未能與其專業理論課程完全對應,造成理論課程與實踐內容結合度不夠。
第三,實踐教學方法和手段的新穎性不強。實踐教學環節的課程功能定位不夠清晰,層次不高,硬件設施相對落后,難以滿足學生自主、多元、個性化的學習需求,在一定程度上限制了學生專業素質的提高。同時,有很多實踐教學的方法和手段還是原來的方式,未能隨著社會的發展進行更新。例如:關于數據挖掘的實踐教學還是學生在學習各種數據挖掘及分析方法的基礎上,按照老師的要求和給定的數據進行數據挖掘等實踐的練習。實踐內容不夠新穎,學生學習積極性不高,造成學生實踐操作能力不強。隨著物聯網、云計算、大數據、移動互聯網等信息技術的不斷發展,社會對于信息管理與信息系統專業的人才要求越來越高,不夠前沿的實踐教學方法和手段造成了所培養的人才的實踐能力不能滿足社會的發展需求。
第四,理論教學與企業實踐融合度不高。根據畢業生的反饋調查反映,信息管理與信息系統專業60%以上的畢業生從事信息系統設計開發和維護、系統實施、市場開拓、產品研發等崗位,這些工作均需要學生掌握最新的IT技術應用和管理知識。同時,學生普遍反映數據處理能力和系統實現能力需要加強。因此,迫切需要通過“產教協同”的實習基地的建設將基礎教學與企業實踐相融合,給學生提供更多的實踐技能培訓和實習機會,提升他們的實踐能力。
3實踐教學平臺的建設體系
為了優化教學內容,理順課程之間的內容與聯系,我們將信息管理與信息系統專業的核心課程進行銜接設計和集成,進一步劃分為相互支撐的三個課程群:信息系統設計實現、數據分析與優化決策與電子商務運營。“信息系統設計實現”核心課程群定位于信息系統設計理論和方法等基礎知識的培養,包括《管理信息系統》、《信息系統分析與設計》、《信息系統項目管理》、《ERP原理與應用》四門專業課以及《專業教學實習》;“電子商務運營”核心課程群定位于管理決策在商業管理應用方面應用實踐能力的培養,包括《電子商務》、《信息系統戰略與管理》、《企業電子商務管理》和《供應鏈與物流管理》四門專業課;“數據分析與決策”核心課程群定位于數據驅動的管理決策方面應用實踐能力的培養,包括《決策支持系統》、《數據挖掘》、《商務智能》、《R語言與數據分析》和《python數據分析與機器學習》五門專業課以及《數據分析實訓》。
通過對已有的信管專業實踐教學平臺建設中存在的問題進行分析和總結,依托信息管理與信息系統專業核心課程群建設,我們構建了“課程主導、軟件協同、配套完善、實戰訓練、需求驅動、綜合應用”的實踐教學平臺,主要包括三部分:“課程主導、軟件協同”的課程教學軟件平臺,“配套完善”的實踐課程資源平臺,“實戰訓練”的專業實驗室平臺,“需求驅動、綜合應用”的校外實習基地平臺。
3.1課程教學軟件平臺建設
課程教學軟件平臺建設是在課程群建設和已有軟件的基礎上,完善課程教學軟件建設,形成滿足課程群教學的軟件平臺。首先要保證信管專業教學各個課程群的軟件配備。其次是為教學提供合理配套的最新軟件工具,避免使用過時的教學軟件,使用最新最為實用的軟件,培養學生與社會接軌,真正成為社會所需的應用型人才。
因此,在信息管理與信息系統專業的培養方案里面確定了三項實訓科目:《建模與系統應用實訓》《信息系統設計與開發實訓》和《大數據分析與處理實訓》。通過這三項實訓內容,并與課程內容有機結合起來,學生可以將在課程中學到的知識在實訓中檢驗,看自身是否已經掌握,并且在實訓中補充自己課程知識中忽略的知識點。通過專業課程對應的實訓,來提升學生系統建立、數據分析等方面的能力,在實訓中開拓學生的視野,同時加強學生的專業理論知識的學習。
3.2實踐課程資源平臺建設
信息管理與信息系統專業具有交叉學科的特點,要求所培養的學生具備較強的實踐和動手能力。在構建課程教學軟件平臺基礎上,我們完善實踐課程與資源建設,發揮軟件實驗室的作用,更好支撐對學生實踐動手能力的培養。
首先,我們完成了“信息系統設計實現”課程群的課程案例集“決策支持系統案例集”和“電子商務運營”課程群的課程案例庫“社交商務案例集”,以及“數據分析與決策”課程群的大數據分析數據集“大數據分析數據集”。這些案例集在教學過程中不斷應用,根據學生的反饋進行修改完善。
其次,我們完成了《數據清洗與可視化實驗手冊》、《GAMS軟件實踐應用手冊》等實踐教學指導書。在進行實踐教學過程中,我們可以更好地進行實踐教學,提升實踐教學的效果。并在此基礎上,我們不斷完善教學指導體系。
3.3專業實驗室平臺建設
專業實驗室平臺主要是為信管專業學生構建科研實訓平臺與實戰環境,這主要是彌補傳統的專業實驗課內容設計較為單一、功能定位不夠清晰且較為脫離企業實際需求的不足[10]。
因此,為了培養信息管理與信息系統專業的學生形成數據分析思維,我們指導學生如何從數據采集、清洗到數據挖掘多個方面來鍛煉,從而讓他們可以具備足夠的能力滿足大數據環境下知識管理與智能決策的需要。首先,我們建設了大數據實踐教學軟件實驗室,構建大數據實訓科研平臺,從企業引進先進的軟硬件平臺,以及相關數據和項目案例,為學生搭建起接近企業真實應用的大數據實戰環境,讓學生有機會理解企業業務需求和數據分析,通過實戰訓練,解決實際問題,切實服務于教學與科研。其次,我們結合實踐課程資源,指導學生通過自主設計、團隊合作,完成相關的實驗項目。最后,信息管理與信息系統專業教師與學院的實驗教師一起組建實驗指導教師隊伍,每門課都有相應的實驗指導老師負責進行上課,同時借助企業的力量來培訓實驗指導老師,并以客座教授來引入企業導師加強實驗指導的師資力量。
3.4校外實習基地平臺建設
校外實習基地是企業和高校溝通的橋梁。通過合作,企業可以共享高校的人才和相關的研究設備,高校也可以參與到企業的技術研發工作中,并提升學校的科研能力和學生的就業能力。通過加強校企合作,樹立以就業為導向的教學理念,能夠讓學生盡快適應社會發展對專業人才的能力要求。
我校信息管理與信息系統專業與上海漢得信息技術有限公司、武漢鵬程信息技術有限公司和九派(武漢)全媒體股份有限公司等企業合作建設了實習基地,在校學生參與企業的實際項目中,不僅了解了企業的環境和項目情況,而且在參與項目的工程中熟悉了項目規劃、設計到研發實施的整個流程。學生通過在實習訓練基地實習,學習了實際工作中對信息技術的要求,并通過在校學習彌補與實際工作中的差距,不斷提升自己的工作能力,成為一個專業知識與專業技能“雙過硬”的人才。同時,在學生的實訓過程中,信息管理與信息系統專業教師也加強了與企業相關人員的交流與溝通,共同探討新的教學方式,改進教學內容和方式,提升教學水平,為企業的發展提供更多的實踐性人才。
4所取得的成效
我們形成了信息管理與信息系統專業開放、共享、融合的實踐教學平臺,滿足了專業實訓的需要。該平臺良好地支撐了信息管理與信息系統專業的實踐教學,有力地促進了該專業學生知識、能力、思維和素質的全面協調發展,在四個方面體現了學生實踐動手能力的提升:
(1)在信息管理與信息系統專業學生的畢業設計中,學生對于信息系統實現完整程度有了明顯的進步,數據分析的能力也有顯著提升。在畢業設計中,信息管理與信息系統專業更多學生以數據分析作為論文選題,論文質量很高,多篇論文獲得校級、湖北省優秀論文。
(2)信息管理與信息系統專業學生積極申請各類別的大學生科研計劃、社會實踐活動,積極參加國家級、省級全國數學建模競賽、挑戰杯等各類科技競賽活動,獲得了豐碩成果。例如在數學模型競賽和數據分析競賽中學生參與度和獲獎方面取得了極大的進步:2018年僅有3位信息管理與信息系統專業學生在這兩個方面獲得省部級獎項,在2019年有20余位信息管理與信息系統專業學生獲得了省部級以上的獎項,其中3項國際級獲獎。
(3)信息管理與信息系統專業學生實踐能力的提升,使得他們在實習單位更好地走進企業內部,能夠運用自己所學的知識去處理實際工作中遇到的問題,將理論與實踐結合,進而進一步增強自身實踐能力,提升專業技能,更好地完成實習中的任務。因此,信息管理與信息系統專業學生在就業方面無論是就業的質量和數量方面都有了很大的提高。
(4)信息管理與信息系統專業學生積極參與“學術領航”活動,在學習專業知識的同時,鍛煉科研能力,從理論與科研結合方面來更好地提升了實踐能力。因此,信息管理與信息系統專業學生一直保持良好的保研情況,基本上報送到985高校繼續深造。
5總結
關鍵詞: 智能數據平臺 產學研 整合思路
一、社會治理智能數據平臺的構建思路
隨著信息化時代的到來,人們對大數據的研究開始日漸加深。研究者開始越來越多地強調對大數據的深層次挖掘,其中這種挖掘使得研究者能有越來越多探討和發現原來所不存在的事物之間的相關關系。可以說,大數據的出現,是“長尾理論”和“黑天鵝”理論的雙重驗證――原本被統計學剔除在外的小概率事件納入其中。但是,值得深思的是,目前對大數據的研究仍然過多地集中在理論層面,缺乏實踐性的探討,更缺乏深層次的具有統籌規劃方案能力的全方位的探測。因此,在高校研究和社會治理層面,這種非計算機科學的社會應用,如果能夠行之有效地將大數據概念引入實踐化,就成了擺在社會科學研究者眼前的重中之重。特別是構建一套完整智能數據平臺,幫助社會科學研究者在數據收集、數據分析和同用戶反饋交流中起到平臺作用,進而實現生產、教學和科研三位一體的布局戰略。
智能數據平臺所實現的這三個功能既是獨立的又是相輔相成的。說這三者是獨立的,原因在于這三個功能個各司其職地完成了相對較為獨立的任務。其中,智能數據平臺的生產功能為用戶滿足商業、政府、NGO等社會組織數據收集、數據分析及滿足市民在各種生活情境中對信息的精確獲取功能。智能數據平臺的教學功能為以學生為主體,深入細致地挖掘智能數據平臺中生活情境中可能存在的需求。而科研功能則在通過完成軟件的生產和教學功能的同時,進一步拓展了軟件的價值。其中,科研的方向可以有二:第一,科研人員可以根據特定情境下智能數據平臺收集到的數據進行深入加工和挖掘,在獲得深層次變量關系的同時,完成滿足社會需求的科研論文和項目。此外,圍繞智能數據平臺的功能拓展,也是一項重要的科研功能。三者雖然擁有各自的功能,但是在另外一個層面三者之間也存在不可分離的關聯。其中生產功能以需求為導向為智能平臺的建設提出了方向,這種方向性的指引保證教學過程中能以社會情景、社會組織和社會人的需求為方向進行知識傳授。這種以生產為導向的知識傳授正是現代應用型技術人才培養的需要。最后,在教學中,由于學生教師以智能數據平臺為工具的社會需求解決方案設計,能夠進一步保證教師的科研有明確的方向性和應用性。這種應用型將會進一步影響智能數據分析平臺的生產和教師的教學。可以說智能平臺的構建是能夠真正地從滿足社會需求方面出發培養應用應用技能性人才,提高教師科研能力較好的解決方案。
二、圍繞智能數據平臺建設的產學研示例探討
圍繞智能數據平臺出發制訂產學研三位一體的發展方案不僅能夠有效地拓展應用型技術人才培養的思路,而且能夠提高實際教學質量,使得教師從原本簡單的知識講解轉換到和學生一起尋找具體社會問題的解決方案。例如,在傳統的社會工作類專業中,一般都會部署發展社會學、西方社會學、社會組織管理、社會調查研究方法和數據分析技術這5門課程。按照傳統意義的劃分來看,這5門課程分別對應了社會理論和研究方法的課程。從傳統課程的講解體系上來看,這5門課程都是自成一體的,依照教學大綱對應著不同的細致知識點。但是從構建智能數據平臺建設為核心的產學研研究中,這5門課程便可以有效整合成為一個整體。特別是在以社會情景需求為專題突破口的前提下,這5門課程更是成為統一專題服務的工具,它們以不同的視角指向了同一目標。例如,以“如何了解市民的心理健康程度,保障社會安全”的社會需求為例,教師可以在西方社會學和發展社會學這兩門課程中向學生引出該主題,同時要求運用這兩門課程的知識,明確能夠解決需求的社會理論。學生在理論的確定過程中,通過與教師和其他同學的討論明確了理論的本質和解決問題的思路,此后將依據理論界定出關鍵概念和研究主題與研究假設。在社會組織管理課程中,學生將依據研究主題和假設,明確社會需求可能解決的突破點――選擇和那些具體的社會組織進行合作與探討,從數據收集和分析的角度科學化地提出一整套解決方案。在未來的社會調查研究方法和數據分析技術中,研究者將可以通過已確定研究主題、假設和社會組織的具體情況進行概念操作化和問卷設計,并將問卷、測量或其他形式的數據收集方式置入智能數據平臺中。在數據分析技術課程中,學生將按照已經設定好的研究方案運用智能數據分析平臺對分析數據并輸出報告。最終,這些報告和數據結果將有針對性地提交給對應的社會管理組織,在實踐中評估其對社會需求的解決程度。
參考文獻:
[1]陳陽,張梅.大數據基礎上抽樣調查在社會治理中的應用探討[J].理論界,2015,11:151-155.
[2]陳陽,魏玉東.大數據影響下的政府社會經濟調查動向探尋[J].遼寧經濟,2015,01:76-77.
關鍵詞:大數據 教學 工科專業 數據挖掘
中圖分類號:G64 文獻標識碼:A 文章編號:1674-098X(2016)02(a)-0120-04
Abstract:With the advancement of data collection technologies,big data becomes a significant resource in various fields of engineering.It is generally applied both in industrial world and scientific research.To engineering majors,teaching of big data theory and technology should be emphasized either for educating future research staffs or for providing technicians for industry. In this paper,the necessities and key points of teaching big data skill in colleges were discussed after the introduction of the background of big data.It is suggested that mathematic skill of big data should be taught in combination with the corresponding major,and programming skill related to big data should be emphasized.
Key word:Big data;Teaching;Engineering majors;Data mining
信息技術的快速發展為數據采集提供了越來越多的方法和手段。隨著大量實時數據的連續積累,傳統的數據存儲和挖掘方法逐漸不能適應現實需求,大數據的概念隨之被提出來。大數據一般指在因數據量巨而無法在可容忍的時間內用傳統的軟件工具采集、清洗、管理和處理的數據集[1]。具體來講,大數據的大,首先,體現在容量上,大數據不是樣本,而是事件發生時積累的全部數據。其次,體現在速度上,大數據一般都意味著實施連續的數據采集。最后,大數據體現在多樣性上,包括文本,圖像,視頻聲音等多種類型。
大量連續的數據集,為更全面深入地認識各種問題提供了豐富的素材,也對原有的數據處理和挖掘方法提出了挑戰。大數據的機遇和挑戰在互聯網等相關領域表現的最為突出,尤其是新興的移動互聯網領域。無論是網絡訪問數據,還是諸如基于移動互聯網的叫車、導航和餐飲服務,其本身就是大數據來源,為企業和研究人員研究消費者行為提供了重要資料。在非信息技術領域,比如公共交通行業,大數據也逐漸成為政府決策和交通模型研究的重要資源。典型的如北京地鐵交通智能卡數據,日刷卡量達600萬人,長年的數據積累可以被用來研究交通行為、交通政策乃至城市結構的演變。因此,目前在就業市場上基于大數據的分析技能受到越來越多的用人單位的重視,相關科研機構也越來越需要具備大數據相關分析方法或編程技能的本科生或研究生。
然而目前的課程大綱中,對于大數據相關的理論與方法并沒有給予應有的重視。筆者調研了海淀區大部分高校,就本科教學而言,有關數據統計分析與挖掘的教學,主要放在大學三年級的數據基礎模塊,代表性課程為概率論,開課教師多為理學院老師,帶有通識性教育的特點。就研究生階段而言,大數據分析所涉及的基礎理論主要通過數理統計和數值分析相關課程來講授。這些教學模塊并沒有對大數據及其相關的理論分析與應用技術做充分的強調。對此,該文在分析大數據教學必要性的基礎上,提出大數據教學的要點,為工科專業培養具備大數據思維和技術處理能力的人才提供參考。
1 工科專業大數據教學的必要性
隨著信息技術在各個行業的應用,海量數據逐漸被采集和積累,面向大數據的統計分析技能需求越來越大。以培養人才為主要目標的高校需要跟上產業的發展,因而有必要結合各個專業的實際需求開設大數據相關課程。
1.1 大數據已經成為各個行業的重要資源
隨著信息化、自動化程度的提高,各個行業都開始積累大量連續且多種形式的數據。數據的量級是前所未有的。以交通行業為例,傳統的數據采集方法往往采用抽樣調查的方法,利用問卷獲取居民的出行信息。不僅成本較高,獲取的數據量也有限,準確性難以保證。隨著信息技術的進步,尤其是GPS導航的普及,以及公共交通系統自動售檢票設備的應用,為交通行業提供了大量實時連續的數據。再加上監控系統、圖像識別等設備與技術的應用,可以說目前交通行業已進入大數據時代。以北京為例,目前公共交通領域都采用自動售檢票系統,日地鐵刷卡量達600萬人,路面公交刷卡量達1 000萬人。公交系統內部監控視頻系統每日產生萬T視頻數據。同時路面交通6.7萬輛出租車GPS數據,以及地圖搜索引擎積累的導航數據,共同構成了北京城市交通的大數據。
這些數據占用了大量的存儲空間,也為我們全面地分析問題提供了寶貴的資源。怎么從如此大規模的數據中挖掘有用信息,引起了行業人員越來越大的重視。這點從谷歌大數據搜索趨勢可以看出。如圖1所示,從2011年開始,大數據搜索量開始飛速增長。這說明大數據已經成為信息化社會數據統計和數據挖掘的新形式。作為培養創新型人才的基地,高校在這種社會潮流中不能落后。這點不僅要體現在科研上,更要體現在教學上。因此,開設大數據教學是大勢所趨。
1.2 企業需要具備大數據處理能力的技術人才
企業是大數據的擁有者。海量的數據為各類企業監測設備運行狀態、識別目標客戶、提升效率和增加利潤提供了潛在途徑[2]。多項研究表明,深入挖掘企業積累的大數據,可以優化企業的倉儲、供應鏈管理等環節,降低成本,提高效益,提升顧客的滿意程度[3]。
一旦大數據帶來的實際效益為企業所充分認識,以追求利益最大化為存在目的的企業就會成為大數據挖掘的第一推動力。隨著近幾年大數據技術在經濟效益轉化上取得的成果越來越大,更多的企業開始著手挖掘大數據,尤其一些互聯網巨頭,都紛紛成立了大數據實驗室。隨著企業大數據相關業務的拓展,其對大數據方面的人才需求就越來越大。根據華盛頓郵報[4],McKinsey環球研究所估計截止2018年僅美國經濟和商業領域的大數據高級分析人才的市場需求就達4.4~4.9萬,其他大數據分析人才需求量達400萬。
如此大規模的市場需求,如果高校不能及時調整培養方案,增加大數據相關的教學模塊,就不能滿足社會對這方面人才的需求。所以,從人才市場需求的角度,國內大學有必要盡快開展大數據教學。
1.3 科學研究需要大數據人才
大數據挖掘在各個領域的需求,最終會反饋到科研領域。這點從近十年SCI論文檢索數據庫Web of Science收錄的大數據主題相關論文數量可以看出來。筆者檢索了近些年SCI數據庫大數據主題相關論文的年收錄量,如圖2所示,以大數據為主題的論文在2006年的年收入量是1 000篇左右,而到2014年,年收入量已突破4 500篇。SCI論文數據庫代表著高水平的科研成果。以大數據為主題的高水平科研成果從2011年開始飛速增長,這點與圖1谷歌搜索服務提供的大數據相關熱度基本一致。說明全社會對大數據的關注,很快反應到了科學研究領域。
與科研領域大數據相關研究需求與研究成果快速增加的情形相悖的是,國內高校在本科和研究生培養過程中對大數據挖掘理論與方法的教學沒有給予足夠重視,缺乏相關的教學模塊。以交通運輸專業為例,新入學的碩士生或博士生,在大數據處理方面既缺乏課程培訓,也缺乏研究經驗,需要團隊從零開始傳授交通大數據挖掘相關方法。這種現象在多個專業都是普遍存在的。因此,從培養科研后備人才的角度,高校有必要開設大數據相關課程。
2 大數據教學的要點
充分認識了大數據教學在工程專業人才配上上的必要性,下一步就是如何開展好大數據教學,使學生通過大數據課程的學習,掌握大數據挖掘相關的理論與方法,滿足就業市場與繼續深造的需求。對此作者走訪旁聽了部分英國大學大數據相關的課程,也調研了國內部分高校開展的數據挖掘方面的課程,總結了大數據教學的兩個要點,以期為大數據教學的推進提供參考。
2.1 數學基礎課與專業案例相結合
大數據處理對機器學習相關的數學方法,特別是統計分析理論要求較高。目前大多數高校都在本科及研究生培養的過程中開設了概率論及數理統計相關課程,然而這些課程一般由理學院數學系的相關老師講授,具有工科專業通識教育的特點。這會造成一些突出問題。最主要的是這種模式會弱化案例教學的作用,過于強調理論,而理論的應用,尤其是理論在各自專業上的應用,不能被很好地強調。即使包含了案例教學,但是案例往往是抽象的,或者與各個工科專業沒有關聯,學生不能意識到教授的理論知識能否能在本專業應用,應用在什么地方,以及如何應用。這會從根本上影響學生的學習興趣,進而影響到學習效果。
因此,有必要借鑒國外先進的教學理念,在大數據理論教學中采用本專業老師教授大數據挖掘以及機器學習相關理論。筆者在英國University College London交通中心旁聽了數據采集與分析相關的研究生課程,發現該課程即由交通中心的老教授主講。其授課內容與國內研究生數學基礎課的數理統計類似,不過適度弱化了理論部分,增加了大量的交通工程數據分析案例。從學生的課程參與情況,以及參與科研項目過程中對相關理論的應用效果來看,這種教學模式不僅能讓學生意識到理論方法在本專業的價值,還能讓學生快速掌握應用的方法。甚至部分教授采用半節課理論講解,另外半節課邀請企業或政府部門相關從業者針對所講理論在實際中的應用進行演講。這些教學模式都值得在大數據教學中加以借鑒。
2.2 著重編程能力的培養
大數據對自主編程能力的要求很高。這主要由兩方面決定。其一是數據的預處理,由于大數據一般涉及繁蕪叢雜的原始數據。這些數據存儲格式,字段意義,數據類型種類較多,使用現成的統計軟件已不能滿足原始數據預處理要求,而手工處理也不現實,因此一般需要自主編程,針對數據的具體問題設計對應的預處理算法。比如公共汽車網絡一般包含很多線路和車站,線路和車站的名稱、編碼也存在不盡統一之處。體現在公共汽車刷卡大數據上就是字段編碼存在混亂,與GIS數據上車站的地理位置不能一一對應。對于這種情況,要可視化公交車網絡客流,必須對刷卡數據預處理。如北京龐大的公交網絡,手工處理不現實,這就需要研究人員自主開發對應模塊完成該工作。其二,海量數據對計算復雜度提出了新的要求。很多情況下不是傳統算法不可行的問題,而是不能在適合的時間內處理完大規模數據的問題。以地鐵網絡客流實時顯示系統為例,如果路徑選擇算法不能在較短的時間內給出結果,從實時的角度就其結果就沒有意義。大數據處理需要復雜度更低的可行算法,甚至在有些情況下需要設計并行算法,使用多個計算設備同時計算[5]。
所以,培養具備大數據思維和能力的人才,必須強調編程能力的培養。把編程相關課程作為大數據培養模塊的基礎課程,并體現大數據編程的特色。英國紐卡斯爾大學的Big Data Analytics模塊就是由計算機相關專業的老師開設。課程大綱中強調編程能力和算法設計,并專門教授了并行計算相關內容。
3 結語
隨著數據采集和存儲技術的進步,大數據逐漸成為各個行業尤其是工程相關專業的熱點。在這種形勢下,本文研究了工科專業大數據教學的問題。首先分析了大數據在實踐和科研領域的發展現狀和未來趨勢,認為無論是生產企業,還是科研相關單位,對大數據人才的需求都是迫切和巨大的。因而,從滿足未來人才市場需求的角度,大數據教學的問題必須引起國內高校的重視。工科相關專業有必要增設大數據培養模塊。基于必要性,總結國內外目前在數據處理方面的教學經驗和問題,提出了開展大數據教學的要點。其一,大數據理論教學必須與本工科專業相結合,側重案例的相關性。其二,自主編程能力是大數據能力的重要體現,因而必須予以重視。目前大數據教學在國內還處于起步階段,需要各個專業的同仁結合本專業的特點展開積極的探索,構建合適的大數據培養模塊,成為本科及研究生培養課程體系的重要一環。
參考文獻
[1] Snijders,C.,Matzat,U.;Reips,U.-D.“’Big Data”:Big gaps of knowledge in the field of Internet[J].International Journal of Internet Science,2012(7):1-5.
[2] Stefanovic,Nenad.Collaborative Predictive Business Intelligence Model for Spare Parts Inventory Replenishment[J].Computer science and information systems,2015,12(3):911-930.
[3] Hahn,G.J.;Packowski,J.A perspective on applications of in-memory analytics in supply chain management[J].Decision support systems, 2015(76):45-52.
大數據技術的快速發展促進了科研方式的變革,基于數據緊密型的科研方式已經成為自科研經驗方式、理論方式、計算機模擬方式之后的新的發展模式[1]。現階段,海量的半結構化和非結構化數據給科研帶來了巨大挑戰,而且數據存儲和共享功能缺乏合理性和有效性,這也給高校圖書館的服務模式造成不小的影響。在大數據時代,高校圖書館應該更加重視用戶數據安全和服務質量,積極利用先進的數據分析和處理技術來提升高校圖書館服務的智能化和個性化,為高校圖書館的服務創新創造出有利條件[2]。高校圖書館應該借助大數據技術,充分了解用戶的服務需求,并以滿足用戶的服務需求為目的開展相應的服務。
1 大數據時代高校圖書館開展嵌入式知識服務的內容
1.1 用戶需求的分析
在大數據環境下,首先,高校圖書館可以收集和存儲用戶的基本信息,比如:用戶的學歷、年齡、科研成果、學習經歷以及工作單位等信息,并詳細記錄用戶的操作信息及檢索、查詢、收藏以及標識等操作行為,可以與用戶查詢資料的內容、學科類別以及相應用戶權限進行關聯,還可以收集用戶具體的信息咨詢、科技前沿以及參考導航等服務情境[3]。其次,高校圖書館可以分析海量?稻藎?利用基于語義網的技術來規范用戶信息資源,并將其轉換為能夠被應用程序理解和直接調用的數據,從而可以更好地感知和預測用戶行為。最后,高校圖書館利用用戶數據作為決策依據,為用戶制訂當前目標、短期目標以及長期目標,并根據需求環境的變化動態分配硬件和軟件資源,從而讓高校圖書館的服務融入用戶的科研活動中。
1.2 規律趨勢的分析預測
針對某些行業或者學科進行全面收集信息資源時,在專業研究成果的基礎上進行深入分析,比如對比、推理以及綜合利用等科學分析手段,或參照專業學科發展規律,計量學發展規律等[4]。由于學科的知識特點和發展規律各不相同,因此需要運用多種分析和處理手段來構建不同的學科模型,從而能夠準確地預測學科發展規律以及發展趨勢。常見的預測方法有以下幾種:①將大量文獻內容進行數據統計,以歸納總結出文獻的內在規律,比如齊普夫定律、洛特卡定律以及布拉德福定律等都是常見的基于文獻內容的統計方式。②根據文獻的發展規律和趨勢來構建數學模型,可以達到預測文獻發展規律的目的,比如普賴斯就專門構建了基于指數增長規律的數學模型。③將其他領域的數學規律和數學模型移植到文獻發展的預測中,比如物理學中的半衰期規律、經濟學中的人口增長規律以及生物學中的成長規律等。④依據模糊理論來搜集相似文獻內容,存儲在計算機中,并利用統計技術進行分析和對比數據,以此幫助科研人員挖掘數據關聯性。
2 大數據分析與情報分析的共性
2.1 看重對數據的定量分析
數據作為最直觀的資源,已經潛移默化地改變了分析決策的方式,如何有效地收集、篩選以及整理各種數據資源,并利用合理的方法來挖掘數據的潛在價值,已經成為評價一個組織是否具有競爭力的重要衡量方式。情報分析學科同樣十分重視數據資源的應用,在情況分析研究的初期階段,分析人員主要依靠人員的智力來分析少量數據現象,并從中歸納總結出情報分析的規律。隨著科學技術的快速發展,學科之間的關聯性和交叉性逐漸加強,學科知識的劃分越細致,所涉及的內容也就越專業。目前,情報分析更多地依靠先進的信息處理技術,利用“機器學習”方式來挖掘數據、分析和統計相關聯系,還可以利用定量化方式來關聯基于關鍵字的詞匯共現,其核心思路就是在計算能力的基礎上利用人工分析判斷數據聯系。因此,利用數據來闡述問題已經成為情報分析的主要特點,在情報分析報告中利用數據、公式以及圖表來說明理論的方式也充分體現了數據分析技術在情報分析領域的重要地位。
2.2 關注多源數據融合
大數據技術可以通過各種渠道,并利用各種收集手段來獲取各種數據信息,在進行集中整理后,形成一種基于不同數據格式的統一處理方式,這種處理過程被稱為多源數據處理融合技術[5]。一方面,可以通過不同用戶和不同網絡途徑來獲取同一個研究方向的內容;另一方面,根據信息數據的種類和用途的不同,比如:根據視頻、音頻及文本等方式進行分類,也可以根據結構化和非結構化等方式進行分類,同時也要考慮數據的異構性。需要注意的是,相同類型的數據也有可能分布在不同的站點,并由各自的數據供應商提供,如論文分析研究的數據來源就包括中國知網、維普及萬方數據庫等[6]。一般情況下,針對前沿領域進行情報分析時,只利用一種類型的數據是不夠全面的,應該從其所涉及的期刊論文、圖書資源、專利以及項目等收集有效信息,進行整合處理,這樣才能夠體現出該研究的整體特征。
3 嵌入式知識發現情報分析服務的重要環節
3.1 知識發現系統的利用
將文獻分析方式與數據挖掘技術進行有機結合已經成為知識發現方面的熱門研究內容,并且取得了可以直接應用的研究成果,這為嵌入式知識發現情報分析服務提供了重要的研究方式。不可否認,選擇和使用合理的知識發現系統會提高信息數據的分析效果,其中比較有代表性的就是充分認識到知識發現系統的優勢,評估數據分析結果與用戶的契合程度,從而讓數據分析服務的效果得到用戶的認同。比如:一些基于知識發現的軟件和系統比較適合大型結構化文獻數據分析,可以根據結構化數據的特點分析出信息的特定發展規律[7];還有一些基于主題和科研本身的知識發現模型,其可以利用文獻資源之間的相關性挖掘有效信息,并對文獻資料進行多角度分析,根據關聯原則描述該學科領域的發展趨勢圖;另外還可以利用關聯和非關聯的知識發現方法,再結合相關語義分析、詞匯頻率統計等技術,最后通過關鍵詞聚類方式來尋找潛在的知識發現。
3.2 準確獲取數據
知識發現可以分析大量數據和信息資源,并從中挖掘明顯關聯或者非關聯的科學研究的內在規律,情報分析人員可以向科研人員提供相關情報分析,一般采用的是定量和定性相結合的分析方法。在進行定量分析之前,如果要獲取較為準確的目標數據,除了要分析數據源以及檢索方式之外,還要對數據進行預處理,如消除噪聲數據、集成數據等。大部分的數據分析軟件都具有數據篩選功能,其中常見的TDA(Threat Discovery Appliance)軟件就可以通過列表功能手工篩選原始數據。需要注意的是,當自動篩選數據時,常常由于數據中檢測出偶發的錯誤或者不同的存儲格式導致篩選失敗,這就無法按照要求構建知識圖譜。嵌入式的知識發現服務可以將篩選后的數據與專業數據分析專家共享,由此可以進一步提高數據的準確性,從而得到與研究對象關聯緊密的數據。
3.3 應用綜合分析方法
科技創新活動不僅包括學科和領域的創新,而且還涉及社會各個方面的創新,所以嵌入式知識發現服務需要為決策人員提供情報分析服務,幫助分析對象的社會行為,并為決策人員指明科研決策的發展方向;此外,還可以根據用戶的需求,結合經濟學、社會學、管理學以及情報學等學科的分析方法,多方面地展現科技創新在社會環境中的具體狀況和發展趨勢。如今,國外已經出現了專門提供情報分析服務的公司,比如美國的麥肯錫公司就對醫藥領域提供多方面的分析和研究服務。而國內關于情報分析的研究還處于起步階段,高校圖書館可以借鑒國外成熟的研究成果,比如可以利用波士頓矩陣方法來分析文獻資源之間的關聯性。
4 情報分析服務模型總體設計
情報分析服務的主要功能就是針對數據進行整理和分析,從而挖掘知?R的內在關聯性。該研究根據內容解析方法來實施情報分析服務,并專門構建一個情報分析的服務模型。該模型采用了分層結構,自上向下共分成三個層次,即界面展示層、知識發現處理層、數據資源層等,具體結構示意圖如圖1所示。
首先是數據資源層,其確定研究對象包括三個步驟:確定分析目的、確定研究范圍、搜集情報等內容。其次是知識發現處理層,它主要包括三個方面的內容:①制定編碼標準,并借助計算機輔助工具來構建專屬詞典,其主要分為專業術語詞典、停止詞詞典、同義詞詞典等。②編碼部分,可以將文本文件轉換為計算機可識別的文本向量。③數據分析部分,可以利用相似度算法和聚類算法來處理文本向量,從而實現情報自動聚類和串并功能。最后是界面展示層,主要功能為針對數據進行分析。
4.1 數據資源層設計
數據資源層為情報分析提供海量的數據資源,從各個數據源中收集數據并集成在情報員數據庫中。眾所周知,數據庫的性能會直接影響情報分析服務模式的處理效率。目前,比較成熟的數據庫種類主要有兩種:關系型數據庫和非關系型數據庫。經過幾十年的發展,關系型數據庫技術相對比較成熟,其中的行和列的關系非常明確,主要采用表型結構存儲數據,用戶比較容易接受。但是,隨著數據庫技術的不斷發展,關系型數據庫的弊端也逐漸顯現出來:①針對海量數據進行查詢和存儲操作,海量數據信息時刻充斥在互聯網上,如果關系型數據庫還是采用表型存儲海量數據,這時的存儲是以億為單位。當利用SQL(Structured Query Language)語言查詢或者針對多張表進行關聯查詢時,其查詢效率是非常低的。②數據庫的擴展性較差。當處理海量數據時,數據的結構非常復雜,修改數據庫的表結構是非常耗時的,因此復雜的數據結構的處理效率無法達到用戶的要求。③數據庫的讀寫效率。針對動態的信息,每秒的讀寫次數要達到上萬次以上,而關系型數據庫的讀寫速度無法達到這種要求。
4.2 知識發現處理層設計
知識發現處理層的主要功能是針對數據資源層的數據進行深度的分析和挖掘,它可以利用內容分析方法進行數據分析和情報編碼,具體的功能模塊圖如圖2所示。知識發現處理層主要包括四個功能模塊:情報自動聚類處理模塊、情報串并處理模塊、文本預處理模塊、文本向量表示模塊。
4.3 界面展示層設計
界面展示層主要包括兩個部分:知識圖譜展示功能和人機交互功能。知識圖譜展示功能形象展現出情報數據資源的分析結果,是針對情報數據資源分析的拓展,它可以準確表達現象層面的具體信息,并通過更進一步的分析來找出隱藏在情報中的規律,從而協助情報分析人員更好地處理情報。人機交互功能是利用操作界面來實現用戶和軟件之間的信息交流,更好地幫助用戶控制軟件。
【關鍵詞】大數據時代;煤炭企業;物資管理;應用
1引言
煤炭作為現代人類社會賴以生存的重要資源,對人們的生活產生了重大的影響,也對社會的變革起到推動作用。雖然現階段煤炭企業已經加大對煤炭物資管理方面的重視,但是還遠遠沒有達到現代社會的管理標準。結合當前階段我國煤炭行業的發展狀況來看,國內的大型煤炭公司一直采用“粗放分散”式的企業管理模式。而面對現今環境下煤炭市場的多變形勢,企業不僅要解決兼并重組的問題,而且要重新改革現有的管理模式。針對這些問題,企業需要以大數據技術的使用為企業管理創新的突破口。將大數據思維與現代企業管理方法進行有機結合,是煤炭企業需要重點關注以及亟待解決的問題。
2大數據應用于煤炭企業物資管理的意義
結合現代煤炭企業的發展來看,很大一部分煤炭企業正面臨以下的問題:行業差距明顯、企業地域分散明顯、企業內部管理層級過多、產品線眾多等。為使企業更好地發展,企業管理人員應該積極尋找解決問題的辦法,盡快解決影響企業發展的因素,從而保證企業的長遠發展。此時,大數據技術的使用便是一個非常科學有效的辦法,借助于大數據獨有的特點,企業可以構建一個科學合理的物資分析模型。該模型可以采用以下三個評測維度,即:物資價值、通用性、流通性。大數據可以將這三個評估標準結合到統一分析模型中,做到物資分析的“三位一體”,在實際分析過程中,分析人員可以對物資數據進行清洗加工,通過專業化的數據分析模式,企業可以將物資進行細致地分類,并且可以結合物資的實際優劣情況對其進行合理的分配和使用。物資的分類與管理中,企業可以使用具體的標注為物資進行分類,比如:“B-”至“A++”,或是設定其對應的由低到高優先使用級別。如此一來,企業在面對物資需求以及物資調控等指令時,可以高效快速地回應,這不僅為企業的物資合理分配提供了合理的解決方案,同時,也大大縮減了人力成本,大數據技術的使用為企業管理模式的創新創造了巨大的發展空間以及改革機遇[2]。
3物資管理面臨的挑戰
3.1物資管理行業差異大
結合當前企業發展報告來看,我國煤炭行業已經結束為期十年的黃金發展期,所以,各大煤炭企業正在尋找其他能源方向的突破口。原本以煤炭能源為主要發展的煤炭企業正在逐步轉變自己的產業方向,比如,煤礦建設、裝備制造業、煤炭發電、物流運輸等。企業將這些與企業發展相關的產業逐步進行合作并購,以期將公司打造成一個覆蓋全產業鏈的綜合型能源公司。但是,面對各能源管理方面的差異,煤炭企業如何實現這個目標還需要進行繼續的探索[3]。
3.2物資管理地域分散
隨著煤炭企業逐步向綜合型能源企業靠近,企業所整合的資源類別以及兼并的資源公司也隨之增多,伴隨著資源種類的不斷豐富、企業員工的不斷增多,企業所需要管理的地理范圍也在逐漸擴大。根據我國礦業的分布情況來看,礦產資源豐富的企業分散在我國的各個地區,由此就會帶來物資運輸方面的問題。由于各個礦區之間的距離各不相同,所以企業管理者在調配物資時會受到地理條件的制約[4]。
3.3物資管理層級多
煤炭企業的原有管理模式一直偏向于“粗放分散”,同時也就造成員工管理方面的不足。員工已經習慣于原有的管理模式,面對全新的改革管理措施將很難適應,甚至出現“水土不服”,這種情況也是企業管理者進行統一集中式管理所顧慮的因素之一[5]。
4大數據應用于物資管理的具體措施
4.1利用大數據構建合理化物資管理模型
通過分析研究物資管理系統中一定時間段內的物資小類的單價、使用單位數量、采購量、消耗量和庫存現有量等數據,建立以物資價值、通用性、流通性“三位一體”的數據分析維度,對物資管理進行系統分析。對此以下將詳細介紹個分析維度的具體內容:①以單價十萬元為衡量標準。某段時間內該種物資的購買單價如果在十萬元之內,那么操作人員就可以把這種物資歸類為B類;如果某段時間內該種物資的購買單價等于十萬元或是高于十萬元,那么操作人員就可以把這種物資歸類為A類。②以通用性為衡量維度,通用性維度以物資小類使用單位(二級企業)數量2家為界限,進行流通性指標標識,對系統中一定時間段內同一物資小類使用單位數量>2家的進行“+”號標識(結合價值維度,物資類別可進一步分為A+和B+兩種);對系統中一定時間段內同一物資小類使用單位數量≤2家的進行“-”號標識,上述“+”和“-”分別代表物資通用性的強弱。③以流通度為判斷維度,企業庫存供給率=單一企業庫存物資小類現有量一單一企業物資小類一定時間段內采購量/單一企業物資小類一定時間段內消耗量。此時,企業可以提供的庫存最大供給率就是該類物資提供商所擁有的最大供給率。如果該類物資的最大供給率大于零,同時最小供給率小于零,那么就可以視該物資具有高流通性;如果該類物資的最大供給率小于零,同時最小供給率大于零,那么就可以視該物資具有低流通性[6]。
4.2應用大數據進行物資管理的具體路徑
利用大數據可以有效完成數據管理以及數據分析工作。以下是大數據技術的具體分析路徑:①剔除無關因素的干擾,將一段時間內的物資數據進行整合分析,將無關的干擾因素剔除;②重點要素分級處理,根據數據資源的不同優先級,對數據進行優先處理的劃分,形成系統化的數據處理體系;③分析補充修正,由于物資的數據資源可能會出現一定的漏洞,所以分析人員一定要時刻關注數據的變化,及時發現數據處理系統存在的問題,提高物資管理系統的準確性。
5結語
綜上所述,大型煤炭企業需要充分利用大數據的優勢進行企業管理結構方面的改革,大數據技術的使用可以為企業帶來科學、準確的物資評判結果,企業可以借助這些分析結果進行企業發展方向以及戰略資源的調配,為企業的發展節省大量成本支出。可以說,大數據應用于煤炭企業的物資管理可以為企業的發展奠定良好的基礎。
【參考文獻】
【1】何向欣.基于大數據分析的煤炭企業物資管理研究[J].企業改革與管理,2018(11):66-67.
【2】譚章祿,馬營營,袁慧.煤炭大數據平臺建設的關鍵技術及管理協同架構[J].工礦自動化,2018,44(06):16-20.
【關鍵詞】SDL 數據挖掘 大數據 R語言 系統設計
1 前言
隨著信息化時代的發展,各領域中的數據急劇增長和信息量的不斷擴大,使得大數據挖掘方法與工具的研究和開發的重要性與日俱增。R軟件是一款集成了數據操作、統計和可視化功能的優秀的開源軟件,R軟件具備高效的數據處理和存儲功能,擅長數據矩陣操作,提供了大量適用于數據分析的工具,在眾多數據挖掘領域中有比較出色的應用。但由于R語言本身并不支持用于并行存儲計算數據的分布式文件系統,所以與海量數據結合的數據挖掘系統處于不成熟階段,且其不具有商業軟件在封裝方面的優點,導致各類集成R語言的數據挖掘系統在系統架構上層次不清,各功能模塊之間定義模糊,給程序員在對API進行編程時帶來麻煩。
SDL(specification and description language)是一種基于擴展有限狀態機和抽象數據類型的形式化描述語言,定義在ITU的建議書Z.100 中。SDL 自身的特性除了非常適合通信協議的形式化描述和實現,也適用于描述系統的活動和信息交互的行為。為了減少系統的開發成本,降低出錯率,提高開發效率和軟件的質量,本文提出了一種基于SDL語言描述集成了R語言的大數據挖掘系統,該系統設計的解決方案主要是圍繞大數據的存儲訪問和R語言算法的嵌入兩個技術難點來實現的,通過Hadoop集群的搭建實現了分布式文件的存儲管理和訪問,但Hadoop本身基于Java語言實現,并不支持R語言,所以本文在系統中設計Java語言與R語言對象轉換的功能模塊,通過調用Java類庫來解釋執行R語言描述的數據挖掘算法,從而實現目標系統的功能。
TeleLogic TAU 是用于分析、設計、運行和測試實時系統的軟件工具,其最大特點在于SDL和MSC的形式化,能幫助用戶在設計初期就使用仿真,對設計進行確認和驗證,保證系統的每一個細節正確運行。完整的客戶化代碼生成器還可將規格編譯成可執行代碼,將錯誤數量降至最低,使用戶將更多的精力用于系統設計。因此本文將采用TeleLogic TAU作為SDL開發工具來實現集成R語言的大數據挖掘系統的設計。
2 目標系統說明
2.1 目標系統實現的功能
(1)用戶無需了解R語言的編程過程,通過系統前端圖形化界面進行交互。
(2)用戶可以實現密鑰登錄系統。
(3)系統提供多種算法供用戶選擇,并且可以設置參數。
(4)經過數據分析后返回的結果可以在用戶界面上實現文本顯示和圖形化顯示兩種顯示方式。
2.2 系統流程
(1)用戶輸入用戶名和密碼登錄系統
(2)用戶選擇算法種類,并選擇設置參數,確認。
(3)系統管理模塊生成R語言代碼,經轉換模塊生成嵌入了R語言的Java代碼,向計算模塊發出開始數據處理的信號。
(4)計算模塊根據算法內容執行對數據的分析操作,發送完成信號到管理模塊。
(5)管理模塊提示用戶處理完成,用戶選擇結果的文本顯示或可視化顯示。
2.3 系統設計難點及解決方案
由于R語言本身不支持分布式文件系統,所以系統需要一種在R語言執行正確執行Java代碼的機制。基于Hadoop計算框架的集成原理,HDFS的靜態功能全部由后端類庫和架構本身實現,而系統的難點在于實現一個在R環境下利用Java虛擬機加載Java類并調用其方法的執行系統。
針對上述難點,提出以下解決方案,設計一個轉換功能模塊,可以實現在Java代碼中解釋R語言腳本并執行;在R環境下可利用Java虛擬機加載Java類并調用其方法;可將R對象自動轉換為Java對象;可將Java對象自動轉換為R對象的類型。
3 設計與實現
3.1 信號量
3.2 各模塊功能
3.2.1 System級定義
用環境代表用戶,用戶可以向系統輸入用戶名及密碼、選擇算法、設置參數以及退出系統等信號,系統可以向環境輸出文本顯示和圖形化顯示的信號。功能塊dataming完成R語言和Java語言的代碼的轉換以及數據處理的任務。
3.2.2 Block級定義
dataming功能塊由4個process組成。manage是管理進程,進程集名后的(1,1)表示該進程集將在系統初始化時靜態創建一個進程實例,并且系統在運行過程中最多允許存在的該進程集的實例個數也是1,用戶的輸入選擇等與系統的所有交互行為都要經過manage進程;user_database進程比較輸入的用戶名和密碼與數據庫的匹配結果,根據結果向manage進程返回接收/拒絕信號;convert進程和compute進程分別負責代碼轉換和數據處理及顯示:converter進程接到manage進程發送的RtoJ信號后,把靜態的R語言腳本用Java類加載,并向compute進程發送信號compute執行算法代碼,處理完成后compute進程向manage進程發送完成信號,并接收結果顯示方式的信號,把結果輸出到環境。
4 仿真測試
把設計輸入到TAU 提供的SDL/ GR 的編輯器,經過分析和編譯生成仿真代碼。用MSC跟蹤的仿真結果見圖4所示,用戶輸入已經設好的用戶名“user123”和密碼“123”成功登錄系統,選擇算法1并設置參數2,經過代碼轉換和數據處理,系統向用戶提示選擇結果顯示方式,用戶選擇顯示圖形結果后,系統將圖形顯示的信號發送到前端,通過驗證,MSC圖是正確的,并且結果與預期相符合。
5 結束語
本文介紹了SDL形式化語言的特點以及應用場景,并使用TeleLogic TAU工具基于SDL語言對集成了R語言的海量數據挖掘系統進行了分析與設計,實現了系統設計目標的各項基本功能,使用戶不用掌握R語言的語法,只需通過操作界面選擇相關算法,并設置相關參數就可以得到文本形式和圖形化顯示的海量數據的分析結果。通過對部分模塊的仿真實現,驗證了設計的正確性。
參考文獻
[1]陳榮鑫. R軟件的數據挖掘應用[J]. 重慶工商大學學報(自然科學版),2011, Vol.28 NO.6 : 602-607.
[2]曹杰. 基于JVM的R語言海量數據統計集成框架研究[D]. 碩士學位論文, 華中科技大學, 2012.
關鍵詞:學習分析;教育大數據;可視化技術;學習行為;CMI;DDDM
一、引言
互聯網、云計算和大數據等技術的發展推動著教育信息化的發展。在基礎教育領域,國家提出了基礎教育資源公共平臺的具體落實措施,以實現優質資源共建共享、優質資源班班通,最終通過信息化的手段促成教育的公平。2011年,高等教育領域出現的了一種新型的MOOC課程模式[1-2]。隨后,這種模式成為許多大學認真研究的新事物,無論是在校學習者還是社會公眾,都可以獲得各類開放式的網絡優質課程資源。由此可見,在線教育正在逐步掀起一股新的革命的浪潮,成為一種必然和必要的學習模式。同時,在線教育資源產生的海量數據也為學習分析和教育數據挖掘研究提供了基礎,引發我們對教育更深層次的研究和思考。
二、概述
2.1 教育大數據現狀2.1.1 國內現狀分析。2012年,國內開始有相關論文開始研究教育大數據。至今,大數據在教育領域的應用研究進入了起步階段。隨著我國社會在近幾年的快速發展,信息技術與教育領域已經開始融合,教育事業的發展勢必是離不開信息技術的,信息技術同時也能夠促進教育事業的不斷改革。早在2013年,國內掀起了基于大數據技術促進教育改革和創新的研究熱潮。同時將信息技術應用于教育事業中也是廣大教育者的期望,在2014年的3月,我國的教育部辦公廳就印發了《2014年教育信息化工作要點》中指出了要加強信息技術在教育事業中的應用,我國也自此加強了對于教育大數據的研究,不斷地發現數據、挖掘數據、利用數據,為的就是將信息技術更好的應用于教育事業。2.1.2 國外現狀分析。在國外,已經出現一些企業成功的教育大數據進行了成功的商業化。在美國,IBM聯合一所學校進行了大數據合作。以及專門運用預測性分析幫助提高學習成績的公司、“夢盒學習公司”、“紐頓”公司也已經成功的利用教育大數據成功的了屬于自己公司的利用大數據的適應性學習的系統。不僅是在美國,在加拿大的“渴望學習”也已經推出了信息的大數據的服務項目。由以上的國外的研究中就可以看出,大數據教育在國外的研究較于國內相比還是比較領先的,所以我國應該不斷地汲取在國外的這些研究經驗,進而不斷地提高國內的研究水平。2.2 學習分析的歷史。利用數據考核、分析和評估教學和和學習存在的歷史已經非常的悠久了,另外學習分析技術在CMI等計算機網絡等技術領域同時也是存在了很長的時間。由此就可以看出來,學習分析技術也可以看成是DDDM以及CMI的一種繼承、延伸和發展。(一)CMI。CM可以說是第一代教育數據應用系統,CMI是為個別化教學程序所提供支持的管理信息系統,它最為顯著的功能就是確定和滿足為學習者在學習過程中所產生的各種各樣的學習需求,并且為學習者提供個性化的符合學習者需求的學習資料,更加方便與學習者的學習。在Brudner(1968)的報告中,認為CMI系統中所存儲的數據共計六類,分別是:(1)學生的學術記錄、考試成績集的個性記錄;(2)學生每日的活動記錄;(3)學生的學習目標及學習程序;(4)測試答案文檔及測試文檔;(5)教學目錄及學習指南;(6)有關的預測及分析數據。(二)DDDM。DDDM就是利用計算機的計算能力從而進行數據的分析,并且提供決策的支持的思想,隨著社會的不斷發展,計算機的計算能力也越來越強。根據Wayman(2005)的觀點,在目前的學校領域中,一般來說提供數據的信息系統大致應該有三個種類,即學生信息系統、學習評估系統、數據倉庫系統這三種,這三類的功能各有所側重,向學生信息系統就是記錄學生在日常的學習過程中的出勤率、等情況;學習評估系統就是根據學習者的學習情況、出勤率等方面對學生進行學習評估和分析;數據倉庫系統就是為學生和教師訪問各種類型的歷史數據提供接口,方面學生和教師查閱資料。2.3 學習分析的概念。學習分析技術就是對學生生成的海量的學習數據加以解釋和分析,并且評估學生的學術進展情況,以發現學習者潛在的學習問題,加以改正。一般來說學習分析技術分為五大環節,即數據采集、數據存儲、數據分析、數據表示、服務應用。數據采集就是對學習者的相關數據以及學習資源數據進行采集;數據存儲、分析、表示就是將采集到的學習者的數據進行存儲、分析;服務應用就是將學習者的學習數據進行評估,對未來的進展情況進行預測。學習分析是大范圍收集學習者的學習數據并加以分析,從而評價學習者的當前學習情況、預測其未來的學習表現,并查找潛在問題。數據來源包括學習者的顯,包括學習課程、完成作業和測試的情況,也包括其它隱性表現,包括網絡社交行為和其它不作為學習表現直接評估的活動。2.4 學習分析必要性。在大數據背景下的在線學習,將產生大量的過程性和結果性的數據,學習分析成為一種必要,主要體現在以下三個方面:2.4.1管理者的角度。即實現管理者大規模的管理需求。在線學習的大規模性主要體現為資源多、用戶多、互動交流多、數據巨大。如何充分發掘和利用這些數據,使數據的價值最大性發揮?如何進行大規模的評估評價?如何進行大規模的趨勢預判?這些都是管理者所面臨的問題,通過開展在線學習深入分析,能夠讓管理者做到心中有數。2.4.2教師的角度。即教師獲得教學反饋的需要。在線學習模式下,教師與學習者的互動性顯得更加容易,學習者可以在線對課程進行評價,向教師提問題、考試和作業。基于在線學習平臺對學習過程的記錄,教師可以準確了解學習者在學習過程中普遍存在的問題,并通過教學反思以不斷改進教學方法。2.4.3學習者的角度。即學習者學習個性化的需求。在線學習為每個學習者提供靈活的學習環境,無限制的空間和無限制的時間。每個學習者都在創造自己的大數據。在學習分析的支撐下,平臺可以了解學習者成長的軌跡,學習的現狀,學習者的學習規律, 可實現學習資源的個性化推送、學習質量分析,利于學習能力的提高、學習興趣的培養、提供個性化的服務。
三、學習分析的實現
3.1 學習分析關鍵技術3.1.1 大數據分析。大數據分析技術將隱藏于海量學習數據中的信息和知識挖掘出來,以圖形化的方式直觀展現出來,根據分析結果還可以做出前瞻性的判斷。大數據分析利用回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數判別等)、聚類分析(系統聚類、動態聚類等)、探索性分析(主元分析法、相關分析法等),多種分析的方法來確定能夠對學習者的交互行為以及成績等因素產生的影響并且構建架構模型[3]。大數據分析利用數據網絡挖掘、特異群組挖掘、對象連接、相似性連接等挖掘和融合技術,實現學習者興趣分析、網絡行為分析、情感語義分析等,提煉出有價值信息。3.1.2 可視化技術。可視化技術是將數據轉換為圖形圖像的處理技術,它涉及到計算機輔助設計、視覺和人機交互技術。應用可視化技術,可以在大量高位的學習信息中發現數據中所隱含的內在規律。數據可視化技術一般過程可劃分為數據預處理、映射、繪制和顯示。數據預處理涉及數據格式標準化、數據變換和數據壓縮/解壓縮。映射完成數據建模,是核心。繪制完成幾何數據轉換成圖像的過程。顯示模塊按照用戶的指令進行圖像輸出,實現人機交互[4]。3.1.3 個性化推送。個性化推送顧名思義就是根學習者的學習特點以及學習的方式自主的進行推送能夠滿足學習者需求和個性化需求的學習資源和路徑。大數據可以通過分析學習者的學習數據、分析過學習者更加適合哪一種課程和知識,從而向學習者推薦相關的課程和知識,使得學習者能夠提高對于學習的興趣,進而提高學習者學習的效率。3.2 學習分析典型應用。對于學習分析來說,它的對象就是學習者及其學習的環境,最終的目的就是要發現問題并解決問題,進而優化學習者的學習[5]。可以是全部學習者的整體分析,也可以是針對某個學習者的個體分析。3.2.1 整體分析3.2.1.1 人群特征分析。從學習者的地域分布(國家、地區等)、學歷(博士、碩士、本科、中學、中學以下等)、性別(男、女)、年齡等多個方面進行統計分析,從而獲得各種維度類型的學習者的數量、比率和差異分析。3.2.1.2 用戶類型分析。采集學習者注冊后的學習數據,將從未進行任何課程學習、考試、在線交流等學習活動的學習者定義為注冊者。將僅注冊課程并未完成任意課程的學習者定義為一般學習者。將注冊課程并完成任意課程的學習者,或取得任意課程考試成績證書的學習者定義為積極學習者。3.2.1.3 課程質量分析。通過課程通過率、學習者的評價數據、課程訪問次數、課程訪問實效性等多方面的綜合分析,評估課程的質量,便于課程的及時修訂、教學策略調整和教學過程優化。同時,便于及時地了解到學習者對于哪一些學習資源的關注程度更高,對于哪一種學習資源的關注程度比較少,進而有利于對于學習資源的優化,通過這樣對于學習者關注的學習資源進行加深,對于學習者關注程度較低的學習資源可以適當的減少。3.2.2 個體分析3.2.2.1 知識結構分析。采集學習者與資源平臺的交互數據,如課程完成度、測試成績、課程訪問次數等,構造學習者的知識結構圖,如某個知識點已通過測試可以判定該知識點已掌握,某個知識點還未學習完成、多次訪問并未通過測試,說明學習者可能還未完全消化這個知識點[6]。3.2.2.2 學習行為分析。根據學習者的注冊時間、最后登錄時間、登錄頻率、注冊課程的數量、課程視頻和課件的訪問次數、測試次數、獲得證書數量、交流互動次數、下載的課程、標注的課程等數據,對學習者的學習行為進行分析,比如可以分析學習者的興趣愛好、學習態度等,同時可針對學習者提供相應的合適學習資源,提高學習者的學習效率和學習興趣。3.2.2.3 學習路徑分析過。通過對于學習者的課程瀏覽情況分析以及學習路徑的分析可以充分的了解到學習者在學習的過程中的各種靜態以及動態的信息。另外通過其他的角度對于學習者的學習路徑,及學習者在學習過程中瀏覽課程頁面中所產生的一些數據信息進行分析[7]。3.2.2.4 學習效果分析。通過學習者的測試考試結果,再結合學習者知識結構和學習行為的分析,建立個性化的診斷。比如,某個學習者成績低于所有學習者成績的平均水平,可以借助數據分析,是因為知識結構的欠缺,還是因為學習行為不積極而造成的。如果是知識結構的問題,可以向學習者推送薄弱知識點內容。如果是學習不積極,可以推送學習提醒,對學習者進行個性化的指導。
四、總結
大數據時代的教育資源學習分析,能夠充分地尊重學生之間的差異性,根據不同學生不同的特點以及學習需求,幫助學生制定個性化的學習計劃,并且對于學習者的各種的學習行為以及學習的額特點進行記錄和跟蹤,最終通過數據的比對和分析,預測學習者的未來成績。同樣,學習分析作為教育領域的一個興新的研究方向,需要解決的問題還很多,但是筆者相信學習分析的前景是非常的美好的,隨著我國對于學習分析的研究深入以及問題的不斷解決,關注學習分析問題的社會大眾也會越來越多,所以,學習分析在不久的將來一定會得到良好的發展以及廣泛的應用。
參考文獻
[1]李曼麗,張羽,葉賦桂,等.解碼MOOC[M].北京:清華大學出版社,2013:85-99.
[2]楊勁松,謝雙媛,朱偉文,方小楠.MOOC:高校知識資源整合與共享新模式[J].高等工程教育研究,2014(2):85.
[3]李艷燕,馬韶茜,黃榮懷.學習分析技術:服務學習過程設計和優化[J].開放教育研究,2012(5):18-24.
[4]陳為.數據可視化[M].北京:電子工業出版社,2013:124-399.
[5]李鳳英,齊宇歆,薛慶水.大數據視域下的虛擬學習社區安全研究[J].遠程教育雜志,2013(4):76-82.
[6]曹梅.知識發現在網絡教學系統中的應用研究進展[J].開放教育研究,2008(12):89-93.