前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的智能大數據分析主題范文,僅供參考,歡迎閱讀并收藏。
關鍵詞:大數據;數據分析;數據挖掘
1綜述
1.1簡介
在數字化時代,需要新一代系統架構提升業務創新能力。在新一代系統架構中,大數據是核心要素。業務應用能否自主發現與自助獲得高質量的大數據,就成為業務創新成敗的關鍵。這就要在搭建大數據平臺時,就著手大數據治理相關建設。
1.2需求和意義
從某種意義上說大數據治理架構需要以元數據為核心、提高大數據質量、透明化大數據資產、自助化數據開發、自動化數據、智能化數據安全,提升大數據平臺服務能力,讓大數據平臺變得易使用、易獲得、高質量。但是,目前很多技術解決方案存在諸多安全和效率隱患:業務系統多,監管力度大;數據量龐大且呈碎片化分布,急需提升大數據質量;數據格式不規范、難以在短時間內找到所需數據;數據在各階段的應用角度不同,需要降低系統間的集成復雜度。
2功能設計
2.1總體架構
本文講述的數據分析方法及實現技術是建立在Hadoop/Spark技術生態圈的基礎之上,以實現用戶集成處理、、清理、分析的一個統一的數據處理平臺;按數據類別分為線數據、歸檔數據;按數據格式分為非結構化數據、結構化數據;按數據模型分類為范式化模型數據、維度模型數據;按數據采集頻度分為非實時數據、準實時數據處理架構;并提供數據中心平臺與安全管理方案,為企業級用戶建立一個通用數據處理和分析中心。如圖1所示。
2.2在線數據
在線數據在線通過接口去獲得的數據,一般要求為秒級或速度更快。首先應當將數據進行區分:在線數據、或歸檔數據。本平臺中采用:Storm或SparkStreaming框架進行實現。SparkStreaming將數據切分成片段,變成小批量時間間隔處理,Spark抽象一個持續的數據流稱為DStream(離散流),一個DStream是RDD彈性分布式數據集的micro-batch微批次,RDD是分布式集合能夠并行地被任何函數操作,也可以通過一個滑動窗口的數據進行變換。
2.3歸檔數據
歸檔數據是在線存儲周期超過數據生命周期規劃的數據,處理的要求一般在分鐘級或速度更慢。通常歸檔數據的計算量、數據量、數據復雜度均超過試試數據處理。本平臺中采用:Hadoop、Spark技術生態體系內的框架進行計算,這里不詳細闡述。
2.4非結構化數據
通常非結構化的數據不一定具備字段,即使具備字段其長度也不固定,并且字段的又可是由可不可重復和重復的子字段組成,不僅可以包含結構化數據,更適合處理非結構化數據。常見的非結構化數據包括XML、文本、圖象、聲音、影音、各類應用軟件產生的文件。針對包含文字、數據的為結構化數據應當先利用數據清洗、數據治理工具進行提取,這項工作目前仍依賴技術員進行操作,由于格式的復雜性所以難以使用自動化方式進行較為高效的批處理。在治理數據的過程中,需要根據情況對數據本身額外建立描述數據結構的元數據、以及檢索數據的索引服務,以便后續更佳深度利用數據。
2.5結構化數據
結構化數據具備特定的數據結構,通常可以轉換后最終用二維的結構的數據,并且其字段的含義明確,是挖掘數據價值的主要對象。本平臺中主要使用HadoopImpala和SparkSQL來進行結構化數據的處理。Impale底層采用C++實現,而非Hadoop的基于Java的Map-Reduce機制,將性能提高了1-2個數量級。而SparkSQL提供很好的性能并且與Shark、Hive兼容。提供了對結構化數據的簡便的narrow-waist操作,為高級的數據分析統一了SQL結構化查詢語言與命令式語言的混合使用。結構化數據根據采集頻度可以繼續分類為:非實時數據、準實時數據。
2.6準實時數據
通常準實時數據是指數據存儲在平臺本身,但更新頻率接近于接口調用數據源的數據。適合用于支持數據和信息的查詢,但數據的再處理度不高,具有計算并發度高、數據規模大、結果可靠性較高的特點。通常使用分布式數據處理提高數據規模、使用內存數據進行計算過程緩沖和優化。本平臺主要采用SparkSQL結合高速緩存Redis的技術來實現。SparkSQL作為大數據的基本查詢框架,Redis作為高速緩存去緩存數據熱區,減小高并發下的系統負載。
2.7非實時數據
非實時數據主要應用于支持分析型應用,時效性較低。通常用于數據的深度利用和挖掘,例如:因素分析、信息分類、語義網絡、圖計算、數值擬合等。非實時數據根據數據模型可繼續分類為:范式化模型數據、維度模型數據。
2.8范式化模型
范式化模型主要是針對關系型數據庫設計范式,通常數據是采用第三范式3NF或更高范式。面向近源數據查詢、數據主題的整合。范式化模型數據的數據存儲區,建議使用并行MPP數據庫集群,既具備關系型數據庫的優點,又兼顧了大數據下的處理。
2.9基于維度模型
維度模型數據主要應用于業務系統的數據挖掘和分析。過去多維度數據處理主要依賴OLAP、BI等中間件技術,而在大數據和開源框架的時代下,本技術平臺采用HadoopImpala來進行實現。Im-pala并沒有使用MapReduce這種不太適合做SQL查詢的范式,而是參考了MPP并行數據庫的思想另起爐灶,省掉不必要的shuffle、sort等開銷,使運算得到優化。
3應用效果
本系統在不同的業務領域上都可以應用,以2016年在某銀行的應用案例為例:該銀行已完成數據倉庫建設,但眾多數據質量問題嚴重影響了數據應用的效果,以不同的數據存儲方式,以更高的要求去進行數據的統一管理。通過組織、制度、流程三個方面的實施,以元數據、數據標準、數據質量平臺為支撐,實現了數據管控在50多個分支,60個局,1000余處的全面推廣,實現了全行的覆蓋;管理了120個系統和數據倉庫,顯著提升了新系統的快速接入能力;通過14個數據規范和流程明確了數據管控的分工;數據考核機制的實施,使其在數據質量評比中名列前茅。
4結語
本文介紹了大數據下數據分析方法及實現技術的大體設計和思路,從需求分析、總體架構和數據處理以及數據分析這幾個方面來介紹。文章在最后介紹出了這種平臺的應用效果。筆者相信這些思路和技術能夠在業務中能得到很好的應用。
作者:藍科 李婧 單位:1.中國科學院成都計算機應用研究所 2.中國科學院成都文獻情報中心
參考文獻
電網的智能監控包括電網故障的診斷和排除、解決故障。電網故障發生后,如何快速精準地診斷并恢復,對于電網運行,減少停電損失具有重要意義。本文提出基于大數據挖掘分析的改進以后的RBF(Radial Basic Function)徑向基函數人工神經網絡進行故障診斷,將最小二乘法擴展用于優化該RBF神經網絡。
【關鍵詞】智能監控 大數據挖掘分析 神經網絡
1 引言
隨著現代電力電子工業的發展,大容量非線性電力負荷的不斷增多和電力系統超負荷運行對電力系統的影響也隨之日益增大。電網故障后,需經過緊急狀態調整,采取措施甩掉一批負荷或系統處于解列狀態后,在盡量少的時間里,最大限度地恢復至系統正常運行。在電網預警監控系統中,及時對電網進行評估、故障預警、診斷與自動控制,避免隱患故障的發生或者將故障的損失限制在最小范圍內對電網的健康已經安全運行至關重要。
大數據挖掘有一套完整的方法用以解決實際問題,依此通過分類估計,預測分析,相關性分組,抽象聚類,建模描述可視化,復雜數據類型挖掘六個部分,實現從海量無關信息到便于人們理解的可視化分析結論的過程。將這一套完整的方法用于電網的運行系統中海量數據的分析,便可大幅度提高電網智能監控系統的準確度和實效性。
本文研究基于人工神經網絡的大數據挖掘分析的智能電網監控系統,通過對以往電網運行參數進行挖掘匯總與分析,整理好的數據信息采用RBF(Radial Basic Function)徑向基函數人工神經網絡。RBF神經網絡是一種的前饋神經網絡模型,由于其具有全局逼近的性質,且不存在局部最小問題,已經得到了廣泛的應用。
2 監控系統診斷大數據挖掘分析
神經網絡的學習過程為先用k-means聚類方法對所挖掘獲得的數據輸入進行聚類,即用無監督學習的方法確定RBF神經網絡中隱結點的數據中心,并根據各數據中心之間的距離確定隱結點的擴展常數,然后通過有監督學習訓練個隱結點的輸出權值。
RBF神經網絡為n-h-m結構,即有n個輸入、h個隱結點和m個輸出。神經網絡的輸入矢量, 為輸出權矩陣,為輸出單元偏移,網絡輸出為
(1)
其中為第i個隱含結點的激活函數。RBF網絡所采用的隱含結點的激活函數可以取多種形式,研究中常采用高斯函數形式,即
(2)
其中是第i個隱含結點的中心,是第i個隱含結點的拓展常數。
從樣本中產生h個初始聚類中心,默認選取前h個。ci為第i類聚類中心,其相對應的方差為,定義所有樣本輸入與初始聚類中心的距離范數
(3)
對樣本輸入x按最小距離原則進行分類。再重新計算各類的新的聚類中心。當出現第一個 時,
(4)
當出現第一個以后的 (5)
其余情況下
(6)
其中,v是勝者聚類中心的學習速率,聚類中心的懲罰速率p與v的比值。則勝者聚類中心的方差為
(7)
其中是接近于1小于1的常數,通常取0.999。進一步聚類中心的學習速率
(8)
其中。
若上式收斂則迭代結束;若不收斂,此時需要循環樣本與聚類中心的距離,令k=k+1,再重新聚類并計算下新的聚類中心。迭代結束后去除空中心,獲得最優的聚類中心。如果其中某聚類中心位于數據集合的外則去除該中心。
以上基于k-means算法的改進算法使初始聚類中心位于數據集合外部,可以排除多余的競爭節點,使新的聚類中心移進數據集合,而多余的節點更加遠離數據集,算法的迭代速度增大,根據各中心最終相對于數據集合的位置。
3 結論
本文把基于大數據挖掘分析獲得的數據改進后的RBF神經網絡應用于電網的智能監控系統。本文將大數據挖掘分析應用于電網智能監控系統中。對改進以后的RBF徑向基函數人工神經網絡進行故障診斷進行了闡述和分析,將最小二乘法擴展用于優化該RBF神經網絡。通過計算機仿真結果表明:該改進以后的RBF徑向基函數人工神經網絡對電網的故障診斷十分有效。設計了基于此算法和TCP/IP協議通信的智能監控系統。根據本文的研究,基于該改進后的RBF神經網絡應用于電網的智能監控系統在電網故障診斷和恢復方面有很高的效率。
參考文獻
[1]陳為化,江全元.電力系統電壓崩潰的風險評估[J].電網技術,2005,29(19):6-10.
[2]李樹廣. 電網監控與預警系統的研制[J]. 電網技術,2006,09:77-82.
作者單位
分析是實現大數據價值的重要一環
作為全球大數據分析的領軍企業,SAS一直在思考如何在大數據鏈條中將分析的作用發揮到最大化。SAS大中華區總裁吳輔世曾指出,“在過去的一年中,大數據得到前所未有的重視。它不僅扮演了商業變革引擎的角色,還是國家戰略發展的推動力。不管是‘互聯網+’還是‘中國制造2025’的全面推進,都需要大數據的全力支持。而分析是將海量數據從機遇轉化為決策的關鍵一環”,“作為全球大數據分析的領軍企業,我們一直在思考如何在大數據鏈條中將分析的作用發揮到最大化。SAS關注各種新興技術為行業帶來的活力,并與合作伙伴共同探索部署數據分析的新方式。我們相信,‘唯快不破’的道理同樣適用于企業大數據實踐。打破傳統、勇于創新的探索者們將得到意想不到的豐厚回報。”
敏捷商業智能平臺的領軍者
在Forrester Research的《The Forrester WaveTM: 2015年第三季度敏捷商業智能平臺――13個最重要的供應商及其排名》報告中, SAS公司被評為該領域全球領導者。Forrester Research 綜合考慮現有產品、戰略和市場表現三個方面,評選出了13個敏捷商業智能軟件產品,其中包括SAS可視化分析(SAS Visual Analytics )。Forrester從50多個敏捷商業智能供應商中選擇了排名靠前的13個。
Forrester Research的研究報告指出,“作為高級分析領域的全球領導者,SAS提供了一個頂級的敏捷商業智能平臺”,“SAS公司在其傳統強項高級預測分析平臺上,引入垂直行業和商業領域的特定高級分析程序,提供了強大的敏捷商業智能產品――可視化分析,該產品既可以作為本地授權軟件使用,也可以通過云端服務使用”。
可視化分析提升業務洞察力
SAS可視化分析通過數據可視化為客戶提供業務洞察力。其靈活的點選式用戶界面,為用戶提供了理想的自助服務環境。SAS執行副總裁兼首席營銷官Jim Davis表示,“有了SAS可視化分析,企業用戶可以在他們的辦公桌上自行進行基礎數據準備、數據挖掘、報告和分析,并通過移動設備分享觀點”。
關鍵詞:RFID技術;智能交通;大數據平臺;停車App
中圖分類號:TP311 文獻標識碼:A 文章編號:2095-1302(2016)11-0-02
0 引 言
智能停車場作為智能交通系統的一部分,能夠實時向整個交通系統提供停車位數量統計等信息,對交通擁擠、阻塞能起到一定的疏導作用,同時也可以接收交通系統發出的指揮命令,服從統一調度。現代智能停車場地在收費管理、車輛控制和人員管理方面具有先進、快捷、安全可靠等優點,可有效解決停車難等問題。國內大城市現有的智能停車場大多數都使用RFID技術。RFID技術中的RFID識別多標簽的能力強,抗污染能力和耐久性強,具有穿透性和無屏障閱讀以及可重復使用的特點,數據還可實現反復修改,能夠在企業內部進行循環使用,射頻識別技術具有遠距離讀取、高準確率等特點,相比于其他技術,數據識別在停車場管理系統中的應用具有相當大的優勢。
國內諸多大城市雖已建成較為成熟的智能停車場系統,但由于環境因素及人文因素造成了不同時段停車位使用率低下和停車等待時間較長的問題,在一定程度上浪費了車位資源。這是由于所有的停車場并沒有做到實時信息共享,也不能實現對共享數據的整理、存儲和訪問,從而出現了停車“一窩蜂”的狀況。
1 大數據的研究現狀及應用
1991年,比爾?恩提出了一個新的術語――數據倉庫。數據倉庫與數據庫最大的區別就在于數據倉庫是為分析數據進行決策而設計的。由于數據的迅速積累與大量應用,迫切需要一種強大的工具來挖掘數據,因此數據挖掘技術應運而生。大數據則是從云計算、人工智能、數據挖掘發展而來。
智能交通系統[1](Intelligent Transport System,ITS)是一種利用先進的檢測、通信和計算機技術等手段對傳統交通運輸系統進行改造,增強系統運行效率,提高地面交通網絡的安全性和效率,減少能源消耗對環境造成污染的綜合運輸和管理系統。利用大數據技術,可以從動態變化的智能交通各子系統的數據信息中提取出共享數據,并對跨區域、跨領域的“數據倉庫”加以綜合。將歷史數據遷移至大數據平臺的同時保證數據的完整性以及數據之間關系的可理解性,同時還可以根據各子系統的需求以及相互之間的內在聯系為用戶提供數據信息服務,并組織內部存儲的數據直接輸出,而其他子系統存儲的相關數據則由信息共享平臺提供查詢支持。
2 大數據平臺架構
大數據平臺架構主要由數據采集、數據分析、云計算平臺、終端構成。
2.1 數據采集
數據采集是該系統中不可或缺的一部分。數據采集系統主要通過感知器、RFID、二維碼、視頻監控等方式獲取信息數據,為下一步的數據處理和平臺計算提供數據來源。這些設備會源源不斷的自動產生新數據。盡可能收集異源甚至是異構的數據,必要時還可與歷史數據對照,多角度驗證數據的全面性和可信性。
2.2 數據分析
數據分析[2]是基于Hadoop、NoSQL、HBase和數據挖掘等技術的大數據分析技術,可以分析時、日、月以及年的數據,結合各種數學模型及停車場數據進行實時處理和有效分析,以對未來的趨勢進行預測。
2.3 云計算
云計算方法是整個平臺的基礎服務。利用云計算方法對獲得的數據進行有效整理、分析和存儲。
2.4 終端
終端直接面向各層用戶,可將之前產生的數據和分析結果直接在各種終端上,實現所有終端用戶的信息共享和訪問,并根據不同終端的需求提供不同的數據。大數據平臺架構如圖1所示。
3 大數據平臺下的智能停車場系統
3.1 大數據平臺下的停車場終端
大數據平臺下的智能停車場服務終端不應只為停車用戶提供目前該停車場所剩車位數量,還應為用戶提供最佳的停車方案,包括停車誘導、停車等待時間以及附近停車位數量等信息,使該終端具備提供多種停車方案的功能,以有效緩解不同時段停車“一窩蜂”的狀況。
要實現具備高效、快捷特點的停車場系統,就必須采集完整的停車場系統信息,利用大數據平臺對停車信息進行處理并整合,實現多個停車場車位、費率、位置等信息的實時采集匯總,及時獲取停車位信息,并通過分析停車場附近的車流量和空閑車位,為車主提供多種選擇方案,同時還可利用大數據分析出的最佳方案誘導用戶快速停車。
大數據平臺下的停車場服務終端可以結合RFID技術[3]自動識別車主信息,實現不停車交費,及時車輛的位置信息、車輛的狀況信息,并通過視頻監控實現停車場管理的安全防護,并對剩余車位進行及時整合,充分利用,以防止浪費資源。
3.2 大數據平臺下的智能停車場App
在大數據平臺下分析出的數據和結果不僅可以在停車場終端上,也可以在用戶的App上,實現服務終端與用戶App的信息共享和訪問。用戶利用App可以及時了解自己所要到達的目的地附近的所有停車位信息,以便提前預定自己所需車位。
用戶App包括了用戶所要到達目的地的地圖數據。地圖數據包括以下兩部分內容:
(1)地圖本身的信息。地圖詳細記錄了每條道路的位置、形狀、寬度、名稱等信息,可由此計算出停車場的位置。
(2)傳感器和監測信息。傳感器和監測信息可以把傳感器本身的物理編號和它在地圖上的位置對應起來。地圖數據還包括用戶所要選擇的停車場內部地圖,大數據平臺將停車的最佳方案在用戶App上。當用戶到達停車場后,無需依賴停車場的終端也可快速找到自己所要的車位。
車輛進入停車場時,RFID技術識別標簽可實現自動繳費,費用的支出均在App界面顯現,車主認定之后便實現支付,防止費用支出過剩的情況發生。使用App對停車位定位后,App中的車位引導技術引導車主尋找車位,避免浪費時間與因尋找車位帶來的停車場內部交通擁堵。
用戶依靠App繳納自己的停車費用。在離開停車場時,門禁系統自動識別該車輛,并對比該車輛在數據庫中的繳費情況,判斷是否放行。
4 結 語
在當前的大數據時代,數據所帶來的影響遠遠超出人們的想象。伴隨著經濟的發展,由“停車難”引發的各種交通問題也不斷涌現,使城市交通面臨著巨大挑戰。大數據平臺下的智能停車場是一個技術多元的龐大系統工程,涉及了整個區域和城市。大數據技術在智能停車場的應用充分利用數據挖掘和大數據處理技術的優勢進行數據融合、平臺建設,提高智能停車場的運行效率及核心競爭力。同時作為智能交通的一部分,在一定程度上緩解了停車難的問題。
參考文獻
[1]熊剛,董西松,朱鳳華,等.城市交通大數據技術及智能應用系統[J].大數據,2015(4):1-4.
【關鍵詞】智慧倉儲 物聯網 大數據平臺
大型供應鏈管理服務商通常具備多條成熟的運輸線路以及遍布全國的貨物倉庫,企業日益擴大的交易規模和業務范圍,各地倉儲和物流運輸每日可采集豐富的交易、物流、倉儲、供應商等數據,單一的企業ERP系統只能完成資源管理,對于海量數據的分析和企業更高要求的數據分析能力有限,于是,企業智慧倉儲大數據平臺應運而生。
本文提出的智慧倉儲運營支撐平臺,運用了先進的RFID技術、視頻分析技術及大數據分析技術,不僅解決了分散在各處的倉庫智慧化管理,還可將倉庫和物流各類運營及管理基礎數據同步上傳至大數據平臺,實現倉庫運營和管理信息資源的整合與共享,并依托各類基礎信息庫,為企業管理者提供智能決策支持。
1 智慧倉儲運營支撐平臺
智慧倉儲運營支撐平臺是一個功能完備的基礎平臺,系統架構如下圖所示,分五層結構:感知層、傳輸層、數據層、服務層和應用層。
1.1 感知層
包括RFID讀寫器、激光雷達、視頻終端、門禁對講、溫濕度傳感器和警報器。
1.2 傳輸層
采用有線局域網或WIFI無線通信方式與支撐平臺連接并傳輸數據。
1.3 數據層
包括設備信息庫、業務信息庫、監控信息庫和人員信息庫。
1.4 服務層
包括RFID中間件、ESB總線和第三方接口等模塊,為整個系統的運行提供服務支撐。
1.5 應用層
包括倉庫的業務管理、安防管理、人員管理、報表分析和系統管理等功能。
通過智慧倉儲運營支撐平臺可實現對貨物入庫、出庫、移庫、盤點等基本業務的智能化處理,其中,視頻分析技術還可實現倉儲的安防管理、人員管理等功能,不僅實現了對倉庫的智能化管理,還能夠收集物流和倉儲的各個生產過程和任務執行中產生的運營數據,作為大數據分析平臺數據源的重要組成部分,為企業實現智能分析提供了基礎。
2 智慧倉儲大數據應用
智慧倉儲運營支撐平臺將各地的倉儲運營數據統一上傳至企業大數據平臺,進行分類和對分散及重復數據進行篩選、匯總、抽取、挖掘、分析形成物流與倉儲有價值的大數據,便可應用于企業管控和管理全過程的協調、管理、協同、決策。大數據平臺架構如下圖所示,分為數據源、大數據獲取、大數據處理、大數據服務四層。
數據源層主要實現采集前端各類感知設備以及各倉儲運營平臺數據。
大數據獲取層實現結構化數據、非結構化數據、半結構化數據的導入導出。
大數據處理層實現數據的分布式存儲和并行計算,并統一提供資源的調度服務、訪問服務、管理監控服務和權限控制服務等。
大數據應用層實現物流運輸調度、儲位管理、可追溯管理、精準營銷等各類智慧化應用。
2.1 運輸調度
通過大數據優化任務發運計劃,使運輸任務最大程度地銜接起來,達到整個運輸網絡任務協調排程,合理組織運輸工作和車輛調配,提高運輸調度水平。
2.2 儲位管理
通過對產品的進出貨數據進行分析、整理、分類,深度挖掘不同類別之間的相關關系,再配合波次作業手段,優化揀貨單,提高倉儲工作效率。
2.3 可追溯管理
借助大數據平臺智能分析及智慧倉儲前端采集信息,建立產品檔案,全面直觀地展示品牌形象,借助供應鏈系統與電子商務交易平臺,實時監督產品生產、交易和運輸全過程。
2.4 精準營銷
通過收集各個電子商務平臺上同類產品的銷售價格、數量、潛力,以及老客戶的個人資料、交易行為、忠誠度等信息,同時深度挖掘潛在客戶,制定一些優惠政策,激發購買的積極性,定向推送產品信息,實現精準營銷。
3 結束語
基于大數據分析的智慧倉儲運營支撐平臺,適用于擁有多個分散倉庫的大型企業,不僅使倉庫管理者能夠及時掌握倉庫運行情況,更將大數據技術應用到物流領域,對于建設智能倉儲體系,優化物流運作流程,提升物流倉儲的自動化、智能化水平有著積極的推進作用。
參考文獻
[1]肖建輝.淺談倉儲管理[J].物流工程與管理,2010,32(06):130-132.
[2]張仁彬,李玉民.基于物聯網技術倉儲管理系統研究[J].物流科技,2011(06):35-38.
[3]宮夏屹,李伯虎,柴旭東,等.大數據平臺技術綜述[J].系統仿真學報,2014, 26(03):489-496.
IBM大數據分析融入騰訊媒體報道
在世界杯開賽之前,IBM和騰訊“牽手”成為騰訊體育社交媒體數據分析合作伙伴。IBM根據網友和球迷在騰訊網絡媒體平臺及社交網絡上的海量公開信息和數據,通過大數據分析技術,獲得球迷話題、球迷類型、球迷個性分析等一系列洞察;同時還能根據這些信息得出網友心中真實的球隊支持率。而騰訊則通過這些分析得出的洞察來指導內容報道,細分受眾,制作球迷更加喜歡的內容。
比如,IBM基于典型球迷在微博等社交媒體上所內容的綜合分析,并對比心理學上的任務性格分析模型,通過大數據技術進行球迷的性格分析,勾勒出不同球星的典型球迷形象,不僅是球迷的興趣愛好,連性格特點和行為方式都刻畫的十分詳細。如內馬爾球迷的關鍵詞為“陽光活潑、愛湊熱鬧、愛找樂子、喜歡悠閑生活”等等。
從世界杯看社交大數據分析如何為行業客戶創造價值
通過大數據分析,媒體能夠了解網友和球迷的喜好和關注點,就能夠有針對性的制作內容并進行推薦,這大大改善了網友的體驗。作為一名媒體人,筆者經常會為找到讀者喜歡的話題而頭痛,往往精心制作的選題卻反映冷淡,其原因在于媒體認知和讀者需求出現了脫節。大數據分析改變了媒體傳統的單向式傳播模式,讓讀者變成內容制作的“參與者”,從而更加貼近讀者的需求。“大數據”開啟了媒體報道的新模式,據悉,眾多媒體集團都表現出興趣,希望能和IBM進行類似的合作。同時,在本屆世界杯上,大數據和媒體的結合,也為球迷送去了一場與眾不同的“足球報道盛宴”。
行業CMO最關注大數據和社交網絡對營銷的影響
IBM在本屆世界杯和騰訊的合作只是IBM在體育行業大數據分析的一個縮影,此前IBM大數據社交分析已經在網球四大大滿貫賽事、橄欖球、高爾夫球等賽事中也發揮著巨大作用,為球迷帶來了更佳的觀賽體驗,為球員和教練合理制定訓練和比賽計劃提供著參考,同時也助力主辦方創辦世界頂級賽事也幫助轉播機構傳遞精彩比賽。事實上,其它行業的企業CMO也正越來越重視大數據和社交網絡在企業營銷中的價值。
圖注一:中國的CMO已經意識到營銷管理在將來的巨大變化,并且已經開始在投資/整合技術與分析方面做出相應的準備
根據IBM年度的全球和中國CMO調查報告,在被認為對營銷管理產生重要影響的13中因素中,數據爆炸和社交媒體被認為是最重要的兩種因素。其中,85%的CMO都選擇企業應對數據爆炸做出市場營銷的改變;71%的CMO則選擇了社交媒體。
IBM大數據社交分析已有成熟的方法論
移動技術和社交業務正在催生著很多新的IT服務來與被數字化武裝的個體進行交互。對于企業而言,構建一套全方位的互動參與體系,在員工、合作伙伴和客戶之間建立參與機制將尤為重要。而IBM在社交大數據分析方面不僅有SoftLayer等云計算基礎設施的支撐,還通過多年積累形成了一套為企業提供社交環境下客戶全生命周期支持的完整方法論,使大數據社交分析能充分挖掘到在媒體行業、電信、金融、交通運輸、零售、快速消費品等不同行業的客戶價值。
圖注2:IBM社交大數據分析解決方案為企業提供社交環境下客戶全生命周期的支持
【關鍵詞】 工業互聯網 大數據 管控一體化
伴隨移動網絡、大數據、云計算浪潮,工業革命創造的龐大的機器世界和信息革命的網絡、智能計算和數據搜集、處理能力結合,推動著工業互聯網革命的到來。本文通過探討將中國石油管道公司在用的生產控制及經營管理信息系統之間的關鍵數據通過集成共享,借助云計算,實現資產最優配置及科學管理決策,助力管控一體化建設,提高管理效率。
一、總體結構及實現技術
1.1 總體結構設計
大數據中心采用分層結構,通過將現有各系統的生產過程數據及經營管理數據匯集到大數據中心,借助云計算及成熟的大數據分析技術,通過相關服務接口,為管理決策提供依據,實現資產優化、失效預防、智能機器等功能。
1.2 解決方案及主流平臺
大數據中心的4V特征決定了它不同于傳統的數據采集、存儲、處理技術。大數據是多維的,而且極具復雜性,解決方案通常都是基于集群的物理設施平臺上,通過分布式處理系統來實現對海量數據的處理和分析,最為常見的當屬英特爾公司推出的Hadoop。
二、建設內容
通過數據的高度集中及有效融合分析,在滿足現有控制及管理需要的前提下,通過數據利用,側重提升管理效率,為管理決策提供科學依據,實現資產優化配置及失效預防等,主要實現以下功能:
2.1 為管控經營決策提供科學依據
傳統的決策往往倚賴于企業領導者的經驗,大數據中心的建立則可以改變長期以來依靠經驗、理論和思想的管理決策方式,使直覺判斷讓位于精確的數據分析,保證任何決策都是從問題出發而不用擔心數據缺失或者數據獲取困難,使決策重心回到問題本身,而領導者的任務則變成了發現和提出正確的問題。對于一般管理者和員工,可以很方便地獲得決策所需的信息,決策能力大大增強。同時,建立在大數據分析的基礎上,重大決策出臺前,可以對產生的影響效果及范圍進行預測,為重大決策提供事前評估。
2.2 提高設備可靠性及效能,實現資產管理及優化
在長輸管道行業中,泵和其他流程設備是油、氣、電等能源的消耗大戶,這些設備是否工作在最佳狀態至關重要。借助大數據分析,隨時隨地獲知關鍵設備的運行狀態,及時進行維護調整,確保設備以最小的能耗工作在性能最佳的狀態,實現資產的優化管理及有限資源的最大化合理分配。同時,通過庫存優化計劃節約短期運營成本,并降低設備的生命周期成本,確保關鍵資產的部件供應。
2.3 有效預防意外失效,提高運營效率
基于對數據的獲取、存儲和分析可結合大數據有效開展預測。通過關鍵設備運行狀態的實時分析,在設備失效前給出預警,安排檢修或計劃停機,改善“平均失效間隔時間”(MTBF),防止失效進一步擴大,借助數據中心強大的分析計算能力,結合設備運行數據和管道內檢測數據等,可在潛在問題造成巨大損失以及浪費維修時間之前搶先采取行動,現場維修人員也將不需要耗費時間去檢查哪里出了什么問題,他們將能夠直接預測哪里出了什么問題,并提前準備好修復所需的零部件,有效避免管道失效及關鍵設備意外宕機造成的嚴重后果。
2.4 突破機器與智慧界限,讓機器更加智能
借助大數據分析及機器智能技術,以嶄新的方法將現實世界中的機器、設備、團隊和網絡連接起來。使用基于物理的分析法、預測算法、自動化和材料科學及其他關鍵學科的深厚專業知識來理解機器與大型系統的運作方式。通過持續的數據積累、深度學習和提高洞察力,實現機器與信息智能化,當“知道”大數據時,能夠分析判斷這些數據應該用在什么地方,以及如何使用,讓大數據和預測有聯系,突破機器與智慧界限,使機器更加智能,不斷提高生產效率。
三、結束語
大數據時代的降臨已是勢不可擋,其中潛在的巨大價值勢必會掀起一場商業模式和管理決策的深刻變革,中國石油集團公司也于2012年啟動了三大數據中心建設。對于企業來說,數據正日益成為企業的核心競爭力,企業必須要充分、有效地利用大數據,挖掘蘊含其中的附加價值,依靠數據來驅動增長,不斷發展壯大。
參 考 文 獻
[1]楊茂,陳渝等,數字氣田管控一體化信息系統建設[J].天然氣與石油,2013,(6):7-9
【關鍵詞】大數據;智能電網;應用
0 引言
電力能源作為一種不能大量存儲的能源,其特點是“發電-輸電-配電”同時完成,發電的多少要依據用電側的符合進行調配,維持發電和用電的均衡,這對電網頻率和電壓的穩定起到了至關重要的作用。傳統電網中,此項工作主要由各電力公司的電力調度負責,通過對輸配電的控制使電網的頻率和電壓運行在允許的范圍內。
隨著新能源的出現及發展,風力發電、太陽能發電等多種分布式發電對電網的穩定運行提出了新的挑戰,如果調配不好,容易發生棄能的現象,這對發電企業帶來了不必要的損失。同時電動汽車等新的電力耗能大戶的逐漸普及,對現有輸配電基礎設施的影響也很巨大。一個小區內如果幾十臺汽車如果同時充電,就會對原有輸配電基礎設施產生影響,供電線路就容易超負荷。如何能解決這些問題,突破電力發展的瓶頸,實現電能資源的高效利用,既是我國經濟發展的目標,又是輸配電企業目前亟待解決的問題。
智能電網利用布置在發電側和配電側的大量的傳感器網絡,通過高速專用電力通信網絡將采集到的數據集中到電網運營調度中心,通過智能信息處理技術對海量數據進行分析和計算,根據需要對電網進行實時自動化控制,智能調節電網運行狀態并在線分析和決策電力輸送,實現電能產生和使用的可測可控,使電力系統的運行更加高效、可靠和安全。對各種傳感器網絡產生的海量數據的提取、分析、計算、管理和決策是智能電網運行過程中至關重要的一部分,如何有效的處理大數據,成為智能電網應用的關鍵。
1 大數據在電力應用中的關鍵技術
如何利用大數據整合所需資源達到實現未來電力發展需要的應用,提高生產率,提高管理效率、服務質量,這些都是實現大數據在電力應用中的關鍵。電力大數據主要包括數據的集成管理、數據分析、數據處理及數據展現。
1.1 電力大數據的集成管理
電力大數據集成管理是融合來自多個傳感器網絡的異構數據,并進行抽取、過濾和清洗后提供給電力應用系統過程。從集成的角度來說,就是把不同來源、數據格式、特點、性質的多樣性數據在邏輯上或者存儲介質上進行清洗和集中,為應用系統存儲一系列面向主題的、集成的、易于管理的、反映歷史變化的數據集合,從而為系統提供全面的數據共享。電力大數據集成管理技術就是為解決內部各系統間的數據冗余和信息孤島而產生的。
1.2 電力大數據的數據分析
電力大數據分析是將傳感器采集到的數據進行分析和提煉,從多個維度觸發,找出海量數據中潛在的模態和規律的過程。電力大數據分析的關鍵技術源于統計學,并利用計算機技術對數據進行關聯分析、機器學習、數據挖掘和模式識別。
電力大數據分析技術,從根本上講,屬于傳統數據挖掘技術在海量數據挖掘下的新發展,針對發電數據、輸電數據、配電數據和用戶用電數據等大數據海量、高速增長、多樣性的特點,從大數據的治理與抽樣、特征選擇的角度入手,將大數據小數據化,然后對大數據利用聚類、分類算法進行聚類提取特征,最后利用機器學習與數據挖掘技術提取數據中的應用知識,提供給應用系統。
1.3 電力大數據的數據處理
電力大數據的數據處理主要是利用現代計算機大規模計算技術優化數據的處理過程,提高數據的處理速度,主要包括分布式并行計算技術,內存計算技術,流處理技術等。分布式并行計算技術是為了解決海量數據的分布式存儲與處理。內存計算技術是為了解決數據的快速讀取和利用內存的高帶寬特性進行實時計算。流處理技術針對連續的、未知數據量的數據進行實時處理,且處理過程不受信息完整度的影響。
分布式并行計算是一種新的計算方式,充分利用計算資源具有分布式的特點,將單一高性能計算機的計算分解為分布式并行計算,并將分布式計算的結果匯聚為最終結果。分布式計算的一個典型代表是Google公司Hadoop大數據平臺的Map-Reduce編程模型,該平臺實現了一個分布式文件系統,并且具有高容錯性的特點。該平臺將海量數據計算從高性能計算的解決方案改進為分布式的低廉硬件解決方案,且仍然可以達到高性能計算機才能達到的性能要求。Map-Reduce編程模型先將待處理的數據進行分塊,進行分布式并行處理,并以鍵值對的形式存儲到本地硬盤,再由Reduce任務按照鍵值將結果匯總并輸出最終結果。分布式并行計算技術適用于電力系統用電信息或配電信息采集領域的海量分散數據源。
內存計算技術將全部數據放在內存中,利用內存與CPU之間高速通信的特性進行快速數據處理的計算技術,該技術避免了硬盤IO速度有限帶來的數據傳輸速度瓶頸,計算速度大幅提升。內存計算技術伴隨著內存價格的下降得到快速的發展,EMC、甲骨文、SAT都提出了內存計算的優化解決方案,將客戶計算時間從以天作為單位降低為以秒作為單位,在適當提高計算資源成本的前提下解決了大數據實時處理和知識挖掘的難題。
流處理技術將每時每刻到來的數據視為流,每當有新的數據到來時就隨時處理并返回結果,由序列檢測理論可知,基于事件檢測的應用中數據的信息量會隨著時間的增長而變小,因此在數據流數據的前段數據中可以盡可能快地對最新的數據做出分析并給出結果。隨著電力事業的發展,電力系統數據量不斷增長,流處理技術應用于電力系統可以為決策者提供即時依據,在事件檢測類應用中起到至關重要的作用。
面向工業互聯網的大數據相關應用系統,從功能視角看,主要由數據采集與交換,數據預處理與存儲、建模、分析和數據驅動下的決策與控制應用四個層次五大部分組成。
數據采集與交換層主要實現工業各環節數據的采集與交換,數據源既包含來自傳感器、SCADA、MES、ERP等內部數據,也包含來自企業外部的數據,主要包含對象感知、實時采集與批量采集、數據核查、數據路由等功能。
數據預處理與存儲層的關鍵目標是實現工業互聯網數據的初步清洗、集成,并將工業系統與數據對象進行關聯,主要包含數據預處理、數據存儲等功能。
數據建模層根據工業實際元素與業務流程,在數據基礎上建構用戶、設備、產品產線、工廠、工藝等數字模型,并結合數據分析層提供數據報表、可視化、知識庫、數據分析工具及數據開放功能,為各類決策的產生提供支持。