前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數據可視化主題范文,僅供參考,歡迎閱讀并收藏。
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)17-0231-03
隨著大數據時代的到來,數據產生的速度呈直線上升,數據海量化已成為不可避免的發展趨勢。數據急劇增加對數據處理、數據挖掘以及數據可視化等都是一個極大的挑戰。目前,數據可視化面臨高維數據越來越多,數據量越來越大,數據種類越來越多等多種挑戰。針對這些問題,提出了一種Radviz數據可視化方法,將高維數據樣本非線性的投影到二維目標空間,能夠快速找到容易被領域專家認可的可視化模型。但是傳統的Radviz可視化方法將屬性值均勻分布在圓周上造成屬性間的值相互抵消,從而導致數據遮蓋度較大及可視化圖形有內縮趨勢等問題。本文提出了一種新的改進的Radviz可視化方法,改進的方法增強屬性了間的合力,降低了數據遮蓋度,使得原始數據集的特征能夠更好地保持。
1 數據可視化
數據可視化技術誕生于二十世紀八十年代,是運用計算機圖形學和圖像處理等技術,以圖表、地圖、動畫或其他使內容更容易理解的圖形方式來表示數據,使數據所表達的內容更加容易被處理。數據可視化技術與虛擬現實技術、數據挖掘、人工智能,甚至與人類基因組計劃等前沿學科領域都有著密切的聯系[1]。目前數據可視化技術大體可以分為5類:基于幾何投影可視化技術、面向像素可視化技術、基于圖標可視化技術、基于層次可視化技術以及基于圖形可視化技術[2]。
數據可視化的簡易工作圖如圖1所示:
2 傳統的Radviz可視化方法分析
Radviz(Radial Coordinate Visualization)是一種基于彈簧模型的可視化方法,Radviz是將一系列多維空間的點通過非線性方法映射到二維空間,實現在平面中對多維數據可視化的一種數據分析方法。自從Ankerst于1996年提出Radviz技術以來,Radviz技術取得了很大的發展,被廣泛應用于可視化分析和數據挖掘等領域。近年來更是把Radviz技術運用到基因表達數據的分類上,且取得了良好的分類效果[3]。
2.1 傳統Radviz模型
經典的Radviz方法通常運用在平行坐標系上,將一系列具有多維度屬性的點通過非線性方法映射到二維空間,使人們得以用肉眼觀察。如圖2所示,設n個特征變量隨機均勻地分布在單位圓周上(如n= 6),記為~,現在假設n個彈性系數不同的彈簧一端全部固定在一個小球上,另一端分別固定在~。假定第j根彈簧對于觀測點i的彈性系數為,如果觀測點固定在圓內的一個平衡位置,那么(,)就是n維空間(,…,)在二維空間的投影,便實現了一個n維數據轉化到二維坐標的Radviz可視化[3]。
其中,表示隨機均勻分布在單位圓周上的特征向量;單位圓周表示一個二維空間;O表示特征向量映射在二維空間上的平衡點。
根據胡克定律,對一個彈簧而言,小球所受到的彈力取決于彈簧拉伸的長度(矢量)和彈簧的彈性系數(標量) ,當小球靜止不動時,則表明其受到所有彈簧的合力為零。對此可得到如下公式:
其中xj表示第j個變量在二維空間的圓周上的坐標,pi表示第i個觀測點在圓內二維空間平衡位置的坐標。公式(2-2)表示第i個觀測的平衡位置,式(2-3)表示觀測平衡位置向量pi為各變量的坐標位置的加權平均。為了避免負值的出現,常常采用歸一化的方法,即將最大值和最小值歸為1和0,歸一化后的所有得數值都位于[0,1]之間[4]。歸一化公式為:
從上述公式分析,我們可以得出如下結論:
(1)維度值越大,那么該投影位置將更靠近該維度在圓周上的位置;
(2)改變圓周上的屬性,將影響投影的位置;
傳統的Radviz可視化方法計算復雜度低;可顯示維度大;相似多維對象的投影點十分接近,容易發現聚類信息;直觀便于理解。但是傳統的Radviz方法也存在一些不足,該方法受數據本身及數據集的類型影響,當相似的數據集或成比例的數據集較多時,數據遮蓋度會很大,將會影響對原始數據集的特征保持[5.6]。
3 改進的Radviz可視化方法分析
傳統的Radviz可視化方法受數據本身和數據集類型的影響,一旦相似數據集或成比例的數據集較多,數據遮蓋度就會很大,那么原始數據集的特征將會被影響,造成這種現象的原因是傳統Radviz模型屬性間的相互作用增加了數據密集度,使數據覆蓋和重復概率增大,從而影響原始數據集的特征。對此,本文提出了一種改進的Radviz模型,新的模型減少了屬性間的相互作用,從而使可視化結果更加接近數據集的原有特征。
3.1 改進的Radviz模型
改進模型采取1/4圓來對應n維空間,對于一個n維數據集,那么就將1/4圓n等分,即每一個點表示一個維度,然后通過彈簧模型來將數據集投影到二維平面的1/4圓中。但是每個點都在1/4圓弧上,則有可能最后的平衡點不在1/4圓內,那么就需要一個固定點來使得平衡點一定落在1/4內,這里把原點設為固定點。如四維數據集,原理圖如下:
在圖3中,X、Y軸分別表示投影點的橫、縱坐標;原點表示用來使平衡點一定落在1/4圓內的固定點;Mi表示數據集的每一個維度;O表示數據集在1/4圓周上的平衡點;h(x,y)表示平衡點O的坐標函數。
3.2 改進Radviz可視化方法的實現
3.2.1 數據預處理
首先要對數據集進行預處理,把非數字轉化為數字,然后對數據集進行歸一化處理,使得數據集中的所有數據都在[0,1]之間。本文采用的歸一化公式為:
3.2.2 固定點彈性系數
傳統的Radviz模型沒有固定點,當然也就不用設定固定點彈性系數。但是,在改進的Radviz模型中所有的屬性都在1/4圓上,他們所受到的彈力都在一側,無法使得平衡點落在1/4圓內,所以需要提供一個固定點,來提供一個彈力來使得平衡點落在1/4圓內。本文提出了一種全局均值的固定點彈性系數算法,全距均值就是所有屬性中最大值和最小值的均值之和,它可以使數據可視化投影點處于居中的位置,方便進一步的數據處理。全距均值的計算公式:
3.2.3 新的平衡點坐標計算
其中,圓的半徑為1,p表示彈簧彈性系數,k表示第i個數據中第t個屬性的值,兩個三角函數表示第t個屬性沿坐標軸的分量[7.8]。再由合力為零,得到投影坐標的公式為:
3.3 改進Radviz模型與傳統Radviz模型比較
傳統的Radviz模型是把所有屬性隨機均勻分布在一個圓周上,那么屬性之間的夾角都是鈍角,那就使得屬性的投影值小于它的初始值,這就導致屬性值的落點更靠近圓點,增加了數據遮蓋度,最終導致得到的數據可視化效果較差。而改進的Radviz模型是把所有的屬性均勻分布在1/4圓周上,屬性間的夾角就是一個銳角,也就是說屬性的投影值不小于初始值,這就使得屬性值的落點比初始值更遠離原點,這就降低了數據遮蓋度,最終得到的數據可視化效果就更好。
綜上所述,改進的Radviz數據可視化方法更好,即更好地保持了數據集的原始特征,又能得到更好的可視化效果;為數據可視化的研究提出了一種更好的方法,使得數據可視化更加容易,得到的結果更加可靠。
4 總結
本文在研究傳統的Radviz數據可視化方法的基礎上,結合傳統方法的優點,給出了一種改進的Radviz數據可視化方法,并對改進可視化方法進行了分析與比較。解決了傳統方法不能很好保持原始數據集特征和數據遮蓋度高的問題,使得數據可視化的效果更好,為數據可視化提出了一種新的參考方法。
參考文獻:
[1] 任磊,杜一,馬帥,張小龍,戴國忠.大數據可視分析綜述[J],軟件學報,2014(9):1909-1936.
[2] 陳建軍,于志強,朱昀.數據可視化技術及其應用[J].紅外激光工程,2001,30(5):339-343.
[3] 張濤,趙發林,武振宇,李康.Radviz可視化方法在基因表達數據分析中的應用[J].中國衛生統計,2011(1):2-4+8.
[4] 徐永紅,洪文學,陳銘明.基于Radviz及其優化的可視化故障診斷方[J].計算機應用研究,2009(3):840-842.
[5] 陳琰.基于Radviz算法的金融數據可視化分析技術研究[D].浙江大學,2014.
[6] 曾晶.Radviz可視化技術度量模型的研究[D].北京交通大學,2011.
關鍵詞:可視化數據挖掘技術;可視化技術;數據挖掘;方法
中圖分類號:TP311.13
在數字信息時代下,網絡信息技術和現代化的電子通信設備使得數據量逐步增長,數據結構不斷復雜化,需要科學的技術展示這些數據。可視化數據挖掘技術是數據挖掘技術和數據可視化的結合,能利用計算機圖形學和圖像處理技術將數據挖掘源的數據、數據挖掘過程和數據挖掘的結果直觀的表現出來,并進行交互處理。設計科學的可視化數據挖掘技術可以從數據源的可視化、數據挖掘過程和數據挖掘結果的可視化入手。
1 數據挖掘過程中的可視化技術
1.1 數據源的可視化技術
數據源的可視化應該在數據挖掘過程算法之前進行,主要作用是展示數據源是如何分布的[1]。如可以用三維立方體或者曲線來表現其中數據分布的情況,用可視化技術來描述數據倉庫數據和數據庫中不同的抽象級別和粒度。
1.2 數據挖掘預處理階段的可視化技術
預處理階段是數據挖掘工作的一個重要階段,對選定的數據集進行抽取、集成、清洗、轉換和規約。在整個數據預處理階段,用戶需要先了解所需要處理數據格式、數據列的屬性、數據分布的信息等,結合數據挖掘的目標對可能對使用的數據挖掘算法精準度有影響的數據進行估算,并進行一定的處理。值得注意的是,在數據的預處理過程中會涉及大量復雜的數據操作,這就需要可視化技術進行處理,總的來看,在數據預處理階段的可視化技術設計可以采用結合傳統的可視化圖表形式和界面菜單操作的形式進行,具體設計如下。
(1)數據的選擇。數據的選擇對象主要是文本文件形式的數據和關系數據庫文件形式的數據,數據選擇的過程是根據數據質量的要求和數據挖掘的目標,連接并訪問數據源,進而選擇出合適的數據,主要方式為選擇數據表、選擇屬性、記錄選擇。在數據選擇的過程中,用戶可以通過界面連接自己需要的關系型數據庫,也可以直接從文本文件導入數據。而對那些已經選定完畢的數據集,用戶可以采取制定數據列、樣本采集等方式選擇數據;(2)數據集成。數據集成是在選擇好的數據源和數據庫中將數據搜集并整合到統一的存儲中,在數據集成的過程中,會出現一些冗余數據。為了幫助用戶清楚的識別冗余數據,要將數據表中冗余數據的記錄進行高亮顯示[2];(3)數據清洗。數據清洗主要是針對在數據預處理過程中出現的識別或刪除孤立點、空缺值和數據不一致等問題。通過對各個列值的數據屬性條形圖顯示,用戶能有效查看各個列值的分布情況和屬性,進而針對不同的數據類型,給予相應的處理操作。通過可編輯數據的表格方式來幫助用戶觀察和分析數據集中的連續字段,進一步查找出空缺值,然后再通過界面提供的人工填寫空缺值處理和補全空缺值;(4)數據轉換。數據的轉換包含對數據格式的轉換、數據拼接的轉換、數據匯總計算的轉換和數據類型的轉換;(5)數據規約。數據規約是在數據挖掘結果有所保障的基礎上,通過采用壓縮數據集的方法來提高數據挖掘過程的速度。在數據規約過程中,可以采用的技術有數據壓縮、數值規約、維規約、數據立方體聚集、概念和離散會分層等[3]。數據規約的可視化是通過采用層次樹和直方圖的形式進行的。
1.3 數據挖掘算法的可視化技術
數據挖掘過程中的交互式可視化是用可視化的形式來描述挖掘的過程,在整個挖掘過程中,設計合適的數據挖掘算法是極為關鍵的步驟,也是數據挖掘的難點。算法可視化是利用計算機圖形學的方法,將算法程序執行和數據演變中動動態圖形的方式表示出來。當前算法可視化主要應用于教學演示、算法的分析與設計、科研、計算集合、程序調試等領域中,主要包括了三個功能部件,見圖1。
1.3.1 算法初始化及相關參數設定部件。數據挖掘算法的初始條件包括了使用參數的默認值、經過預處理后的數據集等,在這個過程,用戶可以根據界面設定的數據集來挖掘,其中參數值的變化也會影響挖掘結果的變化。為了保障挖掘結果的精準度,用戶可以通過多次實踐來挖掘出科考的參數值和數據。
1.3.2 中間結果的顯示部件。不同的數據挖掘算法,要有相應的數據類型來存儲數據挖掘算法中的中間結果,然后利用一個通用的數據接口提供給計算機界面做可視化處理。整個過程是動態的,把數據挖掘算法生產的步驟在計算機界面上呈現出不同的描述。
1.3.3 算法與界面的映射層。不同的數據挖掘算法舌部不同的數據類型,該步驟的數據算法設計時要利用數據挖掘擴展語言DMX來完成不同數據挖掘算法,不同數據挖掘算法能夠提供不同類型的參數選項,以插件的形式讓DMX調用。
2 數據挖掘結果模型的可視化技術分析
本文采用的是通用預測建模標準語言PMML4.0來表示各種數據挖掘結果模型,見圖2。
此數據挖掘結果模型的可視化結果主要是為了幫助用戶能更好的理解所挖掘出來的數據結果,并且需要進行有效的評估和反饋。數據挖掘的結果模型各有各的特色,也較為繁雜,不同的數據挖掘模型,要通過不同的可視化方法來展示出來。(1)可視化圖庫表。因不同的數據挖掘結果模型需要不同要求和標準的可視化圖形,需要提供不同的可視化圖表庫接口,以PMML標準格式儲存的數據挖掘結果模型展示可視化圖形;(2)圖像的縮放部件。數據挖掘結果模型進行可視化之后,可能會因為內容過多,無法在界面上顯示,這就需要設計科學的圖像縮放部件,圖像的縮放功能是可視化技術的一個重要功能。用戶能通過對數據挖掘結果模型的圖形進行縮放,切合整體視圖與細節視圖;(3)多視圖顯示部件。同一個數據挖掘結果模型,能提供包括統計信息視圖、可視化圖表視圖等在內的多個視圖。而不同的視圖可以采用不斷的選項卡進行展示,以便用戶能通過單擊不同選項卡來觀察不同的視圖;(4)過濾部件。數據挖掘結果模型的信息量大,用戶為了能快速找出所感興趣的知識點,可以設計過濾部件,將設計好的過濾部件與之相符的信息從可視化圖表中隱藏。數據挖掘結果模型的過濾部件只能在界面上隱藏當前可視化圖表中符合過濾條件的顯示部分,而不能改變模型的具體內容。
3 結束語
總之,可視化挖掘是一種新型的大數據集挖掘方法,在數據和信息量不斷增加和復雜化的背景下,用戶對所挖掘出來的數據結果更難以捉摸。而將挖掘出來的數據結果在數據挖掘的過程和數據結果模型的展示上,利用可視化的圖形、圖像和圖表等直觀的方式表現出來,就能有效提高用戶對數據挖掘結果的理解和利用。
參考文獻:
[1]陳霞,陳桂芬.基于可視化的時空數據挖掘研究與應用[J].安徽農業科學,2012(17):11-12.
[2]路燕梅.基于平行坐標的可視化多維數據挖掘的研究[J].現代計算機(專業版),2011(25):04-05.
[3]張敏輝,賴麟.可視化數據挖掘技術的應用研究[J].數字技術與應用,2012(11):19-20.
關鍵詞 氣象信息數據;可視化;氣象服務
中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708(2017)189-0058-02
在這個信息和數據日益膨脹的世界,人們越來越傾向于用最簡便的方式獲取信息,于是,對數據信息的可視化處理也就成為信息傳播者最有效的傳播手段。
所謂數據信息可視化,是通過計算機及各類相關軟件、技術,將想要傳達的數據信息轉換成圖像,用一目了然的方式表現出來。比如借助圖表、地圖、視頻、動畫等各類表現手法,都可以將海量難讀取的、晦澀難理解的數據信息用更直觀的方式表達。數據信息可視化能夠讓受眾快速讀取并且深入理解數據信息原本復雜的內在含義和隱晦的結構關系。目前,數據信息可視化理念和技術已經在越來越多的領域得到廣泛應用,比如金融、通信、醫學、生物分子、自然科學、地質勘探等,并且表現出了對抽象數據信息的分析、表達、傳達等方面獨有的優越性。
1 氣象數據可視化發展
早在17世紀80年代,人類就進行了在氣象大數據可視化方面的嘗試,這次嘗試來源于英國科學家埃德蒙?哈雷,憑借整理和計算大量數據的才能,哈雷繪制了世界上第一張載有海洋盛行風分布的氣象圖,以地圖為依托,對信風的分布狀況做了全球性的統計分析,并將分布狀態生動的展現在世人面前,這也是有史可依的最早的氣象數據可視化案例。
如今,氣象數據可視化已經發展到了全新的時代。在美國National Weather Service網站上,氣象數據信息已經實現了以地圖為載體的全面可視化展示,文字描述變成了輔助信息,圖形可以一目了然的傳達不同地理區劃內各類氣候歷史資料和實時的天氣實況、預報數據。
隨著氣象數據的監測和預報的高度發展、以及自動化水平的不斷提升,氣象數據信息也正呈現爆發式增長的趨勢。而同時,伴隨著媒體技術的發展,受眾對于氣象服務信息的需求也逐步從傳統媒體的單向傳達向全媒體的交互式體驗轉變,單一的講述方式已經不再是讓受眾接收氣象信息的有力途徑。而在這個變化的過程當中,人們對于氣象信息本身的需求也不再是單一的“明天下雨嗎”,而是需要對天氣原理、氣候統計等方面越來越專業化、深入化的系統解答。這種受眾需求的引領,也推動了氣象服務向數據信息可視化方向全面發展。
2 氣象數據可視化對于氣象服務的意義
數據信息可視化理念和技術的發展,已經在很多領域體現出先進性。比如在電視新聞、影視作品等領域,數據信息動態可視化元素的應用在提升新聞報道傳播效果、加強影視作品科技感等方面起到了舉足輕重的作用。
而在氣象服務領域,從海量的數據信息中做減法,整理、提取相關信息,并用直觀的方式對數據信息進行可視化表達,對于滿足受眾對氣象信息需求越來越專業化、對信息讀取方式越來越高效化等方面來說,都是最有效手段之一。再加上在氣象服務領域涉及到的專業性用語、科學原理等科普性內容日益增多,受到這類受眾需求的引領,也推進了氣象數據信息可視化在氣象服務領域的發展,并成了提升氣象服務傳播效果的有力途徑。
借助可視化的力量,將復雜抽象的數據信息變得更有可讀性和觀賞性、將生澀的專業詞匯轉換成通俗的語言并配合易懂的圖形動畫、將難理解的天氣學原理利用氣象數據做出讓人容易理解的圖形表達,以達到受眾對傳播內容充分理解的目的。通過可視化技術,增強受眾對氣象信息和科普知識的理解,使傳播內容切實為受眾服務。
筆者在對2016年1月至7月的《新聞聯播》之后的《天氣預報》節目進行整體收視和節目效果分析后發現,在收視率超過當月平均值的節目中,除了常規的圖形表達之外,利用一定可視化手段對氣象數據信息、氣象科普等內容進行深入解讀的節目占到53%。可見氣象數據可視化在實際氣象服務操作中已經展現出它的優越性。
3 氣象大數據可視化在實際應用中的不足
總體來說在氣象服務中,對氣象數據可視化的應用還僅僅還停留在表層,現階段對龐大數據的挖掘、整理、傳達只是蜻蜓點水,在現有的氣象數據信息可視化表達中存在很多問題和進步
空間。
3.1 可視化方式相對單一
調查發現,目前氣象服務提供者在對氣象數據信息進行可視化表達時,餅狀圖、柱狀圖、表格圖等最原始的統計類圖形圖表的使用率是最高的。不可否認此類圖形是對數據進行可視化表達的鼻祖,這樣最基礎的可視化表達方式,在很多時候也是最清晰有效的。但在可視化技術飛速發展的當下,圖形圖表類的表達一方面已經跟不上受眾多樣化的信息獲取腳步;另一方面,相對單一的可視化表達方式也無法滿足氣象信息挖掘過程中越來越深入化、專業化的解讀需要。
3.2 信息挖掘不夠深入
對氣象數據信息的可視化,如果在數據信息挖掘層面就不夠深入、思路不夠清晰,那么可視化手段也就顯得蒼白無力,氣象服務效果必然會大打折扣。在目前氣象服務可視化表達中,很多分析類、科普類內容很難做到清晰明確的傳播、或者可視化處理后并沒有得到應有的關注,究其根源,就是在氣象信息選取環節沒有考慮到受眾的實際需求。面對全媒體時代受眾越來越專業化的氣象信息需求,信息傳播者自身需要對傳播內容有一定的把控意識,要以受眾的需求為出發點尋找有價值的信息源,并且以點連線、以線帶面,進行多維空間的信息補充和挖掘,才能在此基礎上談及可視化表達。
3.3 信息交互不夠充分
隨著全媒體時代的到恚與用戶之間在全媒體平臺的信息交互,也是提升氣象數據信息可視化效果、進而提升氣象服務力度的途徑。受眾借助各類媒體獲取氣象信息,并通過新媒體對接收的信息進行反饋,讓氣象信息的傳播者切實了解受眾需求,進而提升氣象服務的貼近性和實用性;與此同時,對氣象數據信息的深入探索和表達,也能促進受眾需求水平的提升。而現階段,這樣的良互循環還沒有建立完善,很多時候由于各平臺信息交互不夠充分,氣象服務產品出現專業性太強、可視化表達繁瑣等問題難以得到及時反饋,雙向互動受阻,影響氣象服務效果。
4 氣象大數據可視化應用前景展望
當前,在氣象服務過程中,氣象數據信息的可視化已經成為提升氣象信息傳播效果、保持和提高受眾對媒體平臺粘合度的主要手段。而未來隨著全媒體概念的發展和氣象服務產品的不斷擴充,受眾對于氣象信息的需求也會更加深入化和個性化,所以要提升服務效果,就更要借助氣象數據信息可視化的力量,不斷提升數據信息可視化水平,進而提升氣象服務效果。提升氣象數據信息可視化效果可以從以下3個方面考慮。
4.1 多元的可視化表達手段
隨著可視化技術的不斷發展,目前普遍使用的餅狀、柱狀、表格等最基本的可視化表達方式已遠遠不夠,增強數據呈現的藝術美感是大勢所趨。應充分考慮各種新技術和創新效果的應用,敢于嘗試可視化新技術帶來的畫面效果提升。比如虛擬技術、虛擬植入技術、現實增強技術等,盡管節目時長較短的天氣預報節目中,在氣象信息挖掘和可視化表達方面的空間都比較有限,但新的嘗試必然會帶來更顯著的視覺沖擊效果,讓呈現出的可視化效果能夠充分服務于內容信息。
4.2 深層次的氣象信息挖掘
氣象數據信息可視化技術與數據挖掘緊密關聯。從受眾需求本身出發,挖掘恰當的信息切入點和多樣化的數據支持,讓信息源本身更有新意,也是提升整體可視化效果的途徑之一。對具有創新思維的氣象數據信息進行可視化表達,要表達的內容本身對可視化方式的要求就會提高,從而帶動可視化效果的提升。這樣的思路已經在節目制作過程中小試牛刀,比如,針對制作周期短的電視天氣預報節目,提前根據季節或節氣策劃相應的氣象數據解讀和科普選題,而這類選題在實現可視化的過程中,使用最基本的圖表類圖形已然無法滿足服務于內容的需求,而是需要更生動、精美的可視化手段來實現。而通過氣象信息的創新挖掘來提升可視化手段和效果的思路,在未來還會更深入的應用于集科技性、服務型于一身的氣象服務領域。
4.3 多交互的信息傳達方式
隨著全媒體平臺的深入發展,在信息傳遞過程中,單向的講述方式已經不再是受眾獲取氣象信息的有力途徑,取而代之的是受眾與氣象信息傳播者在全媒體環境中的信息交互。而氣象信息傳播者還應致力于對全媒體平臺中互動機制的不斷完善,讓交互和反饋的良性循環得以持續發展,而這對氣象信息可視化的發展也將起到促進和提升的作用。
5 結論
面對全媒體時代受眾越來越專業化和個性化的氣象信息獲取需求,對于氣象數據信息可視化技術的應用是提升氣象服務效果的有效途徑。目前在氣象服務領域,氣象數據信息的可視化嘗試對于氣象信息的傳播已經起到了彌足輕重的促進作用。然而,目前可視化技術在氣象服務中的應用還處在初級發展階段,同時氣象信息傳播者對信息的挖掘、可視化效果的評估等方面均存在很多不足和提升空間。未來在全媒體環境深入發展的大背景下,受眾需求的引領和內容創造者可視化能力水平將形成相互影響和促進關系,氣象數據信息的多元化表達手段的發展、深入化信息挖掘能力的提升以及更深層次的互動性信息交互傳達,都將成為提升氣象服務信息可視化技術發展的有效方式。
參考文獻
[1]周寧,程紅莉,吳佳鑫.信息可視化的發展趨勢研究[J].圖書情報工作,2008,52(8):35-38.
[2]譚章祿,方毅芳,呂明,等.信息可視化的理論發展與框架體系構建[J].情報理論與實踐,2013,36(1):16-32.
關鍵詞:數據可視化;比例敏感型;數據特征
中圖分類號:TP301 文獻標識碼:A 文章編號文章編號:16727800(2014)001003702
作者簡介作者簡介:徐飛(1982-),男,碩士,國防信息學院一系講師,研究方向為數據工程、計算機網絡、大數據。
0 引言
數據可視化作為一個專門學科,其目的是為了將數據更好地呈現給最終用戶。數據可視化方法千差萬別,但是它們的根本目的是一致的,即更好地滿足用戶需求。本文對比例敏感型數據的可視化方法進行了研究,主要是提出對此類數據具有指導意義的可視化手段,在實際應用中,應當緊密結合用戶需求,尋找最適合的可視化手段。
1 數據特征
不同種類的數據,往往具有不同的特征:氣象部門在研究一年中每個月的氣溫變化情況時,會將12個月的平均氣溫繪制在一張圖表中,研究人員往往還會將表示氣溫的點用曲線相連,以顯示其變化情況。這種數據往往和時間關系密切,可以將它稱為時間敏感型數據。參加達喀爾拉力賽的車手,往往需要一位拿著地圖的導航員,導航員會結合車輛所在位置和地圖進行比對,提醒車手離下一個彎道還有多遠,以及方向和角度是怎樣的。地圖數據和空間地理位置是無法分割的,可以將它看作空間敏感型數據。美國大選開始時,選民會緊盯電視畫面,那里通常有幾條不斷上升的柱形,表示每位候選人獲得的票數。投票統計結束后,電視臺往往會給出一個畫面,用一個餅圖或者其它圖形顯示出每位候選人所得票數占總票數的比例,這種數據可以稱為比例敏感型數據,餅圖是它的一種很好的表現形式。在很多社交類網站和應用中,用戶可以查找兩個指定人之間的關聯(通常是具有較多社會關系的名人,如姚明和趙本山),系統會根據在網絡中搜集到的信息,給出這兩個人之間的關系鏈,如參加過同一個活動、效力于同一個球隊、有相同的好友等。這種數據可稱為關系敏感型數據,對此類數據的可視化也有很多典型的例子。
可以對數據按照特征進行劃分,但數據的特征又并非固定不變。如對于沃爾瑪超市的員工來說,負責貨物搬運的人員可能更加關心貨物的堆放地點,負責進出貨的人員可能更加關心進銷貨物的數量,負責售后服務的人員則可能重點關注貨物的返修率等,而對于一間具體超市的經理來說,他可能需要關注上述所有數據。數據最終要展現給用戶,因此如何更好地滿足用戶的需求,是數據可視化研究的中心和根本,對于比例敏感型數據來說,它的可視化手段也不應當只專注于數據本身而脫離實際應用場合。
2 比例敏感型數據可視化
比例敏感型數據的主要特征是數據可以分組,即整體中的不同個體,根據某些特征可以劃分為不同的類別,如網站上某個問題的抽樣調查的答案選擇情況、某個國家的人口男女比例情況、參加競選的幾位參選者的支持率等。
2.1 方法原理
比例敏感型數據有一個共同的特點,即幾個不同的類別相加,總和可以看做是“1”,或者“100%”。因此,要對這類數據進行可視化處理,既要表達出數據可以分為不同類別,又要展現出它們的總和是一個整體,即要兼顧整體和局部。
2.2 主要技術
比例敏感型數據可視化技術,常用的有餅圖、堆疊柱形圖和樹圖。
2.2.1 餅圖
餅圖是最常見的圖表之一,如很多網站會在頁面上給出一個調查問卷,向訪問該網站的用戶征求網站的改進意見,圖1展示了用戶的選擇情況。
圖1 網站問卷調查
從圖1可以看出,問卷調查的問題是“您認為網站需要改進的地方”,備選答案有6種,這和餅圖劃分成的6個扇形部分相對應,并用不同的顏色表現出來。從代表不同答案的扇形所占比例可以看出,用戶對該網站最不滿意的是它的“意見反饋”部分。網站的管理者如果看到這種結果,就應該考慮是否需要建立一個用戶交流的論壇,傾聽用戶的意見和建議。并且,只有8%的用戶選擇的是“頁面設計”,這說明絕大部分用戶對網站的頁面設計效果比較滿意,那么網站在升級換代的時候,就可以重點考慮是否延續這種比較受用戶歡迎的設計風格,而不是冒險地推倒重來。
餅圖以整圓來代表“1”,以不同的扇形來代表“1”的不同部分,即突出了整體,又兼顧了個體,形象直觀,是對比例敏感型數據進行可視化的一種常用方法。雖然由于用戶在視覺上對扇形的“角度”不如對柱形圖的高度那樣感覺敏銳,在做個體間比較的時候可能不如柱形圖直觀(如15%和18%在餅圖中所表示的角度不同,可能難以被用戶察覺),但是由于餅圖自身的特點,在很多時候依然受到圖表設計者和用戶的青睞。
2.2.2 堆疊柱形圖
柱形圖是最常見的圖表類型,如圖2表示的是我國2001-2010年的國民和國內生產總值。
圖2 2001-2010年國內和國民生產總值
堆疊柱形圖是柱形圖的一種變形,如果想要表示的數據存在不同的分類,并且各個分類有具體的意義,為了在展現數據的同時,突出其不同的分類,可以用堆疊柱形圖。如用戶還想了解三種產業的產值在國內生產總值中所占比例,可以在圖2的基礎上進行進一步加工,得到圖3。
用堆疊柱形圖來展現比例敏感型數據,除了每種分類都用一個柱形來表示,還要重點突出整體為“1”的概念。以美國民眾對總統奧巴馬在一系列政策的支持率為例,用堆疊柱形圖將民眾的支持率展現出來,得到圖4。在圖4中,表示每種政策的柱形高度是相同的,它表示民眾對該政策的支持、反對和棄權比率之和都為1,并且每種政策的具體支持率情況可以通過不同顏色的小柱形來表示,一目了然。
圖3 2001年至2010年國內生產總值及各產業總值(單位:億元)
圖4 民眾支持率
比較餅圖和堆疊柱形圖,可以很容易地看出堆疊柱形圖的優勢:可以同時展現多個分類的比例情況,如果用戶特別傾向于用餅圖來展現不同的分類,也可以為每個分類繪制一個餅圖,這樣就會得到一個由13個餅圖(對應于13個不同的政策)組成的系列。因此,選擇哪種圖表來展現比例敏感型數據并不是絕對的,這取決于數據的特點和用戶的選擇。
2.2.3 樹圖
樹圖的應用非常廣泛,常用來展現具有類似樹的層次結構的數據,依然以圖4中的數據為例,來探討如何通過樹圖展現它們。將奧巴馬相關政策(policy)作為樹的父節點,“種族關系”、“教育”等13個具體政策作為第一層的子節點,將“支持”、“反對”和“棄權”作為第一層子節點的子節點,這樣就得到一個三層樹結構,將它以樹圖的形式表現出來,得到圖5。
整張圖被13個矩形分割成13個部分,這些矩形對應13個具體的政策,雖然形狀有差別,但面積相同。同時,在每個矩形的內部,又分成3個部分,分別對應民眾對每個政策的3種態度——支持(approval)、反對(against)和中立(neutral),各部分的面積對應了不同的支持率大小。因此,樹圖從本質上和餅圖、堆疊柱形圖一樣,也是通過面積的大小來表示數值之間的比例關系,圖5中表示的數據層級關系比較簡單,當層級數較多時,樹圖的優勢會更加明顯。
圖5 民眾支持率的樹圖表示
3 結語
通過對比例敏感型數據的特征分析,提出了具有普
遍指導意義的3種可視化方法,在一定程度上能夠幫助用戶加強對數據的分析和使用,并挖掘數據背后隱含的可用信息。
數據可視化是一個熱點問題,在實際應用中,可能很難界定某種數據到底屬于什么類型,也很難給出一個標準的可視化方法。在數據的實際可視化過程中,應當牢記一點,即數據是為用戶服務的,任何可視化方法都應當以最大程度地滿足用戶需求作為最終效果的判斷標準和努力目標。
參考文獻參考文獻:
[1] NATHAN YAU.鮮活的數據——數據可視化指南[M].向怡寧,譯.北京: 人民郵電出版社,2012.
關鍵詞:汽車;信息展示;可視化;WebGL
中國分類號:TP393.0;TP391.41
隨著計算機和互聯網的快速發展,不僅改變了人們的生產模式,更是改變了人們的生活方式。互聯網以其便利、快捷等現代特性,正成為人們獲取信息最重要的途徑[1],因此提高人們的上網體驗就是提高人們的生活品質。而瀏覽器是打開信息的大門,以前的2D網頁不再滿足人們的需求,3D頁面已然成為未來的趨勢,再加上信息量爆炸式的增長,信息的可視化成為了研究的重點。
實際上,在日益增長的數據背后,隱藏著許多重要的信息,通過對數據信息更高層次的分析,挖據數據背后潛在的應用價值[2],借助WebGL三維可視化技術,以形象直觀的3D動態圖像來檢索信息,提高用戶的體驗。
1 關鍵技術
1.1 WebGL
傳統的Web3D解決方案主要依賴Flash,Java3D以及微軟的Silverlight等技術[3]。然而上述技術都存在一個共同的缺陷,難以支持Web端GPU加速,因而難以勝任大規模復雜3D場景的渲染。WebGL的出現解決了這一難題,WebGL是一種3D繪圖標準,通過結合JavaScript和OpenGL ES2.0來提供一種類似于OpenGL的API[4],并在Web端提供3D加速渲染功能,它完美地解決了現在Web交互式三維動畫對插件的依賴和不支持GPU加速兩個問題[3]。
1.2 Three.js庫
three.js是JavaScript編寫的WebGL第三方庫,提供了非常多的3D顯示功能。Three.js是一款運行在瀏覽器中的3D引擎,可以用它創建各種三維場景,包括攝影機、光影、渲染器、材質等各種對象,可以很輕松地創建3D動態畫面。
1.3 SSH框架
SSH為Struts、Spring、Hibernate的一個集成框架,是目前較流行的一種Web應用程序開源框架。SSH框架分為四層:表示層、業務邏輯層、數據持久層和域模塊層,通過此框架能在短時間內搭建出結構清晰、維護方便的Web應用程序。Struts作為系統的整體基礎架構,負責MVC分離,Hibernate架構實現數據庫的訪問,Spring對Struts和Hibernate進行管理。
2 系統的總體框架設計
本系統采用MyEclipse8.5的JavaEE集成開發環境作為開發平臺,系統架構為B/S,采用SSH作為Web框架,選用Apache Tomcat 6.0為Web服務器,后臺數據庫為Oracle,在以上環境中完成整個系統開發,系統的框架設計如圖1所示:
3 物理建模
建模是本系統的核心部分,在確定要顯示的內容后,借助Three.js第三庫建立模型。模型是以JavaScript腳本為載體,通過建立模型矩陣、視圖矩陣、投影矩陣來模擬事物,從數據庫中加載數據到模型中,再通過支持HTML5的瀏覽器渲染出來,得到動態的三維畫面。例如我們要模擬一個汽車和汽車周圍的景色,要編寫JavaScript腳本代碼創建Three.js提供的攝影機、光影、渲染器、材質等對象,建立汽車和周邊的景色模型。
3.1 汽車信息可視化模型
要把汽車信息通過可視化的界面展示給用戶,建模是相當關鍵的一步,將汽車元素和數據信息結合在一起是本論文可視化的標準。
3.1.1 零部件結構模型設計
汽車零部件是汽車的組成部分,零部件的性能最終影響到整個汽車的性能,所以零部件在汽車中占很重要的地位。把零部件結構以三維動態畫面展示出來,不僅讓用戶能對零部件有詳細的了解,而且為汽車專業人員提供方便快捷的學習條件,不用現場操作零部件就能輕松地了解零部件內部的結構。所以零部件的建模要以三維動態圖為主,小零件能支持拆解和安裝,把整個安裝和拆解的過程展示出來,給用戶全新的體驗。
3.1.2 汽車模型設計
模型的建立與可視化展示數據的需求相關,當要展示汽車表面和內部結構時,將對整個汽車進行建模,把汽車虛擬化成網頁圖像,并且能實現開車門、旋轉、開車啟動等功能,當點擊汽車零部件時可以展示零部件參數,把整個汽車以三維的可交互頁面展示給用戶,用戶想了解該品牌的汽車時,只要打開該品牌汽車的頁面,就能查看到汽車所有的參數,從各個視角欣賞汽車的外形和內部結構,為用戶提供有效信息,模型主要功能如圖2所示:
4 數據庫設計
模型矩陣是用數據來填充的,這些數據從數據庫中獲取,模型對象對獲取的數據進行分析和處理。數據庫的E-R圖如圖3所示,用戶權限表規定用戶只能根據權限訪問汽車信息表,汽車信息表中記錄了汽車模型的外形和位置坐標,零部件表記錄汽車零件的位置坐標信息,圖表展示信息表是點擊某零件彈出對應參數圖表的數據源。
5 可視化信息展示
可視化是采用計算機圖形學和圖形處理技術將數據轉換成圖形或者圖像顯示出來的技術,本文是基于WebGL可視化技術開發的。可視化數據信息的展示要通過客戶端和服務器,客戶端發出請求時先通過模型框架,模型框架判斷用戶點擊事件,通過HTTP協議向服務器發出請求。服務端接收到請求信息交由SSH框架進行處理,由框架向數據庫訪問數據,再把數據返回給客戶端,客戶端把數據填充到模型中,得到數據填充的模型要通過支持HTML5的瀏覽器渲染,整個可視化過程如圖4所示。
6 結束語
本論文借助WebGL三維可視化技術和Three.js框架,建立了汽車信息可視化系統,通過3D動態汽車模型對汽車數據信息進行了可視化展示,使汽車信息數據的展示融入了汽車元素,形成了汽車行業獨樹一幟的汽車數據展示平臺,不僅提高了用戶的視覺體驗,而且把有效的信息直觀的傳達給了用戶,即利于用戶理解,又能挖掘出數據背后潛在的應用價值。
參考文獻:
[1]韓義.Web3D及Web三維可視化新發展――以WebGL和O3D為例[J].科技廣場,2010,12(05):81.
[2]金瑋,孫艷,張克君.Web信息檢索技術中關聯規則挖掘算法應用研究[J].情報雜志,2007,26(1):39.
[3]殷周平,吳勇.基于WebGL和AJAX的WEB3D應用研究――以在線3D協作交互式設計為例[J].安慶師范學院學報(自然科學版),2013,19(1):58.
[4]劉愛華,韓勇,張小壘.基于WebGL技術的網絡三維可視化研究與實現[J].地理空間信息,2012,10(5):79.
作者簡介:朱向雷(1981-),男,河北人,高級工程師,研究方向:汽車行業數據應用與研究。
關鍵詞:大數據 可視化 數據新聞
人腦幾乎是在瞬間完成對圖形信息的處理,處理文字卻按照線性順序,因此速度慢很多。正是基于這樣的科學研究成果,國外很多優秀報紙一直將視覺化傳播手段視為新聞創新、提升報紙影響力的重要手段,甚至是開辟市場的利器。
隨著電腦技術和網絡發展,獲取數據的便捷性提高,基于數據挖掘基礎上的數據新聞可視化,成為視覺化新聞敘事一個新的發展分支和重要組成部分。被視覺化的新聞不僅承載很多信息和數據,而且具有欣賞價值。這一方式在很大程度上受內容驅動,是一種新的新聞敘事方式。
《泰晤士報》的新視覺新聞團隊是怎樣的?
從某種意義上說,新聞可視化的過程實際上整合了從傳統的調查新聞到統計、從設計到編程的若干個專業領域。它對新聞從業人員提出了更高要求。
《泰晤士報》視覺總監馬特·柯蒂斯向筆者介紹,英國《泰晤士報》新視覺新聞團隊核心成員中的數據記者,一般是由新聞記者轉型而來,需要具備寫作、調查、根據數據形成觀點、制圖、縮小數據搜索范圍等能力。數據記者平時的工作職責是挑選題、挖掘數據和編輯數據。團隊中的數據挖掘員一般不需要有新聞從業背景,但需要具備數據深度研究、數據運算、從多種渠道快速調出數據等能力。信息編輯(圖表編輯)的日常工作是制圖、信息溝通,需要具備的技能是圖表設計,信息設計,初級HTML編程技能,后期制作,Adobe edge、Indesign等軟件應用,插圖繪畫等。內容設計編輯(視覺總監)是項目的主要決策人,他的日常工作職責是確定選題、編輯數據、制圖、成品出稿等,需要具備圖表設計、信息設計,簡單HTML編程技術,后期制作,Adobe edge、Indesign軟件應用,插圖繪畫等能力。
綜合歐美報紙對視覺設計人員的要求,除了基本的美術功底之外,還需要有良好的新聞素養和較強的電腦技術。從事圖表設計工作,要有較高的新聞提煉和信息數據整合能力。歐美報紙的很多優秀視覺設計人員是從新聞記者轉型而來。視覺化新聞敘事手法在計算機技術基礎上發展起來,因此對操作人員的軟件熟練能力和應用能力提出較高要求。對新聞選題和要素的把握提煉,更決定著最終視覺表達的優劣。擁有新聞、軟件和藝術技能的高素質復合型視覺人才,正是多數報紙視覺團隊所緊缺的。
《衛報》:成立數字新聞部并將數據可視化
2009年3月,英國《衛報》成為全球第一個成立數字新聞部的報紙。《衛報》的數字新聞部針對新聞選題搜集分析海量數據,在收集、過濾、分析數據后,通過圖表、地圖或互動效果圖等形式進行數據可視化轉化,從而完成視覺化新聞敘事過程。(圖1-圖3)《衛報》專業記者利用政府公開數據,做出“2012倫敦奧運會數據圖表”“你快樂嗎?”“BBC是如何開支的”“英國人死亡的原因”“中國人每年有多長時間度假”等大量高質量的視覺圖表新聞。這些可視化的圖示以簡潔明了的方式,讓讀者快捷、輕松地了解信息。自2010年下半年以來,這種視覺化新聞敘事形式受到歐美媒體廣泛關注。
《衛報》《泰晤士報》數據團隊的視覺人員構建
報紙在將信息轉換成可視化的新聞圖表時,需要有新聞素養、技術素養與藝術素養的人員協力合作。歐美知名報紙通常擁有一個得力的視覺團隊,一個相對完整的視覺團隊大致包括選題策劃、文字攝影攝像記者、數據編輯、美術設計、電腦制圖、版面編輯和網頁設計等層面的人員。
英國《衛報》的視覺設計人員分散在采編的各個部門。數據新聞團隊則由5人組成,其中Simon Rogers是數據新聞項目的創立者,編輯“數據博客”和“數據商店”等欄目;John Burn-Murdoch本人既是記者也是數據研究者。其他成員并非全職的數據新聞記者,同時還隸屬于《衛報》的不同部門,從事其他新聞采編工作。
此外,新聞部的美編共有5人,其中3人負責當天的新聞版面設計,還有一人負責為之后的版面做設計,也就是提前設計。其他部門也有設計師,其中體育部2人,專題部3人,還有一些不固定的設計師會做一些副刊和其他的一些設計。《衛報》還有一個由6人組成的圖表設計部,其中4個人是做報紙和網站的圖表設計,另外兩人做互動圖表。
英國《泰晤士報》的采編人員一共約420人,其中新視覺新聞團隊34人。這個團隊的工作重心是運用視覺元素對時事新聞進行分析闡釋,一般不直接表現新聞事件本身。團隊中的核心成員有3人,分別是數據記者、信息編輯和內容設計編輯,另有效果展現程序員1人、數據挖掘員1人和設計人員29人。
相比而言,國內報紙視覺團隊的視覺產品生產與內部團隊設置不匹配,視覺團隊的分工不精,人員配備不齊,尤其缺少數據編輯和電腦制圖編輯這樣的崗位設置。有的報社甚至縮減專業的視覺工作人員,讓非專業人員來做視覺專業的工作。
可視化數據新聞的團隊合作模式
新聞敘事的可視化操作,一般都是通過團隊合作完成。以比較常規的“圖表新聞”為例,備報紙在作為圖表基礎的數據采集模式上各有不同。在歐美知名報紙中,有的視覺部門在制作“圖表新聞”時,數據基本依靠新聞部門的一線記者采集,也有的視覺部門依靠自身力量獨立完成“圖表新聞”的全流程工作。
《泰晤士報》新視覺新聞團的三位核心成員的工作互相交叉,在討論與合作中完成工作。工作流程是“定選題——挖掘數據——編輯數據——制圖——成稿”。這三位核心成員會視內容不同而邀請文字記者合作參與,由團隊中的圖表設計人員與合作記者共同完成最后的視覺產品。
《紐約時報》的圖表中心則是自行收集數據,并不仰賴文字記者。大約20%的《紐約時報》圖表中心人員具備統計軟件與數據庫工具的操作能力,有能力獨立收集數據并分析加工成圖表新聞(圖4)。如果數據很復雜,則有數據中心協助。
關鍵詞:新媒體;數據可視化;敘事;藝術設計
檢索:.cn
中國分類號:JO 文獻標志碼:A 文章編號:1008-2832(2016)04-0085-03
數據新聞、科學可視化、可視藝術――越來越多的領域隨著大數據時代的到來與數據分析與設計密切相關,基于數據驅動的設計產生出大量的數據可視化藝術設計作品,以數據為中心的設計模式無處不在。新媒體技術的產生與發展勢必推進對新的藝術設計形態與視覺語言的探索,也必然會形成新的美學觀。數據可視化藝術設計是將采集或模擬的數據經過有效編輯轉換為可識別的圖形符號、圖像、視頻或者動畫,通過視覺化的形式呈現并以此實現對受眾最有價值的信息傳達。其中“有效編輯”主要表現為可視化設計的兩種應用類別――解釋型與發掘型:前者運用可視化藝術設計進行敘事幫助用戶辨別信息及其關系,運用視覺表現形式創建相應的數據解釋或信息傳達以及情感交流,后者則通過將可視化作為設計工具進行實現受眾自身決策后的數據分析與挖掘。數據可視化藝術設計不僅漸漸成為數據新聞、信息可視化和科學可視化等領域的熱門研究方向,其傳播內容、設計形式和技術實現的特征與流程規范也日趨明顯。本文旨在從基于數據驅動的敘事傳播、數據可視化藝術設計以及數據可視化美學三方面,著重研究當代數據可視化設計的意義、影響以及可視化藝術設計所面臨的新挑戰。
一、可視化的數據敘事
隨著新媒體技術的提高與發展,不同領域、區域、文化之間對數據應用的設計越發普及,可視化設計研究作為可以跨越語言界限的形式在傳播中的作用也日益突出。盡管現在可視化設計普遍關注如何運用數據去發現與分析潛在的有效信息,但從早期的設計事例中可以看出,這種形式的設計其目的表現出來更多的是展示與說明而并非用于分析。1858年南丁格爾(FLorence Nightingale)用數據圖表(圖1)的方式為英國政府繪制了用于展示克里米亞半島戰爭中那些可預防的疾病所導致的驚人死亡數字。其目的并非用于分析戰爭導致疾病爆發致死的原因,而是用于向政府直觀的展現出戰時醫療問題的重要性。另一個著名的可視化設計案例是1850年約翰斯諾(John Snow)著名的“倫敦霍亂地圖”。這張地圖并非用于發現導致霍亂傳播的水泵,而是提出關于水源致病的證據。故事化的敘事方式可以使用于揭示信息的數據可視化更加有效與直觀,就如同觀眾觀看電影一般。斯坦福大學教授珍妮弗阿科爾(JenniferAaker)指出,有意義的故事是令人難忘的,有影響力及與個體有關的。她同時指出當數據與故事一起運用時,它會從智力與情感兩個層面與觀眾產生共鳴。運用數據可視化敘事的方式可以看成是一種新的語言敘事形式,它超越了傳統的線性敘事結構并實現了對于信息數量上的突破。
美國科學家瓦倫韋弗(Warren Weaver)將現代科學史劃分為三個階段,其中第三個階段從20世界中期延續至今為“有序復雜問題”階段。韋弗認為現代世界存在著擁有豐富變量的復雜系統,而這些變量之間高度相關,相互依賴,這都需要我們運用一套新的思維、分析方法以及全新的探索工具。現代網絡可視化通過圖像的呈現以及互動式的分析,揭示人類無法感知的復雜結構,網絡可視化描繪的是“不可視事物”,描繪人眼看不到或無法感知到的無形結構。數據化使現實世界“分散、重組與合成”成為可能。加州大學圣地牙哥分校視覺藝術教授列夫曼諾維奇(LevManovich)指出:數據庫是計算機時代的一種新的象征性形式,并提供了一種新的組織結構來構建人們自身對自我與世界的體驗。新媒體藝術通過數據結構的“基因重組”產生出可交互的“媒介藝術”,并借助媒體數據呈現形式的多樣性、豐富性和智能終端的可擴展性,從而實現了一種觀眾與作品間的溝通和審美。近年來,隨著寬帶網絡、無線網絡、云計算和微軟Kinect體感交互技術的發展,不斷涌現出的新媒體互動藝術作品已經證明了上述的論斷。以數據庫為支撐的新媒體交互作品正在呈現出越來越豐富的藝術表現形式。列夫曼諾維奇在其可視化項目《自拍之城:社會媒體中攝影與自我塑造的探索》(圖2)中,通過對來自全球五大城市的3200幅Instagram中自拍照進行搜集,運用可視化與交互的應用程序實現了社交網絡跨媒體數據的可視化分析設計。對新興的自拍攝影流派,社交網絡中的群體行為模式以及數字視覺文化進行了深入的研究。可視化藝術設計正作為新的敘事語言以及視覺溝通方式開辟著全新的基于數據驅動的敘事與分析途徑。
二、數據驅動下的藝術設計
在研究、教學和開發領域,可視化藝術設計是一個極為活躍而又關鍵的學科方向,可視化藝術設計是對于數據的重新編碼,運用不同的視覺設計形式的信息呈現與詮釋,并“幫助我們完成某些智力任務,這使其有別于精細藝術。藝術家將圖作為表達內心世界的方式,信息圖表或可視化則更專注于客觀、準確、實用和美觀,簡而言之:功能限制形式”。從藝術的視角來看優秀的可視化設計作品其特征主要體現為:首先,作品通過視覺表現的形式有效的傳遞了實用的信息并將可視化作為表達有趣范式的方法:其次,作品所有視覺元素經過精心的設計排版,充滿設計感:第三,體現了主客觀得統一,真實與美的充分結合。羅德島設計學院校長前田約翰(John Maeda)教授認為設計是有意識的發明或者改善的過程,并且是以主觀(直覺)和日益增進的客觀(數據)為基礎的。大衛麥克德里斯(David McCandless)認為好的信息可視化設計包含必要的四個元素:信息、功能、視覺形式以及故事(圖3)。可視化設計作品也應該是交叉的平衡,如果作品只包含其中的兩個要素,得到的就是原型圖或者是草圖,其效果會令人覺得缺乏趣味。數據是可視化設計的核心和基本元素,既能通過有創造性的視覺形式表現又包含相應的數據信息,即運用恰當的敘事又兼具功能的作品才能稱為優秀的可視化設計。
(一)復雜性描述的視覺表現
大數據時代由于信息數據已經無處不在,如同人腦神經網絡對復雜性的描述一樣,無論是對基于數據的社交網絡或萬維網的視覺信息呈現還是科學可視化中海量數據的視覺表述,可視化設計都是對復雜數據視覺參考的創建。現代認知學的研究認為,視覺感知不僅是人類感知的主要方式,同時,視覺分析的速度也遠遠高于其他感官系統。英國的科林威爾教授認為有效的數據表達設計是通過對視覺認知與接收的研究而來。耶魯大學大統計學教授、信息設計先驅愛德華塔夫特(EdwardTufte)認為設計就是選擇,運用設計對信息的展現需要的是對復雜的描述,并非對簡單的問題復雜化,而是設計師對于細小及困難問題的視覺處理方法,從而最終實現對復雜內容的揭示⑨。他還指出數據是復雜、優美與繁重的集合,而設計則等同于簡單、直接與多類的方法。
(二)動畫、交互與開放
數據可視化越來越成為一種不同尋常的大眾娛樂形式,動畫、交互與開放是可視化設計實踐發展的三個關鍵方向。公共健康教授漢斯羅斯林(Hans Rosling)第一次在TED2006演講中展示其著名“各國人口與經濟發展狀態趨勢圖”的動態可視化案例,通過每個泡狀數據點代表國家所在年份的數據,隨著時間變化可視化的方式呈現了具有類似運動的趨勢的點類聚,運用最為直觀的、生動的方式展示了全球不同國家和地區個人收入與生活期望值之間的關系。然而,是否采取動畫可視化的方式應根據是運用數據進行展現或探索的目的區別對待,探索類型的動態可視化設計對于信息的傳遞效率與準確率都很低,反而增大了復雜性。
交互式的可視化設計通過精心的設計吸引和激勵人們可視化,幫助人們自行揭示數據背后隱藏的規律、含義并自我向導與分析,這樣就在觀眾和數據之間創建了極密切的關聯,從而產生更深層次的參與,鼓勵信息共享,和令人信服的行為。以信息交互為代表,大數據技術對于設計領域的影響主要體現在兩個方面:一方面,以大范圍、低成本、增量累積的方式獲取設計驅動與約束的相關數據成為可能,如市場需求、消費者行為、使用情境信息等;另Yz~,以開源(open source)、眾籌(kick-start)、社會化(social)的組織形式實現設計構想成為可能。開放是可視化設計發展的一個顯著特征,創建基于大數據的不同用戶數據不同的設計模式,根據源數據的調整與用戶的偏好將可視化設計進行調整,創建用戶中心的個性化視覺系統,從而展現出可視化設計作品以用戶為主導的設計本質。
(三)批判性
可視化設計原本是數據圖表與計算機圖形學結合的產物,面對爆炸式增長的數據本身,復雜的可視化設計盡管從藝術設計的角度帶給人以美感,如果缺乏合適的參照系與解釋卻可能會迷惑或誤導讀者。我們可以在很多設計作品中看到這些基于數據驅動的抽象化設計將人類日常的溝通與生活以精致的表格或交互式系統的形式予以呈現,然而與其它設計門類不同的是,可視化設計的基礎是數據,對于數據獲取來源的真實性,數據的公開使用和處理權限,對可視化設計中時間維度的處理等都是值得探討的內容。著名設計評論學家彼得霍恩(Peter Hall)認為:“總的來說,藝術可視化設計的批判功能就是對可視化中嵌入在笛卡兒語言類型中數據的透明度、確定性和客觀性等方面要求的質疑”。
三、數據可視化情境下蘊含的“隱喻美”
可視化藝術設計其創作最終目的不僅僅為了揭示信息和數據本身的規律或結構,還包括利用可視化技術創造出具有審美趣味的藝術作品。美麗的可視化可以反映出所描述數據的品質,顯式的揭示源數據中內在和隱式的屬性和關系,視覺暗示是可視化藝術設計的核心美學特征之一。
關于可視化美學的研究在藝術家與理論界展開了廣泛的研究。對這個新的領域的研究從一開始就重點關注數據的象征主義,即對可視化數據整體意義的視覺表達。韓國中央大學的研究人員通過將可視化美學與藝術史美學進行類比,提出從“視點”“解釋”與“另類感”三方面進行分析,“視點”與文藝復興運動有關,是關于藝術家個人獨特風格的自我信賴與詮釋。“解釋”是與現代藝術革命有關,公眾接收藝術作品且圖像學開始盛行。“另類感”則與當代藝術有關,特別是媒介藝術,以媒介作為藝術創作元素及靈感的來源。在數據可視化語境中討論美,應該采取一個區別于傳統美學的方法,即將討論重點從關注數據轉向意義,從美的形式轉向審美理解,從內容與形式之間的協調關系轉向研究面向數據的實用分析與設計,從而最終實現對美與意義的揭示。
關鍵詞:流場數據可視化線卷積積分雙線性插值
中圖分類號:TN957.52 文獻標識碼:A 文章編號:1007-9416(2016)06-0000-00
1引言
科學可視化是融合了圖形學、計算機視覺、數據管理、圖像處理和人機交互等多學科的一門新興的綜合學科。科學可視化的方法在發展到一定程度后可以與相關的領域結合應用,這可將科學實驗結果以及大規模的計算數據直觀地呈現出來,為用戶挖掘數據中的深層信息提供極大的便利。由于自然界沒有直接可用的表現矢量數據的可視化的表達模型,目前針對這類數據還沒有找到一種可以通用的技術。然而海洋水體中采集的數據大部分為矢量場數據,矢量場的可視化對理解復雜的流體制意義重大,所以尋求有效的解決方案是十分必要的。
矢量場中的特征各有不同,通常特征對流場數據描述的精確度與特征的維數正相關,因此常選取維數相對較高的特征來描述流場。對于這類特征,其可視化方法大致分為四種方法。直接法:直接將相應特征的數據表現出來,不進行分析操作,此方法直觀、易懂、運算量相對小。幾何法:在流線上指定一系列點,記錄這些點的運動軌跡;基于這些軌跡來繪制幾何對象。基于特征的方法:提取數據中被用戶視為有意義的部分,對這一部分信息進行可視化操作。基于紋理的方法:將向量場的局部性質呈現給可視化向量場,這類方法可以在一些復雜的流場中,繪制出一個具備很多細節的密集連貫的可視化結果。基于紋理的可視化可以依賴的技術可歸納為點噪聲技術、線積分卷積(LIC)、紋理平流和運用GPU的技術等。本文選用基于紋理的線卷積積分(即LIC方法)實現海洋流場數據的可視化,為海洋領域的研究提供新的方法。
2 關鍵技術
2.1雙線性插值
由于采集的海洋流場數據點是離散且無特殊規律可循的一個離散的點集,而計算機在處理無規則的數據時有很大難度,因此為了流場數據可視化的順利進行,對海洋流場數據進行預處理是必不可少的。本文的數據預處理工作采用雙線性插值法進行。雙線性插值,又稱為雙線性內插,是含有兩個變量的插值函數的線性插值擴展,其核心思想是在兩個方向分別進行一次線性插值。
如圖1所示,設要得到未知函數 在點 的值,假設函數 在 四個點的函數值是已知的。第一步,沿著 軸的方向采用線性插值的方法進行插值操作,經過這一步操作可以得到 的坐標值。第二步,沿著 軸的方向進行線性插值,得到 的坐標。這樣就得到所要的結果 。
2.2龍格庫塔法
在求解微分方程的眾多方法中,龍格庫塔法是一種較為常用,精度也較高的方法。因此,龍格庫塔方法在工程領域的應用也較為廣泛。泰勒公式和用斜率作為近似表達微分,是龍格庫塔算法的兩大特征。其主要思路是將積分區間上計算出幾個點的斜率進行加權平均,得到的結果作為下一組計算參考。根據預先計算的點的個數不同,龍格庫塔算法可以分為二階龍格庫塔法、四階龍格庫塔法等。
2.3 線卷積積分
LIC(Line Integral Convolution,線卷積積分)是流場紋理方法中最主要的一種技術,其主要思路是以矢量場數據的噪聲紋理為根據進行低通濾波,生成具有矢量方向相關性的紋理圖像。輸出圖像中每一點的像素值如下:
其中, 是輸出圖像中像素 的灰度值; 是噪聲圖像中像素 的灰度值; 和 分別是沿流線正向、反向第 步的像素位置; 和 分別是正向和反向流線的積分步數; 表示反向流線的權值。
LIC方法基于運動模糊的圖像處理,在流場數據的方向上進行卷積濾波,使得結果可以表現出流線的空間相關性。LIC算法可以提高處理數據的效率,每一個像素點的速度矢量也能較為快速的得到。
LIC通常選擇白噪聲作為輸入紋理,本文也是這么操作的。采用卷積積分的方法得出每一個像素點的輸出紋理值。第一步,針對成像區域中的每一個像素點,沿著其流場的正、反兩個方向進行積分操作,這的積分操作是對稱的。通過這過程可得到該點的流線。第二步,每個像素點對應的輸入噪聲值根據選取的卷積核參與卷積,得到的結果作為輸出紋理的像素值。
3海洋流場數據可視化設計與實現
本文設計了基于LIC的海洋流場數據可視化的流程如下:
首先,從數據文件中讀取出海洋二維流場可視化數據。將讀取處的數據存入預先定義好的的數據結構中;建立均勻網格的結構化數據模型,然后對數據運用線性插值法進行預處理,使流場數據均勻的分布在二維網格上。本文定義一個新的數據結構,其數據組成包括經度位置、緯度位置,在經度方向的速度大小和在緯度方向的速度大小。
第二,輸入噪聲確定為白噪聲,同時設置好流線的控制參數。其中,步數設置的在進行卷積運算的次數,即通過幾步可以生成所需的整條流線;步長設置的是每一次運算所選取的數據點移動的距離大小;流線總長度設置的是卷積運算次數的最大值,即何時強制終止此次運算。
第三,經過上述處理的各個像素點,根據LIC算法原理分別沿著正向、反向進行流線計算。這里采用龍格庫塔算法對各像素點進行流線計算。完成流線計算后進行卷積操作,得到對應像素的紋理值。最后輸出的像素值是紋理值與顏色值融合的結果。
第四,將運算的結果以圖像的形式顯示出來。本文采用的是OpenGL的方法。
為驗證該方案的有效性,本文選取某海域的一組海洋流線數據,對該數據集運用雙線性插值進行預處理,將該海域劃分分為361 x 723的網格數據,每個數據點記錄13個時刻的流線數據,構成數據集大小為361x 723 x 13的數據集用以本文功能的檢驗。在Visual Studio 2008的控制臺程序運行后,得到如圖2所示的繪制結果。
4 討論
本文運用線卷積積分的方法,實現了海洋流場數據的可視化。由于本文的設計是在基于單機實現的,但在實際工程應用中,面對的數據通常是規模龐大的,因此計算能力不足時需要解決的問題之一。目前的研究尚不能妥善地解決這個問題。在接下來的工作中,進一步提升計算效率,采用分布式的方法是需要努力的方向。
參考文獻
[1]Brian Cabral, LeithLeedom. Imaging Vector Fields Using Line Integral Convolution[J]. Lawrence Livermore National Laboratory. 1997.
關鍵詞:陸地聲納;三分量;WebGL
中文分類號:TP311 文獻標識碼:A DoI: 10.3969/j.issn.1003-6970.2012.03.028
The Research of Three-component Data Visualization Applied to Landsonar
CAO Shu-Bin, LI Jing, HAN Liang-Liang, ZHOU Wen-Jun
(China Univ. of Mining and Techn. ,Beijing 100083)
【Abstract】At present,The display technology of Land sonar field is the single component display technology. The image displayed through the single component display technology can not be visually reveal the data collected. In order to constitute a complete data image, staff must be graphical analysis, integration in the brain. So brought a lot of trouble to the staff. The three-component technology can complete show into a picture, which visually displays the data. The goal of this article is to achieve three-dimensional display based on threecomponent data,which requires the displayed image has the angle of rotation, scaling and graphics colors depicting functions.
【Key words】Landsonar, three-component, webGL
0 引 言
陸地聲納法是一種適應于淺層地震勘探的新方法,是“陸上極小偏移距高保真彈性波反射連續剖面法”的簡稱。地震勘探方法種類很多,有反射法、折射法和地震測井法等。而陸地聲納法由地震反射法變化而來,是地震勘探、水聲法、聲波法、探地雷達的結合體。陸地聲納三分量是指垂直地面的垂直分量,平行地面又與炮檢線平行的水平分量,及平行地面又與炮檢線垂直的水平分量。
陸地聲納顯示技術由最初的波形顯示、波形加變面積顯示逐漸發展到波形加變密度和彩色顯示,以及正在開展的三維顯示和三分量顯示技術,三維顯示技術相對于二維顯示有以下優勢:
(1) 三維顯示有更高的地層構造成像精度
(2) 三維顯示可以準確地確定反射界面的空間位置
(3) 三維顯示可以將分散二維圖象,綜合起來進行聯想,直觀地觀察地下地質形態,而且可以從三維的角度去分析和判斷地質體的空間形態。
1 可視化軟件WebGL
WebGL是一項在網頁瀏覽器呈現3D畫面的技術,有別于過往需加裝瀏覽器插件,透過WebGL的技術,只需要編寫網頁代碼即可實現3D圖像的展示。WebGL基于OpenGL ES 2.0,提供了3D圖像的程序接口。它使用HTML5 Canvas并允許利用文檔對象模型接口。可利用部分Javascript實現自動內存管理。目前,WebGL被大多數處于測試階段的瀏覽器所支持。目前,支持此技術的有Mozill Firefox、Google Chrome、Opera 12(目前的正式版11.52不支持)、Safari。另外,它也受Nokia N900 PR1.2支持。
WebGL是通過Web頁面調用OpenGL,WebGL直接以OpenGL接口實現HTML5的canvas標簽調用,以統一的OpenGL標準,從Web腳本生成利用硬件加速功能的Web交互式3D動畫的圖形渲染。WebGL完美地解決了現有的Web交互式三維動畫的兩個問題:第一:它通過HTML腳本本身實現Web交互式三維動畫的制作,無需任何瀏覽器插件支持;第二:它利用底層的圖形硬件加速功能進行的圖形渲染,是通過統一的、標準的、跨平臺的OpenGL接口實現的。這就意味著,僅僅用HTML和Javascript,就可以制作出性能絲毫不亞于現在用Flash、Silverlight等做出來的Web交互式三維動畫,而且在任何平臺上都能以同樣的方式運作。WegGL這種方式是直接在頁面本身顯示圖片,比使用插件顯示方式性能和效率上
陸地聲納法三分量三維顯示要求是實現三維的十字剖面圖形,實現過程如下:
(1)首先從地震數據文件中讀取N道的采集數據。每道數據的數據信息是坐標值和時間值。
(2)然后每三道數據為一組,進行組合,提取出每道數據的坐標值和時間值,這樣就構成了(x,y,z,t)四維坐標的采集點。
(3)構造直角坐標系(圖3)。首先建立垂直向下的時間軸,然后以每個采集時間點為基點構造直角坐標系。為了實現坐標系的旋轉功能,需構造兩種直角坐標系,①Z軸與時間軸平行。②Y軸與時間軸平行。即實現了坐標軸的旋轉功能,防止因采集點與時間軸重合而觀察不到數據。根據坐標系,畫出每個采集點的坐標位置,然后使用WebGL將采集點用平滑的曲線進行連接,形成一條三維的平滑曲線圖。
(4)利用WebGL將三維曲線圖和時間軸之間的空間進行曲面填充,并將填充部分進行上色,形成三維的旋轉曲面。由
4 總結
本文提出了一種實現陸地聲納三分量數據顯示的方法,該方法通過對陸地聲納數據進行整合,形成三分量采集點,然后建立三維坐標系,利用繪圖工具WebGL對三分量數據進行渲染,實現三分量數據的十字剖面圖顯示,由于剖面圖顯示的三分量的三維數據,所以要求剖面圖具有旋轉功能。本文還實現了剖面圖的縮放功能,從而有利于工作人員對數據的進一步解釋和分析,提高了工作效率。
參考文獻
[1] 王有新.應用地震數據處理方法.石油工業出版社,2009
[2] 李振春,張軍華.地震數據處理方法.中國石油大學出版社,2006
[3] 凌云.地震數據采集.處理.解釋一體化.石油工業出版社,2007
[4] 孫宏志,劉長亮.陸地聲納數據預處理技術研究.中國地球物理會第24屆年會論文集,2008,214
[5] 劉長亮.陸地聲納數據預處理及顯示系統研究[碩士論文].中國礦業大學(北京),2009
[6] 鐘世航,孫宏志,王榮.陸地聲納法在遂道施工時預報斷層,溶洞的效果.隧道建設,2007,(8)
[7] Ritzwoller M.H.,Levshin A.L.,Estimating shallow shear velocities with marine multicomponent seismic data[J].Geophysics,2002
[8] 孫年芳.光線投射算法芻議.科技創新論,2010
[9] Aki K L,Richards P G.Quantitative seismology,W.H. Freeman Publishing