前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數據分析論文主題范文,僅供參考,歡迎閱讀并收藏。
1.1數據采集
數據的采集是指利用傳感器、社交網絡以及移動互聯網等方式獲得的各種類型的結構化、半結構化以及非結構化的海量數據,這是一切數據分析的基礎。數據的采集需要解決分布式高速高可靠數據的采集、高速數據全映像等數據收集技術。還要設計質量評估模型,開發數據質量技術。而數據采集一般分為大數據智能感知層:主要包括數據傳感體系、網絡通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統,實現對海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。
1.2數據預處理
數據采集的過程本身就有會有很多數據庫,但如果想達到有效分析海量數據的目的,就必將這些來自前端的數據導入到一個集中的大型分布式數據庫,或者分布式存儲集群,而且在導入基礎上做一些簡單的辨析、抽取、清洗等操作。
①抽取:因為我們通過各種途徑獲取的數據可能存在多種結構和類型,而數據抽取過程可以有效地將這些復雜的數據轉換為單一的結構或者便于處理的類型。以達到快速分析處理的目的。
②清洗:對于海量數據而言,數據所處的價值層次不一樣,就必然存在由于價值低而導致開發成本偏大的數據,還有與數據分析毫無關系的數據,而另一些數據則是完全錯誤的干擾項,所以對數據通過過濾“去噪”從而提取出有效數據是十分重要的步驟。
1.3數據的存儲與管理
當我們采集數據完成后,就需要將其存儲起來統一管理,主要途徑就是建立相應的數據庫,進行統一管理和調用。在此基礎上,需要解決大數據的可存儲、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。還需開發可靠的分布式文件系統(DFS)、能效優化的存儲、計算融入存儲、數據的去冗余及高效低成本的大數據存儲技術;以及分布式非關系型大數據管理與處理技術、異構數據的數據融合技術、數據組織技術、研究大數據建模技術、索引、移動、備份、復制、可視化技術。
1.4數據的統計分析
一般情況下,統計與分析主要就是利用分布式數據庫,或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數據的需求可以使用Hadoop。統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的占用。
1.5數據分析與挖掘
所謂數據挖掘是指從數據庫中的大量不完全的、有噪聲的、模糊的、隨機的實際應用數據中,揭示出隱含的、先前未知的并有潛在價值的信息的過程。與前面統計和分析過程不同的是,數據挖掘一般不會有預先設計好的主題,主要是在現有數據上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型的算法有用于聚類的K-means、用于統計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用于挖掘的算法很復雜,并且計算涉及的數據量和計算量都很大,常用數據挖掘算法都以單線程為主。
2數據分析的8個層次
2.1標準化報告(StandardReports)
標準化報告作為數據分析的第一個層次,要求相對較低,主要是借助相應的統計工具對數據進行歸納總結,得出包含主要參數指標的標準化報告。類似于一個銷售企業每月或者每季度的財務報表。
2.2即席查詢(AdHocReports)
用戶可以通過自己的需求,靈活地選擇查詢條件,系統就能夠根據用戶的需求選擇生成相應的統計報表。即席查詢與普通應用查詢最大的不同是普通的應用查詢是定制開發的,而即席查詢所有的查詢條件都是用戶自己定義的。在面向高層的數據分析軟件中,用戶隨意添加想要查詢的指標按鈕再加上相應的限制條件,就可以立即生成可視化的統計結果,不僅一目了然,而且沒有任何操作難度。
2.3多維分析(QueryDrilldown)
多維分析是指對具有多個維度和指標所組成的數據模型進行的可視化分析手段的統稱,常用的分析方式包括:下鉆、上卷、切片(切塊)、旋轉等各種分析操作。以便剖析數據,使分析者、決策者能從多個角度多個側面觀察數據,從而深入了解包含在數據中的信息和內涵。上卷是在數據立方體中執行聚集操作,通過在維級別中上升或通過消除某個或某些維來觀察更概括的數據。上卷的另外一種情況是通過消除一個或者多個維來觀察更加概括的數據。下鉆是在維級別中下降或者通過引入某個或者某些維來更細致地觀察數據。切片是在給定的數據立方體一個維上進行的選擇操作,切片的結果是得到了一個二維的平面數據(切塊是在給定的數據立方體的兩個或者多個維上進行選擇操作,而切塊的結果是得到了一個子立方塊)。轉軸相對比較簡單,就是改變維的方向。
2.4儀表盤與模擬分析(Alerts)
儀表盤用于監控一些關鍵指標。模擬分析是由操作者動態地加以調節的控件(如滑動塊、可調旋鈕、選擇框等),來控制管理決策模型行為某些參數。當操作者通過控制面板對模型中的參數值或變量值進行調節時,圖形中的曲線、柱形組或分析指標等要素就會發生相應的運動,而這種運動正好反映了該參數的變化對模型行為的影響,如果這種變動引起了模型中最優解或其他關鍵數字的變化,能夠隨時將關于這種變化的結論正確地顯示出來。
2.5統計分析(StatisticallyAnalysis)
我們知道概率論是數理統計的基礎,數理統計是在其基礎上研究隨機變量,并應用概率論的知識做出合理的估計、推斷與預測。概率論中討論的各種分布在數理統計中作為統計模型來分析處理帶有隨機誤差的數據。典型的數理統計方法有參數估計、假設檢驗和回歸分析。而統計分析主要是對用戶所關注的問題進行推斷、預測和控制的分析方法。具體可以分為以下三方面:
①描述統計:主要是集中趨勢、離散程度、分布形狀等,統計圖(方圖、箱線圖、散點圖等);
②數據的分類匯總;
③基礎統計分析:方差分析、時間序列分析、相關和回歸分析、(主成分)因子分析等統計分析方法。
2.6預測(Forecasting)
在統計分析和數據挖掘領域,對未來的預測已經有了很多數學模型以及解決具體問題的相關算法。其核心思想便是從歷史數據中找出數據的發展模式,然后以這些模式為支點,就可以對未來進行預測。
2.7預測模型(PredictiveModeling)
隨著數據分析學家對數據挖掘技術的不斷探索,出現了很多預測模型以及與之相對應的算法,但是很難確定某個模型是最精確的,因為不同的領域,不同的條件,對應的預測模型是不一樣的,所以沒有統一化的最優模型,只存在有選擇性的最優模型。下面介紹幾種典型的預測模型。
①回歸模型:回歸模型可以分為一元線性回歸模型和多元線性回歸模型。一元線性回歸模型可表示為yt=b0+b1xt+ut,該式表示變量yt和xt之間的真實關系。其中yt稱作被解釋變量(或相依變量、因變量),xt稱作解釋變量(或獨立變量、自變量),ut稱作隨機誤差項,b0稱作常數項(截距項),b1稱作回歸系數。b0+b1xt是非隨機部分,ut是隨機部分。而在很多情況下,回歸模型必包含兩個或更多自變量才能夠適應地描述經濟現象各相關量之間的聯系,這就是多元線性回歸模型需要解決的問題,其一般形式為:Y=a+b1X1+b2X2+…+bmXm,式中X1、X2、…、Xm是這個多元回歸問題的m個自變量,b1、b2、…、bm是回歸方程對應于各自變量的系數,又稱偏回歸系數。
②貝葉斯網絡:貝葉斯網絡是基于概率推理的數學模型,而概率推理是通過一些產量的信息來獲取其他概率信息的過程。貝葉斯網絡會建立一個有向無環圖和一個概率表集合,有向無環圖中的每一個節點便是一個隨機變量,而有向邊表示隨機變量間的條件依賴,條件概率表中的每一個元素對應有向無環圖中唯一的節點,存儲此節點對其所有直接前驅節點的條件概率。貝葉斯網絡是為了解決不定性與不完整性問題而提出的,在多個領域中獲得廣泛應用。
③基于時間序列分析的指數平滑模型在時間序列分析中指數平滑模型是最靈活和準確的方法,在經濟領域也被證明是最有效的預測模型。在不同的時間序列下,指數平滑模型可以分為簡單指數平滑法、帶有趨勢調整的指數平滑法、帶有阻尼趨勢的指數平滑法、簡單季節指數平滑法、帶有趨勢和季節調整的指數平滑法五種不復雜度的模型。
2.8最優化
(Optimization)因為優化問題往往可以帶來巨額的收益,通過一系列可行的優化,可以使收益得到顯著提高。所謂最優化就是從有限或者無限種可行的方案中選取最優的方案。如果可以通過簡單的評判,就可以確定最優方案那是最好的。但是事實不會那么簡單,所以優化技術已經發展出了一系列的理論來解決實際問題。其常用的優化技術為:
①線性規劃:當目標函數與約束函數都是線性函數時,就是一個線性規劃問題。而當同時滿足約束函數和目標函數時,則可以認為是最優解。
②整數規劃:要求決策變量取整數值的數學規劃。
③多目標規劃:指衡量一個決策優劣的標準不止一個,也就是有多目標函數。
④動態規劃:將一個復雜的問題劃分為多個階段,逐段求解,最終求出全局最優解。
3用Excel實現簡單的數據分析
①對于企業而言最重要的是利潤,所以管理者必須要從這張表中得到最關鍵也最容易得到的銷量和銷售額以及與其相關的一些數據,通常是用最基本的數理統計結果來直觀地反映該企業在某個期間的盈利情況。
②其次,我們必須要做進一步的分析。已經對整體的情況有了一定的把握,所以就可以朝著不同的方向去挖掘一些有價值的信息,為企業高層做決策提供有力的依據。對產品銷售而言,客戶結構能夠有效地反映客戶的地域分布,企業可以根據客戶的來源,在未開辟客戶的地域去尋找新的目標客戶群。而銷量結構可以直觀地反映企業最大銷量來自哪個地區,對銷量較小的地區可以加大宣傳力度或者增加銷售網點來保持各地區銷售均衡。還可以及時地調整銷售方式來擴大市場份額,而對于銷量最小的地區考慮開辟新的市場。
統計了各地區的銷售總額和平均銷售額以及兩者的對比關系。由此可以得出地區平均購買力大小,以及各地區總銷售額大小。借助圖表描述,管理者可以對企業在某段期間內的銷售狀況有一個大概的把握,只有掌握了這些的信息,才能更細化地去研究具體的影響因素。劃分等級,對于經常性大量購買的客戶必須要以最優惠的價格和最好的服務讓其滿意,以形成一個穩定的大客戶群。而對于那些少量購買的客戶,也要制定出相應合適的方案來留住客戶。所以,分析銷售額的分布情況,可以掌握客戶的購買力度而且還能及時做一些留住大客戶的舉措。
4用R語言實現數據多層次分析
R語言是一種自由軟件編程語言與操作環境,是一套完整的數據處理、計算和制圖軟件系統,它是一種用來進行數據探索、統計分析和作圖的解釋型語言。它可以提供一些集成的統計工具,但更大量的是它提供各種數學計算、統計計算的函數,從而使使用者能靈活機動地進行數據分析,甚至創造出符合需要的新的統計計算方法。而在使用R語言進行數據分析處理時,當我們遇到很大的原始數據,但用來建模的數據較小,則可以先在數據庫中進行整理,然后通過R與數據庫的接口提取數據,數據庫適合存放和整理比較規整的數據,和R中的數據框有良好的對應關系,這也是R中絕大多數統計模型的標準數據結構。數據庫中大部分的運算都不需要消耗很大的內存。
5結語
蚊蟲基因組序列的揭示為其基因的克隆鑒定和功能分析提供了很好的平臺。由于蚊基因組中高度重復序列的廣泛存在,給一些基因特別是非編碼序列的分子克隆帶來了困難,而基因組序列的提供給這一問題的解決帶來了福音。利用已獲得的白紋伊蚊基因組序列,我們已順利克隆了其嗅覺結合蛋白(OBP)和嗅覺受體(OR)基因及其調控序列,為其嗅覺發生分子機制的闡明奠定了基礎。Criscione等通過比較斯氏按蚊雌蚊和雄蚊的基因組DNA和RNA樣本的Illumina測序結果,發現了一個Y染色體特有的基因GUY1。Hall等則發明了一種更為有效的染色體熵法,該方法的優勢是僅利用高通量測序獲得的基因組和轉錄組數據,而不需要一個固定在染色體上的參考基因組來進行比對。通過比對兩種瘧疾重要傳播媒介斯氏按蚊和岡比亞按蚊的高通量基因組和轉錄組數據,系統性地在斯氏按蚊和岡比亞按蚊中各發現了3個Y基因。同時通過對鑒定的Y基因進行生物進化分析,結果表明按蚊的Y染色體進化迅速。隨后,Hall等又使用染色體熵的方法比對了雄性和雌性埃及伊蚊基因組DNA和RNA的Illumina測序數據,篩選并鑒定了一個新的基因myo-sex。myo-sex基因幾乎只存在于雄蚊的基因組,但是由于基因重組偶爾地能在雌蚊的基因組中發現,具有雄性偏好性,是一個可能具有性別拮抗效應的肌球蛋白重鏈基因。蚊蟲基因組數據也為蚊蟲性別決定網絡底部基因dsx的研究提供了依據。dsx是性別決定網絡中的調控核心,主要行使決定體細胞和生殖細胞性別的功能,也可調控中樞神經相關基因fruitless,進而調節。岡比亞按蚊基因組數據之后,Scali等率先鑒定了岡比亞按蚊dsx的性別特異性轉錄本,其橫跨2號染色體85kb的區域,通過選擇性拼接產生多個外顯子組成的雌性和雄性特異性轉錄本。而隨著2014年斯氏按蚊基因組的,有研究者將Scali等報導的Angdsx與剛的斯氏按蚊基因組和轉錄組進行序列比對,發現一致性達到了97%,而與岡比亞按蚊基因組及轉錄組序列一致性僅為85%。Scali等在埃及伊蚊中發現了兩種雌性特異性的可變剪接方式,這不同于黑腹果蠅和岡比亞按蚊具有的特異性DsxF。
2蚊蟲的轉錄組學研究
轉錄組學(transcriptomics)是一個活細胞所能轉錄出來的所有RNA的總和,是研究細胞表型和功能的一個重要手段。傳統上用于轉錄組數據獲得和分析的方法主要有基于雜交技術的芯片技術包括cDNA芯片和寡聚核苷酸芯片,但目前使用最普遍的是RNA-seq即轉錄組測序技術。基于Illumina高通量測序平臺的轉錄組測序技術能夠在單核苷酸水平對任意物種的整體轉錄活動進行檢測,在分析轉錄本的結構和表達水平的同時,還能發現未知轉錄本和稀有轉錄本,精確地識別可變剪切位點以及cSNP(編碼序列單核苷酸多態性),提供最全面的轉錄組信息。相對于傳統的芯片雜交平臺,轉錄組測序無需預先針對已知序列設計探針,即可對任意物種的整體轉錄活動進行檢測,提供更精確的數字化信號,更高的檢測通量以及更廣泛的檢測范圍,是目前深入研究轉錄組復雜性的強大工具。巨蚊屬是蚊科中三種不吸血的蚊屬之一,其幼蟲階段以同在小型水體中孳生的白紋伊蚊和埃及伊蚊為食,兩性成蚊均不吸血,以植物汁液和花蜜為食。為了探究巨蚊與其它吸血蚊種在搜尋宿主方面的基因水平上有何差異,國外有學者從巨蚊上分離出觸須、觸角和身體其他部分,分別提取這三部分的RNA,利用RNA-seq技術,將獲得的序列片段從頭組裝,與目前已公布的致倦庫蚊、岡比亞按蚊、埃及伊蚊基因組數據進行系統進化樹分析,發現巨蚊與埃及伊蚊的種屬關系最近,并且在上述四種蚊種中均發現了編碼氣味分子受體(odorantreceptor,OR)蛋白和離子轉移受體(ionotropicreceptor,IR)蛋白的基因,但值得注意的是,巨蚊受體蛋白的表達量與豐度上較其它蚊種都有所降低[18]。因為這些受體蛋白被認為與吸血昆蟲搜尋宿主氣味分子如CO2有關,所以,巨蚊在長期的生物進化過程中,喪失了原本存在的吸血習性。蚊唾液腺蛋白與其吸血傳病密切相關。國外有學者提取白紋伊蚊雌性成蚊的唾液腺RNA后進行轉錄組和蛋白質組分析,發現至少有32個基因在雌性成蚊的唾液腺中表達程度或者增高或者降低,另外有17個基因表達在雌性成蚊唾液腺和雄性成蚊中,但不表達在雌性成蚊的其他組織中。通過分析發現,其中大約三分之一的基因功能表現在吸血、消化糖、免疫應答等方面,但是并未發現其余基因的明確功能,所以非常有可能是長期吸血的過程中進化出的新的功能分子。利用同樣的方法,分析岡比亞按蚊、斯氏按蚊、達氏按蚊、埃及伊蚊、白紋伊蚊、致倦庫蚊和致死按蚊(Anophelesfunestus)的唾液蛋白相關的轉錄組,可以將這些蛋白歸納為:
(1)昆蟲唾液腺中普遍存在的唾液蛋白,包括抗原-5蛋白家族、核酸酶、碳水化合物水解酶等;
(2)在吸血的長角亞目昆蟲(包括白蛉、蚋、蠓等)中豐富表達的D7蛋白;
(3)僅在蚊唾液腺中存在的蛋白,包括30000左右的過敏原蛋白家族(allergenfamily)和一些粘蛋白。很多昆蟲都被發現具有一種獨特的生物學現象——滯育(diapause)。昆蟲的滯育現象被認為是一種休眠的形式,在昆蟲發育時遇到不適宜的環境時,就會馬上由體內激素調節并控制,暫時停止發育。白紋伊蚊被發現同樣具有滯育現象,這是它能適應環境氣候變化,實現快速擴張入侵的生物學基礎之一。白紋伊蚊的雌性成蚊在每日受到較短時間的光照后,產下的卵不會立即孵化,這便是一種滯育的現象。有趣的是,同是伊蚊屬的埃及伊蚊,其雌性成蚊產的卵如果沒有接觸到水,也不會孵化、發育,這卻被認為是一種靜息狀態(quiescence)。這兩種現象的區別在于,發生滯育后,白紋伊蚊的卵即使收到合適的外界環境的刺激,仍需要經過一段時間的恢復才會孵化,而處于靜息狀態的埃及伊蚊的卵,只要受到適宜條件的刺激(如接觸到水),就會馬上進入發育階段。國外有學者利用RNA-seq技術,對這兩種現象進行分析,發現這兩種現象在發育停止的階段,分子水平上是很相近的,不同之處在于滯育現象的早期準備階段和后期修復階段,是其所獨有的。關于滯育現象的早期準備階段,國外學者通過RNA-seq技術,比較滯育前階段(pre-diapause)的白紋伊蚊胚胎與同時期非滯育的白紋伊蚊胚胎基因表達水平上的差異,發現前者在基因表達模式上有非常大的改變。目前,已有學者歸納和總結出了一套利用RNA-seq技術研究白紋伊蚊滯育現象的方法,為今后更全面、徹底地認識白紋伊蚊以及其他媒介昆蟲的滯育現象提供了堅實的基礎。利用RNA-seq技術,我們對白紋伊蚊不同發育時期(卵、幼蟲、蛹、雄蚊、雌蚊)和感染登革病毒前后的轉錄組進行了分析。對比分析不同發育階段特別是雌雄蚊的基因表達譜,我們找到了在胚胎早期對性別分化具有重要作用的候選基因和對雌蚊吸血傳病相關的性別偏愛基因。對比分析登革病毒感染與否的白紋伊蚊轉錄組,我們發現了可能與蚊媒與病原相互作用有關的免疫分子(未發表結果)。目前,針對這些候選基因的進一步功能分析正在進行之中。另外,對白紋伊蚊抗藥品系和敏感品系的RNA-seq對比分析也在進行中,這對于其抗藥機制的闡明非常重要。
3蚊蟲的小RNA組學研究
小RNA(smallRNAs)主要指長度在18~30nt的一類非編碼RNA(ncRNAs),在真核生物中,具有基因表達調控功能的小RNA主要有微小RNA(microRNAs,miRNAs)、內源小干擾RNA(endo-siRNAs)和piwi干擾RNA(piRNAs)。piRNA長度集中在26-31nt,目前只在動物的生殖系細胞及干細胞中被發現,其主要功能是參與轉座子的沉默。miRNAs和endo-siRNAs長度主要集中在20~24nt。miRNAs在動植物和微生物中都普遍存在,據估計一個物種中約1/3的基因會受到miRNA的調控,大量的實驗也表明miRNAs參與了諸多生命過程的調控,例如細胞周期、細胞分化、組織器官的發生、營養代謝、信號途徑以及對外界生物的非生物的環境的反應;同時,miRNAs在生產實踐與臨床治療上也具有很大的應用前景。以往用于尋找miRNAs等小RNA的方法有實驗克隆法、計算機預測法。克隆法可以直接用于鑒定新小RNA,是初期發掘小RNA的常用方法,不足之處是實驗周期較長,對低表達的小RNA的發現能力十分有限。計算機預測法多是針對某一已知的小RNA特征設計算法,從全基因組或EST數據庫中快速發掘大量潛在的小RNA,一定程度上彌補了克隆法的缺點,然而,預測的小RNA最終還需要實驗證明,同時計算機預測法對新類型小RNA的發掘能力十分有限。隨著第二代高通量測序技術的問世,小RNA高通量測序(smallRNA-Seq)技術開始逐漸取代原始的小RNA發掘法方法,該法具有速度快、成本低、覆蓋度深等多方面的優點,對鑒定與發現生命體內的小分子RNA及其功能與機理研究起極大的推動作用。全世界有超過3000種蚊蟲,目前為止僅有岡比亞按蚊、斯氏按蚊、埃及伊蚊、致倦庫蚊以及白紋伊蚊鑒定出miRNA。一些miRNA的文庫和功能分析表明miRNA對蚊蟲的卵巢發育和吸血后的血液消化具有調節作用。病毒感染可以對宿主細胞miRNA的表達水平產生深遠影響,可能與宿主抗病毒機制及病毒入侵后改變細胞內環境有關,雌蚊中miRNA的表達模式會隨著病原體的感染而發生變化。Hussain等對登革病毒(DENV)編碼的miRNA或病毒小RNA(vsRNAs)的進行了功能研究,他們發現6個vsRNAs能通過作用于病毒基因組RNA莖環結構中的5''''和3''''的UTR區,顯著增加病毒復制。中腸屏障是蚊蟲防止病原體入侵而建立的重要屏障,Alexander等的研究發現miR-1174僅在伊蚊和按蚊的中腸中表達,且雌蚊吸血后其表達量明顯上調;而當miR-1174表達下調后,蚊子吸血率明顯降低,壽命明顯縮短。作者認為:蚊特異性miRNAs,特別是miR-1174具有重要的生物學意義,它們可能影響人們今后控制蚊蟲的策略。我們對白紋伊蚊不同發育時期(卵、幼蟲、蛹、雄蚊、雌蚊、吸血后雌蚊)的小RNA進行了深度測序分析。結果在白紋伊蚊中篩選出119條已知的miRNA基因,確定了15條novelmiRNA基因,其中11條是伊蚊特異的,并且觀察到許多miRNA呈現期特異表達的特點。經過實驗驗證,miR-286、miR-2492和miR-1891分別在白紋伊蚊的卵、幼蟲和成蟲期特異高效表達,敲低/敲除這些miRNA會對蚊蟲的生長發育造成顯著影響。這些研究為新型生物殺蟲劑的研發提供了靶標。我們還對感染登革病毒前后白紋伊蚊的細胞和成蟲的小RNA進行了深度測序分析。結果在感染登革病毒的白紋伊蚊中找到了10條表達上調的miRNA和11條表達下調的miRNA。通過對這些差顯表達miRNA的功能分析,發現miR-252通過與E蛋白3''''-UTR區域的結合,對登革病毒的復制起到抑制作用;而miR-281則通過與E蛋白5''''-UTR區域的結合,對登革病毒的復制具有促進作用。這些研究為抗登革病毒藥物的設計和研發提供了線索。piRNA來源于轉座元件、基因間隔區和一些編碼蛋白質基因的3''''UTRs,對維持基因的完整性和穩定性有一定作用,但最近的研究證明它在抗病毒免疫中也有較大作用。Schnettler等的研究證明:對蚊蟲細胞感染蟲媒病毒可以引發piRNA路徑,而敲除piRNA蛋白質會使病毒產生增多。Castellano等確定了多個24-30nt的Piwi相互作用RNAs基因組簇,通過比對到轉座元件和蛋白質編碼基因的3''''UTRs,發現許多TEs和一些內源性基因的3''''UTR產生大量具有piRNA樣特征的29-nt小RNAs峰。此外,來自岡比亞按蚊和黑腹果蠅TEs的正義和反義piRNAs揭示了piRNA序列偏差的新特征。弗吉尼亞理工大學的研究人員最近在庫蚊中發現了一種新型的抗病毒途徑,Morazzani等在無dicer-2和無突變的蚊細胞中進行的實驗表明,病毒產生的piRNA樣小RNA可以在病毒產生siRNA的過程中調節病毒感染的發生。同時也表明新的piRNA途徑存在于蚊媒的體細胞中并且可能發揮著比siRNA途徑更寬泛的的抗病毒作用,顯示出其為強大的免疫系統。因此,理解病毒如何繞開蚊蟲的雙重抗病毒反應對于科學家來說是越來越有趣的挑戰。
4結語
關鍵詞:電子商務數據分析數據挖掘信息技術
一、市場調查
根據一份市場調查顯示;賣家本身體現的實力給人與信任可依賴程度越高,用戶越愿意來購買商品。
在我評論之前,我申明一下,一家之言只代表一個群體的言論,并不能涵蓋每個人的想法與判斷,電子商務的數據報告只能說明趨勢,并不能完全反應出每個顧客真實的意圖。賣家信譽-28%。價格-26%。網站的外觀和感覺-16%。網站易用性-15%。商品打折-4%。快遞和交付等原因-3%。出現在搜索引擎上-2%。
這是一份市場調查的結果,數據報告對實際商業產生怎樣的影響,一個關鍵問題就是篩選問題的分類方式,他是否獨立又相互依存,論點論據之間重合度越低,數據報告能說明的問題越準確。但在這之前首先是樣本數據的獲取與篩選方法,這里就不追溯了。我只是想根據個人對電子商務的理解,結合這份報告說點事,實際上這一組數據比較接近我個人對網購的理解,首先我們逐條說明這些影響一個網店的因素:
二、賣家信譽
之所以被普遍認為是最重要的,是因為我們網購時并不真實的接觸到產品,也并不了解向你推銷商品的人是否值得可信,這都是顧客基本的一個需要認知過程,互聯網上哪里去確認?當然如果你在一家多賣家的平臺上,往往都會有商家信用,評論等功能,很容易通過別的顧客消費情況增加自己對商家的認知。電子商務為什么要打假信用?這只是順應顧客需求,維護健康秩序所必須做的事情。所以作為賣家不要輕易嘗試作假信用,或者你今天逃過一劫,但說不定你明天網店剛做大的時候被強行關閉了。
三、價格
價格是一道屏障,在相互比拼中,有人拼得起,有人拼不起,但如何更好的控制價格,削減顧客成本,不僅為自己贏得更多展示機會,也會贏得更多顧客。價格不會是越低廉越好,最好的平衡體系沒有,只有一個方法,如何在綜合上為自己贏得市場??有人習慣選一些比如3.99美元的價格,看上去不加拿一分錢顧客潛在心理是這個人沒賺錢,但值得說的是商品定價因產品,因地域時間,顧客等因素制宜,現在的顧客不都是傻子,商品有的是比價機會。也有人選擇款0利潤或者賠本的商品推,但在商品里關聯組合商品賣,通過吸引用戶購買自己的組合商品或者別的商品來拉動自己銷售利潤;還有的人也是利用免費贈送或者賠本的方式掛商品,但通過物流利潤來保證自己不虧本的方式拉動店鋪其他產品行銷。
四、網站的外觀與感覺
有的人店鋪半年一年都是淘寶默認的最爛的那套模板,也不知道為什么淘寶沒更新還是咋的,我沒賣過商品,還不是很了解那個,但我買東西基本不光顧這樣的店鋪,店主對店鋪的打理程度決定了我對店主的看法,因為信用不是絕對可靠的;產品,服務好不好,全在你的形象與行為上。
五、網站易用性
你能忍受自己在一個網站嘩啦了半天結果沒搞懂應該怎么買商品嗎?我一個朋友,按照我的認識他也是比較理性,屬于心思敏捷的,他說他在XX網站搞了好久,都不知道怎么買東西,所以以后都沒去過;雖然易用的應用都還是不能被所有人接受,但簡單清楚的,沒有歧義的每一步流程總是好的。不過這個雖然用戶關注的多,但我覺得但凡有點認識的,認識相應語言的人大概都明白很多網購系統的操作流程。這里就不說什么了。
六、促銷打折
商品打折也屬于價格范疇,只是這里細化成了一個活動,活動可以是定期的比如每周二,三,四晚上限量搶購啊;選2款顧客競價啊;前面“價格”里也提到的0價格換信用,換軟文之類的啊;參與商盟聯合促銷啊;換季狂甩啊之類的。總之參與打折的,有資本經歷運作打折的,只要PV高,顧客肯定不會少,除非你的商品含有價格,性能,服務等水分太大,用什么樣的打折方法,最關鍵的你是銷售一時還是為了希望吸引到長久的顧客而去設計。
七、快遞與交付等原因
物流過程中雖然有很多不可控因素導致一些商品容易磨損之類的,但物流懼怕承擔責任的態度決定了自己的發展框架,假設一下,你的企業就在你的心胸里;你心胸只有100㎡大小,即使你鼓足了勁你也最多到120㎡,這樣的容量是沒有辦法和猶如大海寬廣心胸的人比較的。我是沒記住你,但有人記住你了,他下次要走物流,肯定不會選你,你損失的不只是一個用戶,而是損失了一個未來。
八、搜索排名
我沒有看到他們分析提交的數據時基于怎樣的搜索引擎,這個分類其實很不準確,雖然數字已經很少了,我自己買商品在淘寶,有啊上都用他們站內的搜索引擎,如果我常用的幾個排序商品方法篩選數據你都沒排列在前三頁,那么即使你離我最近,就住在我隔壁,你服務態度最好,商品也不必別人的差;但你離我還是太遠了,我根本找不到你。
對我個人來說,像百度,GOOGLE的網頁搜索這樣的綜合搜索出來的商品,對我吸引力太小了,綜合搜索出來的商品并不是他信譽最高,價格最低,服務最好就顯示在了綜合搜索引擎上,只因為他的頁面更適合搜索引擎邏輯而已。商品真正追求的東西不在文本上,而在商品與服務內在的東西里。當然,在同等條件下,不要錯過這樣一個增加PV與交易機會的機會。
九、總結
目前,數據挖掘技術正以前所未有的速度發展,并且擴大著用戶群體,在未來越來越激烈的市場競爭中,擁有數據挖掘技術必將比別人獲得更快速的反應,贏得更多的商業機會。現在世界上的主要數據庫廠商紛紛開始把數據挖掘功能集成到自己的產品中,加快數據挖掘技術的發展。我國在這一領域正處在研究開發階段,加快研究數據挖掘技術,并把它應用于電子商務中,應用到更多行業中,勢必會有更好的商業機會和更光明的前景。
參考文獻:
[1]韓家煒.Web挖掘研究[J].計算機研究與發展,2001.
[2]陳宏.消費者數據挖掘系統建立的幾個問題.
[3]方美琪.電子商務概論.北京:清華大學出版社,1999.
近年來,全國大學生數學建模競賽迅速發展,為國家培養了大批應用型人才。但由于各地區教育水平不同、相關部門對競賽的重視程度不同,導致各地區組織學生參加大學數學建模競賽的規模不同,在該項賽事中取得的成績差異比較顯著。2013年全國大學生數學建模競賽評選出的獎項有:賽區優秀組織工作獎9個,本科組高教社杯獎1個,專科高教社杯獎1個,本科組MATLAB創新獎1個,專科組MATLAB創新獎1個,本科組IBMSPSS創新獎1個,專科組IBMSPSS創新獎1個,本科組一等獎共273名,本科組二等獎共1292名,專科組一等獎共44名,專科組二等獎共211名[1],但成績相對于參賽區分布不太均勻。分析各地區在2013年全國大學生數學建模競賽中取得的成績,明確各地區數學建模發展狀況的差異和特點,將有利于相關部門從宏觀上了解我國大學生數學建模競賽的整體發展現狀,分類制定相關政策[2-3],從而充分發揮數學建模的重要作用。
1建立綜合評價指標體系
全國大學生數學建模競賽現狀的一個重要方面就是全國大學生數學建模競賽獲獎情況。依據全國大學生數學建模競賽設置的獎項,遵循可比性原則,參考文獻[4-5],選取x1-x7共七項評價指標,具體如下:x1:本科組高教社杯、MATLAB創新獎和IBMSPSS創新獎獲獎情況;x2:本科組一等獎獲獎數;x3:本科組二等獎獲獎數;x4:專科組高教社杯、MATLAB創新獎和IBMSPSS創新獎獲獎情況;x5:專科組一等獎獲獎數;x6:專科組二等獎獲獎數;x7:年度競賽優秀組織工作獎獲得情況。說明:鑒于本科組與專科組的高教社杯、MAT-LAB創新獎和IBMSPSS創新獎三類獎項每年只有一個隊獲獎,且基本不可重復獲得(參見歷年大學生數學建模競賽獲獎名單)故將其合并作為一類。
2數據資料依據
2013年全國大學生數學建模競賽獲獎名單,按指標對各個賽區的獲獎情況統計如表1所示。
3R型聚類分析定性分析
七項指標之間的相關性。編寫MAT-LAB程序如下:>>clc,clear>>symxy;>>x=xlsread(‘shuju.xls’);%將上表中的數據保存到MATLAB中WORK文件夾excel文件shu-ju.xls中,并將其賦于x>>y=corr(x)%輸出七項指標間的相關系數矩陣(如表2所示)>>d=pdist(y,’correlation’);%計算相關系數導出的距離>>z=linkage(d,’average’);%按類平均法聚類>>h=dendrogram(z);%畫聚類圖(如圖1所示)>>T=cluster(z,’maxclust',5);%把變量劃分為5類>>fori=1:5tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d類的有%s\n’,i,int2str(tm));>>end程序輸出:第1類的有4;第2類的有56;第3類的有7;第4類的有23;第5類的有1。即:若將指標分為5類,則指標1、4、7各為一類,指標2、3為一類,指標4、5為一類。
4Q型聚類分析
4.1選取5個指標的分類從R型聚類分析分出的5類指標中各選一個,即選取5個指標體系,對33個參賽地區進行聚類分析。首先對變量數據進行標準化處理,采用歐氏距離度量樣本間相似性,選用類平均法計算類間距離。在MATLAB命令窗口輸入下列程序:>>symsxy;>>x=xlsread(’shuju.xls’);%將上表中的數據保存到MATLAB中WORK文件夾excel文件shu-ju.xls中,并將其賦于x>>x(:,[3,5])=[];%刪除數據矩陣的3,5兩列,即使用變量1,2,4,6,7>>x=zscore(x);%將數據標準化>>s=pdist(x);%每一行是一個對象,求對象間的歐式距離>>z=linkage(s,’average’);%按類平均法聚類>>h=dendrogram(z);%畫聚類圖(如圖2所示)>>T=cluster(z,’maxclust’,3);%把樣本點劃分成3類>>fori=1:3;tm=find(T==i);%求i類的對象tm=reshape(tm,1,length(tm));%變成行向量>>fprintf(’第%d類的有%s\n’,i,int2str(tm));%現實分類結果>>end程序輸出:第1類的有11318第2類的有2345678910111216171920212224252627282930313233第3類的有141523即:第一類:北京,福建,湖南;第三類:江西,山東,四川;第二類:其它地區。
4.2選取7個指標的分類考慮到指標2與指標3,指標5與指標6具有一定的獨立性,若七個指標體系全部取用,將33個地區分為4類,程序輸入如下:>>symsxy;>>x=xlsread(’shuju.xls’);>>s=pdist(x);>>z=linkage(s,’average’);>>h=dendrogram(z);%畫聚類圖(如圖3所示)>>T=cluster(z,’maxclust’,4);>>fori=1:4tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d類的有%s\n’,i,int2str(tm));>>end程序輸出:第1類的有116第2類的有6710151927第3類的有23489111213141718202223242528第4類的有521262930313233即:第一類:北京,河南;第二類:遼寧,吉林,江蘇,山東,廣東,陜西;第四類:內蒙古,海南,,青海,寧夏,新疆,香港,澳門。4.3選取本科層次指標的分類只考慮本科層次取得的成績,即選用指標1,2,3,對33個參賽地區進行聚類分析,從而明確掌握其本科階段的差異,則有:輸入程序:>>symsxy;>>x=xlsread(’shuju.xls’);>>x(:,[4,5,6,7])=[];>>x=zscore(x);>>s=pdist(x);>>z=linkage(s,’average’);>>h=dendrogram(z);%畫聚類圖(如圖4所示)>>T=cluster(z,’maxclust’,3);>>fori=1:3;tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d類的有%s\n’,i,int2str(tm));>>end程序輸出:第1類的有11318第2類的有101115161719222327第3類的有2345678912142021242526282930313233即:第一類:北京,福建,湖南;第二類:江蘇,浙江,山東,河南,湖北,廣東,重慶,四川,陜西;第三類:其它地區。4.4選取專科層次指標的分類只考慮專科層次取得的成績,即選用指標4,5,6,對33個參賽地區進行聚類分析,從而明確掌握其專科階段的差異,則有:輸入程序:>>symsxy;>>x=xlsread(’shuju.xls’);>>x(:,[1:3,7])=[];>>x=zscore(x);>>s=pdist(x);>>z=linkage(s,’average’);%畫聚類圖(如圖5所示)>>h=dendrogram(z);>>T=cluster(z,’maxclust',4);>>fori=1:4;tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d類的有%s\n’,i,int2str(tm));>>end程序輸出:第1類的有14第2類的有1523第3類的有41927第4類的有1235678910111213161718202122242526282930313233即:第一類:江西;第二類:山東,四川;第三類:山西,廣東,陜西;第四類:其余各地區。
5結束語
[摘要]目前地勘單位的檔案數據管理,存在職責不明、保存不妥的現象,造成了不良后果和嚴重損失,因此,加強地勘單位檔案管理工作,提高地勘人員質量意識和建立地質檔案數據管理體系。推動檔案管理工作的規范化、信息化,標準化。
地質工作信息化建設是一項復雜的系統工程,而地勘單位的信息化建設與基礎數據也就是檔案是密不可分。地質檔案數據是在地質勘查活動中直接形成的、有保存價值的文字、圖表及聲像載體材料等,它既是野外勘測過程的真實反映和記錄、地勘經濟發展的重要基礎和依據,也是單位維權的憑證和依據。基礎的地質數據文件具有內容的單一性、載體的多樣性、形式的特殊性等特點,隨著社會信息化的飛速發展,地勘單位數據文件的內容、形式、載體等屬性也發生了較大的變化,特別是以地質找礦項目為中心所形成的檔案材料具有全面化、精確化、系統化的成套性和現實性、專業性要求,而一個完整的地質項目要經過立項、設計、施工、竣工等階段,要經過主管局等上級部門的審批和驗收,因此收集整理符合標準的數據文件本身就有很多工作要做,那么如何做好管理工作,更好地為地質找礦和社會經濟發展服務?本文就結合著地勘單位的資料管理工作實際談幾點粗淺的認識。
1加強領導,建立組織,收集數據
抓好基礎數據文件工作,首先要從思想上重視檔案管理工作,提高認識,從監與管兩方面入手,分管檔案工作的領導應給予多方面的支持和提供資源保障,用規范化、信息化、標準化來要求檔案的收集、整理、歸檔、保管和開發利用工作,建立起“內外”有別而又相互統一的檔案管理體系。“內”就是要協調內部各職能部門增強檔案意識,注重收集與及時移交,防止檔案材料的散失;“外”就是要抓住每一個環節的檔案收集,積極與主管部門、設計、施工等單位負責人及檔案人員通力協作,以保證歸檔案卷數據的完整、準確、系統。建立健全檔案管理組織,不僅是行政管理的重要組成部分,而且是必須做好的一項基礎性工作,因此,要明確有關人員與部門的職責,用制度管人,用制度辦事,將數據文件工作作為硬任務列入地勘項目指標條款,在單位規章制度體系中將地勘單位檔案工作以法律文書的形式規定下來,鼓勵和支持檔案管理人員深入現場收集檔案資料,作為檔案人員應有針對性地列出所需收集的資料名目,自始至終參與到項目管理中去,保質保量地獲取第一手資料。另外,還要與外購、有關單位進行交換、復制索取以及標準化的網絡收集等。形成完整有效的地質數據文件。
2建立制度,編制方案,完善規則
長期以來,地勘工作執行和延續計劃經濟的管理體制,缺少市場經濟體制中的競爭意識和對原始數據質量問題的關注意識。只有調動全員的積極性,以完善科學的管理制度做指導,按標準建立質量管理體系,使一切工作有章可循,才能從根本上解決原始地質數據的完整性和質量問題。制度要健全,執行要堅決。按照檔案管理的法律法規及相關規定的有關規定與標準,對已經收集的文字、圖紙、圖片、聲像等資料,應根據數據文件形成的規律和特點,在便于保管和利用的前提下,進行科學分類整理,設置相應的歸檔類目,按原始地質立卷歸檔規則如:范圍、規范性引用檔、術語與定義、歸檔范圍與分類、編號與編目、立卷歸檔要求等,還包括地質項目的設計檔案、設施工檔案和竣工檔案等。應根據本單位的實際情況和具體要求,制定本單位的數據文件管理實施細則,細則應主要明確本單位數據文件的范圍,歸檔的基本要求和基本內容,數據文件的移交與整理、保存與借閱的要求等。
數據要齊全,內容要完整。要達到此目標要求,應該重視抓好資料的收集工作,堅持地質項目建檔工作按照檔案管理規范要求與項目施工、竣工驗收同步,堅持檔案部門與基層單位相結合,編制分類方案,正確區分和把握依據檔、設計檔、項目管理檔、施工竣工驗收及檔等的分類工作,齊抓共管,進一步做好基礎檔案歸檔工作。
管理要及時,立卷要規范。為確保數據文件齊全、完整、系統,就要把數據文件工作與項目計劃、檢查、總結、驗收各個環節的工作相聯系,同步進行,立卷做到格式統一、字跡工整、圖像清晰,同時根據內容、價值、數量和載體形式進行系統整理,按項目組卷,使檔案數據做到文件齊全、分類準確、體系鮮明、方便管理,方便利用,保持其整體功能。并將立卷好的檔案按規定移交有關檔案管理部門,嚴格交接手續,認真核查案卷質量并確保檔案的完整。。
3加強培訓依法制檔
目前,地勘單位的數據文件管理工作遠不能跟上飛速發展的地勘形勢的要求。一個單位數據文件管理的好壞,不僅與本單位的檔案規章制度健全與否、主管檔案的領導的思想觀念、檔案管理人員水平的高低息息相關,更與檔案數據的組織者對檔案數據的重視程度有著極大的關系。數據文件作為科技檔案的重要組成部分,它服務于今天,有利于未來,為歷史查找、產權查證、經濟糾紛以及科學研究提供素材,針對某些領導和技術人員檔案意識薄弱、檔案管理人員素質差的現狀,一是要結合地勘單位的特點,加強對數據文件管理人員的培訓,應該組織其學習、貫徹《中華人民共和國檔案法》。《中華人民共和國檔案法》明文規定,一個國家機關、武裝力量、政黨、社會團體、企業事業單位和公民都有保護檔案的義務。但目前地勘單位的數據文件管理缺乏有力的檔案執法機制是一個比較突出的問題。在檔案未形成時,就有檔案資料散落在工程技術人員及合同管理人員或是一些領導者個人手中的現象,根據現存在情況,應檔案法宣傳列入全年工作計劃和責任目標考核內容,并認真制訂宣傳計劃,采取多種形式、通過不同媒體進行宣傳,不斷強化監督指導功能,特別是主管部門和業務指導部門,既要做好執法檢查和業務指導,又要做到定期或不定期抽查,做到點面結合、跟蹤督辦。結合正在實施的保密協議簽定工作形成有法必依、執法必嚴的局面,推動檔案工作向規范化、標準化的方向發展。認真學習檔案管理的有關法律法規及辦法,強化崗前培訓。從目前看,許多檔案部門缺乏現代高科技人才,其中檔案、信息處理復合型人才就更加奇缺,大部分檔案人員現代技術水準偏低,甚至有現代文盲現象。盡管引進了現代化設備,仍不能充分發揮作用,就難以實現檔案信息化了。因此,信息化建設人才需要深厚的檔案學基礎理論,熟悉檔案工作的規律,從而創新科學先進的管理方法,因此必須通過各種不同形式的培訓,提高檔案人員業務能力和管理水平,自覺增強責任意識,把檔案提升一個新臺階。
4檔案信息電子化紙質檔案數字化
資料檔案信息化建設是一項長期復雜的系統工程,行業不同,信息化管理模式也不同。面對信息化帶來的挑戰與機遇,地勘單位與其它企業一樣面臨市場化和國際化競爭的挑戰。為提高地勘單位的整體素質,推動地勘單位的改革與發展,充分利用好信息化這個武器,走出一條適合自己的信息化建設之路。所謂檔案信息電子化,就是以館藏檔案數據紙質或機讀形式的為主要物質對象,用微機對檔案進行收集、篩選、加工,使之轉化為微機軟件形式的二次文件信息電子文文件數據供利用的過程。把地質資料數據文件歸檔電子化,充分利用計算機、掃描儀把紙質檔案數字化,建立全文數據庫,以便于存儲查找和利用,既是地質工作現實要求,也是檔案管理必然取向。因此地勘單位必須快速更新觀念,迅速實現檔案工作網絡化,為地質找礦工作服務,推動其它各項工作的現代化進程。
參考文獻:
關鍵詞:USB;數據采集;EZ-USBFX2;GPIF
1引言
現代工業生產和科學研究對數據采集的要求日益提高。目前比較通用的是在PC或工控機內安裝數據采集卡(如A/D卡及422、485卡)。但這些數據采集設備存在以下缺陷:安裝麻煩、價格昂貴、受計算機插槽數量、地址、中斷資源的限制,可擴展性差,同時在一些電磁干擾性強的測試現場,可能無法專門對其作電磁屏蔽,從而導致采集的數據失真。
傳統的外設與主機的通訊接口一般是基于PCI總線、ISA總線或者是RS-232C串行總線。PCI總線雖然具有較高的傳輸速度(132Mbps),并支持“即插即用”功能,但其缺點是插拔麻煩,且擴展槽有限(一般為5~6個),ISA總線顯然存在同樣的問題。RS-232C串行總線雖然連結簡單,但其傳輸速度慢(56kbps),且主機的串口數目也有限。
通用串行總線(UniversalSerialBus,簡稱USB)是1995年康柏、微軟、IBM、DEC等公司為了解決傳統總線的不足,而推出的一種新型串行通信標準。該總線接口具有安裝方便、高帶寬、易擴展等優點,已經逐漸成為現代數據傳輸的發展趨勢。基于USB的數據采集系統充分利用USB總線的上述優點,有效地解決了傳統數據采集系統的缺陷。USB的規范能針對不同的性能價格比要求提供不同的選擇,以滿足不同的系統和部件及相應不同的功能,從而給使用帶來極大方便。
2系統介紹
2.1數據采集系統的結構與功能
常見的數據采集系統的硬件總體結構如圖1所示。其中數據采集接口卡是硬件部分的核心,它包括A/D轉換器、微控制器、USB通信接口等。
在高速數據采集系統中由于現場輸入信號是高頻模擬信號,因而信號的變化范圍都比較大如果采用單一的增益放大那么放大以后的信號幅值有可能超過A/D轉換的量程所以必須根據信號的變化相應地調整放大器的增益。在自動化程度較高的系統中希望能夠在程序中用軟件控制放大器的增益AD8321正是這樣一種具有增益可編程功能的芯片。AD8321是美國AD公司生產的一種增益可編程線性驅動器。它具有頻帶寬、噪聲低、增益可編程且易于與單片機進行串行通信等優點,十分適合在數據采集系統中做前置放大。
經過調理后的信號可送入模/數變換器(ADC)進行A/D變換。筆者選用的ADC是TLC5540,它是一種高速8位模擬數字轉換器,能以高達每秒40M的采樣速率進行轉換,由于采用半閃速結構和CMOS工藝制造,因此功耗和成本很低。其75MHz(典型值)的模擬輸入帶寬使該器件成為欠采樣應用的良好選擇。該器件帶有內部電阻,可用于從5V電源產生2V滿度的基準電壓,以減少外部元件數。數字輸出置于高阻方式。它僅需要5V電源工作,可由USB總線供電。
由于數據采集接口卡是硬件部分的核心,因此應選擇能適用USB協議的合適芯片。EZ-USBFX2是一種USB2.0集成微控制器。它的內部集成了USB2.0收發器、串行接口引擎(SIE)、增強的8051微控制器和一個可編程的串行接口。其主要特性如下:
帶有加強的8051內核性能,可達到標準8051的5~10倍,且與標準8051的指令完全兼容;
集成度高,芯片內部集成有微處理器、RAM、SIE(串行接口引擎)等多個功能模塊,從而減少了多個芯片接口部分需要時序配合的麻煩;
采用軟配置,在外設未通過USB接口接到PC機之前,外設上的固件存儲在PC上;而一旦外設連接到PC機上,PC則先詢問外設是“誰”(即讀設備描述符),然后將該外設的固件下載到芯片的RAM中,這個過程叫做再枚舉。這樣,在開發過程中,當固件需要修改時,可以先在PC機上修改好,然后再下載到芯片中;
具有易用的軟件開發工具,該芯片開發系統的驅動程序和固件的開發和調試相互獨立,可加快開發的速度。
圖2USB接口示意圖
2.2方案選擇
FX2有三種可用的接口模式:端口、GPIF主控和從FIFO。
在“端口”模式下,所有I/O引腳都可作為8051的通用I/O口。
在“從FIFO”模式下,外部邏輯或外部處理器直接與FX2端點FIFO相連。在這種模式下,GPIF不被激活,因為外部邏輯可直接控制FIFO。這種模式下,外部主控端既可以是異步方式,也可以是同步方式,并可以為FX2接口提供自己的獨立時鐘。
“GPIF主控”接口模式使用PORTB和PORTD構成通向四個FX2端點FIFO(EP2EP4EP6和EP8)的16位數據接口。GPIF作為內部的主控制器與FIFO直接相連,并產生用戶可編程的控制信號與外部接口進行通信。同時,GPIF還可以通過RDY引腳采樣外部信號并等待外部事件。由于GPIF的運行速度比FIFO快得多,因此其時序信號具有很好的編程分辨率。另外,GPIF既可以使用內部時鐘,也可以使用外部時鐘。故此,筆者選擇了GPIF模式。
高速數據采集卡的設計存在兩大難點:一是模擬信號的A/D高速轉換;二是變換后數據的高速存儲及提取。對于第一個問題,由于制造ADC的技術不斷進步,這個問題已經得到解決。而對于第二個問題,一般的數據采集系統是將A/D轉換后的數據先存儲在外部數據存儲器中,然后再對其進行處理。對于高速數據采集而言,這種方式將嚴重影響采集速度,且存儲值也會受到很大限制。而改進方案是將A/D轉換后的數據直接送至計算機內存,這樣,采集速度將大大提高,而且可存儲大量數據,以便于下一步的處理。
為了解決同步問題,可以由CPLD產生同步時鐘信號提供給ADC和FX2。在本數據采集系統的設計中,CPLD同時還可用于產生不同的控制信號,以便對采樣進行實時控制。CPLD是復雜可編程邏輯器件,它包括可編程邏輯宏單元、可編程I/O單元和可編程內部連線。由于CPLD的內部資源豐富,因而可廣泛應用在數據采集、自動控制、通訊等各個領域。在本系統的設計中,筆者選用的CPLD是Lattice公司的ispLSI1016。圖2所示是其整個USB接口卡的硬件電路圖。
3系統軟件設計
該系統軟件主要包括USB設備驅動程序、設備固件和應用程序。
3.1設備固件(Firmware)設計
設備固件是設備運行的核心,可采用匯編語言或C語言設計。其主要功能是控制CY7C68013接收并處理USB驅動程序的請求(如請求設備描述符、請求或設置設備狀態,請求或設置設備接口等USB2.0標準請求)、控制芯片CY7C68013接收應用程序的控制指令、控制A/D模塊的數據采集、通過CY7C68013緩存數據并實時上傳至PC等。
即使外部邏輯或內置的普通可編程接口(GPIF)在沒有CPU的任何干涉下能夠通過四個大的端點FIFO來處理高速寬帶數據,固件還是有如下固定的工作:
配置端點;
通過控制端點零來響應主機請求;
控制和監測GPIF的活動;
利用USART處理所有的特殊請求任務,如計時器、中斷、I/O引腳等。
3.2USB設備驅動程序開發
USB系統驅動程序采用分層結構模型分別為較高級的USB設備驅動程序和較低級的USB函數層。其中USB函數層由兩部分組成:較高級的通用串行總線驅動程序模塊(USBD)和較低級的主控制器驅動程序模塊(HCD)。
在上述USB分層模塊中,USB函數層(USBD及HCD)由Windows提供,負責管理USB設備驅動程序和USB控制器之間的通信;加載及卸載USB驅動程序;與USB設備通用端點(endpoint)建立通信并執行設備配置、數據與USB協議框架和打包格式的雙向轉換任務。目前Windows提供有多種USB設備驅動程序,但并不針對實時數據采集設備,因此需采用DDK開發工具來設計專用的USB設備驅動程序。該設備驅動程序應由初始化模塊、即插即用管理模塊、電源管理模塊以及I/O功能等四個模塊來實現。
初始化模塊可提供一個DriverEntry入口點以執行大量的初始化函數。
即插即用管理模塊用來實現USB設備的熱插拔及動態配置。當硬件檢測到USB設備接入時,Windows查找相應的驅動程序,并調用它的DriverEn-try例程,同時告訴它添加了一個設備;然后,驅動程序為USB設備建立一個FDO(功能設備對象)。在此處理過程中,驅動程序收到一個IRPMNSTARTDE-VICE的IRP,在它之中包括有設備的資源信息。至此,設備被正確配置,驅動程序開始與硬件進行對話。當然,在設備運行過程中,如果設備狀態發生變化(拔除、暫停等),PnP管理器也同樣發出相應的IRP,以便由驅動程序進行相應的處理。
電源管理模塊負責設備的掛起與喚醒。
I/O功能實現模塊可完成I/O請求的大部分工作。當應用程序提出I/O請求時,它將調用Win32API函數DeviceIoControl向設備發出命令,然后由I/O管理器構造一個IRP并設置其MajorFunction.域為IRPMJDEVICECONTROL。在USB設備驅動程序收到該IRP后它將取出其中的控制碼并利用一個開關語句查找對應的程序入口。
3.3應用程序設計
應用程序設計由兩個部分組成:動態鏈接庫和應用程序。動態鏈接庫負責與內核態的USB功能驅動程序通信并接收應用程序的各種操作請求,而應用程序則負責對所采集的數據進行實時顯示、分析和存盤。
動態鏈接庫的工作原理如下:當它收到應用程序開始采樣的請求后,首先創建兩個線程:采樣線程和顯示存盤線程。采樣線程負責將采樣數據寫到應用程序提交的內存;而顯示存盤線程則負責給應用程序發送顯示和存盤消息。當應用程序接收到此消息后,便從它提交的內存中讀取數據并顯示和存盤。要注意的是:采樣線程和顯示存盤線程在讀寫應用程序提交內存時要保持同步。
PC機或工控機應用程序是數據實時采集系統的中心可采用Labview編程。它是當今國際上唯一的編譯型圖形化編程語言,其特點如下:
(1)能完成對固體表面速度的實時測量;
(2)主介面與多重窗口結合可完成數據連續采集、實時統計分析、系統參數設置、信號波形顯示、被測參數輸出等綜合系統功能。
(3)能充分利用Labview開發平臺和WINDOWS視窗所提供的良好操作環境集曲線、圖形、數據于一體可準確描述過程參數的變化。
圖3所示是用高速數據采集系統采集通過Lab-view顯示的一個波形實例,其輸入信號是一個頻率為5MHz的正弦波。
移動數據業務是指向移動設備傳送非話音的信息,涵蓋從尋呼信息到移動電話上的Web接入,再到e-mail發送等所有方面。美國移動數據產業的增和非常明顯,不僅四家全美主導型移動電話運營者——SprintPCS、AT&T無線、Verizon無線和Nextel在2000年夏季先后推出了移動Internet接入業務,到2000年底,它們的用戶總數已接近250萬;而且還有另3家區域性運營者——VoiceStream、ALLTEL和Cingular無線公司同時進軍移動Internet市場。
2000年,尋呼/信息運營者繼續推銷基于Web的高級、雙向業務;PDA制造商開始提供其它手持設備,連接無線Internet,并擴張Internet的內容和服務;Metricom等公司開始經由Modem設備提供無線Internet業務,其中有些市場的Internet接入速率已達128kbit/s。
從總體看,雖然移動數據業務在美國已相當流行,但在其它國家,用戶數更多。如截至到2001年3月底,日本NTTDoCoMo的I-mode移動Internet業務的用戶數已達2170萬,普及率15%,占DoCoMo的3600萬移動電話總用戶數的60%。與2000年3月I-mode的580萬用戶數相比,增長了245%,在歐洲,SMS已非常盛行。2000年12月,英國和德國的移動電話用戶分別發送了7.56億條和18億條SMS億條、5億條的近3倍和4倍。在芬蘭,90%的移動電話用戶使用SMS,每月發送的信息平均超過7500萬條。
二、美國主要移動數據業務的發展狀況
無疑,WAP、移動商務以及定位業務等對未來無線數據業的發展將越來越重要,但至今它在美國乃至全球仍處于萌芽期。美國目前開展的移動數據業務主要分為四大類:第一類是由尋呼信息運營者使用尋呼和窄帶PCS頻率提供的傳統單向尋呼和高級傳信業務;第二類是由移動電話運營者使用蜂窩、寬帶PCS和SMR頻率提供的移動數據業務,包括無線Web、e-mail和SMS;第三類是應用移動Internet連接,在手持PDA(個人數字助理)設備上通過對高級信息設備或移動電話內置或外加無線Modem提供的數據業務;第四類是由專用數據網絡運營者提供的移動數據業務。
1、尋呼/信息業務
2000年,尋呼信息業務市場競爭依然激烈,用戶數和收益趨于下降,分別從1999年的4580萬美元和52.5億美元下降到了4530萬美元和51億美元,降幅分別為1%和3%。不過,高級信息業務的用戶數從70萬增長到了120萬,上漲了70%之多,相應的收益提高了46%,達2.57億美元(1999是1.76億美元)。
Arch和Metrocall是尋呼/信息業的最大運營者,兩者占有45%的用戶市場份額。其它主要運營商包括SkyTel、Weblink和VerizonMessaging。Orbcomm和Motient提供衛星信息、尋呼、e-mail和其它移動數據業務,尤其是Or5bcomm利用低軌衛星提供雙向監測、跟蹤和衛星信息,僅在2001年2月就發送了87.2萬條信息。2001年5月,Orbcomm被LLC收購。
在新業務開發上,美國尋呼/信息業務公司在2000年采取了諸多舉措,大約有30萬傳統的單向尋呼用戶向高級信息業務轉移。此外,像Metrocall公司為鼓勵高校使用高級信息業務,還推出了校園連接(CampusLink)計劃,允許高校使用無線裝置告知學生即將發生的事情,包括定位、課程安排變動及其它有關的校園定位事件。
2、移動電話運營者提供的數據業務
美國移動電話運營者繼續發展移動數據業務,主要在移動電話上開展web接入、SMS和e-mail。
(1)無線Web
目前,美國有7家運營商使用現有網絡經由移動電話手機提供基于文本的、速率從9.6到19.2kbit/s的web業務,用戶通過沖浪web網站查閱新聞、股市信息、交通報告、天氣預報、電影海報、購物,以及其它的基于文本的信息。一些移動Internet用戶還從事網上交易,如使用移動電話交易股票或購買電影票等。
到2000年底,美國超過250萬人,或2.3%的移動用戶使用無線web業務。SprintPCS是最大運營者,擁有其中的100多萬。Verizon無線和AT&T無線緊隨其后,分別擁有75萬和45.9萬,SprintPCS聲稱,80%由它提供的手機能夠上網,其大約10%的用戶正在使用web業務。
對于無線web,不同的運營者一般采取不同的資費方案。SprintPCS、Verizon無線及其它一些公司實行結合實際下時間內的套餐資費,每月6-14美元不等,超過給定的使用時間(如100分鐘),將按分鐘另行計費。AT&T無線和Nextel公司在2000年第二季度引入移動web業務后,對基本無線web接入實行免費,但對增值移動Internet業務,如e-mail等推行包月制資費。據AT&T分析,其大約15%-20%的用戶使用增值業務。Cingular無線和ALLTEL公司實行對新用戶有限時間內的免費方案。
(2)SMS
SMS是指應用手機發送和接收文本信息,長度可以為120-256個字節。移動用戶使用SMS,可以獲得大范圍信息,包括股票價格、體育比賽比分、新聞標題和天氣預報等。從全球來看,SMS越來越流行,發送信息已從1999年30億條增長到了2000年150億條。
2000年,美國引入雙向SMS,VoiceStream是第一家運營者。接著,Verizon無線和AT&T無線公司步其后塵。進入2001年后,TeleCorp也加入其中。VoiceStream目前還提供與SMS類似但名為e-notes業務,允許VoiceStream用戶向其它VoiceStream用戶發送字節較少的e-mail信息。
不同運營者對SMS也實行了不同的資費標準。Verizon無線推出兩種套餐資費:一是每月2.99美元可發送和接收100條信息;二是每月7.99美元可發送600條信息,超出的每條發送為0.10美元,接收一律為0.20美元。AT&T無線則實行允許用戶每月免費接收250條信息,超出的接收以及發送按0.10美元計費,或者用戶每月支付4.99美元接收和發送500條,超出的再按0.10美元收取。
3、手持設備
許多手持PDA設備通過內置或外加無線Modem,或者通過附加移動電話到PDA中向用戶提供無線連接Internet。與基于web的移動電話一樣,這些設備向用戶提供接入e-mail和web內容。手持設備一般具有更大的屏幕,比移動電話的功能也強,但不能內置話音組件。目前,美國主要有三類手持設備連接無線Internet:一是使用PalmOS操作系統包括Palm設備和Handspring瀏覽器設備;二是由RIM公司制造的運行RIMBlackBerry業務的設備;三是運行微軟公司PocketPC或WindowsCE操作系統的設備。2001年1月,Palm宣稱占有所有手持零售設備61%的市場份額。
(1)PalmOS設備
美國有兩家手持設備制造商運行PalmOS操作系統,它們是Palm和Handspring。Palm目前利用不同的手持模式提供三種接入無線Internet的方式:第一是PalmVIIx,是PalmVII的升級版,裝有內置無線Modem,用戶可用之接入Palm公司的包括web限幅(clipping)應用,允許用戶瀏覽580個經限幅的web網站,以及移動e-mail接入到帳戶。業務連接Cingular交互公司的數據網,可以在全美260個城市使用,且不收漫游費。
Palm公司的其它PDA包括Palmm105、PalmIII和PalmV系列的用戶,能夠通過依附移動電話或無線Modem連接Internet,但不能接收Palm公司的業務。不過,通過移動電話連接Internet的Palm用戶可以到達450多個限幅web網站,并可以利用Palm公司的MultiMai軟件和一個HotmailEarthlink或Yahoo的帳戶發送、接收e-mail信息。如果使用GSM手機,還可以通過SMS發送和接收文本信息。PalmIII和PalmV系列的用戶也可以通過在手持設備中外加諸如由9kbit/Minstrel公司制造的無線Modem卡連接Internet。無線Modem卡用戶可以接收移動接入web內容和e-mail信息,還可以接入公司內聯網和數據庫,速率大概是19.2kbit/s。
(2)RIM設備和BlackBerry業務
目前RIM制造和銷售四種手持設備——RIM957、RIM867、RIM950和RIM850,它們都能使用內置無線Modem連接無線Internet。從體積來看,RIM950和RIM850與雙向高級信息設備差不多,而RIM857和RIM957與前述的手持PDA類似。這四種設備都擁有PDA創立(organizer)軟件和全QWERTY鍵區。RIM公司通過Motient的DataTAC網絡為RIM850和RIM857提供移動Internet接入業務,而RIM950和RIM957運行在Cingular交互公司的Mobitex網絡中。
此外,所有的RIM設備都包括RIM的BlackBerrye-mail業務,允許用戶接收、編輯、發送、歸檔和過濾信息。RIM提供兩種版本的Blackberry,分別針對商業用戶和個人用戶,可以從不同的轉售商獲取。
(3)PocketPC設備
PocketPC是WindowsCE的升級版,包含微軟桌面軟件應用(如Word、Excel、Outlook和InternetExplorer)的PDA版。現有HP、Casio和Compaq三家公司制造運行PocketPC和連接無線Internet的手持設備,這些設備如HPJomada、CasioE-125和CompaqiPAQ沒有內置無線Modems,接入Internet需要外加無線Modem。其中,HPJomada使用Minstrel540無線Modem、CasioE-125需要NextcellPocketSpidermodem,CompaqiPAQ則需要一張PC卡擴展槽和Sierra的無線Aircard300。
4、專用數據網
美國有許多運營者通過專用數據網提供移動數據業務,這些網絡最初服務于垂直市場,如資產跟蹤和外勤服務,現在已走向水平市場,包括信息和Internet接入。美國目前有三家主導型專用數據網運營者,它們分別是Motient、Cingular交互公司和Metricom。
(1)Motient
Motient使用800MHz、SMR頻段向許多用戶提供移動數據業務,包括向移動專業人才提供信息、遙測數據、運輸和外勤服務。2000年4月、RIM宣布使用Motient的DataTAC網絡提供無線Internet連接到它的RIM850和RIM857BlackBerry用戶,并與Motient聯合提供e-mail業務,名為“BlackBerrybyMotient”。Palm也使用Motient的設備接收和發送Yahoo郵件和及時信息,以及接入Yahoo郵件和及時信息,以及接入Yahoo的內容和服務。截至到2000年底,Motient擁有4.5萬eLink用戶,比1999年底的3萬增長了50%。
(2)Cingular交互公司
Cingular交互公司是Cingular無線的下屬商業單元,提供一系列的移動數據業務,如高級信息等,并與Motient類似,在900MHz頻段通過其Mobitex網絡為RIM950、RIM957BlackBerry和PalmVII手持設備提供無線Internet連接。在2000年,Cingular交互公司還與RIMBlackBerry聯合提供名為MyBizInteractive的信息和e-mail業務。此外,Fidelity和AOL也使用Cingular交互公司的網絡提供業務到無線設備。2000年期間,Cingular交互公司平均每個季度增長9萬用戶,到2000年底,用戶數達57萬。1999年底時,用戶數僅有20萬。
(3)Matricom公司
Metricom使用900MHz頻段、經許可的2.3GHz無線通信業務(WCS)頻段,以及未被許可的2.4GHz頻段提供移動數據業務,主要是經由外加的無線Modem提供移動接入Internet和企業網,最高速率已達到128Kbit/s。另有許多公司,如WorldCom、SkyTel和UUNet等轉售Metricom的業務。到2000年底,Metricom擁有3.4萬用戶(1999年底為2.97萬),其中128Kbit/s業務用戶數為1.22萬。
三、美國3G的進展
第三代或3G一般是指高級移動業務,超越CDMA、TDMA、GSM、和iDEN等第二代技術的下一代技術為此提供了可能。而提供更高速移動數據業務的2.5G技術可能會被作為從2G向3G的過渡技術。
從2000年至今,美國許我移動電話運營者宣布考慮建設2.5G和3網絡,從事相關試驗,并與設備制造商簽訂合作協議。然而,諸多分析家和業者深信,在現有技術和經濟障礙下,廣泛建設3G網絡,以及應用其它高級技術還需假以時日。其它國家也如此,由于不同的硬件和軟件問題,它們建設2.5G和3G網絡也是從2001年第一季度才開始的。
在美國,運營者已被允許選擇不同的技術來發展話音和高級移動數據業務。目前使用CDMA2G技術的兩家最大移動電話運營商Verizon無線公司和SprintPCS在2001年早期宣稱,它們將在2001年發展cdma20001X,并以此作為3G技術在第一階段的應用。與現行CDMA網絡相比,CDMA20001X有望加倍話音網絡的容量,并提高數據傳輸速率到144kbit/s。根據計劃,這兩家公司將分別在2002年和2003年進一步提高網絡數據速率到2.4Mbit/s。此外,Nextel也宣布將在其iDEN網絡發展CDMA2000技術。
美國主要的GSM和TDMA運營商,包括AT&T無線、VoiceStream和Cingular無線正在考慮向3G演變的不同途徑。這三家運營商均計劃在2001年發展GPRS技術,提高數據傳輸速率到25-14kbit/s。在引入GPRS之后,這三家公司都有望走向使用介于GPRS和WCDMA之間的EDGE過渡技術。EDGE和WCDMA可以提高網絡速率分別達384kbit/s和2Mbit/s。Cingular無線公司已明確表示,它將從2002年到2003年期間在其全部市場建設EDGE和WCDMA演化。此外,在從NTTDoCoMo獲得大量投資后,AT&T無線公司明確,將從2002年早期提供I-mode,首先覆蓋西雅圖,一二年后再走向全美。
【關鍵詞】關聯數據;定量分析;語義網
Abstract:The paper focused on Linked Data which has been published by 1990- 2010 in China for the analysis of data,then used quantitative analysis method to carry on the statistical analysis,analyzed the situation of Linked Data from time distribution,author distribution,periodicals distribution,Scientific research fund distribution and the subject distribution.At the same time,this paper summarized the shortcoming and development trend of Linked Data research.
Key words:Linked Data;quantitative analysis;Semantic Web
關聯數據的概念為WWW(World Wide Web)的發明者,被譽為互聯網之父的Tim Berners-Lee于2006年在《關聯數據筆記》中首次提出,在該文中他分析了Web的發展與演變,提出了發展數據網絡的思想,而數據網絡的核心和關鍵則是關聯數據。2009 年在TED大會上,他提出關聯數據就是一箱箱數據,當通過開放標準關聯在一起時,從中可以萌發出很多新事物和新應用[1]。
關聯數據簡單的說就是一些RDF格式的數據,也是用三元組(主體,謂詞,客體)來表示資源。所以研究關聯數據,知道數據的RDF(Resource Description Framework)格式是必不可少的。關聯數據和RDF數據最主要的區別在于關聯數據是要到網上,并供人搜索的,所以描述資源的三元組的不再是統一資源標志符(URI),而是URI和.
[2]白海燕.基于關聯數據技術的信息組織深度序化研究[2010-09-26]..
[3]Boutin G.Tying Web 3.0,the semantic Web and linked data together[2010-09-26].http:///archives/understanding_the_new_web_era_web_30_linked_data_s.php.
[4]趙華等.UG在我國的研究、應用現狀及進展[J].現代情報,2008(10):137-141.
[5]黃永文.關聯數據在圖書館中的應用研究綜述[J].現代圖書情報技術,2010,05:1-7.
[6]吳玥,李占羽.基于關聯數據開放政府數據[J].電腦知識與技術,2010,31:8688-8691.
[7]趙梓彤,謝海先.關聯數據在網絡信息管理中的應用[J].圖書館學研究,2011,12:47-50.
[8]張寧.基于關聯數據的農業信息空間數據組織研究[J].農機化研究,2012,04:249-252.
[9]洪娜,錢慶,方安,范煒,李亞子,王軍輝.生物醫學關聯數據研究進展與比較分析[J].圖書情報工作,2012,06:123-129.
[10]劉煒.關聯數據:概念、技術及應用展望[J].大學圖書館學報,2011,02:5-12.
[11]D2R Server-Publishing Relational Databases on the Semantic Web[EB/OL][2010-12-28].http://www4.Wiwiss.fu-berlin.de/bizer/d2r-server/.
[12]:Overview[EB/OL].[2010-09-12].http:///.
[13]Open Link Software[EB/OL][2010-09-11].http://.
[14]Coetzee P,Heath T,Motta E.SparqPlug:Generating linked data from legacy Html,Sparql and the DOM.[2010-09-26].http:///ldow2008/papers/05-coetzee-heath-sparqplug.pdf.
[15]Cygan關聯數據k B.Pubby-a linked data frontend for Sparql endpoints.2010-09-26].http://www4.wiwiss.fu-berlin.de/pubby/.
[16]Talis platform.[2010-09-26].http:///platform/.
[17]沈志宏,張曉林.關聯數據及其應用現狀綜述[J].現代圖書情報技術,2010,11:1-9.
[18]徐華.關聯數據在國外圖書館中的應用及其借鑒意義[J].圖書館學研究,2011,16:87-89.
[19]紐約時報以關聯數據形式新聞目錄[J].中國傳媒科技,2009,06:11.
關鍵詞:DSPUSBFPGACPLDFirmware驅動程序
隨著DSP芯片功能越來越強,速度越來越快,性價比的不斷提高以及開發工具的日趨完善,廣泛用于通信、雷達、聲納、遙感、生物醫學、機器人、控制、精密機械、語音和圖像處理等領域。作為計算機接口之一的USB(UniversalSerialBus)口具有勢插拔、速度快(包括低、中、高模式)和外設容量大(理論上可掛接127個設備)的特性,使其成為PC機的設備擴展中應用日益廣泛的接口標準。本文設計并實現了基于DSP的USB口數據采集分析系統,該系統的DSP負責數據的采集和運算處理,處理結果通過USB口送計算機顯示分析,其結構如圖1所示。
該結構圖中,CPLD和FPGA實現模塊接口,包括串并轉換、8位和32位數據總線間的轉換、SRAM等功能。采樣結果經過CPLD送至DSP運算處理(FFT變換、相關分析、功率譜分析等)后,由FPGA和USB接口送至主控計算機存儲和顯示。計算機應用程序易于實現豐富的圖形界面,具有良好的人機接口。
1模數模塊
本系統主要用于振動信號和噪聲分析,要求采樣精度高,采樣頻率不超過100kHz。根據要求選用CRYSTAL公司的CS5396。該芯片原本用于立體聲采樣,基于∑-Δ結構,采樣精度高,24位分辨率,120dB的動態范圍;采樣頻率32kHz、44.1kHz、48kHz、96kHz可選;內部集成采樣保持器、模擬低通濾波器、數字濾波器,同時還具有時采樣功能;兩路同時采樣,串行輸出,串行數據由CPLD轉換成24位并行數據;由于該芯片量程是4V,差分輸入,所以模擬部分只需再加上簡單量程放大電路即可。這樣模擬電路十分簡單,抗干擾能力強、精度高。
2DSP處理器
選擇DSP處理器時主要考慮其運算速度、總線寬度和性價比。本系統采樣結構24位,最好選用32位DSP;系統要進行實時信號分析、模態分析等,要求有較高運算速度,所以選用TI公司的32位浮點DSP——TMS320VC33。該芯片采用哈佛結構,6級流水線操作,指令執行周期7ns,外設包括一個DMA控制器和一個緩沖串口。
N點復數FFT變換約做2N×Log2N次實數乘法運算和3N×Log2N實時加法運算。TMS320VC33的乘法、加法都是單周期指令,取N=1024,不計內存訪問和其它時間,則一次FFT所需時間為:10×5120×17ns約0.9ms。而按96KSPS的采樣頻率計算,1024點的采樣時間約10ms,可見該DSP速度足以滿足要求。
該DSP啟動模式可選,上電后執行駐留在低地址空間的BOOTLOADER;然后根據4個中斷輸入信號的狀態判斷啟動模式,可以從RAM、ROM或串行口啟動。本系統選擇串行口方式。這樣,DSP程序可以直接從PC下載送至DSP接口,做到在系統調試,具有極大的靈活性。
3USB接口
USB協議的實現基于網絡的思想,是一種共享式的總線,在總線上數據以包(Packet)的形式發送。USB的數據傳送有4種模式:塊傳輸(BulkTransfers)、中斷傳輸(InterruptTransfers)、同步傳輸(IsochronousTransfers)、控制傳輸(ControlTransfers)。當需要快速傳輸大批量的準確數據時,一般采用塊傳輸模式;當傳輸實時性較強的數據時,采用中斷傳輸模式。
當USB設備插入計算機時,計算機和USB設備之間產生一個枚舉過程。計算機檢測到有設備插入,自動發出查詢請求;USB設備回應這個請求,送出設備的VerdorID和ProductID;計算機根據這兩個ID裝載相應的設備驅動程序,完成枚舉過程。
由于USB協議非常復雜,開發者不可能在底層基礎上進行開發。目前,市場上對USB協議進行封裝的接口芯片,如:NationalSemiconductor公司的USBN9602、Plilips公司的PDIUSBD12等。本系統選用CYPRESS公司的帶單片機內核的EZ-USB系列的AN2131QC.該芯片遵從USB1.0規范(12Mbps),將8051單片機內核、智能USB接口引擎、USB收發模塊、存儲器、串行口等集成一起,從而減少芯片接口時序。其內部結構如圖2(虛線內是芯片部分)。
EZ-USB的8051代碼(Firmware)可以固化在ROM內;更好的方案是通過USB口從主機下載到內部RAM,這樣,易于修改、調試和更新。之所以能下載代碼是因為芯片一上電完全在硬件上自動完成枚舉過程,不需要Firmware。完成枚舉后便可作為一個USB設備(叫做缺省USB設備)與計算機通訊,此時即可進行Firmware下載。下載完后,8051內核脫離RESET狀態開始執行代碼。可以通過Firmware對USB設備重新配置,這個重新配置過程叫做再枚舉。
在EZ-USB中,缺省USB設備的接口中包括14個Endpoints,如表1所示。
表1缺省USB端點(Endpoint)
EndpointTypeAlternateSetting
012
MaxPacketSize(bytes)
0CTL06464
1ININT01664
2INBULK06464
2OUTBULK06464
4INBULK06464
4OUTBULK06464
6INBULK06464
6OUTBULK06464
8INISO016256
8OUTISO01616
9INISO01616
9OUTISO01616
10INISO01616
10OUTISO01616
計算機與USB設備的數據通信主要包括兩個方面:一是讀取采樣數據;二是給USB設備發送控制命令。發送控制命令先發送一個命令包(消息),然后根據情況發送后續數據或從設備讀取響應數據。因此,根據EZ-USB芯片的功能,直接使用缺省配置中的6個Endpoint。
EndpoitOUT2BULK:用來發送控制命令包。
EndpointIN2BULK:接收從USB設備發來的DSP消息。
EndpointIN4BULK:用來從USB設備讀取數據,如讀取采樣數據、配置參數等。
EndpointOUT4BULK:用來向USB設備發送數據,如下載8051程序、下載FPGA程序等。
EndpointOUT6BULK:作輔助判斷用,當PC傳送完大量數據至USB設備時,向該端口寫任意數據以起到通知USB設備的作用。
EndpointIN1INT:用來從USB設備讀取響應信號,如下載FPGA程序是否成功的標志等。
在缺省配置基礎上可以編寫適合需要的代碼,如果對8051編程經驗豐富的話,完全可以在不需要調試工具的情況下編寫Firmware。
本系統Firmware結構建立在對消息隊列不斷服務基礎上,即構建一個消息隊列,當接收到任何一方(DSP或計算機)的消息時,將其放入消息隊列。消息的接收是通過中斷服務程序來實現的。當處理完一個消息時,從消息隊列取出下一個消息進行處理。這種軟件結構非常簡單,思路清晰,對調試十分有利。
USB設備驅動程序基于WDM。WDM型驅動程序是內核程序,與標準的Win32用戶態程序不同。采用了分層處理的方法。通過它,用戶不需要直接與硬件打它道(在USB驅動程序中尤為明顯),只需通過下層驅動程序提供的接口號訪問硬件。因此,USB設備驅動程序不必具體對硬件編程,所有的USB命令、讀寫操作通過總線驅動程序轉給USB設備。但是,USB設備驅動程序必須定義與外部設備的通訊接口和通訊的數據格式,也必須定義與應用程序的接口。
本系統的驅動程序是在CompuwareNumegaDriver-Works的基礎上采用面向對象語言C++開發的。Driver-Works可以很快構造出驅動程序的框架。主要構造了兩個類:ClassUSBDAC和classUSBDACDevice。ClassUSBDAC繼承了classKdriver,負責裝載驅動程序和創建功能設備對象時要做的一些操作。ClassUSBDACDevice繼承了classKpnpDevice,是驅動程序的主要部分,負責設備啟動、停止的操作以及與設備的數據通訊。API函數調用和CreateFile()、ReadFile()、WriteFile()、DeviceIO-Control()、CloseFile()等的實現也在classUSBDACDevice中完成。
ClassUSBDAC的定義如下:
classUSBDAC:publicKdriver
{
SAFE_DESTRUCTORS
public:
/*DriverEntry(),在系統引導或I/O管理器裝入驅動程序時,調用這個例程。執行大量的初始化函數,包括建立到其它驅動程序的指針、查找和定位由驅動程序使用的任何硬件資源等,不過,這部分工作大多由基類Kdriver完成。*/
virtualNTSTATUS
DriverEntry(PUNICODE_STRINGRegistryPath);
/*AddDevice(),創建一個Device對象。調用其構造函數對設備初始化,創建設備的名稱等。*/
virtualNTSTATUS
AddDevice(PDEVICE_OBJECTPdo);
Intm_Unit;
};
ClassUSBDACDevice的定義如下:
ClassUSBDACDevice:publicKpnpDevice
{
//Constructors
public:
SAFE_DESTRUCTORS
USBDACDevice(PDEVICE_OBJECTPdo,ULONGUnit);
~USBDACDevice();
//MemberFunctions
public:
…
//添加自己的成員函數
NTSTATUSUSBDAC_GetACK(int&);
NTSTATUSUSBDAC_StartADConversion(void);
NTSTATUSUSBDAC_StopADConversion(void);
NTSTATUSUSBDAC_DownloadFPGA(KIrp);
NTSTATUSUSBDAC_Download8051(KIrp);
NTSTATUSUSBDAC_SetChannelParameter(PUCHAR,ULONG,int);
…
};
4FPGA