日韩和欧美的一区二区,亚洲一区国产精品,国产精品精品一区二区三区午夜版

前言：一篇好文章的誕生，需要你不斷地搜集資料、整理思路，本站小編為你收集了豐富的云計算與分布式技術主題范文，僅供參考，歡迎閱讀并收藏。

云計算與分布式技術

第1篇：云計算與分布式技術范文

關鍵詞：內河航運；彈性計算技術；兩級分布式；數據處理

中圖分類號：TP301 文獻標志碼：A 文章編號：1006-8228（2014）06-34-04

0 引言

內河航運是我國綜合運輸體系的重要組成部分，在我國經濟發展中起著非常重要的作用。針對航運市場發展的總體態勢，發揮信息化對水路運輸行業現代化發展的支撐和引領作用，以信息資源共享為基礎，以信息服務為核心，以現代物聯網技術、通信技術和信息技術為支撐，以促進水路交通運輸產業和物聯網產業發展為目標，進行智能航運信息服務應用的研究。

物聯網是通過基礎設施層的各種感知設備感知物體信息，然后利用網絡技術將感知獲取的海量數據傳輸至物聯網數據中心，物聯網信息服務系統整合了海量數據，為各種物聯網應用提供信息服務并接收反饋控制[4]。而船聯網是物聯網的一個典型的應用，船聯網以船舶、航道、陸岸設施為基本節點和信息源，結合具有衛星定位系統、無線通信技術的船載智能信息服務，利用船載電子傳感裝置，通過網絡完成信息交換，在網絡平臺上完成各節點的屬性和動/靜態信息的進行提取、監管和利用[5]。

1 平臺架構

船聯網項目采用一個中心、多個省級分節點的部署架構，借助目前成熟的MapReduce計算模型，結合智能航運數據處理的實際需要，本文提出一種兩級分布式計算平臺：中心和各省分節點之間組成一個船聯網全局性的分布式平臺；中心節點自身建設為一個局域分布式平臺。這里稱大平臺為全局分布式框架，中心節點的局域平臺為中心分布式框架，示意如圖1。

船聯網全局分布式框架廣域部署，通過中心節點調度各省資源，支撐船聯網省級航運業務應用，如區域船舶監控、應急指揮等。中心分布式框架在中心節點局域部署，通過中心主節點調度中心分節點資源，支撐項目全局性的業務應用，如綜合監管、統計分析等。

這兩級分布式計算框架都需要能夠處理航運海量的數據，比如船舶船員基本信息、船舶簽證、船舶動態感知數據、航運地理信息數據等。從區別上講，全局分布式框架側重各省級分節點與中心節點、分節點之間的互聯互通和數據共享；中心分布式框架用于完成中心節點各種數據計算任務，并為全局分布式框架的計算調度提供支持。

2 計算模型

2.1 全局分布式框架計算模型

船聯網全局分布式框架的計算模型如下。

⑴ 各省級分節點處理各省航運數據，包括數據的整合、清洗、轉換等，即分節點可以處理的計算任務直接在分節點完成。

⑵ 中心節點整合各個分節點上報的數據，包括船舶船員基本信息、船舶簽證信息、動態感知信息等。

⑶ 船舶船員基本信息、編碼等靜態數據由中心節點輪詢各分節點采集；船舶簽證信息、感知信息等動態數據由分節點主動推送。

⑷ 各分節點只與中心節點聯系，分節點之間不直接交換數據。

2.1.1 省級分節點的數據處理

省級分節點負責從各省航運業務系統采集數據，完成省一級的數據整合和清洗，同時可以支撐省一級的航運應用。

例如，A省有一GPS系統采集船舶位置信息，則A省分節點負責從該GPS系統采集船舶位置信息并存儲，然后完成數據的校驗清洗，再按要求將該數據上傳中心節點。A省如有另一業務系統只需要本省船舶GPS信息，則直接從A省分節點獲取，不需要向船聯網中心節點發起請求。

2.1.2 中心節點的數據處理

船聯網中心節點負責接收各個省級分節點上傳的已初步清洗的數據，然后再作最終的數據整合。由于在各分節點已清洗過，已屏蔽掉大量數據問題，所以中心節點只需要處理少量計算（主要是再一次檢驗的計算量）即可完成數據整合。

完成整合后的數據在中心節點落地，交由中心節點作進一步的分析處理。船聯網在整合數據的基礎上提供全局性的數據服務支持，比如跨區域的數據服務。

2.1.3 節點間的數據傳輸機制

船聯網節點間的數據傳輸將只在中心節點和分節點之間進行，分節點之間相互隔離。中心節點定期輪詢各個省級分節點，將船舶基本信息等主數據采集上來（分節點提供相應的數據庫接口），并監控各分節點的運行狀態。各個省級分節點通過消息服務，定期將簽證、感知信息等動態實時數據推送給中心節點。

2.2 中心分布式框架計算模型

船聯網中心節點分布式框架計算模型使用目前較為成熟的MapReduce計算模型。目前世界上最快的1TB排序記錄就是由基于MapReduce實現的。

MapReduce將計算任務劃分為map和reduce兩個階段。map階段負責“分”，即把復雜的任務分解為若干個“簡單的任務”執行。“簡單的任務”有以下幾個含義：

⑴ 數據或計算規模相對于原任務要大大縮小；

⑵ 就近計算，即任務會被分配到存放了所需數據的節點進行計算；

⑶ 這些小任務可以并行計算，彼此間幾乎沒有依賴關系。

reduce階段負責對map階段輸出的結果進行匯總，即將分割開的任務合并，將與一個key關聯的一組中間數值集歸約為一個更小的數值集，輸出最終的計算結果。

2.2.1 MapReduce執行機制[1-3]

通過將Map調用的輸入數據自動分割為M個數據片段的集合，Map被分布到多臺機器上調用執行。輸入的數據片段能夠在不同的機器上并行處理。使用分區函數將Map調用產生的中間key值分成R個不同分區，Reduce調用也被分布到多臺機器上執行。分區數量和分區函數由用戶來指定。

⑴ 計算程序首先調用的MapReduce庫將輸入文件分成M個數據片段，每個數據片段的大小一般從 16MB到64MB（可以通過備選參數來控制每個數據片段的大小）。然后計算程序在機群中創建大量的程序副本。

⑵ 這些程序副本中有一個特殊的程序-master。副本中其他程序都是worker程序，由master分配任務。有M個map任務和R個reduce任務將被分配，master將一個map任務或reduce任務分配給一個空閑的worker。

⑶ 被分配了map任務的worker程序讀取相關的輸入數據片段，從輸入的數據片段中解析出key/value對，然后把key/value對傳遞給計算程序自定義的map函數，由map函數生成并輸出的中間key/value對，并緩存在內存中。

⑷ 緩存中的key/value對通過分區函數分成R個區域，之后周期性的寫入到本地磁盤上。緩存的key/value對在本地磁盤上的存儲位置將被回傳給master，由master負責把這些存儲位置再傳送給reduce worker。

⑸ 當reduce worker程序接收到master程序發來的數據存儲位置信息后，使用RPC從map worker所在主機的磁盤上讀取這些緩存數據。當reduce worker讀取了所有的中間數據后，通過對key進行排序后使得具有相同key值的數據聚合在一起。由于許多不同的key值會映射到相同的reduce任務上，因此必須進行排序。如果中間數據太大無法在內存中完成排序，那么就要在外部進行排序。

⑹ reduce worker程序遍歷排序后的中間數據，對于每一個惟一的中間key值，reduce worker程序將這個key值和它相關的中間value值的集合傳遞給用戶自定義的reduce函數。reduce函數的輸出被追加到所屬分區的輸出文件。

⑺ 當所有的map和reduce任務都完成之后，master喚醒計算程序。在這個時候，在計算程序里的對MapReduce調用才返回。

2.2.2 結果數據的處理

在成功完成任務之后，MapReduce的輸出存放在R個輸出文件中（對應每個Reduce任務產生一個輸出文件，文件名由用戶指定）。如果這些輸出不是最終的業務計算結果，則不需要將這R個輸出文件合并成一個文件，而是把這些文件作為另外一個MapReduce的輸入，或者在另外一個可以處理多個分割文件的分布式應用中使用。

當得出最終的業務計算結果，可能需要將數據遷移到適合業務應用訪問的存儲中，比如關系型數據庫或支持高并發、低響應延遲的NOSQL數據庫中。

3 節點故障處理機制

作為一個分布式計算平臺必須要能很好地處理節點故障，不能因為某一個節點的故障而導致整個集群的計算任務失敗。對于任務本身因為代碼缺陷造成的執行失敗，當任務執行次數超過一定閾值后便不再執行，不列為節點故障問題。

3.1 中心節點故障

中心節點分布式框架中存在worker和master兩類節點角色。

3.1.1 worker故障

master周期性地ping每個worker。如果在一個約定的時間范圍內沒有收到worker返回的信息，master將把這個worker標記為失效。所有由這個失效的worker完成的map任務被重設為初始的空閑狀態，之后這些任務就可以被安排給其他的worker。同樣，worker失效時正在運行的map或reduce任務也將被重新置為空閑狀態，等待重新調度[2]。

當worker故障時，由于已經完成的map任務的輸出存儲在這臺機器上，map任務的輸出已不可訪問了，因此必須重新執行。而已經完成的reduce任務的輸出存儲在全局文件系統上，因此不需要再次執行。

當一個map任務首先被worker A執行，之后由于worker A失效了，又被調度到worker B執行，這個“重新執行”的動作會通知給所有執行reduce任務的worker。任何還沒有從worker A讀取數據的reduce任務將從worker B讀取數據。

MapReduce可以處理大規模worker失效的情況，MapReduce master只需要簡單地再次執行那些不可訪問的worker的工作，之后繼續執行未完成的任務，直到最終完成這個MapReduce操作。

3.1.2 mastre故障

一個簡單的解決辦法是，讓master周期性的將描述集群計算任務的數據結構的寫入磁盤（位于集群以外的位置），即檢查點（checkpoint）。如果這個master任務失效了，可以從最后一個檢查點（checkpoint）開始啟動另一個master進程。然而，由于只有一個master進程，master失效后再恢復是比較麻煩的，因此我們現在的實現是，如果master失效就中止MapReduce運算。客戶可以檢查到這個狀態，并且可以根據需要重新執行MapReduce操作[2]。

當用戶提供的map和reduce操作是輸入確定性函數（即相同的輸入產生相同的輸出）時，我們的分布式計算任務在任何情況下的輸出都和所有程序以正常的順序執行所產生的輸出是一樣的。

3.2 省級分節點故障

基于全局分布式框架的計算模型，如果省級分節點發生故障，則該省的數據將缺失（主要是影響動態感知數據），和該省相關的數據計算任務都將失敗。但不會影響其他省與中心節點之間的業務，中心節點仍能保持絕大部分的業務服務能力。

省級分節點需要具備一定的冗災機制，比如數據庫HA、數據備份，以應對分節點故障，保證分節點的不間斷運行。同時在省級分節點和中心節點之間的網絡設施上也應該有一定的冗余，以應對突發事件。

4 應用場景

以下論述船聯網兩級分布式計算框架的應用場景，以及在各個場景下集群的計算擴展能力。

4.1 跨省船舶監控

船聯網要求實現跨省船舶實現聯網監控，比如A省船舶進入B省區域，B省應能夠立即獲取到該船舶的基本信息和動態感知數據（如GPS）。

在船聯網分布式計算框架下，當有船舶跨省行駛，船舶所屬省的省級分節點將率先監控到這一行為，分節點會查詢該船只的基本信息和簽證信息，然后通知中心節點，并開始向中心節點持續發送該船只的動態感知數據。中心節點得到信息后，更新該船只的狀態信息，然后聯系船舶進入的目的省所在的省級分節點，將船舶基本信息、動態數據也發送給目的省分節點。當船只返回原籍或駛入其他省份，則中心節點變更推送的目的分節點。如此一來，跨省船舶的信息在中心節點和目的省都可以查詢和監控，在保證集群線性擴展能力的前提下完成了跨省船舶的監控跟蹤。

4.2 航運數據質量分布式管控

智能航運首先需要按照一個統一的數據標準校驗其數據質量，通過校驗的數據才能應用于應用服務。同時，船聯網也需要一套持續可行的數據質量管理機制，保證后續數據處理的規范性。

通過智能航運數據處理的分布式彈性計算框架，可以采取分而治之的方式達到數據質量的管控，同時也能保證整體架構的擴展性。中心節點制定數據質量管控的規范，下發數據標準到各個省級分節點。省級分節點按照數據標準校驗并清洗自己負責的部分，轉換為符合要求的數據結構，然后將結果數據和數據質量處理報告上報給中心節點。如果省級分節點持續增加，數據在達到一定規模限制后中心節點也可以借助自身的中心分布式框架進行計算擴展。

4.3 海量航運數據挖掘分析

隨著海量航運數據的集中，為挖掘數據的內在價值，需要對這些業務數據進行統計分析和數據挖掘，如預測建模、關聯分析、數據聚類、異常檢測等。進行海量航運數據挖掘分析時，兩級分布式計算框架通過全局分布式保證了挖掘模型樣本的數據質量，然后在中心分布式框架上完成挖掘分析計算。在中心分布式框架上可以結合mahout、R等挖掘分析軟件，更快速地完成分析模型的構建。

5 結束語

兩級分布式計算平臺的設計體系可以在滿足當前智能航運數據處理要求的情況下，充分考慮到今后航運信息化發展中數據爆炸性增長時的計算擴展要求。雖然在初期，整個分布式計算平臺的建設需要一定的投入（涉及多個省市以及中心節點的建設），但由于具備良好的線性擴展能力，今后的集群擴展成本將非常可控：平臺不需要更換升級，只要不斷增加節點，即可以提供不斷增長的計算能力。隨著具體計算需求的落地和實現，智能航運分布式計算平臺將充分挖掘航運數據中的價值，為航運業務應用提供更好的數據支撐和運算服務。

參考文獻：

[1] L?mmel R. Google's MapReduce programming model―Revisited[J].Science of computer programming，2008.70（1）： 1-30

[2] Dean J， Ghemawat S. MapReduce： simplified data processing on

large clusters[J]. Communications of the ACM，2008.51（1）：107-113

[3] Urbani J， Kotoulas S， Oren E， et al. Scalable distributed reasoning

using mapreduce[M]//The Semantic Web-ISWC 2009. Springer Berlin Heidelberg，2009：634-649

第2篇：云計算與分布式技術范文

關鍵詞：物聯網技術；云計算；分布式緩存；部署方式；功能架構

中圖分類號：TP3 文獻標識碼：A 文章編號：1009-3044（2017）05-0243-01

1 前言

物聯網技術是在計算機、互聯網和移動通信網相繼應用之后的又一次通訊產業的巨大變革，通過信息傳輸和處理技術，實現了大范圍內的物體之間的信息交互。該技術能夠更好的協助工作人員和用戶實現對于物理世界的管理。云計算中的分布式緩存技術具有處理能力大、系統容量大、擴展性好和穩定性強等優勢，在物聯網中有著廣闊的應用前景。

2 物聯網技術

根據現在較為通用的定義，物聯網是指通過射頻識別（RFID）、紅外感應器、全球定位系統、激光掃描器等信息傳感設備，按約定的協議，把任何物品與互聯網連接起來，進行信息交換和通信，以實現智能化識別、定位、跟蹤、監控和管理的一種網絡。簡而言之，物聯網就是“物物相連的互聯網”，其核心和基礎仍是互聯網，是在互聯網基礎上延伸和擴展的網絡，其用戶端延伸和擴展到了任何物品與物品之間的信息交換和通信。物聯網產業覆蓋了傳感感知、傳輸通道、運算處理、行業應用等領域，其中涉及的技術包括RFID射頻識別、傳感器、無線網絡傳輸、高性能計算、智能控制等。

3 云計算分布式緩存技術

3.1 分布式緩存技術功能架構分析

分布式緩存從本質上來說屬于一個應用程序，在該程序中用戶能夠得到多個數據節點傳輸的集群服務信息，并于數據服務節點進行數據交互，在用戶提出數據存取請求之后，能夠通過特定算法映射在指定的數據服務節點上。分布式緩存技術功能架構主要有三部分：通信支撐層、數據存取層和數據處理層。其中通信支撐層的主要功能是實現通信協議，具體來看是依據路由連接管理區域的分布進行數據建聯和偵聽窗口建立；數據處理層的主要功能是訪問控制處理、管理鏈路和控制數據遷移；數據存儲層的主要功能是管理系統中的數據，主要有內存、SSD和硬盤三級管理機制，其中內存管理能夠分配內存的分配情況，依據實施訪問數據量進行內存空間的釋放和關閉，能夠在一定程度上避免內存碎片導致系統效率降低；SSD和硬盤管理主要負責服務器訪問過程中產生的永久數據的保存。在這樣的三級管理機制下，能夠保證系統在重啟或者關機的過程中仍然保持數據的連續性，避免數據丟失和惡意修改。

3.2 分布式緩存技術部署方式分析

分布式緩存的服務器集群主要采用無主架構，由于服務器的節點地位相同，因此，可以利用網狀的全連接方式進行連接。為保證系統的使用方便，可以利用API進行數據透明訪問，采取這樣的部署方式能夠降低分析數據在后端服務節點分布情況的計算量，能夠極大的提高系統的處理效率。與此同時，分布式緩存集群的處理能力與集群中數據節點的規模相關，隨著緩存數據在集群中各節點分布量的增加，稻荽理能力也會隨之提升。采用這樣一種數據緩存分布模式的另一個優勢在于用戶可以在任意服務點登錄系統，系統提供了一個靈活性較高的操作控制臺，在這樣一個控制臺中，可以進行集群服務節點數據的查閱，也可容易通過該平臺進行集群軟件的安裝和更新。

3.3 分布式緩存技術的優勢

云計算中分布式緩存的主要優勢體現在整體架構的擴展性能較強，一旦出現系統性能不足以滿足數據處理和訪問的需要，只需要增加新的節點，就能較為簡便的完成框架性能的提升。分布式緩存的這一優勢使得系統容量能有隨著節點的增加而增加。與此同時，單個節點的訪問量高峰時能夠達到20萬次/秒，分布式緩存為了在單點出現故障的情況下，仍能保證系統的完整性，采用了多副本復制技術，同時考慮到該項技術中使用的一致性Hash分布算法和無主結構框架，大大提升了系統的抗干擾能力，保證系統運行的穩定性。

4 云計算分布式緩存技術在物聯網中的應用

物聯網技術是一項革命性的技術，是對傳統信息通訊技術的巨大挑戰，物聯網技術在日常生活和工作中無處不在，它在人與人信息交互的基礎上，創造性地提出了物體之間的數據傳輸和交流。但是這樣規模的數據傳輸，需要處理和存儲海量的數據，對現有的數據緩存和處理技術提出了新的要求。另一方面，物聯網技術不僅能夠處理標準協議終端之間的信息傳遞需要，同時滿足非標準協議終端之間的業務授權操作，這就要求網關業務必須要保持非常好的連通性和抗干擾性。結合上文中對于云計算分布式緩存技術的分析，認為該技術能夠很好的滿足現在即將來物聯網技術對于海量數據處理和存儲的要求。應用該技術，能夠很好的提升系統在高數據吞吐量條件下的處理速度和穩定性，提升物聯網中高水平的并發處理能力，增強動態數據遷移的需要。更為重要的是，在物聯網擴容的時候，只需要經過簡單的操作，就能夠增加數據節點，從而提升系統容量和處理速度。在某一個節點出現問題的情況下，也能維持系統的正常運轉，正在處理的業務不會中斷，數據也早已進行備份，避免了數據的丟失。

5 結語

物聯網的發展和云計算的興起有著非常緊密的聯系，物聯網包含了各類物體實體的信息，如果沒有高效的存儲方式和快速的處理系統，就無法實現物聯網的大部分功能。云計算技術為物聯網中數據的存儲和樹立提供了技術支持，將分布式緩存技術應用到物聯網中，能夠大幅提升網絡的效率，提升社會生產力。

參考文獻：

[1] 李爽. 基于云計算的物聯網技術研究[D]. 安徽大學， 2014.

第3篇：云計算與分布式技術范文

正是在這樣的需求、技術、應用和政策的背景下，云計算成為IT業界共同認可的主流聲音。云計算其實就是把所有的計算應用和信息資源都用網絡連接起來，供個人和應用隨時訪問、管理和使用。云計算服務提供資源，包括計算、存儲及網絡資源，需要能夠實現海量的存儲、出色的安全性和可靠性；云計算提供的服務應該是動態的、可擴展的，能夠根據用戶和應用的規模進行動態伸縮，并且這種伸縮所需要的時間是短暫、迅速的；云計算平臺應該能夠提供開發應用程序編程接口（API）、環境和工具，供各種應用進行使用。只有這樣云計算平臺才能夠和應用很好地結合起來，使得傳統的集中式應用方便地遷移成高性能、高可靠且易擴展的分布式的云計算應用，為用戶提供類型多樣的云服務。

云計算是物聯網發展的基礎。互聯網主要解決人與人的互聯，連接了虛擬與真實的空間；而物聯網主要解決的是物與物之間的互聯，連接了現實與物理世界。物聯網是以互聯網的發展為前提的。隨著物聯網應用的發展、終端數量的增長，會產生非常龐大的數據流，這時就需要一個非常強大的信息處理中心。傳統的信息處理中心是難以滿足這種計算需求的，在應用層就需要引入云計算中心處理海量信息，進行輔助決策。云計算作為一種虛擬化、分布式和并行計算的解決方案，可以為物聯網提供高效的計算能力、海量的存儲能力，為泛在鏈接的物聯網提供網絡引擎和支撐。

1 分布式緩存的發展

在互聯網應用剛起步時，各種平臺大多采用的是關系型數據庫。那時PC機昂貴、性能低下并且網絡不普及，而關系型數據庫因為處理能力強、數據安全可靠、一致性好等優勢，一直處于主導地位，并發揮了重要的作用。隨著互聯網的發展，特別是WEB 2.0等交互式、個性化應用的出現，數據量急劇增加，傳統的關系型數據庫已經無法滿足這種快速增長的存儲需求。為此不少IT服務提供商都設計開發了自己的存儲系統，如亞馬遜在2007年10月份開發出的Dynamo就是其中非常典型的一種存儲系統（如圖1所示），作為狀態管理組件和存儲服務的基礎被用于眾多的亞馬遜的系統中。

對于Google，Amazon，淘寶這樣的互聯網企業，每時每刻都有無數的用戶在使用它們提供的互聯網服務，這些服務帶來的是大量的數據吞吐量，在同一時間，并發的會有成千上萬的連接對數據庫進行操作。在這種情況下，單臺服務器或者幾臺服務器遠遠不能滿足這些數據的處理需求，單靠提升服務器性也已經改變不了該情況，所以唯一可以采用的辦法就是擴展服務器的規模。服務器規模擴展通常有兩種方法：一種是仍然采用關系型數據庫，然后通過對數據庫的垂直和水平切割將整個數據庫部署到一個集群上，這種方法的優點在于可以采用基于關系型數據庫（RDBMS）的技術，但缺點在于它是針對特定應用，實施非常困難；另外一種方法就是Google和Amazon所采用的方法，拋棄關系型數據庫，采用Key-Value形式的存儲，這樣可以極大地增強系統的可擴展性。事實上，基于Key-Value的分布式緩存就是由于Google的BigTable，Amazon的Dynamo以及Facebook的Cassandra等相關論文的發表而慢慢進入人們的視野，這些互聯網巨頭在分布式緩存上的成功實踐也使之成為了云計算的核心技術。

2 分布式緩存技術

2.1 分布式緩存的部署方式

緩存服務器集群采用無主架構，所有服務器節點地位完全一致，互相之間采用網狀的全連接方式。應用通過調用分布式緩存提供的API對數據進行透明訪問，無需關心數據在后端服務節點的分布情況。數據在集群各節點均勻分布，集群數據處理能力隨集群中節點數量的擴充呈線性增長。集群通過數據的多副本機制能夠提高系統的可用性，某幾臺服務節點的宕機對應用的數據訪問沒有任何影響。服務器節點能夠根據應用的需求靈活配置數據是否持久化存儲。

分布式緩存同時提供操作控制臺，能夠登錄到任何一個服務節點并對集群的成員關系、訪問負荷、數據分布進行監控和配置，同時通過操作維護臺可以完成分布式緩存集群軟件版本的安裝、升級和配置。目前分布式緩存提供基于命令行（telnet登錄）和基于B/S的圖形化運維方式。分布式緩存系統的具體部署如圖2所示。

2.2 分布式緩存功能架構

分布式緩存為應用程序提供了客戶端程序庫以及若干數據服務節點組成的服務集群，客戶端通過和數據服務節點通信形成可用服務器列表，并將應用程序提交的存取請求通過路由算法映射到一個確定的數據服務節點上，具體的功能架構如圖3中所示。

數據服務節點主要分成3個層次：通信支撐層、數據處理層和數據存取層。

通信支撐層主要負責通信協議適配，根據數據處理層中路由鏈路管理模塊的指示進行端口的偵聽和主動建鏈，同時完成底層通信數據包的發送和接收。

數據處理層包括路由鏈路管理模塊、訪問控制處理模塊以及數據遷移控制模塊。

數據存儲層提供內存/SSD/硬盤介質的三級存儲管理，具體可以根據應用的要求進行不同的配置。內存管理關注內存分配的效率以及如何避免內存碎片的形成，并根據數據訪問頻度進行最近最少使用算法（LRU）控制。SSD和硬盤存儲模式在保證訪問性能的同時提供數據的持久化存儲，在這兩種存儲模式下數據不會隨著服務節點重新啟動而丟失。數據存儲層提供數據生存期管理機制，能夠自動清理過期數據。

2.3 分布式緩存關鍵技術

分布式緩存在保證數據訪問可靠性、最終一致性的同時對應用提供高吞吐、低時延的訪問服務，通過增加數據服務節點即能實現處理能力的性能擴充，擴容過程對應用訪問完全透明。下面對分布式緩存涉及的關鍵技術進行介紹。

2.3.1 NRW多副本機制

分布式緩存通過多副本機制實現數據訪問的可靠性，同時多個副本之間的數據同步又會帶來性能和一致性的問題。我們采用NRW多副本技術來保證數據在可靠性、高性能訪問以及最終一致性之間取得平衡。圖4是NRW機制的示意圖，其中N是一個數據的副本數，R代表一次成功的讀取操作中最小參與節點數量，W代表一次成功的寫操作中最小參與節點數量。當分布式緩存的訪問模型滿足R+W >N時就能保證數據訪問的可靠性和一致性。

R和W直接影響性能、可用性和一致性。如果W設置為 1，則分布式緩存集群中只要有一個節點可用，就不會影響寫操作；如果R 設置為1，則分布式緩存集群中只要有一個節點可用，就不會影響讀請求。但顯而易見R 和W值過小都會對影響數據訪問的性能和可用性，為兼顧性能、可用性和一致性，這兩個值一定要合理設置。

2.3.2 一致性Hash和虛節點

一致性Hash需要首先求出分布式緩存數據服務器（節點）的哈希值，并將其配置到0～232的圓上，用同樣的方法求出存儲數據的鍵的哈希值，并映射到圓上。然后從數據映射到的位置開始順時針查找，將數據保存到找到的第一個服務器上。如果超過232仍然找不到服務器，就會保存到第一臺緩存數據服務器上。因為數據節點服務器的機型并不統一，其性能和容量是不同的，可以使一個物理節點負責多個Hash區間的處理，使高端機器能夠被充分利用。在出現熱區時，可以將過熱的Hash區間以虛擬節點的方式放在負荷較低的物理節點上。

分布式緩存平臺結合了一致性Hash和虛擬節點的特點并加以改進，形成了如圖5的方案：將232的Hash空間等分為若干分片，每個分片即是一個虛節點，根據各物理節點性能差異配置處理不同數量的虛節點，這些虛節點在物理節點上的部署關系即形成虛節點的路由。

通過一致性Hash和虛節點相結合的方式，實現了數據在集群的均勻分布，同時也實現了數據服務器節點熱點的消除。

2.3.3 智能路由交換

路由是指分布式緩存集群中虛節點在數據服務節點上的分布情況。分布式緩存平臺構建了一個分布式鎖同步系統來存放全局路由表，這張路由表是分布緩存集群路由管理的基準表，路由變更時必須要首先修改這張路由表中對應的路由記錄。

為避免每次路由查找都需要查詢分布式鎖服務，各數據服務節點在本地同時存儲全局路由表，路由查找時可直接在本地進行。這樣帶來的一個問題是本地路由記錄可能已經過期，因此在路由記錄中增加修改時間戳來進行路由記錄版本的控制，舉例說明：

（1）第10號虛節點的路由信息是：存在3個副本，依次存放在服務節點A、B、C上，該條路由信息在集群中所有節點本地都有存儲。

（2）A節點發生故障宕機，在A宕機期間，操作員對10號虛節點的路由記錄進行了手工調整：仍然是3個副本，依次存放在服務器節點A 、D、C上，集群中除A節點外都完成了本地路由記錄的更新。

（3）此后A恢復了服務，A節點本地10號虛節點的路由記錄成為一個過期的記錄，當A節點收到落在10號虛節點上的數據讀寫請求時，就會對B、C節點的副本進行訪問，訪問時會帶上本地10號路由記錄的時間戳，B、C節點收到訪問請求后會立即通知A路由信息已經過期，通過這樣的路由交換機制，A快速地完成了本地路由記錄更新。

上述例子中路由交換是通過數據訪問請求被動觸發，同時集群中每個節點的路由管理模塊也會定時啟動路由交換，通過這種類似病毒傳染式的智能路由交換，路由變更能在集群所有節點中快速生效。客戶端API的路由記錄也采用同樣的方式：客戶端API本地緩存路由信息表，在數據訪問的同時完成和服務節點的路由交換，大大提高了路由查找的效率，降低了數據訪問的時延。

2.3.4 成員關系維護和故障檢測

分布式緩存將節點分成兩類：種子節點和普通節點。

種子節點是系統配置時，需要預先從所有節點中選出若干個節點，它們的職責是指揮系統的鏈路建立和拆除等。

普通節點啟動后，根據配置向種子節點主動建鏈，種子節點對連接上的普通節點進行統一管理，根據一定的原則比如按照IP數值的大小，通知普通節點完成互相之間的建鏈，種子節點互相之間也根據這個原則完成兩兩之間的連接。圖6描述集群成員關系建立的過程。

（1）分布式緩存當前有節點1、2、3、5共4個節點，相互之間兩兩存在鏈路，節點1、2是種子節點，節點0、3、5是普通節點。

（2）普通節點4新加入緩存集群，它首先根據配置主動連接種子節點1和節點2。

（3）種子節點1發現當前有普通節點0、3、5和它建立了鏈路，當普通節點4連接成功后，它根據節點大小原則指揮節點4連接普通節點 0 和3，同時指揮原有普通節點5連接節點4。

分布式緩存通過上述機制維護集群中節點的成員關系，最終在各節點間形成網狀的全連接模型，兩兩之間具備通信鏈路，任何節點故障和恢復都能夠快速被集群中其他節點檢測到。

3 分布式緩存助力物聯網平臺云化

3.1 分布式緩存的優勢和解決的問題

分布式緩存具有明顯的技術優勢。分布式的架構從架構上保證了良好的擴展性，當性能不夠時，可以輕松地通過添加新節點的方法擴展性能；因為良好的擴展性，所以分布式緩存的容量可以隨著節點規模的增大而呈線性增加，容量不會成為系統的瓶頸；分布式緩存采用的是基于Key-Value的簡單存儲方式，緩存的架構和以內存為基礎的訪問方式使得分布式緩存性能非常高，單節點每秒可以達到24萬多次的讀寫操作；分布式緩存所使用的多份副本復制的方法，避免單點故障；同時無中心化的架構和一致性Hash的數據分布算法，使得局部節點的損壞不會影響整體集群的可用性，把故障的影響降到最低。

目前的應用在部署運行過程中常會遇到一些問題：第一，單節點不能滿足性能要求時，需要擴展到多個節點，通常采用按號段的方式進行擴展，此種擴展方式不具有通用性，與各個應用密切相關，開發和維護的成本也較高；第二，在不同的物理節點的應用上共享數據，通常通過文件的方式或同步的方式進行共享，但是這在性能和一致性的處理上存在較大的風險和困難；第三，因為多個節點同時訪問數據庫，使得數據庫和磁盤I/O成為系統的瓶頸，通常使用單節點的緩存方式來解決，這樣一方面會造成系統資源的浪費，另一方面也使各個節點中緩存一致性的處理也非常復雜；第四，應用節點的應用程序意外退出重啟動后，如何保證已有的會話不掉線，往往通過寫文件的方法實現，這時磁盤I/O以及系統初次的加載都存在性能瓶頸。把分布式緩存引進應用后，可以方便地幫助應用解決這些問題。應用通過調用分布式緩存提供的API接口，把關鍵的數據放到分布式緩存中，而自身重點關注應用邏輯的處理，這樣可以輕松打造出高性能的、可擴展的、高可靠的分布式應用系統，通過標準接口的封裝，對外提供云服務。

3.2 分布式緩存在物聯網中的應用

物聯網的出現是信息通信技術（ICT）的新挑戰。物聯網無所不在，它可以使所有的物體，從洗衣機到冰箱、從房屋到汽車通過物聯網進行信息交換。物聯網技術融入了射頻識別（RFID）技術、傳感器技術、納米技術、智能技術與嵌入技術。物聯網技術將是改變人們生活和工作方式的重要技術。物聯網主要包括3個層次，如圖7中所示。第1個層次是傳感器網絡，也就是目前所說的包括RFID、條形碼、傳感器等設備在內的傳感網，主要用于信息的識別和采集；第2個層次是信息傳輸網絡，主要用于遠距離無縫傳輸來自傳感網所采集的巨量數據信息；第3個層次是信息應用網絡，該網絡主要通過數據處理及解決方案來提供人們所需要的信息服務。

物聯網業務網關屬于第3個層次，如圖8所示。它是實現物聯網應用和物聯網終端智能連接的橋梁，能夠提供接入認證、智能路由、業務計費、能力接入、服務質量（QoS）服務保障等核心功能。支持通用分組無線業務（GPRS）、短信、有線接入等多種網絡接入方式。物聯網業務網關匯聚所有的機器到機器（M2M）終端消息，除了支持標準協議終端的消息處理外，對非標準協議終端也提供IP層路由轉發和業務鑒權功能。因此對業務網關相關的性能提出了極高的要求。

中興通訊物聯網業務網關采用多模塊架構，通過引入云計算分布式緩存平臺，使其具有極高的吞吐率，保證了網關的高并發處理能力，系統在兩個刀片機框滿配置的情況下，可達到18萬條/秒的報文轉發速率。分布式緩存的應用，使系統支持數據動態遷移，在個別節點故障不會造成事務的中斷。

4 結束語

物聯網與云計算存在著密不可分的關系。一方面，物聯網的發展離不開云計算的支撐。從量上看，物聯網將使用數量驚人的傳感器（如數以億萬計的RFID、智能塵埃和視頻監控等），采集到的數據量驚人。這些數據需要通過無線傳感網、寬帶互聯網向某些存儲和處理設施匯聚，而使用云計算分布式緩存等系列技術來承載這些任務具有非常顯著的性價比優勢；從質上看，使用云計算系列技術對這些數據進行處理、分析、挖掘，可以更加迅速、準確、智能地對物理世界進行管理和控制，使人類可以更加及時、精細地管理物質世界，從而達到“智慧”的狀態，大幅提高資源利用率和社會生產力水平。可以看出，云計算憑借其強大的處理能力、存儲能力和極高的性能價格比，很自然就會成為物聯網的后臺支撐平臺。另一方面，隨著物聯網針對智能交通、智能醫療、智能電網等領域解決方案的落地，物聯網將成為云計算最大的用戶，為云計算系列技術取得更大商業成功奠定基石。

Cloud Computing Distributed Cache Technology and Tts Application in the Internet of Things

第4篇：云計算與分布式技術范文

在分布式存儲領域，書生云公司投下了一顆重磅“炸彈”。書生云新一代分布式存儲SurFS的爆炸性不僅體現在對傳統存儲架構的顛覆上，更具代表性和引領性的是，書生云將SurFS的核心技術開源，這也讓書生云站到了開源的風口浪尖上。

突破來得很及時

其實，許多互聯網公司很早就開始使用分布式存儲技術。在云計算興起后，一個普遍的觀點是，分布式存儲技術是最適合云計算應用的。雖然許多傳統企業在擁抱“互聯網+”的過程中，希望借鑒互聯網思維實現轉型升級，但是在互聯網企業那里得到成功驗證的新技術和解決方案就一定適合企業級用戶嗎？分布式存儲能夠完全取代傳統SAN存儲嗎？這些問題只有在經過更加深入的研究和實踐之后，才能找到答案。

人們已經意識到，在云平臺的建設中，存儲和網絡可能是瓶頸所在。因此，軟件定義網絡（SDN）、軟件定義存儲（SDS）成了許多人追逐的對象。就存儲而言，傳統SAN的高性能、高可用、高可靠是企業級用戶所倚重的，但是SAN的高成本、高復雜度、不能橫向擴展則是企業級用戶心中揮之不去的陰影。

在這種情況下，有人想到了“折中”的辦法，比如宏杉科技將分布式存儲技術與傳統SAN進行融合，推出了CloudSAN。而書生云毫不妥協地選擇了分布式存儲的發展道路，推出了自主研發的新一代分布式存儲系統SurFS。

書生云董事長王東臨表示，SurFS對存儲網絡進行了顛覆式的創新，率先采用SAS做存儲網絡，在將帶寬提升幾十倍的同時大大降低了延遲。

SurFS主要實現了兩大突破：第一，去中心化，將存儲控制節點與存儲介質分離，存儲控制節點與計算節點聚合，基于全局存儲池，使得單個存儲服務器可以訪問所有磁盤；第二，采用SAS交換網絡取代通常所用的IP網絡，性能更高，網絡損耗和延遲更低，且支持糾刪碼。

OpenStack官方網站的數據顯示，在同樣配置下，SurFS的性能遠超當前主流的HDFS、Ceph、GFS等分布式存儲系統，將云平臺的綜合性能提升50%；在同樣采購規模下，SurFS的購置成本可以降低20%，運維成本降低50%。王東臨表示，SurFS在性能、成本、可靠性、可用性和可擴展性等5個重要指標上有重大提升。

用一句話概括，SurFS分布式存儲利用超融合突破了傳統存儲的成本限制，同時利用SAS交換機突破了性能的限制。

云安全和云存儲是書生云構建企業云平臺的兩大重要技術支柱。TruPrivacy是書生云的自有專利技術，它重新定義了云存儲服務的安全性，即使網絡被攻破、服務器被黑、源代碼被泄露，任何人也無法從云端竊走數據。SurFS可以提供塊存儲、NAS存儲和對象存儲服務，并可直接與OpenStack集成。正是基于這些特色技術，書生云在云計算領域如魚得水，并且打造了企業私有云、企業云盤、美國醫療云服務和全球個人云文檔服務四大核心業務。

書生云為什么這么大方？

書生云SurFS的其實是一箭雙雕：一方面，SurFS開辟了新一代分布式存儲的新路；另一方面，書生云“大方”地將SurFS開源，有興趣的人可以在Github上下載使用。

開源一詞有多層含義，它既是一種軟件開發模式，又是一種商業模式，更是一種文化。中國的軟件工程師對開源軟件并不陌生，很多工程師在接到公司下發的任務后，第一件事就是上網去尋找有沒有開源軟件可以直接下載使用，但以前通常只索取，不貢獻。近幾年，中國的開源氛圍越來越濃厚，除了人們對開源技術越來越有信心，中國廠商和開發者加入開源社區并積極貢獻代碼也是一個重要原因。在Linux、OpenStack、Ceph等全球知名的社區中，一些中國廠商在代碼貢獻量方面的排名十分靠前，有的甚至能位列前三。

但同時我們也看到，在全球范圍內具有影響力的開源社區主要由國外廠商主導，源自中國的開源社區幾乎沒有，更沒有能在國際上流行起來的開源項目。書生云公司將SurFS技術開源，也是期望打破這一局面。

最近在開源領域引起廣泛關注的一條消息是，開源軟件市場的領導者紅帽公司年收入首次突破20億美元大關。這一里程碑式的事件表明，開源軟件已經成為商業主流，開源軟件也可以很好地滿足企業級用戶的需求。

開源不是“做雷鋒”，開源也能與商業完美結合，也能掙錢。開源并不是單純地降低了使用門檻，而是對用戶提出了尋求自我價值匹配的更高要求。SurFS的開源可以通過“免費+定制化增值服務”的方式，為客戶提供高性價比的云平臺解決方案。

為了將SurFS開源，王東臨對公司董事會做了大量說服工作。從技術的角度講，SurFS開源可以讓書生云更方便地借助開源生態圈，集眾人之力共同完善SurFS的技術細節和功能，有可能將SurFS變成一個行業的標準；從商業的角度講，以前銷售是書生云的一個短板，通過SurFS開源，書生云可以方便地拓展銷售渠道，吸引更多的客戶；從社會效益的角度講，開源也是服務社會之舉。王東臨介紹說，開源SurFS的盈利之道主要包括：為客戶提供商業版本的SurFS產品，提供相關的技術支持服務，開展針對SurFS的培訓和認證。

如今，開源已經成了中國軟件廠商實現自主創新的重要抓手。邁入云計算、大數據時代，中國廠商在開源方面取得的進展也迅速縮小了中外IT廠商之間的技術差距。現在，一提到云計算，人們首先會想到OpenStack；一提到大數據，首先會想到Hadoop。這些技術都是開源的。圍繞著這些開源技術、社區，中國也涌現出一大批初創企業。

中國工程院倪光南院士在SurFS會上表示：“開源是一種明智的商業模式，它可以促進原始創新。SurFS的開源正逢其時。”

SurFS還有提升空間

新一代分布式存儲SurFS并不是紙上談兵。王東臨表示：“我們將OpenStack作為SurFS的一個主要應用場景，并且把SurFS提交給了OpenStack社區。在OpenStack存儲后端、視頻監控等應用場景中，SurFS已經實現了商業化部署。”

在市場上，SurFS并不是孤軍奮戰，因為書生云從一開始就為SurFS規劃了一個協同發展的生態圈。參加SurFS產品會的金山云、奇虎360、海云捷迅、華三通信、九州云、United Stack、樂視云、聯想、海康威視、神州數碼、太極等廠商都對SurFS技術表示出濃厚的興趣，其中有些廠商已經成了書生云的親密戰友。

企業級OpenStack云服務提供商海云捷迅CTO李華充分肯定了SurFS在技術架構上的先進性，認為SurFS為OpenStack提供了一種很好的存儲選項。海云捷迅正嘗試與書生云在OpenStack云平臺建設方面進行合作。

OpenStack平臺通常會采用以下三種存儲方式：第一，本地磁盤，基本用于測試環境；第二，傳統存儲，比如FC SAN、IP SAN等；第三，分布式存儲。SurFS為OpenStack后端存儲提供了一種新的選擇。

第5篇：云計算與分布式技術范文

關鍵詞：流量積算；分布式系統；云服務；嵌入式系統； Web

中圖分類號： TN919?34； TP273.5 文獻標識碼： A 文章編號： 1004?373X（2017）01?0104?04

Abstract： The distributed cloud computing technology is applied to the monitoring and control of the industrial production process， which plays the significant auxo?action to improve the system real?time performance， compatibility and scalability， and reduce the device cost and maintenance expense. The flow integrating management system is composed of the field acquisition control device and cloud service center. The field acquisition control device is used to collect the flow， temperature and pressure signals of the field acquisition device， and send the data to the cloud service center. The cloud service center takes charge of the flow centralizing integrating， real?time data and historical data storage， Web interactive exhibition and control. The system realizes the functions of flow data distributed collection， centralizing integrating in the cloud terminal， data unified storage， Web interactive exhibition and control， satisfies the requirement of work site for flow data unified management， and provides the mature and available architecture model and foundation for the expansion of other application models.

Keywords： flow integrating； distributed system； cloud service； embedded system； Web

0 引言

長期以來，流量的計量一直是計量工作中的重點和難點，直接影響著企業運行的穩定和企業成本的控制。隨著能源計量網絡的不斷完善和發展，對流量的計量提出了新要求。由于工業控制對參數的采集精度和控制的復雜程度要求越來越高，并且工業現場環境存在一定的不確定性、多變且比較惡劣，再加上現場操作工人的技術水平不夠高，這就對流量積算的性能提出了更高的要求。

為了避免供能單位和用戶之間可能存在的計量偏差，除了選擇合理的現場流量計外，同時也需要配備性能優異并符合目前智能化、網絡化要求的流量積算設備，這樣才能組成完善的流量計量系統。因此，將云計算和物聯網的概念和模型引入流量積算系統，設計一種基于分布式數據采集網絡的流量積算云服務系統，能夠極大地調高流量數據的傳輸效率，簡化流量檢測系統的復雜程度，提高系統的穩定性和可靠性，并且使對流量的監測和控制變得更加簡單和方便，提高整個測量系統的信息化水平。

1 分布式流量積算云服務系統的設計

1.1 系統架構

分布式流量積算云服務系統以生產過程流量測量特性及管理體系作為設計依據，以分布式系統結構為基礎，以云端統一積算和管理為支撐，并結合船舶企業實際計量網絡、檢測設備狀況、硬件環境等實際情況設計系統的總體架構。

分布式流量積算云服務系統的總體架構分為兩部分，包括分布式采集監控設備和云服務中心。

（1）分布式采集監控設備：采用北京世紀聯信公司研制的分布式實時數據服務器（Distributed I/O Server）和嵌入式遠程終端服務器（Remote Terminal Server，RTS）作為數據采集監控設備，通過分布式網絡結構實現對硬件設備、計量儀表（流量計、溫度傳感器、壓力傳感器等）實時數據的采集、存儲、匯總、推送、統一流量積算功能，并通過Web方式對外提供數據監視、服務器配置功能。

（2）云服務中心：云服務中心建立在互聯網云端的高性能服務器上，服務器可由用戶自己架設或者購買、租用第三方的通用云服務器，即采用IaaS或者PaaS云服務模式。云服務中心由流量補償與積算模塊、云數據中心和云顯控平臺組成。其中流量補償與積算模塊負責流量積算與補償的計算；云數據中心負責實時流量數據和歷史流量數據的存儲和歸檔；云顯控平臺負責向接入云中的各種終端設備用戶提供B/S（瀏覽器/服務器）架構的Web顯示界面，用于監控當前的運行狀況和實時、歷史數據[1]。

1.2 分布式實時數據服務器

分布式實時數據服務器將網關、RTU、生產數據庫、OPC通信接口、數據接口、防火墻、控制算法、計算模型等軟硬件集成在一起，部署在車間等工業現場，直接和間接地采集現場儀表的實時數據。分布式實時數據服務器結構如圖1所示。

分布式實時數據服務器提供了符合生產現場標準規范的各種接口，用于采集現場儀表的實時數據、監視現場設備的運行狀態以及向現場設備和執行機構發送控制命令。其接口包括A/D模擬量采集、D/A模擬控制信號輸出、I/O開關量監測與控制和RS 485，RS 422等串行總線接口[2]。

服務器內部建立了工業實時數據庫，用于存放實時和歷史數據。數據采集單元將采集的現場數據實時存入工業實時數據庫中，使數據庫中的數據一直保持更新。服務器向上通過以太網連接至云端，并將數據庫中的實時數推送至云端[3]。同時內建的WebServer能夠使用戶通過瀏覽器直接訪問分布式實時數據服務器，查看實時數據和服務器的配置信息。

1.3 系統通信方式

1.3.1 分布式數據采集系統通信方式

分布式實時數據服務器對外提供24路RS 485通信接口，能夠完全滿足生產現場的局部需求。嵌入式遠程終端服務器可以作為一個設備接入RS 485總線，接線方式如圖2所示。在此種連接情況下，需要保證串口波特率匹配，并且設備ID號不沖突[4]。

通過A/D模擬信號采集接口可以采集現場的4～20 mA以及1～5 V的標準信號，并通過配置工程量將轉換后的數字信號處理為對應的工程參數。

通過D/A輸出控制信號可以對現場執行機構進行控制，如控制電磁閥的開度用以調節流量的大小，通過工程量的配置同樣可以按照實際工程參數輸出對執行機構進行控制。

通過I/O接口可以讀取現場設備的開關量狀態，同時也可以輸出開關量來控制現場設備的開關。

1.3.2 云服務中心通信方式

分布式數據采集設備之間以工業以太網相互連接，形成覆蓋全廠的工業環網，并通過Internet連接至云服務中心。為保證數據的實時性、安全性和可靠性，云服務中心通過TCP/IP協議與現場設備進行實時通信。

2 流量積算云服務的設計

2.1 流量補償與積算模塊

流量補償與積算模塊是一個對各種液體、蒸汽、天然氣、一般氣體進行自動補償流量積算的軟件，與SCADA系統或其他信息系統交換數據。流量補償與積算模塊可以替代傳統硬件流量積算儀，實現更為精確的流量補償算法，獲得更為豐富的過程數據，解決了傳統硬件流量積算儀安裝分散不宜維護，參數設定繁瑣不宜操作，積算功能簡單且數據不宜共享等問題，從而提高積算精度，降低維護成本和維護強度，提升生產過程的自動化和信息化水平[8]。

2.2 云顯控平臺

云顯控平臺的功能如圖3所示，一方面云顯控平臺通過訪問實時數據庫和歸檔數據庫，從云數據中心中讀取實時和歷史數據，將數據顯示在用戶頁面上；另一方面云顯控平臺將用戶在頁面上下達的控制命令通過Socket（套接字）連接傳遞給對應的現場設備（如分布式實時數據服務器），從而實現用戶在云端對工業現場的精確控制。

3 系統的實現

3.1 數據采集

采集現場儀表的測量數據是分布式實時數據服務器的主要功能，而數據采集輪詢線程則是實現周期性數據采集的核心，包括采集周期控制線程與數據采集線程兩部分。周期性控制線程的功能是按照用戶設定的周期循環觸發數據采集線程，由Timer類和同步事件DeviceUnit.AutoResetEvent組成。DATimer類的具體描述見表1。

3.2 與云端通信接口

分布式實時數據服務器通過云端接口服務程序與客戶端（即云服務中心）進行通信。云端接口服務程序實現分布式實時數據服務器對外統一的數據和交互，并包含接口管理功能，其工作流程如圖4所示。由圖4可知，云端接口服務程序具有連接確認、實時數據、接收控制指令、其他記錄等四項功能，其具體實現流程如下：

（1）連接確認：確認客戶端（云服務中心）是否是授權客戶，確認后建立連接。

（2）實時數據：由客戶端提出實時數據請求列表，接口服務程序根據請求的參數與實時數據清單，對該客戶端周期性實時數據。

（3）接收控制指令：接口服務程序接收客戶端發送的控制指令后，對遠程設備進行控制，并向該客戶端反饋控制結果。

（4）其他：包括記錄接口配置和接口服務日志。

3.3 嵌入式遠程終端服務器

3.3.1 界面的實現

使用HTML+CSS的網頁制作方法，開發出一套制作符合嵌入式遠程終端服務器功能應用的Web頁面，主頁面如圖5所示。由主界面的導航欄功能菜單可知，通過Web交互，用戶能夠查看遠程終端服務器采集的實時數據以及控制端口的輸出狀態，能夠控制D/A以及I/O輸出端口的輸出，同時能夠對工程量和遠程終端服務器的通信端口的參數進行配置，并能夠查看這些參數的配置信息。

3.3.2 CGI通信接口

在嵌入式遠程終端服務器的B/S模式中，瀏覽器和Web服務器之間的通信通過CGI接口實現。

CGI接口的定義如下：

HTTPD_CGI_CALL（name， "TAG"， function）；

其中name是該接口的名稱；“TAG”是調用該接口的標識符；function是調用該接口后進入的接口函數。

3.3.3 實時數據采集

嵌入式遠程終端服務器能夠實時采集A/D采樣值和I/O輸入狀態。實時數據采集在系統的定時中斷中完成。為保證實時性，嵌入式遠程終端服務器的定時中斷周期設置為10 ms。

3.3.4 數據實時顯示和刷新

（1）實時顯示

采集到的A/D和I/O輸入的實時數據以及D/A輸出和I/O輸出狀態將在實時顯示頁面中顯示，供用戶監測，遠程終端服務器采集到的實時數據通過在CGI接口函數中使用snprintf（）函數將數據以HTML代碼的形式添加到HTML頁面文件中，然后將HTML文件傳輸給客戶端，在用戶瀏覽器中顯示出來。

（2）實時刷新

為保證刷新頻率的實時性以及良好的頁面顯示效果，嵌入式遠程終端服務器數據實時顯示頁面的刷新使用AJAXcCGI相結合的技術。數據實時顯示頁面通過在后臺運行的Javascript腳本中使用AJAX方式，周期性地異步訪問專門的數據頁面，并將該數據頁面的內容顯示在實時顯示頁面中，從而達到實時刷新的效果。

4 云服務中心

云顯控平臺的實質是一個云端Web服務器，用來向用戶顯示實時過程數據，并將用戶的控制命令發送給現場相應的分布式采集監控設備，從而驅動執行機構執行用戶命令。

云顯控平臺與用戶的交互通過多種多樣的Web顯示界面完成，包括數據表格、二維平面流程圖、3D動態虛擬現實技術等，通過先進的Web前端技術可以制作出逼真、漂亮的用戶界面和友好、自然的交互方式，并針對不同的用戶對象（如現場工人、現場工程師、中控室、企業管理者、能源供給商等）制作多種不同的界面，顯示各方面的實時信息，傳達不同方面的控制命令，使生產和管理更具針對性，提高生產和管理的效率和信息化水平。云顯控平臺示例頁面見圖6。

在流量監控頁面中，用戶可以看到生產現場閥門的開度信息，以及該閥門所在管道的溫度、壓力、瞬時流量和累積流量。同時，用戶還能夠通過滑動閥門右側的滾動條調節閥門的開度大小，從而達到調節流量的目的。

5 結論

本文設計的分布式流量積算云服務系統由現場采集控制設備和云服務中心組成，通過XML格式的TCP通信實現流量數據和控制命令的傳遞。現場采集控制設備包括分布式實時數據服務器和嵌入式遠程終端服務器，用于采集現場設備的流量、溫度、壓力等信號，并將數據發送到云服務中心。

本文設計的分布式流量積算云服務系統采用當前IT領域最前沿的分布式云服務系統模型，將其運用到流量積算的工業應用中來，實現了流量數據的分布式采集、云端集中積算、數據統一存儲和展示。分布式實時數據服務器和嵌入式遠程終端服務器提供了豐富的現場總線接口，能夠實現對絕大多數現場儀器儀表的數據采集和控制。基于B/S架構的云顯控平臺能夠針對不同的用戶定制不同的顯示頁面，包括數據表、二維流程圖和3D實景效果等，展示效果豐富，用戶針對性強。

參考文獻

[1] 陳燕俐，陳軍軍，杜英杰，等.可應用于分布式系統的多授權中心基于屬性的簽名[J].計算機應用研究，2014，31（2）：536?539.

[2] 任崇廣.面向海量數據處理領域的云計算及其關鍵技術研究[D].南京：南京理工大學，2013.

[3] 王錚.基于Hadoop的分布式系統研究與應用[D].長春：吉林大學，2014.

[4] 李興建，夏彥輝，陳松林，等.分布式穩定控制仿真測試系統的研制及應用[J].電力自動化設備，2014，34（5）：163?168.

[5] 蔣衛寅，李斌，凌力.分布式系統數據一致性和并發性優化研究[J].計算機工程，2012，38（4）：260?262.

[6] 魏光輝，李杰斌，王程玉，等.一種分布式系統上的元數據管理系統[J].計算機研究與發展，2013，50（z1）：416?420.

第6篇：云計算與分布式技術范文

【關鍵詞】云資源池混合架構部署策略指標監測

1 引言

電信運營商現有IT架構主要采用以IBM、Oracle、EMC為代表的小型機、集中式關系型數據庫和高端存儲的IOE架構進行構建，其架構主要特點是穩定、可靠和數據的一致性好。但隨著業務量的快速增長，帶來的大數據量、高并發使原有基于IOE架構的應用日益成為瓶頸，其擴展靈活性差，對大型IT廠商依賴和成本過高的矛盾突出。為了應對新的挑戰，電信運營商啟動對現有IT架構的變革，主要體現在以下2個方面：

（1）現有系統進行去IOE的實踐，以提高基礎設施共享水平及應用系統彈性，降低IT總體擁有成本：即對于B/S的Web服務器和應用服務器向X86服務器遷移；同時推進非核心系統的數據庫向X86服務器遷移，并優先選擇虛擬機部署，盡可能保障故障快速恢復；對于大型核心系統的數據庫服務器暫保留IOE架構，將歷史訂單、歷史客戶資料、歷史話單、計費清單等只讀數據剝離到云計算環境，降低核心數據庫處理壓力等；數據分析類應用全面基于Hadoop等分布式技術進行構建。

（2）構建新的“集中、開放和云化的IT架構”，基于互聯網化思維，以平臺化、服務化、組件化的方式構建IT架構，平臺與硬件解耦，硬件與軟件解耦，基礎設施云化，對內實現按角色提供個性化應用和數據，對外通過服務組裝快速支撐價值鏈合作。

為適應上述轉變，首先需要在IT基礎設施層面進行整合、建設形成統一的資源池，既滿足Web和應用服務器云化遷移到X86服務器（包括物理機和虛擬機）的需求，又滿足核心數據庫的小型機需求，同時還要滿足分布式計算架構的需求，這樣資源池就形成多種計算能力混合的資源池（包括X86虛擬機資源池、X86物理機資源池、UNIX小型機資源池）。其典型混合架構的云資源池架構如圖1所示。

2 混合架構的IT云資源池部署策略

如何構建合理的資源池來滿足上述不同特征系統的不同計算能力需求，是運營商IT部門面臨的一項重要挑戰。云資源池主要包括計算資源、存儲資源和網絡資源，總體部署策略應體系化、集約化和自動化，以降低資源池部署與運營成本，保障資源池的安全。

2.1 計算資源部署策略

根據計算功能和資源提供方式不同，可將計算資源分為3類，即虛擬計算資源池、物理計算資源池（包括X86和UNIX物理資源池）和分布式計算資源池。在資源分配過程中，可根據承載業務類型和需求不同，又將資源池劃分為不同的區域，如內網生產區、公網DMZ（Demilitarized Zone，隔離區）區和開發測試區等。不同資源分類、區域劃分主要是為了滿足不同應用的計算需求，并在保障安全的前提下降低計算資源部署成本。

（1）虛擬計算資源池：基于X86服務器部署主流虛擬化技術，以虛擬機方式提供計算能力，并以集群方式部署，按集群擴展。由于目前不同虛擬化技術資源無法共享，需分別部署在不同集群，建議同一資源池中盡量采用相同的虛擬化技術和CPU架構，以保持良好的資源調度能力，主要適用于各系統Web服務器、APP服務器、接口服務器等。

（2）X86物理計算資源：基于X86服務器直接以物理整機方式提供計算能力，主要滿足部分資源要求較高的數據庫和大型應用模塊部署需求。

（3）小型機物理計算資源：基于UNIX小型機直接以整機方式或者以分區的方式提供計算能力，主要滿足核心系統的數據庫部署需求。

（4）分布式計算資源：基于X86服務器集群部署分布式計算技術，主要滿足大規模數據存儲與處理需求，按集群部署和擴展。

另外，由于各類計算資源服務對象和資源形態的不同，資源間不能共享，需要統籌考慮資源的部署布局，按照功能又可分為以下3類，不同類型的區域需要按其特性進行計算能力的部署：

（1）生產區：生產類的系統資源穩定、可靠、安全性要求較高，可配置穩定性、可靠性、性能較高的虛擬計算和物理計算資源，以虛擬計算資源為主。針對大數據分析類應用，根據分布式計算特點，可配置中低端定制化X86物理服務器，部分場景（對性能要求不高）可配置虛擬計算資源。對于核心系統的數據庫，可沿用現有高可靠的小型機計算資源。

（2）開發測試類區：由于用于開發測試的資源配置、環境等調整較頻繁，穩定性和性能要求不高，為滿足各類系統的測試需要，可同時配置虛擬計算、物理計算和分布式計算3類資源，以虛擬計算資源為主，可配置中低端物理計算資源及分布式計算資源。

（3）DMZ區：以提供對外訪問的Web和應用平臺為主，應以虛擬計算資源為主。

2.2 存儲資源部署策略

存儲資源分為集中式存儲和分布式存儲。其中，集中式存儲是資源池存儲的主要提供方式，主要通過硬件保障性能和可靠性，主流技術包括FC-SAN、IP-SAN、NAS（Network Attached Storage，網絡附加存儲）等，但部署成本較高、擴容不靈活；分布式存儲是可基于X86服務器部署的新興存儲技術，主要通過軟件保障性能和可靠性，主流技術包括分布式對象存儲、分布式塊存儲、分布式文件存儲等，具備低成本、靈活擴容、高并發訪問等優勢。應根據不同存儲需求提供分級存儲手段，以降低存儲資源部署成本。

由于混合的資源池規模、存儲量都較大，承載不同特征的應用類型較多，所以應根據不同業務特性和存儲需求（如高I/O存儲、高容量冷溫數據存儲、大數據存儲、備份和歸檔存儲等），配置不同的存儲（集中式、分布式的不同存儲技術選擇），實現分級存儲，差異化利用資源，從而降低成本以及提升資源利用率。

由于集中式存儲存在多種不同技術架構（如FC-SAN和IP-SAN），難以實現資源共享，需相對獨立部署，但同一技術架構產品可通過存儲虛擬化技術實現資源整合共享；分布式存儲本質上可實現底層硬件資源共享，通過軟件方式提供差異化存儲能力和接口，但其中分布式塊存儲對I/O要求較高，需要特殊考慮硬件配置，如配置SSD（Solid State Disk，固態硬盤）、萬兆卡等。

2.3 網絡部署策略

資源池網絡主要包括節點內網絡、節點間網絡和對外訪問網絡3部分。

（1）節點內網絡主要承載業務流量、存儲流量以及虛機間流量，應實現流量之間的隔離，節點內網絡架構盡量扁平化。

（2）節點間網絡應充分考慮多個資源池節點間的雙活、異地容災、跨節點虛機遷移等需求，規模不大的資源池可選擇星形網絡結構，后續隨著資源池規模不斷擴大和二層廣域互聯技術基本成熟，資源池網絡可向環形結構調整。

（3）對外訪問網絡主要考慮防火墻、負載均衡方案設計。

3 混合架構的云資源池運營管理關鍵技術

建設資源池運營管理能力，是資源池運營管理的重要技術手段。對資源池的運營管理功能一般包括采集與控制域、監視管理域、資源調度域以及服務門戶等關鍵功能，具體如圖2所示。

其中，最基礎、最關鍵的能力就是要建立接口適配層，屏蔽不同類型的資源池的接口差異，能通過統一的接口適配來接入不同的計算資源池的資源。

3.1 與不同計算資源互聯適配的方式

與不同計算資源互聯適配的方式主要如下：

（1）小型機、X86物理機適配方式：一般通過第三方管理軟件、SNMP（Simple Network Management Protocol，簡單網絡管理協議）采集方式、安裝Agent采集方式、自定義采集腳本方式來收集小型機的配置信息、采集性能數據和告警信息。

（2）虛擬機接口適配方式：根據虛擬化軟件提供的接口可以有2種適配方式。第1種是與虛擬化廠商管理軟件提供的接口進行互聯（如圖2中的管理接口2），即通過如VMware的vCenter、Xen的XenServer提供的開放API（Application Programming Interface，應用程序編程接口）來進行基本配置信息、性能數據和告警數據的收集；第2種是通過與虛擬化廠商Hypervisor提供的接口進行互聯（如圖2中的管理接口1）。由于第1種接口在穩定性、全面性、開放性和后向兼容性方面都優于第2種，所以盡可能優先采用第1種。但對于虛擬化軟件提供接口不夠豐富、不能滿足運維要求的（如KVM），可能根據管理需要還要自行開發Agent部署到虛機上（與管理物理機方式類似）。

3.2 虛擬機關鍵性能指標監測與應用

資源池運營管理的另一個重要方面就是采集各類資源的關鍵性能指標，通過不斷地優化性能閾值設置，及時發現異常或潛在的風險，便于運維人員及時進行處理。

UNIX小型機、X86物理機資源的性能指標都有一些共性，主要關注CPU、內存和I/O等主要性能數據，這方面的技術比較成熟，其性能數據也是主要通過與第三方管理平臺或者自行部署Agent的方式進行性能數據的采集。

但虛擬機有一些特殊的性能指標需要特別注意。由于虛擬機的性能與宿主機（物理機）有關聯，因此不能單純從虛擬機的性能指標來判斷其性能，需要與宿主機的性能指標進行關聯分析。其中需要特別關注的性能指標如下：

（1）虛擬機的CPU就緒時間：是指虛機準備就緒、但無法安排在物理CPU上運行的時間所占的百分比，取決于宿主機上的虛擬機數量及CPU負載。即若宿主機上虛機較多且虛機CPU超額分配，會導致虛機在申請CPU資源時產生額外開銷；若宿主機CPU過載，會導致虛機申請不到足夠的CPU資源。

虛擬機CPU是否不足的判斷：若宿主機CPU未過載，可根據虛機CPU使用情況判斷虛機CPU是否分配不足，如CPU就緒時間占比過高，可適當減少虛機CPU分配或遷移部分虛機來減少CPU就緒時間；若宿主機CPU過載，會導致虛機得不到足夠的CPU，虛機CPU就緒時間增大，應及時優化最耗CPU的虛機或遷移虛機至負載較輕的宿主機。

（2）氣泡內存和內存換入/換出速率：以VMware為例，氣泡內存是指VMkernel從虛機回收的內存，回收的內存會以文件的形式存放在數據存儲上，擴展名為vswp。內存換入速率是指內存交換到虛機中的平均速率；內存換出速率是指內存從虛機中交換出的平均速率。

虛擬機內存是否充足的判斷：不能僅從虛機CPU使用率來單純判斷，此項指標只能作為虛機內存繁忙程度的依據，還需要另外采集虛機操作系統內存使用情況關系，即虛機操作系統內存使用率和交換區使用率這2項指標。若氣泡內存較多且內存換入/換出速率較高，則說明虛機內存不足，應及時考慮遷移虛擬機或擴容宿主機。

4 結束語

通過合理構建部署混合的IT云資源池，可以適應不同特征的應用需要；構建中應加強對資源池的運營管理能力建設，實現對資源池進行統一的管理；在運營過程中要關注虛擬化資源池的特殊性能指標的關聯，及時發現運營過程潛在的風險，優化資源配置，提升資源池運營能力。

參考文獻：

[1] 陳春華，梁奐，李軍. 云資源池環境下的IT服務管理系統優化及實施策略[J]. 移動通信， 2013（16）： 83-87.

[2] 陳春華，李軍，梁奐，等. 資源池環境下的IT服務管理實施策略[J]. 電信科學， 2012（9）： 142-147.

[3] 陳春華，梁奐. 全業務電信運營商的IT服務管理實踐探討[J]. 電信科學， 2011（3）： 118-125.

[4] 秦潤鋒，樊勇兵，唐宏，等. 電信運營商開放式IaaS云平臺研究[J]. 電信科學， 2013（10）： 5-9.

[5] 楊經緯，胡林，李金嶺，等. 支撐電信運營商集約管理的云計算平臺研究探索與實踐[J]. 電信科學， 2013（8）： 136-145.

[6] 燕杰，樊勇兵，金華敏，等. 電信運營商的云計算資源池部署方法概述[J]. 電信科學， 2011（10）： 13-19.

[7] 韋S. 淺析云計算及其在電信運營商中的應用[J]. 廣西通信技術， 2014（3）： 18-23.

[8] Peter Brooks. IT服務管理指標[M]. 豐祖軍，譯. 北京：清華大學出版社， 2008.

第7篇：云計算與分布式技術范文

【關鍵詞】數據挖掘，Hadoop

1引言

1.1 數據挖掘技術概述

數據挖掘出現于 20 世紀 80 年代后期，90 年代有了突飛猛進的發展，并在進入 21 世紀后繼續繁榮。隨著科技的不斷進步，在物聯網、云計算、移動互聯網等發展的推動下，數據發生了“大爆炸”，其規模呈幾何級上升。如何將這些海量的、復雜的數據轉化成人類可理解的、有用的知識，從而指導我們的決策正成為目前面臨的重要的問題。

如今，隨著云計算的出現和發展，數據挖掘技術迎來了新的機遇和挑戰。現在的基于云計算的并行數據挖掘與服務的模式。數據挖掘的算法可以分布在多個節點上，并且這些算法之間是并行的。在進行數據挖掘的過程中，我們需要的資源會實現按需分配，具有很大的伸縮性。在分布式計算模型下，使用的是云計算模式。算法的實現采用 MapReduce 的方式，從而實現并行的要求。

1.2 Hadoop 框架

Hadoop是一個開源的分布式系統基礎架構，由 Apache 基金會開發。Apache Hadoop是一款支持數據密集型分布式應用并以Apache 2.0許可協議的開源軟件框架。它支持在商品硬件構建的大型集群上運行的應用程序。

Hadoop框架透明地為應用提供可靠性和數據移動。它實現了名為MapReduce的編程范式：應用程序被分割成許多小部分，而每個部分都能在集群中的任意節點上執行或重新執行。此外，Hadoop還提供了分布式文件系統，用以存儲所有計算節點的數據，這為整個集群帶來了非常高的帶寬。MapReduce和分布式文件系統的設計，使得整個框架能夠自動處理節點故障。它使應用程序與成千上萬的獨立計算的電腦和PB級的數據。現在普遍認為整個Apache Hadoop平臺包括Hadoop內核、MapReduce、Hadoop分布式文件系統（HDFS）以及一些相關項目，有Apache Hive和Apache HBase等等。

2 Hadoop數據存儲平臺

2.1基本設計思想

我們的基本思想是：充分利用 Hadoop的集群特征，將數據挖掘系統中需要巨大計算能力的各個模塊的計算和存儲要求擴展到Hadoop集群中的各個節點上，利用集群的并行計算和存儲能力來進行相關數據挖掘工作。系統采用MVC三層架構設計使結構更加清晰，系統易于擴展。在底層，使用 Hadoop來存儲、分析和處理巨大的數據量，而在高層通過接口直接透明的調用底層的計算和存儲能力。

在整個系統中，我們可以使用 HDFS 來存儲文件和數據。HDFS 具有很高的數據吞吐量，并且很好的實現了容錯機制。HDFS 提供了多種訪問接口，包括 API以及各種操作命令。使用 HDFS，我們可以為原始的大數據集提供存儲空間，對臨時文件進行存儲，為數據預處理、數據挖掘過程提供輸入數據，同時輸出數據我們也保存在 HDFS 中。系統整體架構如圖1所示。

2.2系統結構模型

結合以上的基本設計思想以及典型的數據挖掘系統模型，采用分層的思想，自頂向下每層都透明的調用下層接口，最頂層為交互層，用于用戶和系統之間的交互。最底層為分布式計算層，使用 HADOOP 來實現文件分布式存儲和并行計算功能。使用分層，各層之間變得獨立，易于系統的擴展。下面詳細介紹我們得到的基于 HADOOP 的數據存儲系統。如圖2所示。

1、交互層

提供系統和用戶之間的接口。通過提供具有良好表現形式的圖形界面，使得用戶可以登陸系統定制各種細粒度的業務，查看或者保存各種輸出結果。

交互層具有的模塊包括：

①用戶管理模塊：實現用戶身份的識別以及相應權限的設置，同時也包括對用戶登陸或者注銷等常用的管理。

②業務展示模塊：實現用戶提交的各種業務，并對業務結果進行查看，分析和保存等功能。用來將系統的返回結果交付給用戶。

2、業務應用層

提供了各種業務邏輯并實現了對各種業務流程的控制和調度。用戶提交的業務在這一層被處理，控制和調度。

業務應用層具有的模塊包括：

①用戶界面：用戶可以通過簡單應用的操作界面工具，進行海量數據處理存儲。

②業務響應模塊：相應上層的業務模塊，對完成業務所需的子業務進行調用、管理，并通過調用底層模塊完成業務。

3、數據處理層

為業務應用層提供數據挖掘階段業務流需要的各個模塊，并且具有較細的粒度。如數據預處理，模式評估，數據挖掘等組件。這一層是整個系統的核心，在這一層，主要的任務在于實現各種任務過程中算法的并行化，并將任務提交到 Hadoop 分布計算層進行運算。并將結果返回給業務應用層。

數據處理層具有的模塊包括：

①系統管理模塊：對系統實現分布式管理。主要包括：負載平衡管理、系統日志管理、對象事務管理、系統遠程部署管理等。

②數據加載模塊：將挖掘所需的數據進行注冊并放入系統的 HDFS 文件系統。

③數據存儲模塊：提供對海量數據的并行加載、處理和存儲功能。將數據從其他外設中導入平臺的HDFS；并行ETL 模塊用來對HDFS中的原始數據進行處理得到存儲數據；并行存儲模塊提供對處理后的數據進行存儲.

④并行查詢模塊：提供對海量數據的并行查詢、用戶自定義事務處理等功能。

⑤備份恢復模塊：提供對系統存儲數據的備份管理、備份存儲、備份恢復等功能，增強系統的安全

性和容錯性。

⑥模式評估模塊：Hadoop 框架自身提供了 HDFS，MapReduce 運行模式、運算環境以及自動管理。

4、分布式計算層

使用 HADOOP 框架來實現集群存儲、計算。Hadoop 提供了分布式文件系統和并行的運行模式，同時實現了對分布式系統的管理。我們需要在此之上實現任務提交的 Server。

3總結

本文分析了對現階段基于云計算平臺實現的數據挖掘研究以及開源的集群框架Hadoop的研究現狀作了分析。并在此基礎上設計了基于Hadoop的數據存儲系統的基本架構。采用以 Hadoop分布式平臺作為基礎，以 HDFS分布式文件系統和MapReduce 并行計算模型作為處理數據的方法。同時給出了系統的模型并簡要介紹了各個功能模塊。通過將數據挖掘技術與云計算時代下的集群框架 Hadoop結合起來，利用集群巨大的計算能力和存儲能力，從而實現對超大規模數據挖掘的性能提升。

參考文獻：

[1]維基百科 Apache Hadoop [EB/01] http：///wiki/Apache_Hadoop，2015

[2]Hadoop 技術 [EB/01] http：/// ，2010

[3]朱珠. 基于 Hadoop 的海量數據處理模型研究和應用[D].北京：北京郵電大學，2008.

[4]JeffreyDean， SanjayGhemawat. MapReduce： Symplified Data Processing on Large Clusters

[J].NewYork： ACM， 2008， 51（1）：107～113.

[5]韓家煒，坎伯. 數據挖掘概念與技術[M]. 北京：機械工業出版社，2008.

[6]Dean J，Ghemawat S.MapReduce：Simplifier date processing on large munications of the ACM ，2008，51（1）：107-113

[7]B.Callaghan，B.Pawlowski，P. Staubach RFC 1813-NFS Version 3 Protocol Specification June 1995.

[8]Jeffrey Dean. Experiences with MapReduce， an abstraction for large-scale computation Proc.15th International Conference on Parallel Architectures and Compilation Techniques，2006：1.

[9]Yang Lai， Shi ZhongZhi. An Efficient Data Ming Framework on Hadoop using Java Persistence API. 2010 10th IEEE International Conference on Computer and Information Technology （CIT 2010）.

[10]Bhandarkar， M. MapReduce programming with apache Hadoop. Parallel & Distributed Processing （IPDPS）， 2010 IEEE International Symposium on， Atlanta， GA.

第8篇：云計算與分布式技術范文

關鍵詞：云計算；云存儲；分布式文件系統；安全問題

中圖分類號：TP393 文獻標識碼：A文章編號：1007-9599 (2011) 17-0000-01

Data Storage Issue Study under Cloud Computing Environment

Cai Guoyu

(Beijing Mandarin Gene Research Center,Beijing101300,China)

Abstract:With the continuous development of computer technology,cloud computing and cloud storage as a new model,increasingly subject to personal and business concerns.In this paper,a brief description of cloud computing,based on the cloud computing environment for data storage is cloud storage body for analysis and research,demonstrated the great advantage of cloud storage and cloud storage constraints on the further development of a number of issues discussion.

Keywords:Cloud computing;Cloud storage;Distributed file systems;Security

伴隨著信息通信和處理技術的高速發展，計算機自問世以來，已經跨越了單機系統時代、網絡系統時代、Web服務與網絡時代，進入了云計算時代。云計算的出現，帶來了商業模式和工作方式的革命性轉變，改變了過去數據主要集中在本地存儲和處理的傳統模式，使得企業機構和個人能夠方便快捷地通過網絡享受到計算力、存儲空間和軟件等服務，極大地降低了硬件等基礎設施的重復購置和閑置，有效避免了人力資源的浪費，節約了大量的資金和人力支出。

一、云計算定義

云計算是一種基于共享基礎架構的商業計算模型，是分布式計算、網格計算和并行計算等多種計算方式的發展和商業實現。從實質上看，云計算就是一種分布式計算，通過網絡將分散的計算與存儲資源有效地連接、整合起來，為用戶提供服務。而實現云計算服務的基本條件之一就是高性能的云存儲。

二、云存儲概況

云存儲是伴隨云計算概念發展出來的新課題，它通過網絡和分布式文件系統將分散的存儲設備連接、整合成一個高效、便捷、可靠的系統，通過某種應用軟件共同一致地對外提供在線數據存儲和業務訪問服務。下面就云存儲的一些主要問題做個簡要的介紹。

（一）分布式文件系統。分布式文件系統是云存儲的核心。利用分布式文件系統可以實現云存儲系統中不同存儲設備之間的協同工作，對外提供同一種服務，并提供更優質更快速的數據訪問性能。分布式文件系統的特點：（1）安全性（2）可靠性（3）實用性（4）可維護和拓展升級性（5）數據可復制和同步性。

（二）云存儲技術。為保證數據的安全、可靠、實用，云計算采用分布式存儲的方式和冗余存儲的方法來進行數據的存儲，具有數據處理能力強和傳輸迅速的優點。目前，較為成熟的主流云計算數據存儲技術有谷歌的GFS和Hadoop開發團隊開發的HDFS。

三、云存儲的優勢

云存儲作為一種新興的存儲模式，具有不可抗拒的諸多優點：

（一）對政府機構用戶。由于政府機構的特殊性，對其數據安全性和可備份性的要求特別嚴格。云存儲的應用，避免了因不可抗力或操作不當情況等原因，而造成數據丟失所引發的嚴重后果，節約了大量額外財政支出。

（二）對企業用戶。隨著企業信息化建設的不斷發展和深化，現代企業越來越重視核心數據的存儲安全和信息管理系統化辦公的實現。云存儲模式的不斷成熟，使得企業可以通過網絡，在云端建立包括數據庫和各類信息管理系統在內的綜合平臺，實現遠程移動辦公，實現管理信息系統化。企業信息化的發展，促進了信息的有效流通和資源知識的共享，極大提高了工作和管理效率，降低了管理成本，為企業適應激烈的市場經濟競爭環境，求得最大經濟效益提供了保證。

（三）對個人用戶。云存儲模式的出現，為個人用戶提供了幾乎無限容量的穩定空間，以便其保存日益增多的照片、視頻、音頻、電子文檔等個人數據。用戶可以通過功能設置，進行數據文檔的瀏覽、同步修改、共享等操作，十分便捷和方便。

四、云存儲發展應該注意的問題

目前來看，云存儲還不那么完善和成熟，處于快速發展階段。它的完善和成熟，不單單是單純靠技術層面所能解決的。云存儲要想得到類型不同、不同需求群體的共同認可，得到大范圍的廣泛應用，還有諸多問題亟待解決。

（一）安全性。不同用戶的數據，包括著大量的機密和個人隱私等均被遠程存儲到同一個云存儲提供商那里，如何才能保證其數據具有安全性和私密性，保證私有數據不被云存儲提供商內部或無授權的用戶瀏覽和散播，是制約云存儲發展的首要問題。

（二）可靠性。若云端數據遭到破壞，造成數據的全部或部分丟失、缺損，云存儲提供商能否快速全面的恢復數據，并保證數據的完整性。

（三）實用性和便捷性。通過密碼驗證或其他有效的形式，云存儲提供商必須保證任何用戶使用任何終端，均能通過網絡在任何時間、地點享受到云存儲的優質服務，并且做到操作簡易和人性化。

（四）優質服務。用戶與云存儲提供商簽訂服務協議或合同后，將數據存儲到云端，云存儲提供商必須要保證提供7*24小時不間斷的優質貼心服務。對用戶反饋的問題或意見，能及時解決和處理。

（五）低成本性。云存儲的一大優勢就是成本優勢，因此云存儲提供商應采取有效措施，在保證安全可靠的前提下，進行技術創新和改進，不斷降低成本，促進云存儲服務的大面積普及。

五、結束語

作為目前來說的一種先進技術，云存儲占據著壓倒性的優勢，有著不可抗拒的吸引力，代表著未來存儲發展的必然趨勢。我們下一步的重點，將是從技術、用戶需求等多層面、多角度著手，完全解決實用性、可靠性、安全性等問題，促進云存儲的盡快成熟和完善，以便其早日獲得廣泛應用。

參考文獻：

[1]王德政,申山宏,周寧寧.云計算環境下的數據存儲[J].計算機技術與發展,2011,21-4:81

第9篇：云計算與分布式技術范文

關鍵詞云計算虛擬化云存儲分布式計算

中圖分類號：TP3 文獻標識碼：A

1云計算的概念

云計算的定義眾多，目前廣為認同的一點是，云計算是分布式處理、并行處理和網格計算的發展，或者說是這些計算機科學概念的商業實現。云計算是一種資源交付和使用模式，指通過網絡獲得應用所需的資源（硬件、軟件、平臺）。云計算將計算從客戶終端集中到“云端”，作為應用通過互聯網提供給用戶，計算通過分布式計算等技術由多臺計算機共同完成。用戶只關心應用的功能，而不關心應用的實現方式，應用的實現和維護由其提供商完成，用戶根據自己的需要選擇相應的應用。云計算不是一個工具、平臺或者架構，而是一種計算的方式。

2云計算在國內外發展狀況

盡管云計算的思想孕育很久，但是在國外（主要是美國）取得蓬勃發展也是最近十來年的事情。2003年，美國國家科學基金（NSF）投資830萬美元支持由美國七所頂尖院校提出的“網絡虛擬化和云計算VGrADS”項目，由此正式啟動了云計算的研發工作。2009年4月，谷歌推出了Google應用軟件引擎（Google App Engine）運行大型并行應用程序。Apple是云計算領域的另一位角色，從近年來推出的iTunes服務，到MobileMe服務，到收購在線音樂服務商Lala，再到最近在美國北卡萊羅納州投資10億美元建立新數據中心的計劃，無不顯示其進軍云計算領域的巨大決心。

而國內近幾年在云計算方面取得了長足的發展。國內的云計算發展雖處于起步階段，但各大通信運營商都表現得異常活躍。中國移動推出了“大云”（Big Cloud）云計算基礎服務平臺，中國電信退出了“e云”云計算平臺，中國聯通則是推出了“互聯云”平臺。

3云計算的原理

云計算的基本原理是，通過使計算分布在大量的分布式計算機上，而非本地計算機或遠程服務器中，企業數據中心的運行將更相似于互聯網。這使得企業能夠將資源切換到需要的應用上，根據需求訪問計算機和存儲系統。云計算就是把普通的服務器或者個人計算機連接起來，以獲得超級計算機也叫高性能和高可用性計算機的功能，但是成本更低。云計算的出現使高性能并行計算不再是科學家和專業人士的專利，普通的用戶也能通過云計算享受高性能并行計算所帶來的便利，使人人都有機會使用并行機，從而大大提高工作效率和計算資源的利用率。云計算模式可以簡單理解為不論服務的類型，或者是執行服務的信息架構，通過因特網提供應用服務，讓使用者通過瀏覽器就能使用，不需要了解服務器在哪里，內部如何運作。

4云計算的核心技術

云計算系統運用了許多技術，其中以編程模型、數據管理技術、數據存儲技術、虛擬化技術、云計算平臺管理技術最為關鍵。

（1）編程模型

MapReduce是Google開發的java、Python、C++編程模型，它是一種簡化的分布式編程模型和高效的任務調度模型，用于大規模數據集（大于1TB）的并行運算。嚴格的編程模型使云計算環境下的編程十分簡單。MapReduce模式的思想是將要執行的問題分解成Map（映射）和Reduce（化簡）的方式，先通過Map程序將數據切割成不相關的區塊，分配（調度）給大量計算機處理，達到分布式運算的效果，再通過Reduce程序將結果匯整輸出。

（2）海量數據分布存儲技術

云計算系統由大量服務器組成，同時為大量用戶服務，因此云計算系統采用分布式存儲的方式存儲數據，用冗余存儲的方式保證數據的可靠性。云計算系統中廣泛使用的數據存儲系統是Google的GFS和Hadoop團隊開發的GFS的開源實現HDFS。

（3）海量數據管理技術

云計算需要對分布的、海量的數據進行處理、分析，因此，數據管理技術必需能夠高效的管理大量的數據。云計算系統中的數據管理技術主要是Google的BT（BigTable）數據管理技術和Hadoop團隊開發的開源數據管理模塊HBase。

5云計算的挑戰和展望

云計算技術的發展面臨這一系列的挑戰，例如：使用云計算來完成任務能獲得哪些優勢；可以實施哪些策略、做法或者立法來支持或限制云計算的采用；如何提供有效的計算和提高存儲資源的利用率等等。此外，云計算宣告了低成本超級計算機服務的可能，一旦這些“云”被用來破譯各類密碼、進行各種攻擊，將會對用戶的數據安全帶來極大的危險。

云計算未來有兩個發展方向：一個是構建與應用程序緊密結合的大規模底層基礎設施，使得應用能夠擴展到很大的規模；另一個是通過構建新型的云計算應用程序。在網絡上提供更加豐富的用戶體驗，第一個發展趨勢能夠從現在得云計算研究狀況中體現出來，而在云計算應用的構造上，很多新型的社會服務型網絡，如Facebook等，已經體現了這個趨勢，而在研究上則開始注重如何通過云計算基礎平臺將多個業務融合起來。

云計算與分布式技術精選(九篇)

第1篇：云計算與分布式技術范文

第2篇：云計算與分布式技術范文

第3篇：云計算與分布式技術范文

第4篇：云計算與分布式技術范文

第5篇：云計算與分布式技術范文

第6篇：云計算與分布式技術范文

第7篇：云計算與分布式技術范文

第8篇：云計算與分布式技術范文

第9篇：云計算與分布式技術范文

相關熱門標簽

精選范文推薦