公務員期刊網 精選范文 網絡爬蟲基本原理范文

    網絡爬蟲基本原理精選(九篇)

    前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的網絡爬蟲基本原理主題范文,僅供參考,歡迎閱讀并收藏。

    網絡爬蟲基本原理

    第1篇:網絡爬蟲基本原理范文

    【關鍵詞】電力新聞 Lucene Heritrix 搜索引擎

    互聯網為用戶提供海量資源的同時,也給用戶造成了困擾,如何從海量數據中,快速、有效的獲得需要的信息,成為備受關注的問題。垂直搜索引擎正是在用戶這種需求下應運而生的,它針對特定領域,為用戶提供準確、及時、深度的檢索服務。本文主要討論使用Heritrix與Lucene結合技術,設計實現電力新聞垂直搜索引擎系統,為用戶提供一個準確、及時的電力新聞檢索平臺。

    1 垂直搜索引擎的關鍵技術

    搜索引擎的基本原理是當用戶提交查詢詞q,例如“智能電網”,在用戶可接受的時間內返回與用戶查詢詞相關的網頁L。而垂直搜索引擎在此基礎上為特定領域用戶提供信息檢索,如本文針對電力行業新聞讀者提供及時的電力新聞檢索服務。垂直搜索引擎避免了通用搜索引擎信息查詢過于廣泛而深度不夠、返回結果過多而準確度不夠的缺點,為用戶提供精細化、準確化的檢索服務。

    1.1 網絡爬蟲

    網絡爬蟲是垂直搜索引擎的核心組成部分,網絡爬蟲從種子站點開始,在Internet上爬取與電力新聞相關的網頁,并忽略其他無關網頁,對抓取到的Web頁面進行預處理,為搜索引擎下一流程提供基礎。本系統采用擴展Heritrix的方式來實現抓取與電力新聞相關網頁的目標。

    1.2 網頁預處理

    網頁預處理是對爬取到的網頁結果進行處理的過程,其中包括實現無關Web頁面的過濾、URL的消重、網頁分析、網頁結構化、網頁去噪、Web頁面相關度的計算等功能,預處理是建立索引的準備工作。本系統使用HtmlParser作為網頁解析工具,HtmlParser能夠提供嵌套和線性兩種網頁解析方式。

    1.3 查詢和索引

    類似于書籍,索引就像目錄,能夠讓用戶快速找到需要的信息,本系統索引是基于Lucene的開源框架,以文件形式存儲索引信息。查詢是用戶可以通過用戶界面輸入查詢關鍵字,通過搜索引擎檢索、排序等計算,將與關鍵字匹配的結果集合頁面返回給用戶。

    2 系統設計關鍵問題及解決

    本文設計實現一個用于電力行業新聞的垂直搜索引擎,旨在為用戶提供最新、最準確、最全面的電力行業新聞。電力新聞垂直搜索引擎主要由網絡爬蟲、網頁分析、索引、檢索、用戶接口五個模塊組成,總體結構如圖1所示。

    2.1 爬蟲算法的實現

    本系統采用擴展Heritrix的方式實現抓取電力相關網頁目標,通過擴展Heritrix組件,實現特定的抓取邏輯,在Shark算法基礎上,本文改進了爬蟲算法,通過計算相關度,設定閾值,按照閾值大小順序加入到URL隊列中。

    2.2 網頁結構化

    通過爬蟲爬取的網頁通常多為非結構化數據,因結構不一無法直接生成索引,需要通過二次處理,把非結構化信息通過算法轉換成結構化數據,便于索引建立和數據存儲。在本系統中,采用NekoHTM實現數據結構化信息抽取,通過org.w3c.dom中提供的接口實現結構化信息抽取操作。

    3 電力新聞垂直搜索引擎的實現

    系統的完整流程描述為:由爬蟲模塊在Internet上收集包含電力新聞的網頁,交由網頁預處理模塊實現URL消重、網頁分析、網頁結構化,轉換為結構化數據后由索引模塊添加到索引庫,查詢模塊通過訪問索引庫響應用戶查詢請求。本系統實現基于Java開發語言,具有跨平臺、可移植等特性,采用B/S結構為用戶提供檢索服務。系統運行界面如圖2所示。

    4 結論

    本文設計并實現了電力新聞垂直搜索引擎,對電力行業具有一定的使用價值,可以為用戶提供更為準確、及時、便捷和有效的電力新聞檢索服務,在下一步工作中將會繼續研究語義層的檢索,使得檢索服務更智能化。

    參考文獻

    [1]LUO L,CHEN Q,WU Q.Research on Topical Crawler of Shark-Search Algorithm and Hits Algorithm [J].Computer Technology and Development,2010,11:020.

    [2]趙珂,逯鵬,李永強.基于Lucene的搜索引擎設計與實現[J].計算機工程,2011,37(16):39-41.

    第2篇:網絡爬蟲基本原理范文

    關鍵詞:創新教育;新生研討課;創新能力;科研訓練

    0、引言

    以培養學生具有理想信念、社會責任感、創新精神和實踐能力為核心,培養造就高素質專門人才和拔尖創新人才,培養具有創新精神和實踐能力的學生是現代大學教育的核心工作。作為研究型大學的教師,啟蒙大學生的創新意識,發掘學生科研創新的潛力和動力是教師的根本職責。在基礎教育環節,學生大多將升入大學作為學習的基本目標,進入大學校門后又習慣沿用中學被動接受教育的學習方法,但同時又有了解大學專業研究的渴望。因此,我們迫切需要在一年級就采用創新教學模式,激發學生的創新興趣與意識,扭轉學生的慣性思維,使學生盡早步入探索科學和創新的實踐軌道。

    大學一年級不僅是基礎課學習的重要階段,而且是培養科學研究素養、認識科學研究本質、提高創新意識的關鍵階段,還是造就具有良好科學素養和探索精神的創新型人才的切入點。基于此種理念,我們從2008年開始開設了搜索引擎與數據管理新生研討課程,目的是鼓勵學生盡早進入實驗室,接觸學科前沿科學問題和工程技術問題,培養學生的科學素養、探索意識和批判性思維。我們已在教學內容的組織與研討題目的設計、教學模式的創新、教學手段與方法的革新、考核和考試方法的變革等方面進行了有益探索,課程受到學生的歡迎與支持。

    1、創新課程教學模式及其實現途徑

    1.1 以問題為導向,以需求為動力,激發學生探究問題意識和創新興趣

    維基百科對“創新”的解釋:在人的主觀作用推動下產生所有以前沒有的設想、技術、文化、商業或者社會方面的關系,也指自然科學的新發現。創新來源于社會與人類的需求與問題。在教學實施過程中,我們改變傳統知識傳播的教學方式,借鑒科研項目的申請與研究過程,將問題意識和創新意識滲透到教學的各個環節。我們首先應讓學生明白學習的目的不是為了考試,考試僅僅是檢驗學習效果的一種手段;學習的根本目的在于學會做人和做事,運用已有知識進行新的創造。因此,我們在教學中不是以基本概念和原理作為課程的開始,而是根據學生的專業基礎,以一系列的問題開始帶領學生討論回答,如為什么需要搜索引擎?為什么有些網址排名靠前,而有些排名靠后?google和百度有差別嗎?網絡數據如何存儲與管理?現有的搜索引擎能滿足你的需求嗎?google靠什么盈利?學生在回答和討論過程中,理解了搜索引擎的基本原理,了解了相關領域的研究進展以及企業發展的驅動力。

    學習的實質就是經常質疑、隨時發問、深入思考的過程,質疑的問題解決了,也就獲得了新知,取得了進步。創新則以質疑、批判為前提,以慎思為基礎。在教學中,我們特別強調學生學習與思考結合,讓學生明白思考是學習的基礎,思考由質疑和問題構成,而質疑是啟迪智慧大門的鑰匙,是勇于創新的前提。基于這個教學理念,我們對于每一個知識點以為什么開始,啟迪學生的問題意識,促使學生提高由疑而思、由思而問、由問而明、由明而知而會的能力。

    在教學過程中,我們注重將學科中不同學派的不同學術觀點介紹給學生,特別是將學術界尚未解決或爭論的疑難問題,以鼓勵學生研究和解決這些問題。例如,在講授搜索引擎網頁排名算法時,特意將百度和google的排名算法進行比較,讓學生分析搜索排名的結果;在講授爬蟲系統時,要求學生了解多個爬蟲系統,比較功能和性能差異,從而激發學生獨立思考,積極探索,產生創新的思想萌芽。

    1.2 構建學生自主學習的教學新模式,變“要我學”為“我要學”的良性循環

    盡管大學一年級學生的認知能力和認識水平已基本成熟,但是需要進一步培養他們形成良好的自主學習和科研素養,能夠較全面地分析和認知事物。我們在課程教學中采用“教師引導+學生探求+師生互動”的新模式,充分調動和發揮學生自主學習的積極性。在教學過程中,教師通過提出問題,引導學生思考討論甚至是辯論;通過循序漸進的實踐過程,激發學生的學習熱情;通過講授文獻閱讀方法,教會學生自主探求問題的來源以及最新的研究進展;通過組織學生撰寫科技

    論文,教會學生清晰、正確、有效地表達問題、算法并進行實驗設計,訓練提高學生的學術論文寫作能力。

    “以學生為中心”的教學模式核心是掌握學生學習的特點,引導學生自主學習,教師通過指導幫助學生學習,激發學生自主學習的積極性,變“要我學”為“我要學”,促使學生學會自己獲取知識的方法,從而具備運用知識進行新創造的能力。我們在教學實施的每個環節都貫徹這個理念,引導學生主動探求。課堂的教學內容是“問題+文獻”,由教師提前,在課堂上,教師則引導學生以小組形式求解問題和討論文獻內容。

    當問題求解以實踐方式展開時,我們采用從小到大、從簡單到復雜、從應用到改進、再到創新的方法設計多層次的實踐課題,培養學生的自信心,使學生站在成功的階梯上,充分發揮自主學習的潛能。例如,我們與學生討論云計算和大數據的概念時,提出為什么這兩個概念由google等公司提出而不是由學術界提出、網頁排名的依據是什么、google廣告的核心技術是什么等問題,要求學生查閱文獻資料后自主求解。通過自主探究、課堂互動和重點講授,學生加深了對知識的理解,并體驗到知識的發生和發展過程,養成科學的思維方法,學會自主學習,最終形成“我要學”的良性循環。

    主站蜘蛛池模板: 女性成人毛片a级| 亚洲精品成人网站在线观看| 精品无码成人片一区二区98| 青青草国产成人久久91网| 欧美成人精品三级网站| 成人欧美一区二区三区黑人| 成人动漫h在线观看| 国产成人亚洲综合无| 久久久久亚洲AV成人网| 成人国产精品一区二区视频| 国产成人综合美国十次| 亚洲国产成人精品无码一区二区 | 久久成人免费电影| 成人a在线观看| 香蕉久久成人网| 亚洲最大成人网色| 国产精品成人不卡在线观看| 亚洲av无码成人网站在线观看| 成人午夜短视频| 青青青国产成人久久111网站| 国产成人亚洲精品电影| 成人在线观看免费| 色噜噜成人综合网站| 亚洲精品成人久久| 国产成人无码a区在线观看视频| 日本成人免费网站| 欧美成人在线观看| 九九精品免视看国产成人| 国产成人va亚洲电影| 国产成人愉拍精品| 国产成人午夜福利在线播放| 成人做受120视频试看| 成人综合国产乱在线| 成人网站免费看黄a站视频| 欧美成人一区二区三区在线观看 | 成人妇女免费播放久久久| 精品国产成人亚洲午夜福利| 久久久久成人精品| 一级成人a毛片免费播放| 中文字幕成人乱码在线电影| 亚洲国产成人精品激情|