時間:2022-05-08 04:00:46
導言:作為寫作愛好者,不可錯過為您精心挑選的1篇網絡信息檢索論文,它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內容能為您提供靈感和參考。
摘 要
因特網上有海量的數據,是信息的海洋,但在解決實際問題中,仍感到缺乏真正需要的信息,出現了數據豐富,信息貧乏的問題。如何通過一種有效的方法,以最少的時間與精力來獲取自己所要的信息,這就是文獻檢索所要解決的問題。
【關鍵詞】文獻 網絡 信息檢索
據不完全統計,非科技類的著作文獻,每隔五到八年就會整倍翻一番;科技類的著作文獻,特別是尖端領域的著作文獻增加飛快,速度驚人,如,計算機科技著作文獻每一至三年就翻一倍,且倍增時間也是越來越短; 大概目前有1000多萬篇科技文獻會在一年時間內出版;出版文獻速度與日倍增,據國外報導,全球出版界著作文獻的出版量在大約在2000張每秒,4至6種新書每小時,新增各種文獻期刊3種每小時,面對日益增長的文獻資源,如何通過一種有效的方法,以最少的時間與精力來獲取自己所要的信息,這就是文獻檢索所要解決的問題。
1 文獻的類型
1.1 圖書
國家標準對圖書的定義是:“以印刷方式單本刊行的出版物。”國際上通常把48頁以上,不定期出版的印刷品稱為圖書。
1.2 期刊
定期或者有不規律時間間隔的具有連續性質的出版刊物,周期一般實在一年以內。
1.3 科技報告
關于某項科研成果的正式報告或研究過程中階段性報告。它的特征:報告題目、責任者、研究單位、報告完成時間以及報告號。每一個獨立的科學報告內容完整,結果可靠,對研究項目研究過程敘述詳細具體,技術專業且非常全面,能夠直接使用或者借鑒。科技報告還是單獨成冊,有統一編號和標注可研究機構名稱。能夠體現以及代表一個國家的科技研究水平,反映最新興和尖端的科學成果,是國家軟實力的象征。
1.4 會議中的文獻
目前全世界每年大約要召開數以千計個學術會議。會議種類繁多,因此伴隨會議產生了數量巨大的文字材料。這是會議文獻往往是科技信息發表傳播的最前沿陣地,各種一半以上的新科技成果和發明都在這些會議上最先面世的。這些會議文字材料會與圖書、期刊、或者科技報告有重復出現的情況。
1.5 專利文獻
這類文獻主要指發明人在專利申請時所提交的對于專利本身概況的說明書。專利說明書不僅僅具備法律效應,還對該專利的技術情況進行了詳細說明,是集可靠、實用和法律效應與一體的科技材料。
1.6 技術標準
這是為了規范產品生產過程中對于科學技術使用的規范,它能夠體現整個國家或者地區的政策、工藝和水平。也可是說是一種科學技術的信息來源。
1.7 政府文件
這類材料大部分是政策法規。有很強的約束力、政策性權威力。是政府為了某些特定科學技術的更好服務大眾的行政文件。通過這些文件能夠了解各個國家的科技水平和科技政策,具有很強的參考價值。
1.8 畢業論文
這類文獻是高等學府的學生為了領取畢業證書和學位證書時必須完成的作業。雖然不是很完整和詳盡,但還是有相當的創造性和獨立性,參考價值也是有的。
1.9 其他類型
除去上8種之外,還有產品成品、技術檔案、報紙、新聞播報、手繪稿等其它類型的文獻。
2 文獻檢索的方法
2.1 直接法
直接利用網絡工具進行文獻內容的檢索,例如百度、谷歌、萬方數據庫、維普數據庫等,這是最常用也是最方便的一種檢索文獻方式,但是因為信息量巨大,效果一般。
2.2 追溯引文法
這是一種通過“引文”來追溯查找文獻的方式。“引文”就是文獻末尾所列的參考文獻,通過所用的參考文獻來反向查找需要的文獻。這樣做就是用“引文”找“引文”,獲得的有關文獻的信息越來越多,通過信息最后抽絲剝繭找到自己需要的文獻。這種方式同樣是因為信息量十分巨大,造成效率低下。
2.3 綜合法
這種方法就是將直接法和引文追溯法一起使用。即使用常規工具盡享檢索,又使用“引文”進行檢索。
3 計算機檢索的步驟
3.1 確定檢索目標
確定該問題需要查找的文獻類型、所屬領域、地域范圍和時間區域。通過以上這些信息你定相關需要查找的關鍵字,這些關鍵字能夠體現文獻類型、所屬領域、地域范圍和時間。在此基礎上通過對查找內容的了解提煉出核心概念,加入其中,會使檢索事半功倍。
3.2 選擇數據庫
根據以上的檢索目標,接下來就是確定檢索所使用的數據庫。在選擇的過程中,要根據要根據數據庫的種類和內容進行篩選或者同時進行。例如,常規檢索就使用百度,論文檢索就使用萬方數據庫、期刊檢索就使用維普數據庫等等,進行對癥下藥,提高檢索文獻的效率。
3.3 上機檢索
上機檢索就是檢索文獻的實際操作過程。將檢索目標輸入相應的數據庫進行查找,從而得出相關數據
3.4 評價信息
根據自己實際需要情況和檢索信息的內容通過各種方法,例如定性評價法、定量評價法等對信息進行綜合評價,通過評價結果來決定是否使用該信息。
3.5 利用信息
根據評價結果,選取最優的信息,進行分析、節選等方法來合理使用 。
因特網上有海量的數據,是信息的海洋,但在解決實際問題中,仍感到缺乏真正需要的信息,出現了數據豐富,信息貧乏的問題。希望我以上的淺析能對給位有所幫助。
摘 要:本文主要簡單介紹影響網絡信息檢索的因素,以及面對現在互聯網的錯綜復雜的環境下,對實現高效率的信息檢索提出幾點建議。
關鍵詞:網絡信息檢索;信息檢索;網絡信息
互聯網上的信息量是非常巨大的,隨著互聯網的技術和信息技術的不斷發展,人類接觸到的信息也是不斷變多,但是,由于在互聯網存在的信息資源的特點,使得人們尋找自己想要的信息變的越來越難,人們更加迫切需要更好的檢索工具來幫助我們獲取自己想要的信息。信息社會離不開信息的作用,信息已經是人類生活不可或缺的一部分。本文將介紹影響檢索信息的幾個因素,在此基礎上并提出幾點建議。
1.網絡信息檢索的現狀
網絡信息檢索最早是由國外學者Alan Emtage在1990年發明的Archie開始的,不過由于當時網絡技術的應用處于初級階段,應用還是比較狹窄,只能簡單的應用于FTP文件的檢索。但是后來隨著萬維網的出現以及信息技術的不斷飛躍發展,網絡信息檢索開始了基于網頁的檢索,并且迅速發展。伴隨而來的問題就是網絡信息檢索的效率問題。隨著信息資源數字化的發展,人們越來越依靠檢索來獲取自己想要的信息。但是,從目前的情況看,每天在互聯網上產生的信息量是相當驚人的。用戶想要短時間獲取自己想要的信息已經變得更加困難。
2.影響網絡信息檢索的因素
2.1 源于ICP的影響因素
ICP(即是Internet Content Provider 的簡稱),它是指網絡信息提供者或者稱網站經營者[1]。某些ICP為了獲得額外的利潤或是某種目的,當用戶點擊某些優質的網頁的時候,在打開的同時會出現一些劣質的網站,這些劣質網站不夠規范而且存在的信息的準確性也是有待商榷,另外這些ICP對采集的信息進行頁面特征提取、主題分析并進行相應歸類,也即是以詞頻和詞出現位置的統計為依據;這樣就為某些ICP 帶來可乘之機,他們故意將一些無關的主題詞放置在重要的標記內,或讓某些關鍵詞重復出現在重要的段落處,以提高其頁面被檢索的機率,然而這卻大大地影響用戶的檢準率[1]。
2.2網絡信息資源質量的因素
由于互聯網本身的特點,即開放性,自由性和公開性導致了在互聯網上信息資源紛繁復雜,包括虛假的信息、淫穢的信息、暴力信息等等。同時,在信息的端,如何控制信息源產生的信息準確性。信息資源是不是能夠涵蓋某一方面,這些因素都會影響用戶進行網絡信息檢索。
2.3檢索工具和方式的因素
傳統的信息資源標引方式已經不能適應當前復雜的網絡信息資源的類型,尤其在網絡新詞或是同義詞和近義詞,標引方式就很難適應這些新的變化,這也就導致了檢索工具不能檢索出未被標引出來的信息資源,影響了檢索工具的檢全率。檢索工具的檢索方式也是多種多樣,按照布爾邏輯檢索、作者姓名,關鍵詞等方式進行檢索,但是檢索的要求就會不一樣,使用的語言不具有統一性。這也是制約網絡信息檢索的重要因素。大多數搜索引擎的檢索方式比較單一,一般只提供分類檢索和關鍵詞檢索,這樣,一方面,檢索時不能從信息資源的多個方面對檢索提問進行限制,只能就某一關鍵詞或概念進行籠統的檢索[2]。
相比較早期的檢索內容來看,隨著人們檢索的需求發生改變,現在的檢索內容也發生了變化,從最開始的檢索文本信息到如今要檢索圖片,視頻,音頻等多種形式的內容,而從信息技術的發展看,國內目前還沒有專業的檢索工具,影響檢索的全面性。
3.用戶本身的影響
(1)自身語言的障礙。由于用戶本身學歷或是地域的限制,導致了用戶只能掌握自己的母語。想要利用國外的檢索工具進行外文檢索,也是很難完成的。目前最新的科技成果都是用英文表現出來的。由于語言的限制,影響了用戶的檢索。
(2)檢索語言的障礙。隨著現代學科的分類越來越細,新興學科、邊緣學科、交叉學科不斷涌現,每門學科應用的術語、符號也隨著專深、復雜,每個學科所使用的檢索語言要求也是更加嚴格[2]。檢索語言和檢索方法和技巧的不能掌握,導致了不能全面利用各種檢索工具和系統。
(3)檢索能力的障礙。由于自身的理解能力、信息把握能力,語言組織能力的缺乏,在輸入檢索詞的時候可能出現表達不清楚,檢索出來不是用戶想要的信息。另外,用戶自身的計算機水平有限制,缺乏必要的計算機基礎知識,隨著現在信息技術更新換代過于快速,檢索工具、應用軟件還不能掌握,嚴重影響了用戶利用檢索工具獲取信息資源。
4.提高網絡信息檢索效率的建議
4.1 加強監管,提高信息資源的質量
ICP是網絡信息的主要來源,國家或是政府應該制定相應的法律法規,來完善行業準則,保證信息源頭不會出現虛假、暴力、淫穢等信息資源。加強對各類網站的監控管理,對質量差的網站應該加以限制,提高該網站的規范化,標準化。與此同時,網民也可以發揮自己的力量,堅決抵制和舉報虛假的信息。最后,積極組織開發、研制相關軟件及應用網絡新技術,對網絡信息進行技術上的篩選、過濾,建立安全屏障,最大限度防止不良信息的侵入[3]。
4.2對網絡檢索工具的改進
(1)改變傳統的標引隨意性。改變以往只是依靠機器進行標引,把人工標引和機器標引相結合。規范標引的索引詞,制定統一的標準,加強對檢索詞的語義理解,提高檢索的智能化。對出現在網絡上的信息資源不只是簡單的收集、利用。而是需要將這些信息資源進行分析歸類,深度加工,建立一種具有多種語言標引識別,提高檢索效率。
(2)完善用戶信息搜索界面,方便使用。完善檢索界面,能夠使用戶獲得更好地使用體驗,一個友好的用戶界面要能支持用戶進行多語言、多種邏輯方式和多種角度提問檢索,盡可能做到方便用戶使用[1]。改變檢索方式,使其更加自然、易懂,能適用于多種檢索平臺。
(3)改進信息資源檢索的技術,形成更加專業的檢索工具。面對多種信息資源的檢索,不能單獨只對文本信息的檢索,對于圖片、音頻、視頻等信息,需要采用更加合理的檢索工具來提高檢索效率,提高檢索的專業化。
4.3加強用戶檢索能力的培訓[4]
對于用戶本身不具備的能力,需要通過不斷地學習來完善自己,才能掌握更多的語言和計算機的基礎知識。對于語言方面,用戶需要加強對語言的理解,能夠清楚地表達自己的信息需求,檢索的效率才能很好地體現出來。
檢索途徑,用戶需要了解更多檢索的方法,并不僅僅局限于只用關鍵詞進行檢索,用戶為了獲取更多,更準確的信息資源,力求掌握多種檢索途徑,進行高級檢索。同時,用戶可以進行多個檢索平臺的檢索也是提高檢索效率的有效途徑之一,用戶利用多種語言在多個數據庫進行檢索,提高用戶獲取信息資源的技能。
總之,面對信息的海洋,提高檢索的效率和檢全率是我們追求的目標。影響網絡信息檢索的因素有許多方面,改進的途徑也是非常多,但是,因特網是一個巨大的展示信息的平臺,目前還是有許多地方存在一個不完善的地方,需要國家、政府以及個人不斷的努力,才能提高網絡信息檢索的效率。
(作者單位:安徽大學管理學院)
摘要:對國外有關信息檢索遠程網絡教育情況進行了簡單的介紹,對我國該領域的問題進行了分析,最后對我國圖書館信息檢索遠程網絡教育系統進行了設計。
關鍵詞:圖書館 信息檢索 遠程教育 網絡教育 設計
伴隨著網絡技術和多媒體技術的發展,人類發展進入信息化時代,為了更好地適應時代的發展,我們要不斷提高對信息的獲取、分析和加工能力,而信息檢索和這些都有著直接的關系。因此,人們越來越重視信息檢索課,將其作為圖書館及檔案學等專業的基礎課程,也成為學生喜歡的選修科目。高校擴招在很大程度上沖擊了課堂,而學生整體素質的提高,一級網絡的普及給信息檢索網絡教育提供了機會,促進了信息檢索遠程教育的興起和發展。
一、有關遠程網絡教育
遠程網絡教育作為計算機輔助教育網絡化的產物在上個世紀60年代產生的,計算機輔助教育是使學生通過和計算機之間的交互活動來實現對學生的教育。在這當中,計算機起到了媒介的作用。遠程網絡教育從產生到現在得到了很大的發展,現在已經發展成為了以計算機網為中心,集中了計算機和多媒體技術,其具有很多的優點。比如,具有較好的交互性、便捷性強、信息量大而且質量高等,因此具有廣闊的應用和發展前景。所謂的網絡教育,就是指將網絡技術、數據庫技術以及多媒體技術進行有機結合,建立在網絡基礎上的一種教育模式,遠程教育是通過現代的傳播載體將教學的內容傳遞到校園外的教學場所的一種教育模式,而遠程網絡教育是指通過直播或者是錄像以及計算機網絡來實現課程向校園外傳遞的教育方式。
二、國內外信息檢索遠程教育情況
國外的遠程網絡教育在最近幾年得到了迅速的發展,表現尤為突出的是美國。縱觀歷史,我國在該方面雖然取得了一定的成績,但由于受到很多因素的影響,目前還是比較缺乏具有真正意義的信息檢索遠程教育系統。第一,很多老師雖然都制作了多媒體課件,學校也將這些課件掛到了網上,但只不過是對教材的簡單復制而已,沒有實質上的意義;第二,一些可將無法適應網絡環境的要求,在制作課件時由于對形式太過注重,導致課件的實用性不強;第三,老師沒有對網絡優勢進行充分的利用,也做不到超時空和非線性的教學,沒有將網絡教學的特點體現出來;第四,由于缺乏通用的網絡教學平臺的接口,無法實現方便并快速的建立網絡教學系統,搗實網絡教學只是停留在形式上;第五,學習的理論和教學實踐相脫離,因此保證不了教學的效果。
三、信息檢索遠程網絡教育系統的設計思想
在信息檢索遠程網絡教育系統的設計中,第一,要將網絡優勢充分地發揮出來,進而實現實時交流和雙向交流;第二,要以老師作為教學的主體,為了使得教學質量得到保證,要將老師的知道作用充分發揮出來;第三,在設計中要考慮到信息檢索課的特點即實用性,要能激發學生學習的潛力和主動性,使學生信息檢索的能力得到全面提高;第四,促進學生創新能力的培養,不斷提高學生的綜合素質,進而更好地適應當今時代的發展,做到與時俱進。
四、信息檢索遠程網絡教育系統的教學模式和實現
在上述設計思想的指導下,經過采用將學生自學、網上教學以及在校短期面授有機結合的教學形式。其中,短期面授主要是教學生有關信息技術方面的知識,進而為遠程網絡教育的實現打下堅實的基礎。遠程網絡教育系統由五個部分構成:
1.教學大綱和電子教案
教學大綱作為教學系統中的關鍵部分,通過教學大綱可以使學生明白教學的內容、進度以及目標等,因此,教學大綱應該以文本信息為主,而且條理要清晰,這樣才容易被學生接受。在信息檢索課中,有些教學內容是相對固定的,電子教案中應該以這些固定的教學內容為主。
2.在線授課
在每個星期應該有固定的時間進行在線授課,這樣可以充分發揮老師的指導作用,因此在教學系統中作為核心和關鍵部分。通過網絡教育平臺,老師可以及時對學生的學習進行引導,可以為學生排憂解難,使學生全面掌握一些重點和難點,在某種程度上可以啟發學生的積極思維。而學生通過和老師同步的計算機演示平臺,老師的整個授課過程都可以清楚地看見和聽見,這樣就可以跟著老師的思路,可以加深對知識的學習。在信息檢索課中,通過將理論的講解和對信息檢索的實時演示相結合,可以獲得很好的教學效果。在線授課環節中,實時性和雙向性是關鍵,想要保證整個教學系統的質量,必須要保證該環節的質量。
3.討論和交流社區
為了使學生更加方便地進行討論和學習交流,老師可以對學生提出的疑問及時進行解答。學生可以通過郵件組和網絡會議等獲得學習上的指導,老師可以通過公共郵件來和學生進行對話和討論,進而指導學生學習,促進教學目的的達成。
4.課程檔案
為了便于學生進行復習,應該將每一次在線授課的全部過程錄制下來,同時要保證錄制的質量,這樣才能保證其具有利用的價值。
5.作業的提交和回復
學生可以發電子郵件來提交老師布置的作業任務,老師收到并經過批改之后又發給學生,在這個環節中,主要是對學生所學知識的測試,通過作業,老師在很大程度上就可以看出學生掌握知識的程度,老師不斷找出存在的問題,提高教學質量。
在圖書館信息檢索網絡遠程教育系統中,想要保證教學質量,必須要選擇和開發合適的教育平臺。目前,國內外都有很多的遠程教育系統已經投入使用,我國主要有西安交通大學軟件系統和上海交通大學軟件系統,國外的很多軟件已經進入了我國的市場。盡管很多的網上教學支撐平臺是大學試驗室的產物,依然處于開發和測試階段,如果自行開發遠程教育系統,將會花費大量的成本。因此,從國外引進購買還是很劃算的。這在很大程度上促進了對國外先進技術的學習,使我國的遠程網絡教育水平盡快趕上并超過國際水準。通過將國外的先進網絡教育平臺引進來,可以在很大程度上提高我國高等教育質量,進而實現和國際接軌,更好地進行學術交流。
此外需要注意的是,遠程教育僅是一種教學方式而已,教學內容依然作為保證教育質量的關鍵因素,遠程教育不是一成不變的電子教案,也不是純粹的錄音和錄像,遠程教育最重要的就是該系統具有雙向互動和實時交流的功能,這也是該系統的靈魂所在。
五、結束語
當今處于網絡和信息時代,隨著網絡技術和多媒體技術的迅速發展,為遠程網絡遠程教育提供了可能性,通過網絡平臺可以實現圖書館信息檢索課程的教學目的。我國相繼出臺了很多有關網絡教育的政策,這在很大程度上也促進了網絡教育的發展和進步,加上網絡教育本身具有很多優點,圖書館信息檢索遠程教育在未來將會有著廣闊的應用和發展前景。
摘要: 隨著多媒體應用技術的不斷發展,在社會的各個領域多媒體技術得到了廣泛的應用。圖書館作為文化和知識傳播的主要陣地,如何提升圖書館的服務效率,成為發揮圖書館社會效益的基礎。本研究以網絡時代多媒體技術在圖書館信息檢索中的應用為研究對象,分析了多媒體技術的特點與圖書館信息檢索的交互性,在此基礎上提出了多媒體技術對圖書館信息檢索的促進作用,最后闡述了網絡時代多媒體技術在圖書館信息檢索中的應用策略。通過本研究,以期為提升多媒體技術在圖書館的應用效果,提供理論參考。
關鍵詞: 網絡時代;多媒體技術;圖書館;信息檢索
1 多媒體技術特點及意義
多媒體技術指的是,通過使用計算機把文字、圖形、聲音等進行科技處理,實現這些內容相互間的聯系,并通過多媒體技術的應用,獲得更多的實際效果。多媒體技術主要有三個特點:
1.1 多媒體技術的集成性 多媒體的集成性指的是把多種媒體有機地結合在一起,實現對文字等的表達,獲得圖文聲像一體化。在多媒體產生出來之前,各種數據、文本、圖片等作為相對獨立的信息處理方式,借助不同的技術處理手段,例如:數據處理系統對相關的數據進行專業的處理,對文本、文字進行處理,多媒體技術獎這些相關的信息處理時,表現出了一定的集成性。
1.2 多媒體技術的交互性 多媒體技術的交互性指的是人機之間的交互,在進行多媒體節目播放的過程中,人們可以實現有目的的干預,借助人機交換的信息來實現所要達到的目的。多媒體技術不像電視機一樣,人們不能夠主動地接受傳播的信息。而可以通過多種渠道進行計算器交流,更好地實現人和信息之間,數字化的有效選擇和控制。
1.3 多媒體技術的兼容性 多媒體信息技術以數字化的形式,將多種信息儲存在固定的介質中,能夠實現對信息的有效加工、傳播。這些任務的完成,需要多媒體技術的兼容性。當前多媒體技術在圖書館的應用,主要有下面這些領域:圖書咨詢服務、圖書產品展示、圖書管理培訓、圖書館會議、圖書館監控管理等等。當前多媒體技術向著高分辨率、高速度化、多維度、智能化、標準化的方向發展。
2 多媒體技術在圖書館信息檢索中的應用
多媒體技術作為信息處理的高端技術,對圖書館這一文化傳播的陣地有著積極的推動作用。多媒體技術在圖書館信息檢索中有著重要的意義。
2.1 多媒體技術在圖書館自動化系統中的應用 圖書館自動化系統所使用的多媒體結構,大部分是在大存儲的主機服務器下的分散終端,通過把各個功能分配在相關的終端,在應用的時候,各個環節相互支持和影響,當服務器的采、分、編的各個環節產生故障于混亂以后,會使得整個的系統受到不同程度的影響。多媒體系統能夠有效地避免這些缺陷,多媒體通過把這些塔架層次結構系統,借助多媒體平臺構建一種平面的蛛網結構,能夠避免因為環節故障給整個圖書館自動化系統帶來的不良影響。
當前我們國家的圖書館網絡自動化發展的速度比較慢,影響發展速度的原因有環境和配置設備的原因,也有網絡成員的協作和不同需求的因素。在圖書館網絡自動化發展的過程中,可以通過使用多媒體技術,構建文本、圖片、圖標等多種內容和多種形式的數據庫,滿足圖書館這一行業的要求。
2.2 多媒體技術在圖書信息處理中的應用 隨著多媒體技術在圖書館各個領域的廣泛應用,定會促進多媒體信息搜集、信息傳遞、信息控制、信息分享等方式和方法上的改進,提高圖書館網絡應用和管理的多樣化。在圖書館多媒體應用的過程中,其使用的各種軟件平臺,是在操作系統和應用兩者之間,多媒體技術的兼容性能要優于普通的微型計算機,這有效地避免了因為軟件和操作系統的不兼容,給圖書管理等工作帶來的影響。
2.3 圖書館館藏媒體的多樣化 隨著多媒體應用的不斷進步,多媒體產品的多樣化程度越來越高,這些產品為圖書館提供了更為安全、有效的信息載體。隨著多媒體在圖書館信息檢索及日常工作中的廣泛應用,有效地擴展了圖書館的存儲能力,并且提高了傳輸信息的一體化水平。多媒體技術的廣泛使用,促使圖書館傳統的印刷品為主的藏書體系,開始向著數字化的存儲介質應用方向過渡。在以電子計算機和網絡技術為主要標志的現代化多媒體的技術表現下,其鮮明的特點使得讀者感覺越來越方便。因此,也受到了廣大讀者的廣泛使用和歡迎。圖書館館藏媒體的多樣化,實現了把傳統的館藏工作,變得更為高效和全面。
2.4 圖書信息服務內容的多樣化 多媒體技術的發展和使用,為圖書館的服務水平提升,創造了更多的條件,在現代化的圖書管理工作中,讀者既可以進行傳統紙質書刊的借閱,也可以通過儀器閱讀相關的圖書膠片、光盤、聲音等形式的資料。當前,北京大學圖書館、清華大學圖書館都已經開設了多媒體閱覽室,并且收到了良好的效果。多媒體技術在圖書館中的應用表現出了多種優勢,如:交互的便捷性、多樣化以及信息檢索和存儲的高效性等等,都為圖書館工作的開展,創造了良好的條件。
3 網絡時代多媒體技術在圖書館信息檢索中的應用策略
3.1 規范圖書館信息檢索板塊的設置 相關的調查和研究表明,圖書館信息檢索服務的提供有效的方便了用戶使用,但是我們也發現,例如在圖書館虛擬咨詢服務設置的時候,由于受到圖書館服務名稱和標準的影響,虛擬咨詢服務名字的選擇并不統一,這種情況的存在,使得用戶在使用不同圖書館提供的服務時候,需要多方面的查詢和了解,才能夠找到虛擬咨詢服務的板塊,并開展咨詢服務。因此,設置統一規范的虛擬咨詢服務名稱,是提高圖書館虛擬咨詢服務效率的前提。
3.2 做好圖書館信息檢索服務范圍的界定 在圖書館信息檢索服務開展的過程中,要以用戶的滿意和便捷使用信息檢索服務為宗旨開展工作。但是因為圖書館用戶群體的龐大,使得圖書館信息檢索服務的工作量較大,因此,各個圖書館在進行信息檢索服務設置的時候,可以對專門的咨詢服務范圍進行界定,以提高信息檢索服務的效率,避免因為咨詢問題的重復性而影響服務工作的開展。明確信息檢索服務的范圍,需要對用戶咨詢的常見問題進行篩選,對服務的針對性和有效性進行評估,以此來提升圖書館服務的專業性。
3.3 信息檢索內容的設置 通過對調查的圖書館開設的信息檢索服務的形式分析得出,在開設WEB表格的4家圖書館中,表格的設計較為單一,只是設置了用戶的名字、工作、郵件地址、聯系方式等,接下來就是用戶提問內容。信息檢索服務只設置這些信息,使得圖書館服務人員,在進行檢索策略時感覺很迷茫,這是由于工作服務人員對于已經掌握資源的用戶需求和目的不能夠做出正確的判斷。所以,在進行WEB表格設計的時候,可以加上用戶已經掌握的資源、對圖書檢索的要求、答案提供的時間范圍等等。這樣更加有助于圖書館服務人員為用戶提供針對性強的咨詢服務,提高圖書館信息檢索服務的效率。
3.4 加大對信息檢索服務方式的創建 當前在圖書館網頁信息檢索服務中,大部分圖書館的信息檢索服務只能提供問題瀏覽,不能提供問題檢索服務。在圖書館搜集較多用戶問題的時候,用戶如果需要查找某一個想要信息檢索的問題時,就顯得非常不便。因此,圖書館需要將前期用戶的問題做成一個能夠進行檢索的問題數據庫,為用戶提供瀏覽和自動檢索這兩種問題查詢的方式,將會有效的提升為用戶提供信息檢索服務的效率。但是調查表明,僅僅有4家圖書館設置了能夠檢索的FAQ。另外,在圖書館信息檢索服務提供的同時,要不斷的加強數字資源的建設,加快特色數字資源板塊的創建,為用戶提供更多的便捷服務,使用者能夠快速的找到自己所需要的資料,既節省了用戶的查詢時間,也提升了圖書館的工作效率。
3.5 做好圖書館信息檢索的保護 在圖書館信息檢索服務開展的過程中,圖書館用戶是通過網絡注冊等途徑,進入圖書館網站的,這就使得用戶的信息在一定權限下,能夠進行瀏覽。因此,網絡環境下圖書館工作的開展,需要加強對圖書館用戶個人隱私的保護,這種對個人信息、興趣愛好、通訊地址等內容的保護,是更好的保證用戶個人利益,提升圖書館信息檢索服務的準確性、安全性的重要基礎,對每一個開設信息檢索服務的圖書館來講,都是需要重點關注的內容之一。
3.6 加大對圖書館用戶檢索技能的培訓 在圖書館信息檢索服務提供的過程中,圖書館要做好用戶應用圖書館檢索的培訓。通過對圖書館問答庫的調查發現,當前有一部分用戶咨詢的問題是關于文獻檢索方法的問題,圖書館咨詢服務解答人員的答案,是教會用戶怎樣利用圖書館的數據庫檢索,這種檢索服務的前期培訓,是提高圖書館信息檢索服務效率的基礎工作。因此,在圖書館提供信息檢索服務的同時,要借助圖書館主頁、宣傳冊發放等方式,來提高用戶使用圖書館信息檢索服務的能力。
4 結語
綜上所述,隨著多媒體技術的不斷發展,對圖書館信息管理和日常工作來講,既是機遇也是挑戰。這就要求圖書館在信息管理的過程中,把握好圖書館多媒體技術應用的契機,通過多媒體技術的開發,對現有的圖書管理、服務方式、服務內容,進行全面的優化,不斷地提升圖書館工作的現代化水平,為廣大讀者和用戶,提供更為便捷、高效的圖書管理工作,獲得更好的經濟和社會效益。
摘 要:本文對網絡信息檢索的特征、方式以及未來的發展趨勢進行了初步的探討。
關鍵詞:網絡 信息檢索 趨勢
Internet在全球范圍內的迅速發展與成熟,促成社會各領域信息飛速膨脹,為人們查找、獲取信息提供了豐富的信息源,越來越多
的人開始利用網絡來查詢信息。網絡信息檢索就是根據用戶的需要,從大量的網絡信息集合中查詢出特定(即相關)的一小部分信息的過程。那么,面對網上大量紛繁復雜的信息資源,今后網絡信息檢索的發展會是怎樣呢?筆者就這一問題進行了探討。
1. 網絡信息檢索的起源
信息檢索始于上世紀50年代,60年代已經實用化,70年代聯機檢索服務形成市場,80年代實現多元化、智能化,90年代信息檢索系統與因特網結合,才出現了早期簡單的網絡檢索。但由于Internet的迅猛發展使其所含的信息數量激增,在這樣一個無限、無序、浩瀚無邊的信息空間里,快速查找并獲取所需的信息已成為人們最迫切的需要。
2. 網絡信息檢索的特征
2.1信息檢索空間的拓寬 網絡信息檢索的空間比之傳統的情報檢索是大大地拓寬了,它可以檢索因特網上的各類資源,而檢索者不必預先知道某種資源的具體地址。其檢索范圍覆蓋了整個因特網這一全球性的網絡之網絡,為訪問和獲取廣泛分別在世界各地、成千上萬臺服務器和主機上的大量信息提供了可能。這一優勢是任何其它信息檢索方式所不具備的,如:國際商用聯機檢索也只能是檢索某一臺、某幾臺主機或某一局部網絡內的若干數據庫。
2.2交互式作業方式 所有的網絡信息檢索工具具有交互式作業的特點,能夠從用戶命令中獲取指令,即時響應用戶的要求,執行相應操作,并具有良好的信息反饋功能,用戶可以在檢索過程中及時地調整檢索策略以獲取良好的檢索結果,并能就所遇到的問題獲得聯機幫助和指導。
2.3用戶界面友好且操作方便 網絡信息檢索對用戶屏蔽了各局部網絡間物理差異,使用戶在使用這些服務時感到明顯的系統透明度。檢索者使用自己所熟悉的檢索界面和命令方式輸入查詢提問就可以實現對各種異構系統數據庫的訪問、檢索。
3. 網絡信息常用的檢索方式
3.1鏈接法 是指用戶在閱讀超文本文檔時,利用文檔中的鏈接從一網頁轉向另一相關網頁。有些類似于傳統文獻檢索中的“追溯檢索”,即根據文獻后所附的參考文獻追溯相關文獻,一輪一輪地不斷擴大檢索范圍。個人用戶在網絡瀏覽的過程中常常通過創建書簽或熱鏈表來將一些常用的、優秀的站點地址記錄下來,組織成目錄以備今后之需。但這種做法只能滿足個別、一時之需,相對于這個網絡信息的發展,其檢索功能似乎是微不足道,談不上真正意義上的網絡信息檢索。
3.2通過網絡資源指南來查找信息 為了對因特網這個無序的信息世界加以組織、管理,使大量有價值的信息納入一個有序的組織體系,專業人員做了許多努力和開發。也就是基于專業人員對網絡信息資源的產生、傳遞與利用機制的廣泛了解,和對網絡信息資源分布狀況的熟悉,以及對各種網絡信息資源的采集、組織、評價、過濾、控制、檢索等手段的全面把握而開發出的可供瀏覽和檢索的網絡資源主題指南。
3.3利用搜索引擎進行信息檢索 這種方法是較為普遍、常規的網絡信息檢索方法。搜索引擎是提供給用戶進行關鍵詞、詞組或自然語言檢索的工具。這種方式用戶可以用邏輯組合方式輸入各種關鍵詞,搜索引擎根據這些關鍵詞尋找用戶所需資源的地址,然后根據一定的順序反饋給用戶包含這些關鍵詞信息的所有網址和指向這些網址的鏈接。利用搜索引擎進行信息檢索具有:省時省力,簡單方便,檢索速度快、范圍廣,能及時獲取新增信息,這才是真正意義上的網絡信息檢索。
4. 網絡信息檢索的發展趨勢
4.1智能檢索 近年來被稱為智能搜索引擎的網絡檢索工具已經出現,智能搜索引擎有3個主要的特征:網絡蜘蛛的智能化、為特定用戶提供相關信息、搜索引擎人機接口的智能化。它可以在因特網中導引用戶,不僅在用戶搜索、瀏覽時給予直接的支持,而且能夠提供具有獨立搜索功能的智能體的幕后支持。
隨著網絡用戶對檢索的精度、檢索效率要求的不斷提高, 網絡檢索軟件開發更重視開發檢索工具在檢索功能及檢索服務上的智能化程度。
4.2可視化檢索 網絡檢索的可視化是指將數據庫中的不可見的語義關系用圖像形式可視化顯示并表達用戶檢索過程。可視化檢索有許多優點,主要表現在:對文獻或檢索式內部語義關系的理解有助于用戶判斷一個檢索中的相關文獻;可視化的環境可以為用戶提供更豐富和更直觀的信息;相關性在傳統的信息檢索中只指檢索結果、檢索式相關,而在可視化檢索中則指檢索結果之間的相關度;使得用戶可以進行交互式輸入,允許在信息空間進行動態移動,允許用戶修改數據的顯示方式,使他們理解數據的個人偏好可視化;減少了理解檢索結果的時間,可以對相關信息進行聚類分析,而聚類分析可幫助人們發現新的學科點,也可作為反饋的工具;操縱檢索的內部過程;提高檢索系統與人之間的交互性;檢索結果可以模仿網絡環境形成拓撲結構圖,在拓撲結構圖中所有相關文獻或其他類型資源將被歸為同類;一個透明的檢索過程使檢索更容易更有效。
4.3多媒體信息檢索 目前,基于內容的多媒體信息檢索是研究的熱點。基于內容的多媒體信息檢索是根據媒體和媒體對象的內容及上下文聯系在大規模多媒體數據庫中進行檢索。多媒體信息檢索是一項涉及多個學科的課題,因為它需要利用圖像處理、模式識別、計算機視覺、圖像理解等領域的知識作為基礎,還需從認知科學、人工智能、數據庫管理系統、人機交互、信息檢索等領域引入新的媒體數據表示和數據模型,從而設計出可靠的、有效的檢索算法、系統結構以及友好的人機界面。
4.4基于網格的信息檢索 網格概念最早于20世紀90年代中期提出,是從電力網概念借鑒過來的。其主要特點是把整個因特網集成為一臺巨大的超級計算機,以實現全球范圍的計算資源、存儲資源、數據資源、信息資源、知識資源、專家資源、設備資源的全面共享。互聯網實現了計算機硬件的連通,wed實現了網頁的連通,而網格試圖實現互聯網上所有資源的全面連通,在動態的、異構的虛擬組織間實現協同的資源共享以及協同解決問題。共享是網格強調的重點,但是這種共享又必須是高度可控的,需要在資源提供者和消費者之間詳細定義哪些部分是可以被共享的,在什么條件下可以共享以及相應的管理機制、付費機制。
當前,隨著計算機高科技的不斷發展,網絡檢索就像當年的照相機一樣,逐步超著簡單化、人性化方向發展,檢索界面越來越簡單友好,越來越適用與普通用戶。用戶可以很容易地進行網上自動標引、自動文摘、自動跟蹤、自動漫游、機器翻譯、多媒體檢索欣賞、動態連接、數據挖掘等操作,方便、 及時、準確地獲得所需信息。
網絡信息檢索的發展永遠滯后于用戶的需求,這是個不爭的事實,但也正是用戶的需求推動著網絡信息檢索技術的不斷完善。在網絡信息檢索不斷發展壯大的今天來展望未來,人類信息需求究竟能夠被滿足到何種程度,我們拭目以待。
摘 要:在先進科技信息化不斷發展的今天,信息檢索課程的教學方式與教學內容發生了很大變化。利用多媒體和聯接網絡的方式進行教學,把信息檢索相關的基本常識、有關資源等大部分內容做成教學用的資料并且做出簡單的說明,然后讓學生們直接從網絡上拷貝和下載,進而加強自己的信息量。本文綜合分析網絡信息檢索教學現在發展的情況基礎上,討論了怎樣在現狀的基礎上更好的發展來對網絡信息檢索教學進行改革。改革的重點主要是教學的內容與方式及師資部分上加強創新,提升信息檢索教學的質量,滿足高科技時代不斷發展的需要。
關鍵詞:教學改革;信息檢索;教學設計;網絡環境
1 信息檢索教學的背景分析
現在的教學中因為校園網和圖書館設備自動化的建設不斷發展。各類的讀物、在網絡上有許多的資料文獻都是可以直接搜索到的,而且在校園的網絡中利用圖書館的系統來搜索所需要的資料已成為了他們生活中不可或缺的組成部分。同時利用局域網和Internet等方法將圖書館信息資源融合起來,變成校園內的共享資源。讓全體師生在利用網絡檢索信息時更加的高效方便。當前,學校圖書館的統計中可以看到購進的光盤和用于網絡數據庫的經費原來的20萬元左右增加至近70萬元,數字且還在持續上升。同時購進的資料種類也越加的豐富和廣泛。從前一些只有在圖書館信息檢索室里才可以搜索得出來的一些數據,因為各方面的發展和完善,那些原本在特定地方才能搜索的數據現已全部上傳至了網絡中。無論是誰都可以利用網絡來找到自己所需要的信息。而且一些網絡數據庫公在搜索上采用的是鏡像站或專線訪問的技術,所有這些做出的改革都為信息檢索的傳授提供了一個的好的大環境。
2 分析信息檢索教學的現狀
2.1 信息知識更新速度太快
現在先進技術的創新和計算機應用的普及,信息的媒介已越來越傾向于電子化的趨勢。信息的數量如氣球般迅速膨脹起來。無論是線性還是非線性或是以聯想的的方式,都有益于對檢索和交叉檢索的良性的發展。而且在這一點上它相比較于系統的回溯檢索速度而言紙體數據庫的速度是遠遠不如的。但是,它也存在著不足,如信息資源標引深度過深、標引規范也非常迥異,檢索工具種類雜亂,這些問題都給網絡用戶的使用中造成了很大的不便。
2.2 學生網絡搜索存在不便
網絡上現有各類的專業性強的檢索查詢工具和對應的軟件以及各種各樣的搜索引擎,這部分的搜索引擎都有著自己的優勢和獨特之處,但正因為如此各類的引擎操作的步驟不同,而造成了學生覺得使用這些工具非常的繁瑣的感覺,進而不愿意去使用它們。再因為網絡上的信息資源量非常大、類別雜亂、組織分散,學生又普遍缺乏網絡檢索知識和技巧,所以在上網檢索信息時,很多人經常會發生兩個極端的情況。一是搜索出上千條信息,二是一條信息都沒有。網絡環境下學生的搜索的技能需要努力加強。
2.3教學大綱更新過慢
很多的高校在傳授信息檢索時上傳授的主要教學內容非常的單一、落后,更新的速度也很慢。就算有時修改更新了,其內容調整的力度也很不足。在實踐網絡信息檢索的教學中顯然滿足不了當前學生的需要。而且理論或實際操作課程現在都無法對使用網絡的信息用戶的最基本主要的需求進行滿足。也無法確保學生們能夠掌握好網絡信息檢索的實際操作。甚至不能讓學生對搜索引擎的網上信息檢索技術有個全面的認識。
2.4 教材內容單薄、老化
國內的教學中以手工方式進行檢索為教學的主要內容的學校普遍存在,許多的計算機檢索知識很落后,其他相關的網絡信息檢索的教材種類整體上很貧乏。現有的教學材料來看,這部分的教材內容上在Intemet基本概念[1]、主要功能及對各網絡資源的介紹上比例較多,但在關于網絡信息檢索的工具、技巧和實際操作等內容上比重就顯得相對較少。所以在Internet信息資源的變化迅速和飛快的發展的需求,改善教學材料的內容的形式也更加的急迫。
2.5 機檢實戰經驗非常不足
現在很多的高校資金不足使得許多設備沒有辦法購買,學生們只好一批一批的使用計算機,有時還會重復操作老師在課堂上教過的相關內容。使用計算機的時間也常常就只有兩三個課時罷了,這很大程度上不能滿足學生對網絡這塊知識學習的需要,更不能根據學生已有的問題針對性的進行指導和糾正。部分學校只是進行演示,甚至有的學校因為條件的限制根本不進行演示。有演示的學校他們的實習也如蜻蜓點水般點到為止式的教學,這根本取得不了有效的上課成效。
2.6 師資設備貧乏
信息檢索課程他與其他的課程密不可分,他們既有聯系又有分工。老師們在學習有關學科的專業知識和網絡操作的基礎上還要不斷更新自己的專業素質。很多學校的一些老師都是由圖書館或其他科目的老師兼職性的擔任,他們的專業知識不夠,而且缺乏合理的知識結構。一些甚至沒有進行過相關的專業系統的學習培訓,輕易草率的就開始進行教學,而且那些教師沒花很多的精力到傳授知識上及教學研究中去。這樣的現狀慢慢的發展一定會影響到將來的教學質量。
3 信息檢索教學改革設計
3.1 制訂符合時展的教學大綱
指導文件是教學的主體大綱[2],也是不能缺少的教學行為依據。它對教學的廣度、深度及教學效果有直接的影響。在網絡的背景下,本來有的資料在教學時是作為主要內容來說已經不再適用于現在實際情況的教學了,只有盡快的制定出統一明確的教學方向和目標,才能使信息資料檢索教學得以規范化,才能全面的讓教師的教學思路統一起來。以達到預期的教學效果、考核標準等。因此,這主要內容對于網絡信息檢索計劃學時比例偏低。建上網實踐課學,制定動態教學大綱。并且應適當增加至總學時的百分之三十以上。那么老師們就可以打破“大綱”束縛,并能隨時增加一些豐富的內容,打破常規性的教學模式,使信息檢索教學更加的生動有趣,富有創造性,做到真正適應時展的需求。
3.2 不斷更新教學講義
努力的融入一些新的內容:
(l)網絡基本知識。簡介Internet的作用和各種瀏覽器的操作方法、Internet的信息資源分類和分布情況、Internet的信息檢索原理等等。這是很大的一個范圍。在傳授中可以根據一些學生的具體對這方面專業知識的興趣和需要,針對性地去指導和教學。
(2)網絡搜索工具。重點介紹Internet檢索工具概述、搜索引擎的操作原理、搜索引擎的分類、選擇并使用各種技能等等。比如在查尋網絡信息時,就需要了解信息源的URL,但查URL的工具常用的有搜索引擎和主題指南這兩類。主題指南和它的主題層次用列表的方式公開信息,讓本來不明確的信息需求通過層層列表而清晰起來。搜索引擎是通過輸人關鍵詞進行檢索訪問的,各類的引擎都是大同小異的,所以要有選擇地介紹幾類。
(3)專業光盤或鏡像數據庫檢索。說明國內外光盤數據庫或鏡像數據庫的檢索功能和操作方法。數據庫的檢索功略,電子版書刊網絡操作基本程序,和操作數據庫檢索實例等等。讓那些進行了實例的同學可以深刻地理解檢索策略的制定、檢索技巧的運用。
(4)網絡信息的檢索。非常仔細的去講解通過網絡在線所獲得的科技報告。像許多國家的已申請專利了的用網絡信息搜索出的文摘和其方法及技術、專門的檢索技術,和使用各種各樣的搜索引擎搜索出的所有信息的方法和技巧。例如在使用DIALOG和OCLC搜索系統[3]時,應該著重講解這些系統在Web方式和Telnet方式下的它們的搜索方法的相似點和不同點在哪。通過這樣講解不但可以讓學生了解和認識網絡信息檢索的基本知識和原理,還可以為幫助解決學生們在使用網絡時碰到的問題提前做好準備。
四 信息檢索傳授內容與要點改革建議
1、介紹信息檢索知識與信息資源是教學基礎,訓練學生對信息的識別能力
傳授知識時使用Powerpoint軟件制作一個300余張的教學課件,其內容包括講解信息檢索的概念、定義、語言、工具等基本知識的幻燈片[4]150余張,,關于搜索引擎的有30多張,關于網站的有40多張,說明常用數據庫的有30多張,同時以自身主修的專業為參考依據,篩選出可以檢索出的網站的數據庫。上課時,進行一些基本的說明。對部分重點、難點內容可以進行課堂演示,在課后的時候還可以通過網絡將課件與學生分享或直接拷貝給學生。對三大檢索刊物及各專業領域的重點數據庫,舉例說明與講解,讓使學生對有關專業方面的主要檢索工具做到心中有數。
2、解析查詢鍛煉學生搜索能力
如何高效的利用網絡數據移動到自我的目的是現在學生非常關注和關心的內容。這點可以進行分析和講解。對數據庫的講解,主要分為兩類,一類是中文類(全文和摘要),一類是外文(全文和摘要),可以分開講解。上課時讓那些對所教授的內容提出不動的學生讓其親自操作一遍,了解其操作的整個過程。
利用搜索而得出的結果來說明詞符、通配符、邏輯運算符和其他一些以限定的符號
3、查全率和查準率是教學的難點,鍛煉學生的篩選能力
在傳授的過程中可以分成下面三個部分:
(1)選取檢索詞。要注意檢索詞選取的多樣性,檢索詞能反映出信息感念的準確性和內容的全面性。
(2)檢索式的結構。要形成完整的檢索概念,擬定適合的檢索順序,并利用邏輯算符或位置算符進行邏輯匹配
(3) 檢索策略修正。在檢索時,要利用獲得的檢索結果,進行檢索策略的修正,從而獲得更加準確的結果。在方法上我們可以利用有著后綴代碼的關鍵字和使用有著前綴的索引達到限制主體的效果來應對檢索加過中記錄數過于龐大、無用信息太多的情況。
五結論
在現代這是一個離不開網絡與檢索的時代,傳授網絡教學的工作人員們只有人不斷地提高自己的專業水平,努力地更新自己的專業知識,快速的調整教學方式方法。只有這樣才能不被當前的迅猛發展的高新時代淘汰掉。
作者單位:武漢市第一商業學校,湖北 武漢 430022
摘 要:隨著計算機網絡的飛速發展,計算機技術也從傳統的單機運行發展到網絡、網格化發展,當前計算機網絡發展模式主要為:客戶端/服務器, 瀏覽器/服務器模式,這兩種模式都存在著對服務器要求非常高,海量信息調度、檢索存在著耗時高等問題,而peer-to-peer(P2P)正是針對此問題二提出的分布式計算模式。此種模式具有存儲內容集中、檢索方便、系統組織協調能力優良等特點。
關鍵詞:P2P技術;網絡信息檢索;研究
1 P2P技術概述
1.1 P2P定義
P2P是Peer-to-Peer(對等網絡,對等計算)的簡稱,中文譯名為對等互聯或者點對點技術,在P2P網絡中各個節點被稱為peer(對等體)。P2P是一種網絡模型,在這種網絡中所有的節點是對等的(稱為對等點),各節點無主從之分,具有相同的責任與能力并協同完成任務。對等點之間通過直接互連共享信息資源、處理器資源、存儲資源甚至高速緩存資源等,無需依賴集中式服務器或資源就可完成。
P2P網絡并不是一種專門的新興技術,而是假設在互聯網絡中的結構基礎。互聯網最基本的協議TCP/IP并沒有客戶機和服務器的概念,所有的設備都是通訊的平等的一端。在十年之前,所有的互聯網上的系統都同時具有服務器和客戶機的功能。當然,后來發展的那些架構在TCP/IP之上的軟件的確采用了客戶機/服務器的結構:瀏覽器和Web服務器,郵件客戶端和郵件服務器。但是,對于服務器來說,它們之間仍然是對等聯網的。以email為例,互聯網上并沒有一個巨大的、唯一的郵件服務器來處理所有的email,而是對等聯網的郵件服務器相互協作把email傳送到相應的服務器上去。另外用戶之間email則一直對等的聯絡渠道。
1.2 P2P發展的影響
由于各種信息資源的發展和不斷壯大,通過共享資源的方式來提升數據的傳送、文件共享的功能要求將會越來越高,而當前的應用系統采用的方式大都是用服務器共享的方式,這已經開始嚴重制約著信息傳遞的數據,因而P2P作為一種新的共享方式出現,成為了時代的寵兒,它為文件共享、分布式計算機和信息交流提供了一種更加靈活和高效的模式,也為信息安全帶來了新的挑戰。
2 基于P2P技術的網絡信息檢索
2.1 基于P2P技術的網絡信息檢索的提出
傳統的信息檢索基于C/S模式,在該模式中,數據的分發采用專門的服務器,多個客戶端都從此服務器獲取數據。這種模式的優點是:數據的一致性容易控制,系統也容易管理,但這種模式對于大規模網絡的環境容易造成性能瓶頸。在網絡邊緣信息不斷豐富的今天,我們必須在互聯網上設置擁有強大處理能力和高寬帶的高性能計算機,配合高檔的服務器軟件,再將大量的數據集中存放在上面。這種架構使我們對服務端的投入巨大,因此服務器的個數只能是有限的,這就使系統容易出現單一失效點。同時C/S模式使得互聯網中無論是信息還是資源均向同一方向集中,它的網絡優勢往往被局限于企業內部,制約了企業間的信息交流,而且網絡安全性較差也是一個不容忽視的問題。從目前公布的數據來看,容量最大的搜索引擎也不過是抓取了整個網頁數量的40%左右。傳統的集中式引擎無法勝任實時性強的海量信息檢索,P2P技術的蓬勃發展卻為信息檢索提供了全新的思路。在P2P網絡中,每個參與網絡的主機既是內容的消費者,又是內容的提供者,各個結點各自對自己本機上存儲的信息做索引,所有信息提供者一起構成一個龐大的分布式數據庫以供檢索,這可以有效解決動態網頁信息檢索的問題,同時P2P網絡中的每一個企業的信息點都是一個獨立的Peer節點,每個Peer節點之間進行對等通訊,避免了傳統C/S結構的低效和高成本,數據的集中處理又避免了P2P帶來的數據分散。
2.2 基于P2P技術的網絡信息檢索的原理
在P2P網絡中,每個參與的節點既是服務器又是客戶端,既是信息的提供者又是信息的消費者。P2P信息檢索的目的就是網絡中的任意節點都可以提交檢索的請求,然后這些檢索通過某種路由機制被路由到和檢索相關的節點上去,存儲有和該檢索相關信息的節點將會回應請求,把本地相關的內容以對等的形式直接傳送到請求節點上,示意圖見圖1。
圖中的檢索過程分為以下幾個階段:
每個節點在加入網絡的時候,會對存儲在本節點上的內容進行索引,以滿足本地內容檢索的目的。然后按某種預定的規則選擇一些節點作為自己的鄰居,加入到P2P網絡當中。
(1)發起者P提出檢索請求q,并將q發送給自己的鄰居。
(2)P的鄰居收到q后,再按照某種策略轉發給它在網絡中的其它鄰居節點。這樣,q就在整個網絡中傳播開來。
(3)收到請求q的節點如果存儲有相應內容信息,則將對應的內容返回。
2.3 基于P2P技術的網絡信息檢索的主要分類
P2P檢索主要分成3種類型:結構化的P2P、網絡的搜索技術以及針對這2種類型的改進技術。前出現的P2P系統具備足夠的語義,能夠處理復雜查詢,以稱為新一代的P2P檢索技術。
P2P信息檢索主要是要提高交互式作業方式、用戶透明度,拓寬信息檢索空間、提高信息檢索的準確性。
2.4 P2P檢索技術的方法
P2P查詢的關鍵技術包含比較廣泛,核心技術包括索引構造技術、路由策略及查詢優化等,下面將分別對它們進行介紹。
2.4.1 索引構造技術
索引構造技術直接影響P2P系統的路由策略以及系統的查詢效率,因此,構造具有豐富語義和高效的索引對于P2P系統是非常關鍵的,一般索引構造技術分成基于模式的索引和實例索引,模式索引為PDMS所特有,考慮了語義異構問題。實例索引包括:①通過散列將原始數據標識符映射到ID集合,再將ID集合映射到負責該ID的peer,可以具有多種拓撲形態的散列索引;②把數據庫中B+樹思想在P2P環境下進行擴展產生的樹形索引。實例索引有多種分布方法:本地分布、集中式分布和分布式分布。本地索引中各peer只維持對自己的數據的引用,而不管其他節點上的數據的信息;集中式索引需單個服務器上保存許多peer上數據的引用,索引是集中的,但數據是分布的;分布式索引指向目標的指針存放在多個peer上,可有效分散查詢負載和索引的存儲負載,具有更強的健壯性和可擴展性。
2.4.2 查詢優化
由于P2P網絡動態的特性,不能假定具備數據分布的全局視圖,也不能在這些網絡中采用靜態的拓撲和查詢計劃,使得提交的查詢不太可能在整個查詢處理過程中都保持原來的性質。為此,對查詢進行優化變得非常重要,這樣可以加快查詢執行的效率,同時減少網絡流量。
2.5 基于P2P技術的網絡信息檢索的特點
P2P系統具有自組織性、對稱性、可擴展性以及分布控制等優良特性。隨著P2P系統的廣泛應用,該系統被認為是未來分布式計算的關鍵技術,可以應用于數據共享、CPU周期共享、及時信息傳輸以及協同工作組件等方面,同時在搜索引擎、數據流管理、語義網、協作信息過濾等領域具有廣闊的應用前景。對P2P的研究主要集中在搜索、存儲、安全和應用4個方面,而搜索是P2P技術的核心。
P2P信息檢索通過分布式存儲和處理能力為大范圍的Web文件搜索提供可能,傳統式的搜索引擎對于數據的更新緩慢不能滿足用戶實時性要求。受網絡爬蟲采集信息能力的限制,傳統的搜索引擎很難進行深度采集深層次的網頁信息。與傳統的檢索技術相比較,基于P2P信息檢索技術有以下優點:(1)P2P信息檢索充分利用以大規模分布形式存在的信息。(2)彌補傳統搜索引擎無力深度挖掘網站信息的弱點。(3)挖掘移動終端的信息。(4)構建人性化的信息終端。
傳統的信息檢索,必須借助網絡檢索工具Internet上的信息極其豐富,這些信息分布在全世界不同的計算機主機上,基于超文本結構在Internet上,基于WWW的信息組織采用了超文本方式。基于P2P技術的信息檢索技術以人為本的理念使客戶使用起來更加方便、容易,檢索的更加徹底和透明。未來的P2P檢索技術主要是和3G技術,移動智能技術結合起來,使用戶深切感受到21世紀網絡時代的方便。
3 基于P2P技術的研究
3.1 基于P2P的網絡信息資源的檢索-搜索引擎的研究
3.1.1 Caching技術
在對等網絡中,索引信息的擴散是通過查詢來驅動的,成功的查詢結果被緩存下來,使得索引信息可以再網絡擴散開來。資源搜索效率可否再次成百倍地提高,即在用戶未提出問題時就為他準備好答案,Caching技術可以使資源效率達到10-100。盡管網絡資源無限爆炸,但每一個成員及其每一次查詢,所涉及到的回答域都是有限的,并且基本保持固定不變,這就是局部性原理。計算機體系結構中關鍵技術指令和數據在不久的將來可能被再次訪問,即下一程序指令在前條指令的概率非常大,因此,實踐局部性往往會引起對最近使用區域的集中訪問;空間局部性指的是一個進程訪問的各項進程彼此很近,即下一次程序指令在前條指令附近的概率非常大。前者就是程序Cache,后者就是數據Cache的理論依據。
3.1.2 分布式的Gnutella搜索機制
在Gnutella中,每個節點共享一些文件,并提供基于文件名的本地查詢操作。它使用消費洪泛的方式搜索其他節點上的文件。發起搜索操作的節點向所有鄰居節點發送Query消息,而接到Query消息的節點進行本地查詢,并把查詢進一步轉發給自己的所有鄰居。為避免無窮遞歸,每個搜索消息都有一個TTL域,它隨著轉發的進行而遞減,TTL為零的消息則不再被轉發。每個請求都有一個準一的標識號。已收到請求的節點如發現已處理過,則丟棄該請求。
Gnutella的搜索機制可以看出,個別節點失效對查詢結果影響較小,能動態適應網絡拓撲變化,允許節點動態加入或退出。
4 結束語
基于P2P對等檢索技術的發展將會為互聯網信息搜索技術提供出了全新的解決方案,它讓Internet上的共享方式提升到了一個新的水平,讓人們能夠以更方便、快捷的方式參與到網絡交互中去,讓人們能夠更好的體驗到數據共享、數據應用。
【摘 要】隨著信息技術、計算機和網絡技術的飛速發展,圖書館正在經歷前所未有的偉大變革。在人們逐漸告別了手工檢索,實現圖書館自動化的同時,也渴望著圖書館能真正打破時空的界限,館藏資源實現數字化,正是由于社會的需求,數字圖書館應運而生并且迅速發展起來。本文主要探討網絡環境下高校數字圖書館的信息檢索。
【關鍵詞】網絡環境 數字圖書館 信息檢索
數字圖書館提供的信息資源主要包括電子圖書、電子期刊、電子報紙、電子參考工具書與百科全書、OPAC、數據庫、音像資料等。數字化圖書館必須具備三個基本要素:數字化資源、網絡化存取和分布式管理。數字化資源是數字圖書館的“物質”基礎。高速的數字通信網絡是數字圖書館的存在手段。分布式管理是數字圖書館發展的高級階段,全世界的數字圖書館只要遵循統一的訪問協議,就可以實現資源共享[1]。
1高校數字圖書館的特點
1.1信息資源數字化
自動化圖書館與數字化圖書館最大的區別就在于前者只是實現了典藏、借閱等流程的機械化、自動化,而數字化圖書館是實現了文獻內容的數字化。數字圖書館的文獻內容包括已有的館藏文獻、商用電子資源、自建資源、互聯網免費資源,在文獻的級次上包括一次文獻、二次文獻、三次文獻。館藏資源數字化一方面對文獻起到了保護作用,特別是對于古籍善本和歷史珍貴文獻的保護更具有深遠的意義;另一方面也方便讀者檢索、瀏覽,不必考慮復本量。
1.2信息傳遞網絡化
網絡和信息技術的發展使數字圖書館超越了時空觀念。通過網絡,讀者可以在任何時間、任何地點訪問數字圖書館,而不必考慮開館時間和地理位置的不便,從而大大縮短了信息傳遞時間,也加快了信息交流與反饋的速度。通過網絡將各個圖書館及信息服務中心連接起來,極大的促進了資源共享。
1.3廣泛的可存取性
廣泛的可存取性包括兩層含義:一是信息資源來自世界各地的研究機構、大學、企業、團體和個人;二是讀者可以隨時獲得所需信息資源,從而實現“信息存取自由化”。
1.4信息資源共享
由于出版物的增多,圖書館經費的緊張,任何圖書館都無法全部收藏所有的出版物,數字圖書館的出現給資源共享提供了良好的基礎平臺,極大地提高了廣大社會公眾對文獻信息資源的可獲得性[2]。
2網絡環境下高校數字圖書館信息檢索
許多高校圖書館,在數字化方面,也做了大膽嘗試,比如很多高校都購買《中國學術期刊》網絡版數據,建立在校園網中可以自由閱讀的封閉式鏡像站點;也有許多高校購買超星或書生的數據庫,建立自己的數字圖書館鏡像站點。高校數字圖書館大多包含以下幾個方面的內容:館藏資源檢索、網上圖書、網上期刊等等。
2.1網上館藏資源檢索
所謂網絡圖書檢索一般是指把實體圖書館的館藏資源以書目信息數據庫的形式錄入到計算機中,并在Internet上,允許所有或特定的網絡用戶對館藏書籍按照一定的方法進行檢索。由于把書籍全文全部轉錄成為數字形式存在一些具體問題,包括要解決圖文混排及文章特殊要求、作者著作版權、工作量以及是否確實需要等問題,目前大部分網絡圖書檢索一般只限于書目、作者、摘要、出版社等基本信息,原書仍在圖書館。因此,館藏資源檢索就是檢索圖書書目信息,對讀者了解館藏有很大幫助。網絡圖書檢索一般比較簡單,國內外的圖書檢索系統差別不大,一般都可以使用www方式和Telnet方式進行免費訪問和檢索。使用Telnet方式一般需要授權,但大部分訪問者仍可以使用一些公共賬號(如public)進行登錄。高校圖書館館藏資源檢索系統一般都有圖書檢索功能、新書通報、圖書催還、讀者借閱情況查詢、網上預約和網上續借,一般還有圖書館的服務簡介、規章制度、開館時間等等,是讀者利用圖書館的好幫手。使用圖書檢索,讀者可以看到要查找的圖書的排架號,按照排架號去圖書館書架上找書,并且可以看到該書的借閱情況:是在編、在架還是借出;一般在辦理借書證時圖書館都要給讀者一個初始密碼,讀者可以自己修改密碼,在查詢自己的借閱情況和網上預約、網上續借時,需使用該密碼[3]。
2.2網上圖書
目前,網上有許多數字圖書館或網上書屋,讀者在網上可免費閱讀或下載圖書。比較大的網上圖書館有書生數字圖書館、超星數字圖書館、黃金書屋等等。許多高校根據專業設置,購買電子圖書數據和專用設備,建立數字圖書館鏡像站點。下面,我們以書生數字圖書館為例,介紹網上圖書的查詢、閱讀方法。北京書生科技有限公司是一家以技術起家的典型IT公司,主要業務是數字化信息加工和經營,依靠先進的硬件設備和技術,將圖書、報刊等傳統出版物數字化[4]。
2.3網上期刊
《中國學術期刊全文數據庫》是目前國內最大的連續動態更新的中國期刊全文數據庫,累積全文文獻近千萬篇,分9大專輯,126個專題文獻數據庫。另外,還有重慶維普期刊全文數據庫,也可查看中國學術期刊全文數據。下面我們以《中國學術期刊全文數據庫》為例,介紹網上期刊查閱方法。用戶在登錄界面中輸人登錄用戶名和密碼后,即進入檢索主界面,系統默認登錄進入初級檢索系統,在初級檢索界面中,點擊高級檢索鏈接就可以進入高級檢索界面。網絡信息檢索工具是指在因特網上提供信息檢索服務的計算機系統,其檢索的對象是存在于因特網信息空間中各種類型的網絡信息資源。較為典型的傳統信息查詢工具有Gopher、Archie、WAIS等,它們分別可以查詢Gopher資源、FIP資源和WAIS資源。還包括目前發展最為迅速、最受人們歡迎的信息檢索工具——WWW(即萬維網)上的檢索工具。
結論
為了迎接新技術革命的挑戰,迎接信息社會和知識經濟時代的到來,高等教育必須要培養出具有較強的知識信息意識、較高的自學能力和獨立研究問題能力的高素質人才,以適應社會發展的需要。在高等學校中,圖書館和教師、實驗室一起并列為辦學的“三大支柱”。教師在教學中起主導作用,這種主導作用不僅體現在傳授基本理論、基礎知識和基本技能方面,更重要的是啟發引導學生學會獨立自學方法,掌握獲取知識的技能。通過對網絡環境下高校圖書館信息檢索進行分析,有利于大學生能夠更好地運用圖書館學習知識,掌握知識。
【摘 要】本文主要對網絡信息檢索進行論述。
【關鍵詞】網絡信息;檢索
隨著信息技術的高速發展,信息資源的越來越顯得重要,而網絡信息資源也逐步成為這個信息時代的核心資源。信息檢索技術也很快得到發展,在此網絡信息檢索隨著網絡的發展也應運而生。網絡信息檢索,就是將描述特定用戶所需網絡信息的提問特征,與信息儲存的檢索標識進行異同比較,從中找出與提問一致或基本一致的網絡信息的過程。相對傳統文獻檢索,網絡信息檢索顯現出了很多的優越性,如不受時間地點的限制,檢索方式多樣化,多元化等。但是我覺得網絡信息檢索的發展還不是十分完善,仍存在些問題,如目前檢索工具在信息搜集缺乏統一的規范管理,檢索過程會出現很多雷同,甚至無用的垃圾信息等。以下從網絡信息檢索目前存在的問題,及針對問題面臨的以后的發展方向進行了探討。
隨著網上信息資源的膨脹發展,一種搜索引擎,無論它多么完善都不可能滿足一個人所有的檢索需求。如果遇到文獻普查、專題查詢、新聞調查與溯源、軟件及MP3下載地址搜索等情況,人們就更需要使用多種搜索引擎來比較、篩選和相互印證。為解決逐一登陸各搜索引擎,在各搜索引擎中分別多次輸入同一檢索請求等煩瑣操作,基于網絡檢索工具的檢索工具產生了。
目前這列檢索工具只要有兩種:集成搜索引擎和元搜索引擎。所謂集成搜索引擎是在一個檢索界面上鏈接若干種獨立的搜索引擎,檢索時,一次檢索輸入,可以指定搜索引擎也可以要求多個引擎同時檢索,搜索結果由各搜索引擎分別以不同頁面提交的網絡檢索工具,其實是利用網站鏈接技術形成的搜索引擎集合。集成搜索引擎制作與維護技術簡單,可隨時對所鏈接的搜索引擎進行增刪調整和及時更新,尤其大規模專業搜索引擎集成鏈接,深受特定用戶群歡迎。如國內天網搜霸和百度搜霸,國外比較著名的有“搜索之家” “網際瑞士軍刀”等。
另一個是元搜索引擎,用戶只需遞交一次檢索請求,由元搜索引擎負責轉換處理后提交給多個預先選定的獨立搜索引擎,并將所有查詢結果集中起來以整體統一的格式呈現到用戶面前。國外比較著名的元搜索引擎有Vivisimo、EZ2WWW、Kartoo、SurfWax、Fazzle等。目前國內現在還沒有見到真正意義上的元搜索引擎。元搜索引擎雖沒有網頁搜尋機制,亦無獨立的索引數據庫,但在檢索請求提交、檢索接口和檢索結果顯示等方面,均有自己研發的特色元搜索技術支持。目前元搜索引擎技術主要有并行處理式和串行處理式兩大類。并行式元搜索引擎運行時是將查詢請求同時發向各個獨立搜索引擎,然后將的結果按特定的順序呈現給用戶;串行式元搜索引擎運行時是將查詢請求先發向某個獨立搜索引擎,待其返回結果后再將請求發往另一個獨立搜索引擎。
從第一個元搜索引擎Metacrawler誕生至今,這一新型的網絡檢索工具異軍突起,發展迅速,目前可用的元搜索引擎已近百種。由于元搜索引擎的功能受著源搜索引擎和元搜索技術的雙重制約,元搜索引擎比較理想的并不多見。信息檢索專家邢志宇將元搜索引擎存在的問題歸納如下:(1)大多元搜索引擎不支持多語種,尤其是漢語檢索;(2)一些元搜索引擎實現檢索語法轉換的能力有限,不支持指定字段檢索,不能充分發揮各個獨立搜索引擎的高級檢索功能;(3)部分元搜索引擎無源搜索引擎列表,用戶不能自主選擇和調用源搜索引擎;(4)大部分元搜索引擎僅支持調用AltaVista、Excite、、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人為地限制了搜索資源的利用;(5)在檢索結果上,元搜索引擎只能返回十幾、數十條“相關度”較高的結果,大量可能有價值的源搜索引擎的檢索結果被忽視,影響檢索結果的全面性。
Internet的發展使信息采集、傳播和利用無論是從規模還是速度都達到了空前的水平。我覺得未來網絡信息檢索技術的發展方向如下:
1.智能化
現有的檢索引擎存在著查全率和查準率低的問題,未來的搜索引擎技術必須具有能及時挖掘新信息和及時能鏈接新增的信息,多途徑檢索功能,用戶可以交互式檢索,搜索出滿意的信息。提高網絡信息檢索技術水平并實現智能檢索,智能化是網絡信息檢索未來主要的發展方向。智能檢索是基于自然語言的檢索形式,機器根據用戶所提供的以自然語言表述的檢索要求進行分析,而后形成檢索策略進行搜索,智能檢索技術就是采用人工智能進行信息檢索的技術,它可以模擬人腦的思維方式,分析用戶以自然語言表達的檢索請求,自動形成檢索策略進行智能、快速、高效的信息檢索。最近幾年,智能信息檢索作為人工智能的一個獨立研究分支得到了迅速發展,而且目前已有一些搜索引擎支持智能檢索,但智能化程度還不高,這方面還有待進一步的發展。
2.標準化
現在的網站信息瞬息萬變,雜亂紛繁,很是需要進行分類整理。目前雖然有大量的搜索引擎,但還沒有一個統一嚴格的分類方法來管理,網絡信息資源在組織分類上需要制定一個統一的分類標準。還要規范網絡術語,提高資源共享的程度,這樣可以有效保證用戶的檢索效率。
3.個性化
科技的發展要以人為本,隨著科學技術的發展,個性化服務也將成為網絡信息檢索的一個發展方向。隨著互聯網的飛速發展,每個人的對信息的需求將不再滿足于標準化、單一化的大眾需求。不同的人需要不同的服務,如殘疾人士對網絡信息檢索的要求就要區別于常人,要是信息檢索能很好的識別語音檢索就能很有效的滿足他們的信息需求。如何使用戶更方便、快捷地使用各種檢索工具,滿足用戶各種檢索要求,個性化服務也會成為網絡信息檢索重要的發展方向。
在這個知識大爆炸的時代,要想從浩如煙海的信息資源中快速準確地找到自己所需的信息,就需要我們在不斷信息檢索實踐中總結及掌握一些檢索技巧。當然也需要我們不斷的發現問題,努力解決問題。也由衷地希望隨著科技的發展,網絡信息檢索技術越來越成熟,能給人們帶來各式各樣的服務,讓我們的生活更加便利。
[摘要]:鑒于現代信息技術的迅猛發展,現代人愈來愈依賴于網絡來檢索各類信息。但是,因為網絡信息資源數量太多,用戶要想在最短時間之中得到自身所需信息往往會極其困難。分析網絡環境下信息檢索的常見問題,并提出了有針對性的對策。
[關鍵詞]:網絡環境 信息 檢索
信息檢索可以從廣義和狹義等兩個層面進行定義。廣義上,信息檢索主要是指把信息依據某種方式來進行組織與存儲,并且依據用戶之所需查詢到有用信息的整個過程,所以又被稱之為信息存儲和檢索。狹義上,信息檢索則是指從存儲的各種信息中查找出有用信息的整個過程。自從上個世紀末以來,網絡得到了極大的發展,人們進行信息檢索的平臺也轉移到了網絡上,網絡信息檢索已經取代了原來的手工檢索。因此,應用網絡進行快速而有效的檢索以得到相應的資源,已經成為當前信息查詢者亟待探討的重要課題。
一、網絡環境下信息檢索的常見問題
一是網絡信息過于泛濫。如今,任何組織與個人均可通過網絡相關信息,導致網絡信息量飛速增加,而信息的質量與精度則不斷降低,那些龐雜、虛假、冗余及政治反動類信息加大了信息的不可確定性,一些網站質量不高,且長時間不進行更新,導致用戶面對這些信息顯得無所適從,因而無法找到所需信息。二是搜索引擎存在不足。雖然搜索引擎能夠發揮網絡導航之作用,但是也存在著類目設計不規范,內容存在重復和交叉現象等,而且重復鏈接信息偏多,查準率過低。三是用戶信息意識不強。盡管網絡環境下用戶可運用網絡來獲得信息,但尚有許多用戶缺乏良好的信息意識,對于網絡信息檢索不夠熟悉,難以快速獲取相關信息。
二、網絡環境下強化信息檢索的對策
(一)通過提出信息需求以明確檢索目標
用戶在檢索前一定要深入分析,明確所要檢索的目標信息,這是確定檢索策略的根本措施,也是判斷檢索效率高低之重點。一是要了解所要檢索信息的主體內容以及涉及到的學科范圍,并且明確檢索內容及其目的,這是用戶選擇檢索工具的首要步驟。二是確定需要文獻類型、年代和文獻范圍等,在了解清楚以上內容之后再來選擇相應的數據庫并開展限定檢索。三是應明確查新、查準以及查全等指標性要求。如果想知識本領域的最新動態和進展,就應當注重“新”;如果要切實解決研究當中的某些具體內容,而且不要產生誤查,就應當注重實“準”;如果要了解某領域發展的整個過程,而且期望得到全部相關文章,就應當注重“全”。
(二)選用合適的檢索數據庫和檢索工具
目前,網絡資源的種類相當多。每個檢索系統常常涵蓋了多個數據庫。在進入到系統以后,一般都會出現分類目錄讓用戶進行選擇。比如,中國知網中就包含了中國學術期刊網絡出版總庫、中國博士學位論文全文數據庫、中國優秀碩士學位論文全文數據庫、中國重要會議論文全文數據庫等大量數據庫,而且在每一個數據庫之下又會出現不一樣的主題分類。因此,用戶要依據待查內容的范圍以決定選擇哪個數據庫。至于方向性的信息檢索則可運用百度、谷歌等目錄型檢索工具,依據主題目錄體系之引導來查詢信息。此外,還可運用高等院校圖書館或者其他圖書保存單位的聯機性檢索。要查找學術性比較強的信息,建議優先查找中國期刊網和人大復印資料等專題類的數據庫。要查詢事實數據則應選擇具有權威性的官方數據庫。
(三)實施概念分析以確認檢索詞
實施計算機檢索是否能夠得到滿意的成效,一個關鍵環節就是要選好檢索詞。只要檢索詞分析得當,就能更好地進行選詞和進行邏輯上的組配。檢索詞分析主要有:一般概念、隱含概念以及核心概念等不同概念的選取和分析。
(四)合理構造信息檢索表達形式
在構造信息檢索表達形式之時,應當全面運用檢索工具所支持的檢索計算,允許運用檢索標識與各類限定等,這也是實施有效檢索的重要基礎。信息檢索表達形式的構造內容可以分為以下四種,即布爾邏輯計算符、位置計算符、字段限定以及截詞檢索計算符等。
(五)合理地調整信息檢索方式
在制定明確的檢索方式,并且輸入到檢索系統之后,該系統所檢索出來的結果并不是肯定能夠滿足用戶心中所設想的信息檢索要求,所以,在檢索時常常應當依據預檢的狀況來實施多次判斷和調節,并且不斷地調整信息檢索的方向、強度和內容等,一直到完全達到要求為止。其中主要包含了擴大信息檢索的范圍以提升查全率,縮小信息檢索的范圍以提升查準率。
(六)不斷提升廣大用戶的信息素質
不管是進行手工信息檢索還是實施網絡信息檢索,均是由人來進行操作的,因此,其中人的因素往往占據了支配性的地位,無論是實施手工信息檢索,還是開展網絡信息檢索,均需具備良好的信息素質。提升用戶的信息素質與思想素質,這是提升信息檢索能力的重要基礎。知識、技能與能力等三者均為知識素質的重要體現,三者之間是相輔相成的。其中,知識為基礎,而技能則是關鍵。唯有具備了必要的檢索能力以及相當廣博的能力內涵,并且具備良好的檢索技能,這樣才能具備較強的信息檢索水平。隨著我國教育事業的持續深化和現代文明的不斷進步,現代人知識能力的提高均為信息能力之提升提供了良好的發展背景,而技術之進步又為用戶信息素質之提升提供了良好的技術背景。可見,在用戶們進行持續不斷的信息學習和實踐之后,必然能夠提升自身的信息素質,從而更好地進行信息檢索。
三、結束語
當前,我們身處信息化時代,網絡信息資源已經成了現代人日常工作以及生活中無法缺少的重要資源。筆者堅信,隨著計算機網絡技術的進一步發展,網絡環境下的信息檢索必然會更加普及。用戶只要具備相應的檢索工具以及檢索方法,就能快速在巨量信息中找出需要的查詢結果,得到相應的信息。
摘 要 本文闡述了數據挖掘的基本理論,及其在網絡信息檢索中的應用,分析了數據挖掘對網絡信息資源、網絡信息檢索結果、用戶檢索需求等方面性能的提升,并對網絡信息檢索未來發展進行了展望。
關鍵詞 數據挖掘 網絡信息檢索 數據挖掘
目前,網絡信息資源數據形式豐富多樣,數量巨大,并呈幾何級數的速度增長,基本滿足了人們的信息檢索的量的需求,然而如何快速、高效地找到自己所需要的信息,網絡信息檢索在查全率和查準率上還相對欠缺。網絡搜索引擎通常會返回給用戶成千上萬檢索到的網頁,其中大部分與用戶的檢索要求無關,另外就網絡上的知識發現而言,即使檢索精度再高,搜索引擎也不能夠勝任。因此,人們需要比信息檢索更精確高效的、能包含網絡數據庫在內的新的數據挖掘技術,數據挖掘正是在這樣的應用需求下產生并迅速發展起來的。但是,數據庫領域采用的數據挖掘技術所涉及的多是結構化數據,為了處理網絡上的異質、非結構化或半結構化數據,網絡數據挖掘成為數據挖掘研究的一個重要分支。
1 網絡信息檢索
網絡信息檢索一般指因特網檢索,是通過網絡接口軟件,用戶可以在一處終端查詢各地上網的信息資源。網絡信息檢索主要依靠計算機科學技術、網絡技術和數據的確切特征來創建相應的索引結構、數據庫等,能很好地處理已經發生或存在的靜態信息。網絡信息檢索工具包括傳統的服務工具:遠程登錄、文件傳輸服務、電子郵件、電子公告牌、廣域消息服務、Gopher、WWW、基于Z39.50的信息檢索服務、服務器和NAT,以及搜索引擎和中外著名網絡數據庫檢索。這些工具都能有效地組織和檢索海量數據,但對數據未來的變化趨勢等動態信息缺乏有效的統計和預測。
2 數據挖掘及Web數據挖掘
數據挖掘(Data Mining),即從大量模糊的數據中發現隱含的規律性內容,解決數據的應用質量問題的技術,是一種還處于發展中,已經部分投入實際生產實踐的技術框架。
Web數據挖掘是從數據挖掘技術發展而來,簡單地說是將數據挖掘技術應用到Web上,也稱為Web挖掘。其技術性的定義是:Web數據挖掘,是一項涉及Web、數據挖掘、信息學、計算機語言學等多個領域的綜合技術。Web數據挖掘的目的是為了揭示網絡信息中隱含的知識,它是比信息檢索層次更高、更精確的一種技術。它能夠根據用戶個性化定義的要求,根據目標的特征信息在網絡上或者數據庫中進行有目的的信息檢索。Web數據挖掘中幾種常用的技術是:關聯規則技術、分類技術、聚類技術、路徑分析技術和序列模式技術。
3 數據挖掘在網絡信息檢索中的應用
目前,作為網絡信息檢索最重要最常用的工具:搜索引擎,只能處理用戶給出的特定關鍵詞形式表示的簡單目標,而無法處理用戶給出的樣本形式的復雜模糊目標,對網絡數據未來的變化趨勢等動態信息也缺乏有效的統計和預測。而將數據挖掘技術運用的網絡信息檢索中,可以使網絡信息檢索過程及結果更加快速、精確、個性化。
(1)數據挖掘提高網絡信息內容自動摘要的準確率。網絡信息資源一般都有關鍵詞和內容摘要供用戶檢索選擇之用,但大部分的自動摘要都是簡單的抽取網頁文檔的前幾句內容,而僅僅是通過位置來確定的,這種方式很不準確,不能精確的反映網頁的全部內容,所以保證自動摘要的正確性非常重要。數據挖掘中的文本抽取就是從文檔中抽出關鍵信息,對文檔本身的內容而不是位置來進行文本內容的總結,以自然語言理解為基礎,更可揭示網絡信息的主題特征知識及其之間的相互關聯知識,對文檔進行語義甚至語用的標注,因此它更能反映出Web文檔中的真正信息,然后以簡單的形式進行摘要或表示,可以提煉出文檔最重要的信息生成關鍵字或摘要,使自動摘要的質量和準確性很大的提高。
(2)數據挖掘拓寬網絡信息資源量。網絡信息資源數量眾多,分布范圍很廣,大部分可以直接用網絡信息檢索工具查詢到的信息都是網頁中的文字、表格、圖形、圖像、聲音、視頻或好友網頁的鏈接及目錄結構等。但是還有一些潛在網絡信息不容易被搜索引擎等工具查詢到,如用ASP,JSP或PHP生成的動態網頁;一些專業數據庫系統中的數據;在Robot Exclusion框架協議下被拒絕搜索訪問的網站;由用戶的提問而動態生成的結果;存在于商業數據庫管理系統中的數據等,它們無法被索引,從而無法提供有效的檢索方式,這些結構化的或用html標記的半結構化數據都可以用數據挖掘中的內容挖掘進行處理,網絡頁面內容挖掘常采用的技術是文本挖掘和多媒體挖掘,可為這些網絡信息提供明確的摘要或索引,使得本來不容易搜索到,潛在隱藏的信息能被明確的搜索到,從而大大拓寬了網絡信息的資源量。
4 網絡信息檢索的未來展望
數據挖掘能發現網絡中隱含的有價值的信息和知識,從而提高標引、自動摘要、自動分類和自動聚類等的準確率;能促進用戶興趣模型的構建,從而為用戶提供更好的個性化信息服務。此外,它獨特的分析方法能發現網絡數據知識之間的各種關系,使網站建設和檢索結果的分布更加合理。隨著本體、網絡、自然語言處理、信息可視化和人工智能等技術的發展,將數據挖掘與這些技術進行結合,未來的網絡信息檢索將朝這更加精準、個性和智能化方向發展。