幫忙發(fā)表論文搜索引擎日志分析方法技術(shù)應(yīng)用

來(lái)源：期刊VIP網(wǎng)所屬分類：計(jì)算機(jī)網(wǎng)絡(luò)時(shí)間：瀏覽：次

　　論文摘要：文章介紹了“天網(wǎng)”系統(tǒng)中的信息統(tǒng)計(jì)子系統(tǒng)。信息統(tǒng)計(jì)子系統(tǒng)是為系統(tǒng)管理人員評(píng)估系統(tǒng)性能、維護(hù)系統(tǒng)效率、更好滿足用戶的查詢要求而設(shè)計(jì)實(shí)現(xiàn)的。本文給出了信息統(tǒng)計(jì)子系統(tǒng)的總體結(jié)構(gòu)，并詳細(xì)介紹了該子系統(tǒng)的兩個(gè)重要部分，數(shù)據(jù)庫(kù)信息處理和日志文件信息處理的設(shè)計(jì)目標(biāo)和實(shí)現(xiàn)算法，并介紹了如何讓機(jī)器自動(dòng)學(xué)習(xí)新詞。

　　關(guān)鍵詞：搜索引擎、信息統(tǒng)計(jì)、機(jī)器學(xué)習(xí)新詞

　　第一章背景介紹

　　§1.1 Internet 和 WWW 的發(fā)展與現(xiàn)狀

　　Internet是一個(gè)規(guī)模巨大、自治性強(qiáng)、發(fā)展變化快，用戶訪問頻繁的國(guó)際互聯(lián)網(wǎng)絡(luò)。

　　Internet的前身是60年代末，70年代初美國(guó)國(guó)防部高級(jí)研究計(jì)劃署的實(shí)驗(yàn)性網(wǎng)絡(luò)ARPANET。組建ARPANET的最初原因是當(dāng)時(shí)計(jì)算機(jī)的價(jià)格非常昂貴，所以科研工作者們想通過網(wǎng)絡(luò)進(jìn)行遠(yuǎn)程計(jì)算。后來(lái)，人們才逐漸認(rèn)識(shí)到它作為通訊手段的好處。1983年后，ARPANET中有關(guān)軍事的部分被隔離為MILNET。其后，1986年誕生的美國(guó)國(guó)家科學(xué)基金會(huì)NSFNET對(duì)Internet的發(fā)展起了劃時(shí)代的作用。

　　90年代初到現(xiàn)在，是Internet增長(zhǎng)最迅速的時(shí)期。1993年，Internet的增長(zhǎng)速度是341%。截止到1996年7月，Internet已連接了134336個(gè)網(wǎng)絡(luò)，入網(wǎng)主機(jī)1228萬(wàn)臺(tái)，以及數(shù)以億計(jì)的用戶。Internet上的信息資源隨著Internet的發(fā)展也呈現(xiàn)出以下特點(diǎn)：

　　? 信息量大而且分散

　　? 自治性強(qiáng)

　　? 信息資源多種多樣

　　? 信息變化快

　　? 不一致和不完整性

　　這些特點(diǎn)對(duì)網(wǎng)絡(luò)軟件的性能提出了很高的要求。

　　World Wide Web(WWW)是全球性的網(wǎng)絡(luò)信息系統(tǒng)。一九八九年，位于瑞士的European Laboratory for Particle Physics(CERN)首先開始了WWW的研究工作。隨后，許多其它的研究機(jī)構(gòu)、大學(xué)和公司也加入WWW研究者的行列，并相繼開發(fā)出各自的WWW軟件。這些WWW軟件的運(yùn)行平臺(tái)覆蓋了目前主流的計(jì)算機(jī)硬件和操作系統(tǒng)。在此過程中，WWW也不斷完善和發(fā)展。同時(shí)，為了保證不同WWW軟件之間的互操作性，一系列WWW協(xié)議和標(biāo)準(zhǔn)也正在使用和完善之中。

　　WWW是基于超文本(Hypertext)和超媒體(Hypermedia)的分布式信息系統(tǒng)。超文本和超媒體是信息的一種組織形式，如圖1.1所示：

　　在超文本文件中，包含有許多指針，這些指針被稱為超文本鏈(Hyperlink)。每一個(gè)超文本鏈都指向其它的超文本信息。這些超文本信息可能存放在同一臺(tái)計(jì)算機(jī)中，也可能存放在WWW信息系統(tǒng)的其它計(jì)算機(jī)中。讀者并不關(guān)心這些超文本信息存放在何處，如果他們想了解這些信息，他們就可以通過超文本鏈得到。超媒體是對(duì)超文本的擴(kuò)展。在超媒體系統(tǒng)中，超媒體鏈可以指向任何媒體信息，包括圖象、音頻、視頻等等。超文本和超媒體為用戶進(jìn)行信息檢索提供了極大的方便。

　　§1.2 搜索引擎技術(shù)的發(fā)展與現(xiàn)狀

　　隨著WWW的迅速發(fā)展，Internet上出現(xiàn)了WWW信息查詢服務(wù)，它們通常被稱作搜索引擎。這些搜索引擎一般是預(yù)先由程序自動(dòng)地在網(wǎng)上遞歸地訪問WWW頁(yè)面，將訪問的信息存入數(shù)據(jù)庫(kù)。然后將數(shù)據(jù)庫(kù)中的信息建立索引，并提供給用戶WWW的查詢界面。搜索引擎根據(jù)用戶的請(qǐng)求查詢數(shù)據(jù)庫(kù)，并將結(jié)果按相關(guān)程度排序后輸出給用戶。

　　目前的搜索引擎大致可分為三大類：分類編目搜索引擎(Directory Search Engine)、機(jī)器人搜索引擎(Robots Search Engine)和元搜索引擎(Meta Search Engine)。分類編目搜索引擎以Yahoo公司的Yahoo!為代表，機(jī)器人搜索引擎以Digital的AltaVista、Inktomi公司的HotBot為代表, 元搜索引擎以go2net的MetaCrawler為代表。

　　國(guó)外搜索引擎起步較早，功能全面，性能良好，但是它們的共同缺點(diǎn)是都不能很好地支持中文信息的發(fā)現(xiàn)和查詢。雖然AltaVista、Yahoo等搜索引擎在1998年上半年宣布支持中文，但在對(duì)中文信息的處理上尚存在很多不足，如不能準(zhǔn)確切詞，不能在上下文環(huán)境中理解語(yǔ)義等等。

　　第二章系統(tǒng)概述

　　§2.1 系統(tǒng)的總體結(jié)構(gòu)

　　“天網(wǎng)(WebGather)”中英文搜索引擎系統(tǒng)是為滿足用戶對(duì)中國(guó)教育科研計(jì)算機(jī)網(wǎng)(CERNET)及INTERNET上的信息資源的檢索和查找需要而研制開發(fā)的。本系統(tǒng)的研制列入CERNET應(yīng)用系統(tǒng)課題項(xiàng)目，其目標(biāo)是建立CERNET上能廣泛應(yīng)用的WWW資源索引與查找系統(tǒng)。它符合相關(guān)的INTERNET標(biāo)準(zhǔn)，能夠自動(dòng)對(duì)WWW信息進(jìn)行定向搜集，同時(shí)建立WWW資源索引數(shù)據(jù)庫(kù)，以滿足遠(yuǎn)程WWW瀏覽器的交互式查詢請(qǐng)求，并將查詢的結(jié)果以HTML文件的形式返回給用戶。

　　本系統(tǒng)主要由WWW信息存取和分析子系統(tǒng)、WWW信息收集控制子系統(tǒng)、NEWS收集分析子系統(tǒng)、資源索引數(shù)據(jù)庫(kù)、信息檢索子系統(tǒng)、管理和監(jiān)控子系統(tǒng)等幾個(gè)部分組成。其總體結(jié)構(gòu)如圖2.1所示。

　　§2.2系統(tǒng)技術(shù)特征

　　本系統(tǒng)有以下技術(shù)特征：

　　1. 信息收集符合Internet的相關(guān)協(xié)議和標(biāo)準(zhǔn)。

　　因?yàn)楸鞠到y(tǒng)收集的主要是Internet上的信息，所以在設(shè)計(jì)開發(fā)時(shí)把對(duì)有關(guān)協(xié)議和標(biāo)準(zhǔn)的支持作為一個(gè)重要的目標(biāo)。這些協(xié)議和標(biāo)準(zhǔn)包括：HTTP協(xié)議、MIME、HTML語(yǔ)言、WWW Robots標(biāo)準(zhǔn)、NNTP協(xié)議。

　　2. 實(shí)用、高效的信息分析方法。

　　本系統(tǒng)主要根據(jù)HTML中不同的Tag區(qū)分頁(yè)面中各個(gè)部分信息內(nèi)容在文章中的重要性和所處的位置，并結(jié)合使用中文分詞、詞頻統(tǒng)計(jì)和一定的自然語(yǔ)言理解技術(shù)，智能化地提取該頁(yè)面的關(guān)鍵詞和摘要。

上一篇：論文如何發(fā)表鐵路貨車車鉤檢修質(zhì)量對(duì)車輛連掛可靠性影響

下一篇：淺論米德符號(hào)互動(dòng)論互聯(lián)網(wǎng)交流

欧美国产日韩精品-欧美国产日韩久久久-欧美国产日韩一区二区三区-欧美国产日韩在线-台湾毛片-台湾美女古装一级毛片

幫忙發(fā)表論文搜索引擎日志分析方法技術(shù)應(yīng)用

查看北核目錄大全及期刊首頁(yè)

更多計(jì)算機(jī)網(wǎng)絡(luò)文章推薦

專題專項(xiàng)服務(wù)