搜索引擎工作流程
- 威海搜索引擎工作原理 威海搜索引擎工作原理
- 1523
搜索引擎工作流程主要有數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)處理、結(jié)果展示等階段。在各工作階段分別使用了網(wǎng)絡爬蟲、中文分詞、大數(shù)據(jù)處理、數(shù)據(jù)挖掘等技術。
網(wǎng)絡爬蟲也被稱為蜘蛛或者網(wǎng)絡機器人,它是搜索引擎抓取系統(tǒng)的重要組成部分。網(wǎng)絡爬蟲根據(jù)相應的規(guī)則,以某些站點作為起始站點通過各頁面上的超鏈接遍歷整個互聯(lián)網(wǎng),利用URL弓I用根據(jù)廣度優(yōu)先遍歷策略從一個html文檔爬行到另一個html文檔來抓取信息。
中文分詞是中文搜索引擎中一個相當關鍵的技術,在創(chuàng)建索引之前需要將中文內(nèi)容合理的進行分詞。中文分詞是文本挖掘的基礎,對于輸入的一段中文,成功的進行中文分詞,可以達到電腦自動識別語句含義的效果。
大數(shù)據(jù)處理技術是通過運用大數(shù)據(jù)處理計算框架,對數(shù)據(jù)進行分布式計算。由于互聯(lián)網(wǎng)數(shù)據(jù)量相當龐大,需要利用大數(shù)據(jù)處理技術來提高數(shù)據(jù)處理的效率。在搜索引擎中,大數(shù)據(jù)處理技術主要用來執(zhí)行對網(wǎng)頁重要度進行打分等數(shù)據(jù)計算。
數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中采用自動或半自動的建模算法,尋找隱藏在數(shù)據(jù)中的信息,是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的過程。數(shù)據(jù)挖掘一般和計算機科學相關,并通過機器學習、模式識別、統(tǒng)計學等方法來實現(xiàn)知識挖掘。在搜索引擎中主要是進行文本挖掘,搜索文本信息需要理解人類的自然語言,文本挖掘指從大量文本數(shù)據(jù)中抽取隱含的、未知的、可能有用的信息。