日本在线观看,国产激情视频一区二区在线观看 ,а√天堂资源官网在线资源,性网站在线看,久久99影视,国产精品嫩草影院av蜜臀,精品久久久香蕉免费精品视频,欧美日韩国产一区二区三区地区,国产性做久久久久久,在线看成人短视频

Categories


Tags


了解搜索引擎來(lái)進(jìn)行SEO

搜索引擎的工作的過(guò)程非常復(fù)雜,而簡(jiǎn)單的講搜索引擎的工過(guò)程大體可以分成三個(gè)階段。爬行和抓取:搜索引擎蜘蛛通過(guò)跟蹤鏈接訪問(wèn)頁(yè)面,獲取頁(yè)面HTML代碼存入數(shù)據(jù)庫(kù)。預(yù)處理:搜索贏球?qū)ψト?lái)的頁(yè)面數(shù)據(jù)文字進(jìn)行文字提取、中文分詞、索引等處理,以備排名程序調(diào)用。排名:用戶輸入關(guān)鍵字后,排名調(diào)用索引庫(kù)數(shù)據(jù),計(jì)算相關(guān)性,然后按一定格式生成搜索結(jié)果頁(yè)面。

爬行和抓取

爬行和抓取是搜索引擎工作的第一步,完成數(shù)據(jù)收集任務(wù)。

蜘蛛

搜索引擎用來(lái)爬行和訪問(wèn)頁(yè)面的程序被稱(chēng)為蜘蛛(spider),也稱(chēng)為機(jī)器人(bot)。

蜘蛛代理名稱(chēng):

百度蜘蛛:Baiduspider+(+http://www.baidu.com/search/spider.htm) ·

雅虎中國(guó)蜘蛛:Mozilla/5.0 (compatible; Yahoo! Slurp China;  http://misc.yahoo.com.cn/help.html) ·

英文雅虎蜘蛛:Mozilla/5.0 (compatible; Yahoo! Slurp/3.0;  http://help.yahoo.com/help/us/ysearch/slurp)

Google 蜘蛛:Mozilla/5.0 (compatible; Googlebot/2.1;  +http://www.google.com/bot.html) ·

微軟 Bing 蜘蛛:msnbot/1.1 (+http://search.msn.com/msnbot.htm)·

搜狗蜘蛛: Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07) ·

搜搜蜘蛛:Sosospider+(+http://help.soso.com/webspider.htm) ·

有道蜘蛛:Mozilla/5.0 (compatible; YodaoBot/1.0;  http://www.yodao.com/help/webmaster/spider/; )

跟蹤鏈接

為了抓取網(wǎng)上盡量多的頁(yè)面,搜索引擎蜘蛛會(huì)跟蹤頁(yè)面上的鏈接,從一個(gè)頁(yè)面爬到下一個(gè)頁(yè)面,就好像蜘蛛在蜘蛛網(wǎng)上爬行那樣,這也就是搜索引擎蜘蛛這個(gè)名稱(chēng)的由來(lái)。最簡(jiǎn)單的爬行遍歷策略分為兩種,一是深度優(yōu)先,二是廣度優(yōu)先。

深度優(yōu)先搜索

深度優(yōu)先搜索就是在搜索樹(shù)的每一層始終先只擴(kuò)展一個(gè)子節(jié)點(diǎn),不斷地向縱深前進(jìn)直到不能再前進(jìn)(到達(dá)葉子節(jié)點(diǎn)或受到深度限制)時(shí),才從當(dāng)前節(jié)點(diǎn)返回到上一級(jí)節(jié)點(diǎn),沿另一方向又繼續(xù)前進(jìn)。這種方法的搜索樹(shù)是從樹(shù)根開(kāi)始一枝一枝逐漸形成的。

深度優(yōu)先搜索亦稱(chēng)為縱向搜索。由于一個(gè)有解的問(wèn)題樹(shù)可能含有無(wú)窮分枝,深度優(yōu)先搜索如果誤入無(wú)窮分枝(即深度無(wú)限),則不可能找到目標(biāo)節(jié)點(diǎn)。所以,深度優(yōu)先搜索策略是不完備的。另外,應(yīng)用此策略得到的解不一定是最佳解(最短路徑)。

廣度優(yōu)先搜索

在深度優(yōu)先搜索算法中,是深度越大的結(jié)點(diǎn)越先得到擴(kuò)展。如果在搜索中把算法改為按結(jié)點(diǎn)的層次進(jìn)行搜索, 本層的結(jié)點(diǎn)沒(méi)有搜索處理完時(shí),不能對(duì)下層結(jié)點(diǎn)進(jìn)行處理,即深度越小的結(jié)點(diǎn)越先得到擴(kuò)展,也就是說(shuō)先產(chǎn)生 的結(jié)點(diǎn)先得以擴(kuò)展處理,這種搜索算法稱(chēng)為廣度優(yōu)先搜索法。

在深度優(yōu)先搜索算法中,是深度越大的結(jié)點(diǎn)越先得到擴(kuò)展。如果在搜索中把算法改為按結(jié)點(diǎn)的層次進(jìn)行搜索, 本層的結(jié)點(diǎn)沒(méi)有搜索處理完時(shí),不能對(duì)下層結(jié)點(diǎn)進(jìn)行處理,即深度越小的結(jié)點(diǎn)越先得到擴(kuò)展,也就是說(shuō)先產(chǎn)生 的結(jié)點(diǎn)先得以擴(kuò)展處理,這種搜索算法稱(chēng)為廣度優(yōu)先搜索法。

吸引蜘蛛

哪些頁(yè)面被認(rèn)為比較重要呢?有幾方面影響因素:

· 網(wǎng)站和頁(yè)面權(quán)重。質(zhì)量高、資格老的網(wǎng)站被認(rèn)為權(quán)重比較高,這種網(wǎng)站上的頁(yè)面被爬行的深度也會(huì)比較高,所以會(huì)有更多內(nèi)頁(yè)被收錄。

· 頁(yè)面更新度。蜘蛛每次爬行都會(huì)把頁(yè)面數(shù)據(jù)存儲(chǔ)起來(lái)。如果第二次爬行發(fā)現(xiàn)頁(yè)面與第一次收錄的完全一樣,說(shuō)明頁(yè)面沒(méi)有更新,蜘蛛也就沒(méi)有必要經(jīng)常抓取。如果頁(yè)面內(nèi)容經(jīng)常更新,蜘蛛就會(huì)更加頻繁地訪問(wèn)這種頁(yè)面,頁(yè)面上出現(xiàn)的新鏈接,也自然會(huì)被蜘蛛更快跟蹤,抓取新頁(yè)面。

· 導(dǎo)入鏈接。無(wú)論是外部鏈接還是同一個(gè)網(wǎng)站的內(nèi)部鏈接,要被蜘蛛抓取就必須有導(dǎo)入鏈接進(jìn)入頁(yè)面,否則蜘蛛根本沒(méi)有機(jī)會(huì)知道頁(yè)面的存在。高質(zhì)量的導(dǎo)入鏈接也經(jīng)常使頁(yè)面上的導(dǎo)出鏈接被爬行深度增加。一般來(lái)說(shuō)網(wǎng)站上權(quán)重最高的是首頁(yè),大部分外部鏈接是指向首頁(yè),蜘蛛訪問(wèn)最頻繁的也是首頁(yè)。離首頁(yè)點(diǎn)擊距離越近,頁(yè)面權(quán)重越高,被蜘蛛爬行的機(jī)會(huì)也越大。

地址庫(kù)

為了避免重復(fù)爬行和抓取網(wǎng)址,搜索引擎會(huì)建立一個(gè)地址庫(kù),記錄已經(jīng)被發(fā)現(xiàn)還沒(méi)有抓取的頁(yè)面,以及已經(jīng)被抓取的頁(yè)面。地址庫(kù)中的uRL有幾個(gè)來(lái)源:

(1)人工錄入的種子網(wǎng)站。

(2)蜘蛛抓取頁(yè)面后,從HTML中解析出新的鏈接uRL,與地址庫(kù)中的數(shù)據(jù)進(jìn)行對(duì)比,如果是地址庫(kù)中沒(méi)有的網(wǎng)址,就存入待訪問(wèn)地址庫(kù)。

(3)站長(zhǎng)通過(guò)搜索引擎網(wǎng)頁(yè)提交表格提交進(jìn)來(lái)的網(wǎng)址。

蜘蛛按重要性從待訪問(wèn)地址庫(kù)中提取uRL,訪問(wèn)并抓取頁(yè)面,然后把這個(gè)uRL從待訪問(wèn)地址庫(kù)中刪除,放進(jìn)已訪問(wèn)地址庫(kù)中。

大部分主流搜索引擎都提供一個(gè)表格,讓站長(zhǎng)提交網(wǎng)址。不過(guò)這些提交來(lái)的網(wǎng)址都只是存入地址庫(kù)而已,是否收錄還要看頁(yè)面重要性如何。搜索引擎所收錄的絕大部分頁(yè)面是蜘蛛自己跟蹤鏈接得到的。可以說(shuō)提交頁(yè)面基本t是毫無(wú)用處的,搜索引擎更喜歡自己沿著鏈接發(fā)現(xiàn)新頁(yè)面。

文件存儲(chǔ)搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁(yè)面數(shù)據(jù)庫(kù)。其中的頁(yè)面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的。每個(gè)uRI,都有一個(gè)獨(dú)特的文件編號(hào)。

爬行時(shí)的復(fù)制內(nèi)容檢測(cè)

檢測(cè)并刪除復(fù)制內(nèi)容通常是在下面介紹的預(yù)處理過(guò)程中進(jìn)行的,但現(xiàn)在的蜘蛛在爬行和抓取文件時(shí)也會(huì)進(jìn)行定程度的復(fù)制內(nèi)容檢測(cè)。遇到權(quán)重很低的網(wǎng)站上大量轉(zhuǎn)載或抄襲內(nèi)容時(shí),很可能不再繼續(xù)爬行。這也就是有的站長(zhǎng)在日志文件中發(fā)現(xiàn)了蜘蛛,但頁(yè)面從來(lái)沒(méi)有被真正收錄過(guò)的原因。

預(yù)處理

在一些SEO材料中,“預(yù)處理”也被簡(jiǎn)稱(chēng)為“索引”,因?yàn)樗饕穷A(yù)處理最主要的步驟。

搜索引擎蜘蛛抓取的原始頁(yè)面,并不能直接用于查詢(xún)排名處理。搜索引擎數(shù)據(jù)庫(kù)中的頁(yè)面數(shù)都在數(shù)萬(wàn)億級(jí)別以上,用戶輸入搜索詞后,靠排名程序?qū)崟r(shí)對(duì)這么多頁(yè)面分析相關(guān)性,計(jì)算量太大,不可能在一兩秒內(nèi)返回排名結(jié)果。因此抓取來(lái)的頁(yè)面必須經(jīng)過(guò)預(yù)處理,為最后的查詢(xún)排名做好準(zhǔn)備。

和爬行抓取一樣,預(yù)處理也是在后臺(tái)提前完成的,用戶搜索時(shí)感覺(jué)不到這個(gè)過(guò)程。

1.提取文字

現(xiàn) 在的搜索引擎還是以文字內(nèi)容為基礎(chǔ)。蜘蛛抓取到的頁(yè)面中的HTML代碼,除了用戶在瀏覽器上可以看到的可見(jiàn)文字外,還包含了大量的HTML格式標(biāo)簽、 JavaScript程序等無(wú)法用于排名的內(nèi)容。搜索引擎預(yù)處理首先要做的就是從HTML文件中去除標(biāo)簽、程序,提取出可以用于排名處理的網(wǎng)頁(yè)面文字內(nèi) 容。

比如下面這段HTML代碼:

<div>

<h2><a>今天愚人節(jié)哈</a></h2></div>

除去HTML代碼后,剩下的用于排名的文字只是這一行:

今天愚人節(jié)哈

除了可見(jiàn)文字,搜索引擎也會(huì)提取出一些特殊的包含文字信息的代碼,如Meta標(biāo)簽中的文字、圖片替代文字、Flash文件的替代文字、鏈接錨文字等。

2.中文分詞

分詞是中文搜索引擎特有的步驟。搜索引擎存儲(chǔ)和處理頁(yè)面及用戶搜索都是以詞為基礎(chǔ)的。英文等語(yǔ)言單詞與單詞之間有空格分隔,搜索引擎索引程序可以直接把句子 劃分為單詞的集合。而中文詞與詞之間沒(méi)有任何分隔符,一個(gè)句子中的所有字和詞都是連在一起的。搜索引擎必須首先分辨哪幾個(gè)字組成一個(gè)詞,哪些字本身就是一 個(gè)詞。比如“減肥方法”將被分詞為“減肥”和“方法”兩個(gè)詞。

中文分詞方法基本上有兩種,一種是基于詞典匹配,另一種是基于統(tǒng)計(jì)。

基于詞典匹配的方法是指,將待分析的一段漢字與一個(gè)事先造好的詞典中的詞條進(jìn)行匹配,在待分析漢字串中掃描到詞典中已有的詞條則匹配成功,或者說(shuō)切分出一個(gè)單詞。

按照掃描方向,基于詞典的匹配法可以分為正向匹配和逆向匹配。按照匹配長(zhǎng)度優(yōu)先級(jí)的不同,又可以分為最大匹配和最小匹配。將掃描方向和長(zhǎng)度優(yōu)先混合,又可以產(chǎn)生正向最大匹配、逆向最大匹配等不同方法。

詞典匹配方法計(jì)算簡(jiǎn)單,其準(zhǔn)確度在很大程度上取決于詞典的完整性和更新情況。

基于統(tǒng)計(jì)的分詞方法指的是分析大量文字樣本,計(jì)算出字與字相鄰出現(xiàn)的統(tǒng)計(jì)概率,幾個(gè)字相鄰出現(xiàn)越多,就越可能形成一個(gè)單詞。基于統(tǒng)計(jì)的方法的優(yōu)勢(shì)是對(duì)新出現(xiàn)的詞反應(yīng)更快速,也有利于消除歧義。

基于詞典匹配和基于統(tǒng)計(jì)的分詞方法各有優(yōu)劣,實(shí)際使用中的分詞系統(tǒng)都是混合使用兩種方法的,快速高效,又能識(shí)別生詞、新詞,消除歧義。

中文分詞的準(zhǔn)確性往往影響搜索引擎排名的相關(guān)性。比如在百度搜索“搜索引擎優(yōu)化”,從快照中可以看到,百度把“搜索引擎優(yōu)化”這六個(gè)字當(dāng)成一個(gè)詞。

而在Google搜索同樣的詞,快照顯示Google將其分切為“搜索引擎”和“優(yōu)化”兩個(gè)詞。顯然百度切分得更為合理,搜索引擎優(yōu)化是一個(gè)完整的概念。Google分詞時(shí)傾向于更為細(xì)碎。

這種分詞上的不同很可能是一些關(guān)鍵詞排名在不同搜索引擎有不同表現(xiàn)的原因之一。比如百度更喜歡將搜索詞完整匹配地出現(xiàn)在頁(yè)面上,也就是說(shuō)搜索“夠戲博客” 時(shí),這四個(gè)字連續(xù)完整出現(xiàn)更容易在百度獲得好的排名。Google就與此不同,不太要求完整匹配。一些頁(yè)面出現(xiàn)“夠戲”和“博客”兩個(gè)詞,但不必完整匹配 地出現(xiàn),“夠戲”出現(xiàn)在前面,“博客”出現(xiàn)在頁(yè)面的其他地方,這樣的頁(yè)面在Google搜索“夠戲博客”時(shí),也可以獲得不錯(cuò)的排名。

搜索引擎對(duì)頁(yè)面的分詞取決于詞庫(kù)的規(guī)模、準(zhǔn)確性和分詞算法的好壞,而不是取決于頁(yè)面本身如何,所以SEO人員對(duì)分詞所能做的很少。唯一能做的是在頁(yè)面上用某種形 式提示搜索引擎,某幾個(gè)字應(yīng)該被當(dāng)做一個(gè)詞處理,尤其是可能產(chǎn)生歧義的時(shí)候,比如在頁(yè)面標(biāo)題、h1標(biāo)簽及黑體中出現(xiàn)關(guān)鍵詞。如果頁(yè)面是關(guān)于“和服”的內(nèi) 容,那么可以把“和服”這兩個(gè)字特意標(biāo)為黑體。如果頁(yè)面是關(guān)于“化妝和服裝”,可以把“服裝”兩個(gè)字標(biāo)為黑體。這樣,搜索引擎對(duì)頁(yè)面進(jìn)行分析時(shí)就知道標(biāo)為 黑體的應(yīng)該是一個(gè)詞。

3.去停止詞

無(wú)論是英文還是中文,頁(yè)面內(nèi)容中都會(huì)有一些出現(xiàn)頻率很 高,卻對(duì)內(nèi)容沒(méi)有任何影響的詞,如“的”、“地”、“得”之類(lèi)的助詞,“啊”、“哈”、“呀”之類(lèi)的感嘆詞,“從而”、“以”、“卻”之類(lèi)的副詞或介詞。 這些詞被稱(chēng)為停止詞,因?yàn)樗鼈儗?duì)頁(yè)面的主要意思沒(méi)什么影響。英文中的常見(jiàn)停止詞有the,a,an,to,of等。

搜索引擎在索引頁(yè)面之前會(huì)去掉這些停止詞,使索引數(shù)據(jù)主題更為突出,減少無(wú)謂的計(jì)算量。

4.消除噪聲

絕 大部分頁(yè)面上還有一部分內(nèi)容對(duì)頁(yè)面主題也沒(méi)有什么貢獻(xiàn),比如版權(quán)聲明文字、導(dǎo)航條、廣告等。以常見(jiàn)的博客導(dǎo)航為例,幾乎每個(gè)博客頁(yè)面上都會(huì)出現(xiàn)文章分類(lèi)、 歷史存檔等導(dǎo)航內(nèi)容,但是這些頁(yè)面本身與“分類(lèi)”、“歷史”這些詞都沒(méi)有任何關(guān)系。用戶搜索“歷史”、“分類(lèi)”這些關(guān)鍵詞時(shí)僅僅因?yàn)轫?yè)面上有這些詞出現(xiàn)而 返回博客帖子是毫無(wú)意義的,完全不相關(guān)。所以這些區(qū)塊都屬于噪聲,對(duì)頁(yè)面主題只能起到分散作用。

搜索引擎需要識(shí)別并消除這些噪聲,排名時(shí)不使用噪聲內(nèi)容。消噪的基本方法是根據(jù)HTML標(biāo)簽對(duì)頁(yè)面分塊,區(qū)分出頁(yè)頭、導(dǎo)航、正文、頁(yè)腳、廣告等區(qū)域,在網(wǎng)站上大量重復(fù)出現(xiàn)的區(qū)塊往往屬于噪聲。對(duì)頁(yè)面進(jìn)行消噪后,剩下的才是頁(yè)面主體內(nèi)容。

5.去重

搜索引擎還需要對(duì)頁(yè)面進(jìn)行去重處理。

同 一篇文章經(jīng)常會(huì)重復(fù)出現(xiàn)在不同網(wǎng)站及同一個(gè)網(wǎng)站的不同網(wǎng)址上,搜索引擎并不喜歡這種重復(fù)性的內(nèi)容。用戶搜索時(shí),如果在前兩頁(yè)看到的都是來(lái)自不同網(wǎng)站的同一 篇文章,用戶體驗(yàn)就太差了,雖然都是內(nèi)容相關(guān)的。搜索引擎希望只返回相同文章中的一篇,所以在進(jìn)行索引前還需要識(shí)別和刪除重復(fù)內(nèi)容,這個(gè)過(guò)程就稱(chēng)為“去 重”。

去重的基本方法是對(duì)頁(yè)面特征關(guān)鍵詞計(jì)算指紋,也就是說(shuō)從頁(yè)面主體內(nèi)容中選取最有代表性的一部分關(guān)鍵詞(經(jīng)常是出現(xiàn)頻率最高的關(guān)鍵 詞),然后計(jì)算這些關(guān)鍵詞的數(shù)字指紋。這里的關(guān)鍵詞選取是在分詞、去停止詞、消噪之后。實(shí)驗(yàn)表明,通常選取10個(gè)特征關(guān)鍵詞就可以達(dá)到比較高的計(jì)算準(zhǔn)確 性,再選取更多詞對(duì)去重準(zhǔn)確性提高的貢獻(xiàn)也就不大了。

典型的指紋計(jì)算方法如MD5算法(信息摘要算法第五版)。這類(lèi)指紋算法的特點(diǎn)是,輸入(特征關(guān)鍵詞)有任何微小的變化,都會(huì)導(dǎo)致計(jì)算出的指紋有很大差距。

了 解了搜索引擎的去重算法,SEO人員就應(yīng)該知道簡(jiǎn)單地增加“的”、“地”、“得”、調(diào)換段落順序這種所謂偽原創(chuàng),并不能逃過(guò)搜索引擎的去重算法,因?yàn)檫@樣 的操作無(wú)法改變文章的特征關(guān)鍵詞。而且搜索引擎的去重算法很可能不止于頁(yè)面級(jí)別,而是進(jìn)行到段落級(jí)別,混合不同文章、交叉調(diào)換段落順序也不能使轉(zhuǎn)載和抄襲 變成原創(chuàng)。

6.正向索引

正向索引也可以簡(jiǎn)稱(chēng)為索引。

經(jīng)過(guò)文字提取、分詞、 消噪、去重后,搜索引擎得到的就是獨(dú)特的、能反映頁(yè)面主體內(nèi)容的、以詞為單位的內(nèi)容。接下來(lái)搜索引擎索引程序就可以提取關(guān)鍵詞,按照分詞程序劃分好的詞, 把頁(yè)面轉(zhuǎn)換為一個(gè)關(guān)鍵詞組成的集合,同時(shí)記錄每一個(gè)關(guān)鍵詞在頁(yè)面上的出現(xiàn)頻率、出現(xiàn)次數(shù)、格式(如出現(xiàn)在標(biāo)題標(biāo)簽、黑體、H標(biāo)簽、錨文字等)、位置(如頁(yè) 面第一段文字等)。這樣,每一個(gè)頁(yè)面都可以記錄為一串關(guān)鍵詞集合,其中每個(gè)關(guān)鍵詞的詞頻、格式、位置等權(quán)重信息也都記錄在案。

搜索引擎索引程序?qū)㈨?yè)面及關(guān)鍵詞形成詞表結(jié)構(gòu)存儲(chǔ)進(jìn)索引庫(kù)。簡(jiǎn)化的索引詞表形式如表2-1所示。

每個(gè)文件都對(duì)應(yīng)一個(gè)文件ID,文件內(nèi)容被表示為一串關(guān)鍵詞的集合。實(shí)際上在搜索引擎索引庫(kù)中,關(guān)鍵詞也已經(jīng)轉(zhuǎn)換為關(guān)鍵詞ID.這樣的數(shù)據(jù)結(jié)構(gòu)就稱(chēng)為正向索引。

7.倒排索引

正向索引還不能直接用于排名。假設(shè)用戶搜索關(guān)鍵詞2,如果只存在正向索引,排名程序需要掃描所有索引庫(kù)中的文件,找出包含關(guān)鍵詞2的文件,再進(jìn)行相關(guān)性計(jì)算。這樣的計(jì)算量無(wú)法滿足實(shí)時(shí)返回排名結(jié)果的要求。

所以搜索引擎會(huì)將正向索引數(shù)據(jù)庫(kù)重新構(gòu)造為倒排索引,把文件對(duì)應(yīng)到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞到文件的映射,如表2-2所示。

在倒排索引中關(guān)鍵詞是主鍵,每個(gè)關(guān)鍵詞都對(duì)應(yīng)著一系列文件,這些文件中都出現(xiàn)了這個(gè)關(guān)鍵詞。這樣當(dāng)用戶搜索某個(gè)關(guān)鍵詞時(shí),排序程序在倒排索引中定位到這個(gè)關(guān)鍵詞,就可以馬上找出所有包含這個(gè)關(guān)鍵詞的文件。

8.鏈接關(guān)系計(jì)算

鏈 接關(guān)系計(jì)算也是預(yù)處理中很重要的一部分。現(xiàn)在所有的主流搜索引擎排名因素中都包含網(wǎng)頁(yè)之間的鏈接流動(dòng)信息。搜索引擎在抓取頁(yè)面內(nèi)容后,必須事前計(jì)算出:頁(yè) 面上有哪些鏈接指向哪些其他頁(yè)面,每個(gè)頁(yè)面有哪些導(dǎo)入鏈接,鏈接使用了什么錨文字,這些復(fù)雜的鏈接指向關(guān)系形成了網(wǎng)站和頁(yè)面的鏈接權(quán)重。

Google PR值就是這種鏈接關(guān)系的最主要體現(xiàn)之一。其他搜索引擎也都進(jìn)行類(lèi)似計(jì)算,雖然它們并不稱(chēng)為PR.

由于頁(yè)面和鏈接數(shù)量巨大,網(wǎng)上的鏈接關(guān)系又時(shí)時(shí)處在更新中,因此鏈接關(guān)系及PR的計(jì)算要耗費(fèi)很長(zhǎng)時(shí)間。關(guān)于PR和鏈接分析,后面還有專(zhuān)門(mén)的章節(jié)介紹。

9.特殊文件處理

除 了HTML文件外,搜索引擎通常還能抓取和索引以文字為基礎(chǔ)的多種文件類(lèi)型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我們?cè)谒阉鹘Y(jié)果 中也經(jīng)常會(huì)看到這些文件類(lèi)型。但目前的搜索引擎還不能處理圖片、視頻、Flash這類(lèi)非文字內(nèi)容,也不能執(zhí)行腳本和程序。

雖然搜索引擎在識(shí)別圖片及從Flash中提取文字內(nèi)容方面有些進(jìn)步,不過(guò)距離直接靠讀取圖片、視頻、Flash內(nèi)容返回結(jié)果的目標(biāo)還很遠(yuǎn)。對(duì)圖片、視頻內(nèi)容的排名還往往是依據(jù)與之相關(guān)的文字內(nèi)容,詳細(xì)情況可以參考后面的整合搜索部分。

排名

經(jīng)過(guò)搜索引擎蜘蛛抓取的界面,搜索引擎程序 計(jì)算得到倒排索引后,收索引擎就準(zhǔn)備好可以隨時(shí)處理用戶搜索了。用戶 在搜索框填入關(guān)鍵字后,排名程序調(diào)用索引庫(kù)數(shù)據(jù),計(jì)算排名顯示給客戶,排名過(guò)程是與客戶直接互動(dòng)的。

來(lái)源:月光博客


Public @ 2018-03-18 16:21:53

爬行和抓取

爬行和抓取 是搜索引擎工作的第一步,完成數(shù)據(jù)收集任務(wù)。1、蜘蛛:搜索引擎用來(lái)爬行和訪問(wèn)頁(yè)面的程序被稱(chēng)為蜘蛛(spider),也稱(chēng)為機(jī)器人(bot)。2、跟蹤鏈接:為了抓取網(wǎng)上盡量多的頁(yè)面,搜索引擎蜘蛛會(huì)跟蹤頁(yè)面上的鏈接,從一個(gè)頁(yè)面爬到下一個(gè)頁(yè)面,就好像蜘蛛在蜘蛛網(wǎng)上爬行那樣,這也是搜索引擎蜘蛛這個(gè)名稱(chēng)的由來(lái)。3、吸引蜘蛛:理論上蜘蛛能爬行和抓取所有頁(yè)面,但實(shí)際上不能,也不會(huì)這么做。SEO人員想要讓

Public @ 2019-07-18 16:22:24

搜索引擎工作原理

搜索引擎的工作原理大致如下: 1. 網(wǎng)絡(luò)爬蟲(chóng)(Spider):搜索引擎會(huì)派遣網(wǎng)絡(luò)爬蟲(chóng),搜索引擎爬蟲(chóng)通過(guò)掃描互聯(lián)網(wǎng)上的網(wǎng)頁(yè),并收集這些網(wǎng)頁(yè)的信息,包括標(biāo)題、關(guān)鍵詞、描述、網(wǎng)址、內(nèi)容、超鏈接等。 2. 索引(Index):搜索引擎將收集到的網(wǎng)頁(yè)內(nèi)容進(jìn)行分析,提取出其中的關(guān)鍵詞,并將這些關(guān)鍵詞存入一個(gè)大型的索引庫(kù)中,以便后續(xù)快速查詢(xún)。 3. 檢索(Retrieval):當(dāng)用戶輸入查詢(xún)?cè)~時(shí),搜索引擎

Public @ 2023-04-14 20:00:35

搜索引擎如何抓取你的網(wǎng)頁(yè)

搜索引擎優(yōu)化(SEO)是搜索引擎有好的收錄網(wǎng)頁(yè)的過(guò)程,適當(dāng)?shù)腟EO有利于蜘蛛爬行你的網(wǎng)站,使你的內(nèi)容符合搜索引擎算法,以便確認(rèn)它與關(guān)鍵詞高度相關(guān)。優(yōu)化的目的就是使網(wǎng)頁(yè)的內(nèi)容便于蜘蛛理解,下面我就以百度新收錄的一篇內(nèi)容來(lái)進(jìn)行說(shuō)明,我以一個(gè)完整標(biāo)題進(jìn)行搜索,其目的是能反映出更多關(guān)鍵詞在百度自然搜索的結(jié)果頁(yè)面,能更好的說(shuō)明搜索引擎是如何抓取你的網(wǎng)頁(yè)的。搜索引擎如何抓取你的網(wǎng)頁(yè) 網(wǎng)站優(yōu)化 SEO優(yōu)化 SE

Public @ 2019-08-19 16:22:21

搜索引擎體系結(jié)構(gòu)

搜索引擎基本結(jié)構(gòu)一般包括:搜索器、索引器、檢索器、用戶接口等四個(gè)功能模塊。1、搜索器:搜索器也叫網(wǎng)絡(luò)蜘蛛,是搜索引擎用來(lái)爬行和抓取網(wǎng)頁(yè)的一個(gè)自動(dòng)程序,在系統(tǒng)后臺(tái)不停歇地在互聯(lián)網(wǎng)各個(gè)節(jié)點(diǎn)爬行,在爬行過(guò)程中盡可能快的發(fā)現(xiàn)和抓取網(wǎng)頁(yè)。2、索引器。它的主要功能是理解搜索器所采集的網(wǎng)頁(yè)信息,并從中抽取索引項(xiàng)。3、檢索器。其功能是快速查找文檔,進(jìn)行文檔與查詢(xún)的相關(guān)度評(píng)價(jià),對(duì)要輸出的結(jié)果進(jìn)行排序。4、用戶接口。

Public @ 2018-03-04 16:22:54

更多您感興趣的搜索

0.451362s
久久久精品欧美丰满| 日韩国产一区二| 欧美日韩国产亚洲沙发| 欧美性xxxxxx少妇| 色综合综合网| 久久久久久久999| 成人爱爱电影网址| 在线视频国产区| 国产福利精品av综合导导航| 欧美性感一类影片在线播放| 亚洲精品亚洲人成在线观看| 欧美日韩福利在线观看| 久久只有精品| 日韩高清电影免费| 日本福利片高清在线观看| 欧美日韩高清一区| 很黄很黄激情成人| 悠悠资源网亚洲青| 韩国视频理论视频久久| 国产精品免费看片| 欧美香蕉视频| 国产精品一区久久| www日韩欧美| 欧美午夜性色大片在线观看| 国产中文一区二区三区| 亚洲免费观看高清完整版在线观| 欧美精品18videos性欧美| 欧美福利视频一区| 高清久久久久久| 色播一区二区| 啦啦啦中文在线观看日本| 亚洲午夜久久久久久久| 国产成人av电影在线| 围产精品久久久久久久| 婷婷色在线播放| 高清在线视频日韩欧美| 一区二区三区日韩欧美| 蜜乳av一区二区| 国产精品国产| 中文日本在线观看| 午夜久久久影院| 99久久久久久99| 中文视频一区| 91国内外精品自在线播放| 亚洲免费视频观看| 欧美伊人久久久久久午夜久久久久| 久久九九精品| 黄色免费大全亚洲| 99精品福利视频| 成人免费在线播放| 亚洲伦理久久| 牛牛精品视频在线| 色播在线视频| 麻豆av在线播放| 向日葵视频成人app网址| melody高清在线观看| 欧美国产中文字幕| 亚洲国产成人精品久久久国产成人一区 | 国产精品69毛片高清亚洲| 国产综合色在线观看| 欧美成人精品三级网站| 伊人久久国产| 欧美成人综合在线| 久久这里精品| 最新二区三区av| 国产精品久久色| 欧美性xxxx极品hd满灌| 亚洲电影在线播放| 一区二区三区不卡视频在线观看| 国产成人综合视频| 久久久国产精品午夜一区ai换脸| 欧美日韩在线影院| 亚洲精品av在线播放| 欧美日韩精品一区二区三区蜜桃 | 亚洲人成自拍网站| 亚洲福利视频三区| 亚洲免费视频在线观看| 国产精品爽爽爽爽爽爽在线观看| 国产精品秘入口| 日韩视频一二区| 欧美日一区二区三区在线观看国产免| 狠色狠色综合久久| 久久九九99视频| 国产欧美综合色| 在线观看中文字幕不卡| 欧美精品在线网站| 在线观看免费网站黄| 色狼人综合干| 成人av电影在线网| 国产精品女人毛片| 亚洲黄色有码视频| 最新亚洲伊人网| 日本不卡一二三| 老司机精品视频网站| 欧美日韩在线视频一区二区| 欧美精品久久久久久久多人混战| 国产91亚洲精品| 精品久久毛片| 同性恋视频一区| 99久久精品免费精品国产| 亚洲精品美女在线| gogogogo高清视频在线| 成人免费一区二区三区牛牛| 国产尤物一区二区在线 | 午夜精品在线| 欧美国产激情一区二区三区蜜月| 另类少妇人与禽zozz0性伦| 巨大荫蒂视频欧美另类大| 韩日欧美一区| 日韩精品视频免费| 日本高清不卡一区二区三区视频| 成人sese在线| 91av在线看| 9999国产精品| 亚洲欧美日韩第一区| a∨色狠狠一区二区三区| 亚洲女同ⅹxx女同tv| 中文资源在线网| 免费看欧美美女黄的网站| www.久久久久久.com| 国产亚洲成av人片在线观黄桃| 色综合天天综合给合国产| 操你啦视频在线| 中文字幕一区不卡| 大胆av不用播放器在线播放 | 成人看片网页| 电影一区中文字幕| 中文字幕乱码亚洲精品一区| 欧美亚洲伦理www| 亚洲老女人视频免费| 欧美亚洲动漫制服丝袜| 18+视频在线观看| www.在线成人| 国产日韩精品入口| 91久久亚洲| 久久天天躁日日躁| 亚洲精品国模| 欧美午夜精品久久久久久浪潮| 国产精品㊣新片速递bt| 亚洲综合99| 日韩视频第一页| 欧美经典一区| 欧美日韩国产精品一区二区三区四区| 伊人中文字幕在线| 国产成人高清视频| 草草久视频在线观看电影资源| 亚洲国产免费看| 国产91精品久久久| 另类小说一区二区三区| 91人成在线| 欧美1区2区视频| 久久综合五月天| 影音先锋一区| 国产精品久久久久久久久久久不卡| 亚洲国产清纯| 国产精品一区二区3区| 精品一区二区三区久久| 毛片免费在线播放| 噜噜噜躁狠狠躁狠狠精品视频| 亚洲欧洲av在线| 久操成人在线视频| 国产成人久久精品麻豆二区| 91美女片黄在线观看| 久久精品中文字幕| 91久久久久久白丝白浆欲热蜜臀| 国产成人三级在线观看| 欧美二区三区91| 中文字幕在线播放网址| 国产亚洲一区二区在线观看| 日韩中文字幕在线视频| 在线观看网站免费入口在线观看国内| 91蝌蚪porny九色| 少妇高潮露脸国语对白| 日韩理论在线观看| 精品国产乱码一区二区三区| 久久99热这里只有精品国产| 国产精品久久久久久影院8一贰佰 国产精品久久久久久麻豆一区软件 | 高清在线视频不卡| 亚洲综合久久久久| 亚洲福利网站| 白天操夜夜操| 91久久精品网| 欧美特黄视频| 天堂社区日本电影超碰| 狠狠久久亚洲欧美专区| 日本中文字幕中出在线| 亚洲欧美另类在线观看| 欧美女优在线视频| 女生裸体视频网站免费观看| 在线视频欧美区| 欧美精品大片| 92久久精品| 亚洲白拍色综合图区| 国内久久精品视频| 91精品久久| 亚洲人成网在线播放| 国产一区二区视频在线| 91精品短视频| 欧美激情a∨在线视频播放 | 97视频在线观看视频免费视频|