日本在线观看,国产激情视频一区二区在线观看 ,а√天堂资源官网在线资源,性网站在线看,久久99影视,国产精品嫩草影院av蜜臀,精品久久久香蕉免费精品视频,欧美日韩国产一区二区三区地区,国产性做久久久久久,在线看成人短视频

Categories


Tags


搜索引擎的工作原理

有人說,搜索引擎技術似乎不需要本地化,這一看就是徹底不懂這個領域的人講的。當然,實話說,如果有人說,google在中文本地化方面做得非常好,我是可以部分同意的,同意的比例可能會比google工程師少一些。但我相信google工程師也會告訴你,搜索引擎是需要本地化的。

今天寫篇科普文,講講搜索引擎的技術機理和市場競爭的一些特點。當然,作為從事或有興趣從事流量運營的朋友,是可以用另一個角度去理解本文。

【科普】搜索引擎的工作原理 搜索引擎 好文分享 第1張

搜索引擎的核心技術架構,大體包括以下三塊:第一,是蜘蛛/爬蟲技術;第二,是索引技術;第三是查詢展現的技術; 當然,我不是搜索引擎的架構師,我只能用比較粗淺的方式來做一個結構的切分。

1、 蜘蛛,也叫爬蟲,是將互聯網的信息,抓取并存儲的一種技術實現。

搜索引擎的信息收錄,很多不明所以的人會有很多誤解,以為是付費收錄,或者有什么其他特殊的提交技巧,其實并不是,搜索引擎通過互聯網一些公開知名的網站,抓取內容,并分析其中的鏈接,然后有選擇的抓取鏈接里的內容,然后再分析其中的鏈接,以此類推,通過有限的入口,基于彼此鏈接,形成強大的信息抓取能力。

有些搜索引擎本身也有鏈接提交入口,但基本上,不是主要的收錄入口,不過作為創業者,建議了解一下相關信息,百度,google都有站長平臺和管理后臺,這里很多內容是需要非常非常認真的對待的。

反過來說,在這樣的原理下,一個網站,只有被其他網站所鏈接,才有機會被搜索引擎抓取。如果這個網站沒有外部鏈接,或者外部鏈接在搜索引擎中被認為是垃圾或無效鏈接,那么搜索引擎可能就不抓取他的頁面。

分析和判斷搜索引擎是否抓取了你的頁面,或者什么時候抓取你的頁面,只能通過服務器上的訪問日志來查詢,如果是cdn就比較麻煩。 而基于網站嵌入代碼的方式,不論是cnzz,百度統計,還是google analytics,都無法獲得蜘蛛抓取的信息,因為這些信息不會觸發這些代碼的執行。

一個比較推薦的日志分析軟件是awstats。

在十多年前,分析百度蜘蛛抓取軌跡和更新策略,是很多草根站長每日必做的功課,比如現在身價幾十億的知名80后上市公司董事長,當年在某站長論壇就是以此準確的分析判斷而封神,很年輕的時候就已經是站長圈的一代偶像。

但關于蜘蛛的話題,并不只基于鏈接抓取這么簡單,延伸來說

第一,網站擁有者可以選擇是否允許蜘蛛抓取,有一個robots.txt的文件是來控制這個的。

一個經典案例是 https://www.taobao.com/robots.txt

你會看到,淘寶至今仍有關鍵目錄不對百度蜘蛛開放,但對google開放。

另一個經典案例是 http://www.baidu.com/robots.txt

你看出什么了?你可能什么都沒看出來,我提醒一句,百度實質上全面禁止了360的蜘蛛抓取。

但這個協議只是約定俗成,實際上并沒有強制約束力,所以,你們猜猜,360遵守了百度的蜘蛛抓取禁止么?

第二,最早抓取是基于網站彼此的鏈接為入口,但實際上,并不能肯定的說,有可能存在其他抓取入口,比如說,

客戶端插件或瀏覽器, 免費網站統計系統的嵌入式代碼。

會不會成為蜘蛛抓取的入口,我只能說,有這個可能。

所以我跟很多創業者說,中國做網站,放百度統計,海外做網站,放google analytics,是否會增加搜索引擎對你網站的收錄?我只能說猜測,有這個可能。

第三,無法被抓取的信息

有些網站的內容鏈接,用一些javascript特殊效果完成,比如浮動的菜單等等,這種連接,有可能搜索引擎的蜘蛛程序不識別,當然,我只是說有可能,現在搜索引擎比以前聰明,十多年前很多特效鏈接是不識別的,現在會好一些。

需要登錄,需要注冊才能訪問的頁面,蜘蛛是無法進入的,也就是無法收錄。

有些網站會給搜索特殊頁面,就是蜘蛛來能看到內容(蜘蛛訪問會有特殊的客戶端標記,服務端識別和處理并不復雜),人來了要登錄才能看,但這樣做其實是違反了收錄協議(需要人和蜘蛛看到的同樣的內容,這是絕大部分搜索引擎的收錄協議),有可能遭到搜索引擎處罰。

所以一個社區要想通過搜索引擎帶來免費用戶,必須讓訪客能看到內容,哪怕是部分內容。

帶很多復雜參數的內容鏈接url,有可能被蜘蛛當作重復頁面,拒絕收錄。

很多動態頁面是一個腳本程序帶參數體現的,但蜘蛛發現同一個腳本有大量參數的網頁,有時候會給該網頁的價值評估帶來困擾,蜘蛛可能會認為這個網頁是重復頁面,而拒絕收錄。還是那句話,隨著技術的發展,蜘蛛對動態腳本的參數識別度有了很大進步,現在基本上可以不用考慮這個問題。

但這個催生了一個技術,叫做偽靜態化,通過對web服務端做配置,讓用戶訪問的頁面,url格式看上去是一個靜態頁,其實后面是一個正則匹配,實際執行的是一個動態腳本。

很多社區論壇為了追求免費搜索來路,做了偽靜態化處理,在十多年前,幾乎是草根站長必備技能之一。

爬蟲技術暫時說到這里,但是這里強調一下,有外鏈,不代表搜索蜘蛛會來爬取,搜索蜘蛛爬取了,不代表搜索引擎會收錄;搜索引擎收錄了,不代表用戶可以搜索的到;

site語法是檢查一個網站收錄數的最基本搜索語法,我開始以為是a**的常識,直到在新加坡做一些創業培訓后交流才發現,大部分剛進入這個行業的人,或者有興趣進入這個行業的人,對此并不了解。

一個范例,百度搜索一下 site:4399.com

2、索引系統

蜘蛛抓取的是網頁的內容,那么要想讓用戶快速的通過關鍵詞搜索到這個網頁,就必須對網頁做關鍵詞的索引,從而提升查詢效率,簡單說就是,把網頁的每個關鍵詞提取出來,并針對這些關鍵詞在網頁中的出現頻率,位置,特殊標記等諸多因素,給予不同的權值標定,然后,存儲到索引庫中。

那么問題來了,什么是關鍵詞。

英文來說,比如 this is a book,中文,這是一本書。

英文很自然是四個單詞,空格是天然的分詞符,中文呢?你不能把一句話當作關鍵詞吧(如果把一句話當作關鍵詞,那么你搜索其中部分信息的時候,是無法索引命中的,比如搜索一本書,就搜索不出來了,而這顯然是不符合搜索引擎訴求的)。所以要分詞。

最開始,最簡單的思路是,每個字都切開,這個以前叫字索引,每個字建立索引,并標注位置,如果用戶搜索一個關鍵詞,也是把關鍵詞拆成字來搜索再組合結果,但這樣問題就來了。

比如搜索關鍵詞 “海鮮”的時候,會出現結果,上海鮮花,這顯然不是應該的搜索結果。

比如搜索關鍵詞 “和服”的時候,會出現結果,交換機和服務器。

這些都是蠻荒期的google也不能幸免的問題。

到后來有個梗,別笑,這些都是血淚梗,半夜電話過來,說網監通過搜索發現你社區有淫穢內容要求必須刪除,否則就關閉你的網站,夜半驚醒認真排查,百思不得其解,苦苦哀求提供信息線索,最后發現,有人發了一條小廣告,“求購二十四口交換機” 。 還有,涉嫌政治敏感,查到最后 “提供三臺獨立服務器”, 看出其中敏感詞了沒?你說冤不冤。 這兩個故事可能并不是真的,因為都是網上看到的,但是我想說,類似這樣的事情真的有,并非都是空穴來風。

所以,分詞,是亞洲很多語言需要額外處理的事情,而西方語言不存在的問題。

但分詞不是說說那么簡單,比如幾點,1:如何識別人名?2、互聯網新詞如何識別?比如 “不明覺厲”。3、中英混排的坑,比如QQ表情。

做一個分詞系統,說到底也不難,但是要做一個自動學習,與時俱進,又能高效率靈活的分詞引擎,還是很有技術難度的。 當然,這方面我不是專家,不敢妄言了。

現在機器學習技術發達了,特別是google在深度學習領域擁有領先優勢,以前很多通過人工做標定,做分類的工作可以交給算法完成,從某種意義來說,本地化的工作可以讓機器學習去完成;未來,也許深度學習技術可以自己學習掌握本地化的技巧。 但我想說兩點,第一,從搜索引擎發展歷史看,在深度學習技術還沒成熟的情況下,本地化的工作是非常重要的,也是很重要的決定競爭成敗的要素;第二,即便現在深度學習已經很強大,基于當地語言的人工參與,標定,測試,反饋,一些本地化的工作依然對深度學習的效率和效果擁有不可替代的作用。

索引系統除了分詞之外,還有一些要點,比如實時索引,因為一次索引庫的更新是個大動靜,一般網站運營者知道,自己網站內容更新后,需要等索引庫下一次更新才能看到效果,而且索引庫針對不同權重的網站內容,更新的頻次也不太一樣。 但諸如一些高優先的資訊網站,以及新聞搜索,索引庫是可以做到近似實時索引的,所以我們在新聞搜索里,幾分鐘前的信息就已經可以搜索到了。

我以前經常吐槽一個事情,我在百度空間發表的文章,每次都是google率先索引收錄,當時他們的解釋是,猜測是因為很多人通過google閱讀器訂閱我的博客,而google閱讀器很可能是google快速索引的入口。(然并卵,百度空間已經沒有了,google閱讀器也沒有了。)

索引系統的權值體系,是所有SEOER們最關心的問題,他們經常通過不同方式組合策略,觀察搜索引擎的收錄,排名,來路情況,然后通過對比分析整理出相關的策略,這玩意說出來可以開很長一篇了,但今天就不提了。

但我說一個事實,很多外面的公司,做SEO的,會誤認為百度里面的人熟悉這里的門道和規律,很多人高價去挖百度的搜索產品經理和技術工程師去做SEO,結果,呵呵,呵呵。 而外面那些草根創業者,有些善于此道的,真的比百度的人還清楚,搜索權值的影響關系,和更新頻次等等,比如前面說到的,身價幾十億的那個80后創業者。

基于結果反推策略,比身在其中卻不識全局的參與者,更能找到系統的關鍵點,有意思不。

3、查詢展現

用戶在瀏覽器或者在手機客戶端輸入一個關鍵詞,或者幾個關鍵詞,甚至一句話,這個在服務端,應答程序獲取后處理步驟如下

第一步,會檢查最近時間有沒有人搜索過同樣的關鍵詞,如果存在這樣的緩存,最快的處理是將這塊緩存提供給你,這樣查詢效率最高,對后端負載壓力最低。

第二步,發現這個輸入查詢最近沒有搜索,或者有其他條件的原因必須更新結果,那么會將這個用戶輸入的詞,進行分詞,沒錯,如果不止一個關鍵詞,或者是一句話的情況下,應答程序會又一次分詞,將搜索的查詢拆成幾個不同的關鍵詞。

第三步,將切分后的關鍵詞分發到查詢系統中,查詢系統會去索引庫查詢,索引庫是個龐大的分布式系統,先分析這個關鍵詞屬于哪一塊哪一臺服務器,索引是一種有序的數據組合,我們用可以用近似二分法的方式思考,不管數據規模多大,你用二分法去查找一個結果,查詢頻次是log2(N),這個就保證了海量數據下,查詢一個關鍵詞是非常快非常快的。 當然,實際情況會比二分法復雜很多,這樣說比較容易理解而已,再復雜些不是我不告訴大家,是我自己都不是很清楚呢。

第四步,不同關鍵詞的查詢結果(只是按權值排序的部分頂部結果,絕對不是全部結果),基于權值倒序,會再匯總在一起,然后把共同命中的部分反饋回來,并做最后的權值排序。

記住,搜索引擎絕對不會返回所有結果,這個開銷誰都受不了,百度也不行,google也不行,翻頁都是有限制的。

再記住,如果你多個關鍵詞里有多個不同品類冷門詞,搜索引擎有可能會舍棄其中一個冷門詞,因為匯總數據很可能不包含共同結果。搜索技術不要神話,這樣的范例偶爾會出現。

這是三大部分,多說一點,其實還有第四部分。

用戶點擊行為采集和反饋部分

基于用戶的翻頁,點擊分布,對搜索結果的優劣做判定,并對權值做調整,但這個早期搜索引擎是沒有的,后面才有,所以暫時不列為必備的三大塊。

此外,一些對搜索優化的機器學習策略,對易混詞識別,同音詞識別等等,相當部分也都基于用戶行為反饋進行,這是后話,這里不展開。

關于第四部分,我以前說過一個詞,點擊提權,我說這個詞價值千金,我猜很多人并沒理解。沒理解就好,要不我要被一些同行罵死了。

以上是單指搜索引擎的工作原理,和一些技術邏輯,當然,只是入門級的解讀,畢竟再深入就不是我能講解的了。

但搜索引擎的本地化,并不局限于搜索技術的本地化。

百度的強大,不只是搜索技術,當然有些人會說百度沒有搜索技術,這種言論我就不爭論了,我不試圖改變任何人的觀點,我只列一些事實而已。

百度的強大還來自于兩大塊,第一是內容護城河,第二是入口把控。

前者是百度貼吧,百度mp3,百度知道,百度百科,百度文庫

后者是hao123和百度聯盟。

這兩塊都是本地化,google進中國的時候,在這兩塊都有動作

投資天涯,收購265,以及大力發展google聯盟,這些都是本地化。

此外,重申一下,百度全家桶的出現以及,百度全家桶和hao123的捆綁,是360崛起之后的事情,hao123從百度收購到360崛起之前,一直風平浪靜的沒做任何推廣和捆綁,從歷史事實而言,請勿將本地化等同于流氓化。

來源:caoz的夢囈

來源:盧松松博客


Public @ 2010-01-10 16:21:55

搜索引擎抓取系統概述(二)

編者按:之前與大家分享了關于搜索引擎抓取系統中有關抓取系統基本框架、抓取中涉及的網絡協議、抓取的基本過程的內容,今天將于大家分享搜索引擎抓取系統第二部分內容—spider抓取過程中的策略。spider在抓取過程中面對著復雜的網絡環境,為了使系統可以抓取到盡可能多的有價值資源并保持系統及實際環境中頁面的一致性同時不給網站體驗造成壓力,會設計多種復雜的抓取策略。以下簡單介紹一下抓取過程中涉及到的主要策

Public @ 2020-03-26 16:12:37

數據分析:如何追蹤訪客初始來源

追蹤訪客初始來源是非常重要的,因為它可以幫助你了解哪些渠道可以為你的網站帶來最多的流量和轉化。以下是一些跟蹤訪客初始來源的方法: 1. Google Analytics:使用Google Analytics可以輕松地追蹤訪客從哪個渠道進入你的網站,比如有機搜索、付費廣告、社交媒體、電子郵件或直接輸入URL。 2. UTM參數:使用UTM參數可以追蹤特定的營銷活動,比如電子郵件、社交媒體廣告或G

Public @ 2023-04-11 12:50:44

搜索引擎檢索系統概述

前面簡要介紹過了搜索引擎的索引系統,實際上在建立倒排索引的最后還需要有一個入庫寫庫的過程,而為了提高效率這個過程還需要將全部term以及偏移量保存在文件頭部,并且對數據進行壓縮,這涉及到的過于技術化在此就不多提了。今天簡要給大家介紹一下索引之后的檢索系統。檢索系統主要包含了五個部分,如下圖所示:索引&檢索.jpg(1)Query串切詞分詞即將用戶的查詢詞進行分詞,對之后的查詢做準備,以“1

Public @ 2011-11-07 16:21:49

搜索引擎怎樣抓到你?

用戶行為方式怎樣影響搜索引擎排名結果,是很多SEO一直關心探討的問題。前一陣在點石論壇上就看到關于在百度大量點擊搜索結果中自己的網站,從而進一步提高排名的討論。其邏輯是,搜索結果中的某個網站被點擊次數越多,說明越有用,用戶越喜歡,搜索引擎會更進一步提高這個網站的排名。不過這種用戶行為方式是噪聲很大的數據,極容易作弊。搜索引擎要在這些數據中提煉出精華非常困難。前幾天Google員工JohnMu就在G

Public @ 2015-05-11 16:21:51

更多您感興趣的搜索

0.491931s
欧美xxx.com| 永久av在线| 福利片一区二区| 欧美经典一区二区| 国产精品91视频| 日韩激情一区| 欧美一区二区在线免费观看| 超碰在线免费播放| 成人国产精品免费观看动漫| 2019亚洲日韩新视频| 欧美日韩播放| 91久久精品一区二区三| 国产露出视频在线观看| 国产乱码一区二区三区| 91精品国产高清久久久久久91| 亚洲电影男人天堂| 欧美精品v日韩精品v韩国精品v| 黄网站免费在线观看| 91欧美一区二区| jizz欧美大全| 久久蜜桃资源一区二区老牛| 欧美高清视频在线观看| 欧美久久综合网| 亚洲第一精品电影| 99蜜月精品久久91| 欧美日韩中文字幕综合视频| www在线观看播放免费视频日本| 久久色.com| 黄页视频在线免费观看| 男人的j进女人的j一区| 国内成人精品一区| 欧美成人有码| 久久精品国产一区二区三区| 日韩不卡一区| 日韩高清av一区二区三区| 日本99精品| 欧美一区二区精品久久911| 中文字幕不卡三区视频| 亚洲福利国产精品| 不卡av免费观看| 一区av在线播放| 最近中文字幕免费mv2018在线| 亚洲国产成人一区二区三区| 国模吧精品人体gogo| www国产精品av| 丝袜视频国产在线播放| 91首页免费视频| 深夜福利免费在线观看| 99久久婷婷国产综合精品| 亚欧精品一区| 99久久er热在这里只有精品66| 污视频网站免费看| 国产精品1区2区| 宅男午夜在线| 91在线精品一区二区| 色视频在线看| 中文字幕欧美区| 国产美女在线观看| 亚洲va天堂va国产va久| 欧美xoxoxo| 91精品婷婷国产综合久久性色| 色播一区二区| 亚洲欧美在线播放| 66视频精品| 欧美一区视频在线| 麻豆国产精品一区二区三区| 欧美aaa一级片| 97aⅴ精品视频一二三区| 日本天堂在线| 亚洲美腿欧美偷拍| 天堂а√在线最新版中文在线| 色婷婷综合久久| 日韩黄色av| 亚洲情综合五月天| 中文字幕午夜精品一区二区三区 | 香蕉国产在线| 国产精品久久久久久久久搜平片| 日韩伦理av| 91精品国产综合久久国产大片| 婷婷激情久久| 欧美成人剧情片在线观看| 视频一区视频二区中文| 全部孕妇毛片丰满孕妇孕| 欧美极品美女视频| 国产盗摄——sm在线视频| 欧美丰满高潮xxxx喷水动漫| 日韩a级大片| 欧美激情性做爰免费视频| 久久福利视频一区二区| 福利视频在线播放| 91国产免费看| 久久99国内| 日韩av不卡电影| 成人av午夜电影| av漫画网站在线观看| 亚洲韩国青草视频| 亚洲视频二区| 天堂中文在线资| 色婷婷国产精品| 日韩啪啪电影网| 国内在线高清免费视频| 亚洲精品成人天堂一二三| 日韩精品久久久久久久软件91| 美女撒尿一区二区三区| 国产麻豆精品视频| 色av手机在线| 亚洲国产精品久久久久久| 亚洲国产mv| 欧美成人片在线| 欧美日韩久久久| 在线一区电影| 中文字幕视频免费在线观看| 午夜电影网一区| 免费短视频成人日韩| 国产精品嫩草影院久久久| 国产精品久久久久久妇女6080 | 亚洲精品一区二三区不卡| 亚洲作爱视频| 日韩资源在线| 欧美日韩精品一区二区三区四区| 久久精品影视| 亚洲综合图片| 欧美精品一二三| 亚洲黑丝一区二区| 成年人在线看| 精品国产不卡一区二区三区| 另类图片国产| 怡红院在线播放| 亚洲欧洲在线播放| 国产在线精品一区二区| 男人天堂亚洲天堂| 亚洲午夜女主播在线直播| 国产一区二区在线观看视频| 日韩激情电影| 欧美日韩爱爱视频| 国产三级精品三级在线专区| 亚洲国产欧美在线观看| 国产成人精品在线观看| 亚洲一级二级三级| 先锋资源久久| 大胆av不用播放器在线播放| 亚洲激情视频网站| 国产在线精品一区在线观看麻豆| 日韩网站中文字幕| 97在线视频免费| 樱桃视频在线观看一区| 超碰成人久久| 国产裸舞福利在线视频合集| 亚洲国语精品自产拍在线观看| 国产精品99久久久久久久女警| 久久久免费人体| 国产91在线高潮白浆在线观看| 亚洲一区二区三区三| 99精品视频在线观看播放| 猫咪在线永久网站| 日韩精品在线影院| 成人18精品视频| 波多野结衣在线一区二区| 777.av| 欧美疯狂做受xxxx富婆| 麻豆视频一区二区| 亚洲午夜国产成人| 4hu永久免费入口| 欧美久久久久久久久| 久久精品国产秦先生| 国产日韩中文在线中文字幕| 成年在线播放小视频| 精品国产免费久久| 99视频一区二区三区| 久久91麻豆精品一区| 在线视频自拍| 欧美夫妻性视频| 黄网站色欧美视频| 日韩成人dvd| 国产高清精品二区| 最近2018年手机中文在线| 日韩av综合中文字幕| 欧美极品美女视频| 欧美国产综合| 欧美大胆性生话| jizz国产| 亚洲美女av网站| 亚洲人成亚洲人成在线观看图片| 精品91在线| 国产一区一一区高清不卡| 成人黄在线观看| 日韩大片免费观看视频播放| 国产精品污www在线观看| **女人18毛片一区二区| 在线观看网站免费入口在线观看国内| 日韩免费在线看| 精品动漫一区二区三区在线观看| 久久日一线二线三线suv| 久久久久久久久国产一区| av影视在线看| 成人影院一区二区三区| 亚洲欧美日韩一区二区在线| 一级中文字幕一区二区| 精品一区二区在线播放| 狠狠色丁香婷婷综合影院|