百度搜索資源平臺-平臺工具使用手冊-普通收錄
1、網站驗證
2、普通收錄
3、快速收錄
4、死鏈提交
5、網站改版
6、索引量
7、流量與關鍵詞
8、抓取異常
9、抓取診斷
10、抓取頻次
11、robots
12、反饋中心
13、站點子鏈
14、移動適配
15、分潤中心
16、站點屬性
如何選擇普通收錄方式
API推送:最為快速的提交方式,建議您將站點當天新產出鏈接立即通過此方式推送給百度,以保證新鏈接可以及時被百度收錄。
sitemap:您可以定期將網站鏈接放到Sitemap中,然后將Sitemap提交給百度。百度會周期性的抓取檢查您提交的Sitemap,對其中的鏈接進行處理,但收錄速度慢于API推送。
手動提交:如果您不想通過程序提交,那么可以采用此種方式,手動將鏈接提交給百度。
使用API推送功能會達到怎樣效果
及時發現:可以縮短百度爬蟲發現您站點新鏈接的時間,使新發布的頁面可以在第一時間被百度收錄
保護原創:對于網站的最新原創內容,使用API推送功能可以快速通知到百度,使內容可以在轉發之前被百度發現
如何使用API推送功能
1,需要網站制作數據推送接口,進入API推送工具后,會看到接口調用地址的token,token是由16個英文數字組合的字符串
2,下面提供一些推送示例
1)curl推送示例
將要提交的url數據寫入一個本地文件,比如urls.txt,每個url占一行,然后調用curl命令:
curl -H 'Content-Type:text/plain' --data-binary @urls.txt
"http://data.zz.baidu.com/urls?site=www.example.com&token=edk7yc4rEZP9pDQD"
使用php、python、java等可以參照這個過程推送結構化數據。
2)post推送示例
POST /urls?site=www.58.com&token=edk7ychrEZP9pDQD HTTP/1.1
User-Agent: curl/7.12.1
Host: data.zz.baidu.com
Content-Length: 83
http://www.example.com/1.html
http://www.example.com/2.html
3)php推送示例
$urls = array(
'http://www.example.com/1.html',
'http://www.example.com/2.html',
);
$api = 'http://data.zz.baidu.com/urls
site=www.58.com&token=edk7ychrEZP9pDQD';
$ch = curl_init();
$options = array(
CURLOPT_URL => $api,
CURLOPT_POST => true,
CURLOPT_RETURNTRANSFER => true,
CURLOPT_POSTFIELDS => implode("\n", $urls),
CURLOPT_HTTPHEADER => array('Content-Type: text/plain'),
);
curl_setopt_array($ch, $options);
$result = curl_exec($ch);
echo $result;
4)ruby推送示例
require 'net/http'
urls = ['http://www.example.com/1.html', 'http://www.example.com/2.html']
uri = URI.parse('http://data.zz.baidu.com/urls
site=www.xxx.com&token=eTk7ychrWZP1pDQD')
req = Net::HTTP::Post.new(uri.request_uri)
req.body = urls.join("\n")
req.content_type = 'text/plain'
res = Net::HTTP.start(uri.hostname, uri.port) { |http| http.request(req) }
puts res.body
如何查看推送反饋
您可以通過推送后返回的狀態碼和字段來判斷數據是否推送成功。
1,狀態碼為200,表示推送成功,可能返回以下字段:
字段
是否必選
參數類型
說明
success
是
int
成功推送的url條數
remain
是
int
當天剩余的可推送url條數
not_same_site
否
array
由于不是本站url而未處理的url列表
not_valid
否
array
不合法的url列表
成功返回示例:
{
"remain":4999998,
"success":2,
"not_same_site":[],
"not_valid":[]
}
2,狀態碼為4XX或500,表示推送失敗,返回字段有:
字段
是否必選
類型
說明
error
是
int
錯誤碼,與狀態碼相同
message
是
string
錯誤描述
常見的推送失敗返回示例說明:
error
message
含義
400
site error
站點未在站長平臺驗證
empty content
post內容為空
only 2000 urls are allowed once
每次最多只能提交2000條鏈接
over quota
超過每日配額了,超配額后再提交都是無效的
401
token is not valid
token錯誤
404
not found
接口地址填寫錯誤
500
internal error, please try later
服務器偶然異常,通常重試就會成功
API推送功能常見問題
1, 和原來的sitemap提交接口有什么區別?
答:狀態反饋更及時了,原來提交后需要登錄到搜索資源平臺查看提交是否成功。目前只要根據提交后返回的數據就可以判斷了。
2, 已經存在的提交sitemap數據的程序代碼需要做什么修改?
答:主要修改兩點。第一點,提交的接口需要修改;第二點,需要處理下接口返回的信息,失敗后需要根據錯誤進行相應處理,報錯的鏈接是無法提交成功的
3,為什么提交成功后看不到數據變化?
答:我們反饋的是新提交鏈接的數量,如果您提交的鏈接在之前提交過(即重復提交)是不會被統計到的
4,在什么時機使用API推送提交功能效果最明顯?
答:頁面鏈接產生或發布時立即提交,這樣效果是最好的
5,每次提交一條數據和多條數據有什么區別?
答:沒有區別
6,重復提交已經發布的鏈接會有什么問題?
答:會有兩個影響。第一,將浪費您提交的配額,每個站點每天可提交的數量是有限制的,如果您都提交了舊鏈接,當有新鏈接時可能因為配額耗盡無法提交。第二,如果您經常重復提交舊鏈接,我們會下調您的配額,您可能會失去API推送功能的權限
7,API推送可以推多少條鏈接?
答:API推送可提交的鏈接數量上限是根據您提交的新產生有價值鏈接數量而決定的,百度會根據您提交數量的情況不定期對上限額進行調整,提交的新產生有價值鏈接數量越多,可提交鏈接的上限越高。
什么是Sitemap
Sitemap(即站點地圖)就是您網站上各網頁的列表。創建并提交Sitemap有助于百度發現并了解您網站上的所有網頁。您還可以使用Sitemap提供有關您網站的其他信息,如上次更新日期、Sitemap文件的更新頻率等,供百度Spider參考。
百度對已提交的數據,不保證一定會抓取及索引所有網址。但是,我們會使用Sitemap中的數據來了解網站的結構等信息,這樣可以幫助我們改進抓取策略,并在日后能更好地對網站進行抓取。
此外,Sitemap 與搜索排名沒有關系。
百度Sitemap支持哪些格式
百度Sitemap協議支持文本格式和xml格式,可以根據自己情況來選擇任意一種格式組織sitemap。具體格式說明及示例如下:
1.第一種格式樣例:txt文本格式
在一個txt文本列明需要向百度提交的鏈接地址,將txt文本文件通過搜索資源平臺進行提交
http://www.example.com/repaste/101562698_5230191316.html
http://www.example.com/repaste/101586283_5230215075.html
http://www.example.com/repaste/101639435_5230310576.html
此文本文件需要遵循以下指南:
· 文本文件每行都必須有一個網址。網址中不能有換行。
· 不應包含網址列表以外的任何信息。
· 您必須書寫完整的網址,包括 http。
· 每個文本文件最多可包含 50,000 個網址,并且應小于10MB(10,485,760字節)。如果網站所包含的網址超過 50,000 個,則可將列表分割成多個文本文件,然后分別添加每個文件。
· 文本文件需使用 UTF-8 編碼或GBK編碼。
2.第二種格式樣例:xml格式
單個xml數據格式如下:
<?xml version="1.0" encoding="utf-8"?>
<!-- XML文件需以utf-8編碼-->
<urlset>
<!--必填標簽-->
<url>
<!--必填標簽,這是具體某一個鏈接的定義入口,每一條數據都要用<url>和</url>包含在里面,這是必須的 -->
<loc>http://www.yoursite.com/yoursite.html</loc>
<!--必填,URL鏈接地址,長度不得超過256字節-->
<lastmod>2009-12-14</lastmod>
<!--可以不提交該標簽,用來指定該鏈接的最后更新時間-->
<changefreq>daily</changefreq>
<!--可以不提交該標簽,用這個標簽告訴此鏈接可能會出現的更新頻率 -->
<priority>0.8</priority>
<!--可以不提交該標簽,用來指定此鏈接相對于其他鏈接的優先權比值,此值定于0.0-1.0之間-->
</url>
<url>
<loc>http://www.yoursite.com/yoursite2.html</loc>
<lastmod>2010-05-01</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
上述Sitemap向百度提交了一個url:http://www.yoursite.com/yoursite.html
若有多條url,按照上述格式重復<url></url>之間的片斷,列明所有url地址,打包到一個xml文件,向搜索資源平臺進行提交。
創建Sitemap時有哪些注意事項?
第一,一個Sitemap文件包含的網址不得超過 5 萬個,且文件大小不得超過 10 MB。如果您的Sitemap超過了這些限值,請將其拆分為幾個小的Sitemap。這些限制條件有助于確保您的網絡服務器不會因提供大文件而超載。
第二,一個站點支持提交的sitemap文件個數必須小于5萬個,多于5萬個后會不再處理,并顯示“鏈接數超”的提示。
第三,如果驗證了網站的主域,那么Sitemap文件中可包含該網站主域下的所有網址。
第四,搜索資源平臺sitemap文件提交已不再支持索引型文件形式,歷史提交的索引型文件已不再進行抓取,建議站長及時刪除,重新進行資源提交。
如何提交Sitemap
第一步,將需提交的網頁列表制作成一個Sitemap文件,文件格式請閱讀百度Sitemap協議都支持哪些格式。
第二步,將Sitemap文件放置在網站目錄下。比如您的網站為example.com,您已制作了一個sitemap_example.xml的Sitemap文件,將sitemap_example.xml上傳至網站根目錄即example.com/sitemap_example.xml
第三步,登錄百度搜索資源平臺,確保提交Sitemap數據的網站已驗證歸屬。
第四步,進入Sitemap工具,點擊“添加新數據”,文件類型選擇“URL列表”,填寫抓取周期和Sitemap文件地址
最后,提交完之后,可在Sitemap列表里看到提交的Sitemap文件,如果Sitemap文件里面有新的網站鏈接,可以選擇文件后,點擊更新所選,即對更新的網站鏈接進行了提交。
什么是移動Sitemap協議,如何提交移動Sitemap協議
百度推出了移動Sitemap協議,用于將網址提交給移動搜索收錄。百度移動Sitemap協議是在標準Sitemap協議基礎上制定的,增加了<mobile:mobile/>標簽,它有四種取值:
<mobile:mobile/> :移動網頁
<mobile:mobile type="mobile"/> :移動網頁
<mobile:mobile type="pc,mobile"/>:自適應網頁
<mobile:mobile type="htmladapt"/>:代碼適配
無該上述標簽表示為PC網頁
下方樣例相當于向百度移動搜索提交了一個移動網頁:http://m.example.com/index.html,向PC搜索提交了一個傳統網頁:http://www.example.com/index.html,同時向移動搜索和PC搜索提交了一個自適配網頁http://www.example.com/autoadapt.html:
<?xml version="1.0" encoding="UTF-8" ?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:mobile="http://www.baidu.com/schemas/sitemap-mobile/1/">
<url>
<loc>http://m.example.com/index.html</loc>
<mobile:mobile type="mobile"/>
<lastmod>2009-12-14</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/index.html</loc>
<lastmod>2009-12-14</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/autoadapt.html</loc>
<mobile:mobile type="pc,mobile"/>
<lastmod>2009-12-14</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/htmladapt.html</loc>
<mobile:mobile type="htmladapt"/>
<lastmod>2009-12-14</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
按照移動Sitemap協議做好Sitemap后,在Sitemap工具點擊添加新數據提交,與提交普通Sitemap方式一致。
我提交時填寫的周期是什么含義?
百度Spider會參考設置周期抓取Sitemap文件,因此請根據Sitemap文件內容的更新(比如增加新url)來設置。請注意若url不變而僅是url對應的頁面內容更新(比如論壇帖子頁有新回復內容),不在此更新范圍內。Sitemap工具不能解決頁面更新問題。
Sitemap提交后,多久能被百度處理?
Sitemap數據提交后,一般在1小時內百度會開始處理。在以后的調度抓取中,如果您的sitemap支持etag,我們會更頻繁抓取sitemap文件,從而及時發現內容更新;否則抓取的周期會比較長。
提交的Sitemap都會被百度抓取并收錄嗎?
百度對已提交的數據,不保證一定會抓取及收錄所有網址。是否收錄與頁面質量相關。
XML格式的 Sitemap 中,“priority”提示會影響我的網頁在搜索結果中的排名嗎?
不會。Sitemap 中的“priority”提示只是說明該網址相對于您自己網站上其他網址的重要性,并不會影響網頁在搜索結果中的排名。
網址在 Sitemap 中的位置是否會影響它的使用?
不會。網址在 Sitemap 中的位置并不會影響百度對它的識別或使用方式。
Sitemap中提交的url能否包含中文?
因為轉碼問題建議最好不要包含中文。
來源:百度搜索資源平臺 百度搜索學堂