站內搜索數據提交流程和格式說明
- 威海百度搜索資源平臺 威海百度搜索資源平臺
- 1960
大綱
站內搜索數據提交流程
什么是XML數據文件?
什么是sitemap索引文件?
文件大小的限制?
如何設置更新周期?
數據提交后,多久能被百度抓取?
提交的數據都會被收錄嗎?
站內搜索數據格式說明
數據文件基本結構
固定標簽部分
擴展標簽部分
數據格式類型
通用-百度站內搜索數據提交模板_0
小說
影視
站內搜索數據提交流程
站內搜索數據提交包含以下4個步驟:
站內搜索數據提交流程.PNG
常見問題:
1 什么是XML數據文件?
單個XML數據格式樣例如下:
<?xml version="1.0" encoding="utf-8"?>
XML文件需以utf-8編碼
<urlset>
必填,標識整個鏈接集合的開始和結束
<url>
必填,每條數據都用一對<url>標簽標識
<loc>http://example.com/.../page1.html</loc>
必填,頁面地址,長度不得超過256字節
<lastmod>2013-08-12</lastmod>
標識該頁面的最后更新時間
<changefreq>daily</changefreq>
標識此頁面的更新頻率
<priority>0.8</priority>
標識此頁面相對于其他頁面的優先權比值,介于0.0-1.0之間
<data>
必填,標識擴展標簽的開始和結束
<display>
必填,緊鄰<data>,擴展標簽都包含在<display></display>里
</display>
必填,標簽閉合
</data>
必填,標簽閉合
</url>
必填,標簽閉合
</urlset>
必填,標簽閉合
上述XML數據文件向百度提交了一個url:http://example.com/.../page1.html。
若有多條url,則按照上述格式重復<url></url>之間的片斷,列明所有url地址,打包到一個XML文件進行提交。
2 什么是sitemap索引文件?
如需提交大量XML數據文件,可以將其列在sitemap索引文件中,然后提交該索引文件,而無需分別提交每個數據文件。索引文件包含的各個字段標簽如下:
<?xml version="1.0" encoding="UTF-8" ?>
XML文件需以utf-8編碼
<sitemapindex>
必填,標識sitemap索引文件
<sitemap>
必填,每個數據文件都用一對<sitemap>標簽標識
<loc>http://example.com/.../aaa.xml</loc>
必填,標識數據文件的位置
<lastmod>2013-08-20</lastmod>
標識數據文件的最近一次修改時間
</sitemap>
必填,標簽閉合
</sitemapindex>
必填,標簽閉合
若有多個XML數據文件,則按照上述格式重復<sitemap></sitemap>之間的片斷,列明所有XML數據文件地址,打包到一個sitemap索引文件進行提交。
3 文件大小的限制?
每個XML數據文件包含的網址不得超過 5 萬個,且單個文件大小不得超過 10 MB。每個sitemap索引文件包含的XML數據文件不得超過5萬個,但是單個索引文件應該小于10MB。這些限制條件有助于避免網絡服務器因傳輸非常大的文件而遇到麻煩。
4 如何設置更新周期?
百度spider會參考設置周期抓取數據,因此請根據數據文件內容的更新情況(比如增加新url)來設置。
請注意若文件內url不變而僅是url對應的頁面內容更新(比如論壇帖子頁有新回復內容),不在此更新范疇內。
5 數據提交后,多久能被百度抓取?
數據提交后,一般在1小時內百度會開始處理,處理完成的時間視文件大小而定。
當前默認的抓取速度是10url/s,考慮網速等因素造成的折損,每個站點的天級抓取量可達50萬。
6 提交的數據都會被收錄嗎?
站內搜索將收錄您提交的全部數據;但對于百度網頁搜索來說,是否收錄與頁面質量相關。
站內搜索數據格式說明
數據文件基本結構
站內搜索的XML數據文件由兩部分組成:固定標簽部分和擴展標簽部分。
固定標簽部分
包含<urlset>、<url>、<loc>、<lastmod>、<changefreq>、<priority>、<data>、<display>共8個標簽。雖然未必都要填寫,但是它們是所有數據格式的通用字段。
標簽名稱
屬性類型
屬性描述
優先級
標簽限制
urlset
/
標記整個文檔的開始和結束
必選
/
url
/
標記每條信息的開始和結束
必選
1個urlset可以包含很多url
loc
url
該條數據的存放地址
必選
以"http://"開頭
最大長度256個字符
lastmod
日期
該條數據的最新一次更新時間
可選
格式為YYYY-MM-DD
changefreq
字符串
該條數據的更新頻率
可選
有效值為:always、hourly、daily、weekly、monthly、yearly、never
priority
小數
指定此鏈接相對于其他鏈接的優先權比值
可選
數值范圍:0.0~1.0
data
/
標記擴展數據的開始和結束
必選
/
display
/
標記擴展數據中用作展現的字段的開始和結束
必選
/
注意事項:
XML數據文件必須使用UTF-8編碼。
所有標簽必須按照格式中指定的順序列出,非必選標簽可以不寫,但是不能亂序。
標簽大小寫敏感,請務必細心區分。
url中不能含有中文字符。
lastmod必須嚴格遵守日期格式,2013-08-01是正確的,2013-8-1則是錯誤的。
擴展標簽部分
不同數據格式類型包含的擴展標簽也不同,主要用于標識網頁的正文內容和周邊屬性。通過擴展標簽提交的數據將被用于摘要的特型展現、結果的篩選和排序選項設置,甚至直接影響結果的權重。
數據格式類型
站內搜索將根據站點類型分別制定相應的數據格式,以及給出相應的摘要樣式模板。
站內搜索的數據格式包含以下類型,后續還會根據需要再添加:
通用-百度站內搜索數據提交模板_0
影視
小說
音樂(建設中)
商品(建設中)
招聘(建設中)
旅游(建設中)
圖書資料(建設中)
問答(建設中)
溫馨提示:
由于歷史原因,“通用”類別的數據結構和后續的其他各個類別(如“影視-電影”)表示嵌套數據的方式不太一樣。前者將子標簽包含在父標簽里,后者子標簽獨立存在但嵌套在父標簽中。例如同樣表示演員姓名,
“通用”類別的表示方法為:<actor name="黃曉明" url="http://example.com/path"/>
其他類別的表示方法為:<actor><name>黃曉明</name><url>http://example.com/path</url></actor>
通用類型-百度站內搜索數據提交模板_0
通用類型的摘要示意圖.PNG
圖1通用類型的摘要示意圖(不代表最終效果)
具體格式說明:
注:“可篩選”“可排序”指的是相應字段在搜索結果頁可展現為篩選選項或排序選項;因為所有字段都可用于展現,所以未單獨標注。具體應用方式可參考《站內搜索外觀和功能設置》。
中文標簽
英文標簽
子標簽
屬性類型
屬性描述&舉例
優先級
個數限制
可篩選
可排序
標題
title
/
字符串
建議填寫,搜索系統優先選用該title
可選
1
內容
content
/
字符串
如能提交全文,則不需要spider再抓取,既可以降低站點服務器壓力,提升收錄效率,也可以避免搜索系統解析誤差
可選
1
標簽
tag
/
字符串
可以是內容主題、領域、分類等的簡短說明文字;最多可定義20個
可選
20
是
發布時間
pubTime
/
日期
格式為YYYY-MM-DDThh:mm:ss
只有提交該字段,“外觀設置”中按時間排序或篩選的功能選項才能正常生效
注意:YYYY-MM-DD和hh:mm:ss中間必須包含“T”
可選
1
是
面包屑
breadCrumb
--
/
用于標記當前網頁在站點中所處的層級位置,最多可定義4層,且標簽先后順序必須對應層級順序,寫在最前為最高層級
假設一篇文章位于新浪網“體育>NBA>洛杉磯湖人”路徑下,那么可以為這個頁面設置3個breadCrumb標簽
可選
4
層級名稱
title
字符串
常常體現為頻道名或版塊名
前面例子中3個breadCrumb標簽的title分別為“體育”“NBA”“洛杉磯湖人”
可選
1
是
層級首頁地址
url
url
前面例子中title為“NBA”時url為http://sports.sina.com.cn/nba/
可選
1
是
縮略圖
thumbnail
--
/
支持格式gif、jpg、jpeg、png,主要用于搜索結果的摘要展現
每個網頁最多可以提交10個縮略圖,目前站內搜索僅選用其中的第一個用于摘要展現
可選
10
縮略圖地址
loc
url
可選
1
圖片
image
--
/
支持格式gif、jpg、jpeg、png
每個網頁最多可以提交100張圖片,目前當thumbnail不存在時,默認選擇image的第一張圖片用于摘要展現
可選
100
圖片存放地址
loc
url
可選
1
圖片標題
title
字符串
如果沒有標題,也可用于填寫該圖片的標簽等
可選
1
視頻
video
--
/
每個網頁最多可提交100個視頻數據。(近期即將支持)當thumbnail和image不存在時,默認選擇video的第一個縮略圖用于摘要展現
可選
100
視頻地址
loc
url
包含2種情形:指向實際視頻媒體文件,或者指向特定視頻的播放器
前者例如:
http://59.63.171.80/youku/65736E30E1C307CC07EF256D1/0300020E004FCFEC663DA204A5719AA5C2599A
-5CDB-D8E5-BEB7-C15C62B686F2.flv
后者例如:
http://v.youku.com/v_show/id_XNDA3ODI1MTE2.html
可選
1
視頻標題
title
字符串
例如上述地址的視頻標題為“考研訪談:名師陳文燈教授數學復習指導答疑”
可選
1
視頻縮略圖地址
thumbnail_loc
url
例如上述視頻的縮略圖地址為
http://g2.ykimg.com/0100641F464FCCBFE9328D04A5719A80053701-E1FA-FF97-B990-39B8B55777EB
可選
1
視頻時長
duration
整數
單位:秒
可選
1
作者
author
--
/
常見于web2.0頁面,例如論壇帖子作者、博客作者
可選
1
作者昵稱
nickname
字符串
可選
1
作者個人首頁地址
url
url
該url指向的頁面通常提供作者的個人信息介紹
可選
1
作者頭像地址
thumbnail
url
可選
1
回復數
replyCount
/
整數
通常表示論壇貼子回帖數,或博客評論數
可選
1
是
是
屬性
property
/
字符串
主要用于帖子,例如精華、熱門、置頂、最新等屬性 ,每個網頁最多可以提交3個內容屬性
可選
3
是
價格
price
--
/
可選
1
現價
new
小數
商品價格或打折優惠后的現價
可選
1
是
是
原價
old
小數
打折優惠前的價格,如果有的話
可選
1
是
是
折扣
discount
--
/
折扣優惠信息
可選
1
折扣值
value
小數
折扣值
可選
1
是
是
折扣描述
description
字符串
折扣優惠介紹
可選
1
評價
review
--
/
評價信息
常用于商品、活動、影視著作等對象
可選
1
評分值
rating
小數
可選
1
是
是
評分基數
rating_base
小數
評分的基數值或“滿分”值
各網站采用的評分制不盡相同,例如最典型的5分制(0分-5分),還有10分制(0分-10分),或者用百分比來表示,滿分為100%(0%-100%)
站長可根據實際情況來填寫,或者保持不填;只填寫rating_base而不填rating是沒有意義的
可選
1
評分人數
count
整數
評分人數
可選
1
是
是
位置
location
--
/
常用于標識機構、商品或者活動
可選
1
地址
address
字符串
可選
1
電話
tel
字符串
可選
1
地域
area
字符串
地域范圍
例如“北京市”“海淀區”“王府井”
主要用于地域篩選
可選
1
是
坐標
coordinate
字符串
坐標
采用WGS84標準。格式為:緯度,經度。北緯+,南緯-,東經+,西經-。小數點后最多保留6位。例如“+40.783333,-73.966667”是紐約中央公園的坐標
可選
1
時間
time
--
/
通常用于標識活動;區別于網頁內容發布時間
可選
1
開始時間
startDate
日期
開始時間
格式為YYYY-MM-DDThh:mm:ss
可選
1
是
結束時間
endDate
日期
結束時間
格式為YYYY-MM-DDThh:mm:ss
可選
1
是
數據標記示例:
<?xml version="1.0"encoding="UTF-8"?>
<urlset>
<url>
<loc>http://ky.kaoyan.com/04/467393/</loc>
<lastmod>2013-04-10</lastmod>
<changefreq>always</changefreq>
<priority>0.5</priority>
<data>
<display>
<title>【寫給即將上戰場的你們】努力為王,心態為皇</title>
<content>略</content>
<tag>考研復習</tag><tag>經驗</tag>
<pubTime>2012-12-04T11:20:13</pubTime>
<breadCrumb title="考研加油站" url="http://ky.kaoyan.com/"/>
<breadCrumb title="考研政治" url="http://www.kaoyan.com/s/zhengzhi"/>
<thumbnailloc="http://docs.kaoyan.com/jpg/12/1204dde3cd949ccc.jpg"/>
<imageloc="http://docs.kaoyan.com/jpg/12/12048543278e760d.jpg" title="七個最常用的泰勒展開式"/>
<videoloc="http://v.youku.com/v_show/id_XNDA3ODI1MTE2.html" title="考研訪談:名師陳文燈教授數學復習指導答疑 "thumbnail_loc="http://g2.ykimg.com/0100641F464FCCBFE9328D04A5719A80053701-E1FA-FF97-B990-39B8B55777EB"duration="217509"/>
<!-- 視頻非實際頁面內數據,為示意而構造 -->
</display>
</data>
</url>
<url>
…
</url>
</urlset>
小說類型:
小說類的摘要示意圖
具體格式說明:
中文屬性標簽英文屬性標簽屬性類型需求對應優先級重復次數舉例
作品名字nameText作品的名字必選字段1半夢半醒
作者authorPerson作品的作者必選字段1作者字段,包含3部分,具體見下方。
作品配圖imageURL展現的時候會用到強烈建議不限
作品簡介descriptionText一般的文本強烈建議1小說故事發生于2005年,跨度六年,講述了主人公朱亞楠一次去北京參加頒獎大會,結識一號女主角王文靜。兩人開始朦朦朧朧的愛戀。由于不在同一城市生活,兩人只能艱難的異地戀。種種陰差陽錯導致他們分分離離,其間又交叉了二號女主角蘇揚和三號女主角劉琳。朱亞楠游離在三個美貌女孩之間,最終他會選擇和誰終生廝守?他們的愛情又會有什么樣的波折?敬請期待!
分類genreText作品的分類,方便書籍間的類聚必選字段1言情
完成字數wordCountNumber作品的總完成字數強烈建議119221
閱讀鏈接urlURL作品的閱讀鏈接必選字段1http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99069.html
更新狀態updateStatusText完結還是更新中必選字段1已完結
閱讀費用trialStatusText免費或者是前多少章免費,或收費必選字段1免費
周點擊weeklyClickNumber最近一周的點擊數量強烈建議150000
月點擊monthlyClickNumber最近一個月的點擊數量強烈建議1150000
總點擊totalClickNumber作品的總點擊數量必選字段13197509
最新章節newestChapterChapter作品的最新章節必選字段1
章節chapterChapter作品的章節必選字段不限
更新時間dateModifiedDate作品的更新時間必選字段12012/10/5
作者 - author
作者名稱nameText作者的名稱,可能是姓名、筆名或ID必選字段1zhujiaguo1986
作者簡介descriptionText作者的簡介強烈建議1朱家果,男,80后知名作家、詩人。
網頁鏈接urlURL作者的網頁鏈接,可能是博客或者個人主頁可選字段1http://blog.sina.com.cn/zhujiaguo2007
最新章節 - newestChapter
所屬小說名稱articleSectionText章節所屬的小說名稱必選字段1半夢半醒
最新章節標題headlineText最新章節的標題必選字段1未名湖畔
最新章節鏈接urlURL最新章節頁面的URL鏈接必選字段1http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99144.html
更新時間dateModifiedDate最新章節的更新時間必選字段12012/10/5
章節 - chapter
所屬小說名稱articleSectionText章節所屬的小說名稱必選字段1半夢半醒
章節標題headlineText章節的標題必選字段1歡暢一日
章節內容acticleBodyText給用戶展現最新內容強烈建議1剛出朝陽賓館,王文靜就嚷嚷著要去對面的桌球館里打桌球。王文靜挽著朱亞楠的手進了桌球館,在窗口處領了桌號,要了球桿。許妮一聲不響地跟在后面,一臉失落落的樣子。服務生剛把桌上的球仔擺好,王文靜便樂此不彼地打開了。
章節鏈接urlURL章節的URL鏈接必選字段1http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99076.html
更新時間dateModifiedDate章節的更新時間強烈建議1
電影類型:
影視-電影類的摘要示意圖.PNG
圖2影視-電影類的摘要示意圖(不代表最終效果)
具體格式說明:
“屬性類型”說明
1. 含有子標簽的屬性類型:Person、AggregateRating、VideoObject、InTheaters。子標簽內容詳見下方各個分支說明。
2. 時間相關的屬性類型:Date支持YYYY-MM-DD格式,或者YYYY-MM,或YYYY;Duration支持P[n]Y[n]M[n]DT[n]H[n]M[n]S格式,例如“P3Y6M4DT12H30M5S”表示“3年6個月4天12小時30分5秒”。時間格式說明詳見:ISO8601。
3. Number支持各種數字類型,例如整數和小數。
“出現次數”說明
1. 不限次數的情況下,用多組同名標簽來表達多個值,例如:<genre>愛情</genre><genre>青春</genre>。
No.
中文標簽
英文標簽
屬性類型
屬性描述
優先級
出現次數
舉例
可展現
可篩選
可排序
1
名稱
name
Text
電影名稱
必選
1
<name>中國合伙人</name>
是
2
別名
alias
Text
電影別名
可選
不限
<alias>中國先生</alias>
是
3
海報
image
URL
電影海報的鏈接
強烈建議
不限
<image>http://img31.mtime.cn/mt/2013/05/03/163203.48183969_96X128.jpg</image>
是
4
描述
description
Text
作品的簡介
必選
1
<description>從1980年代到21世紀,30年的大變革背景下,三個好友為了改變自身命運,創辦英語培訓學校,最終實現“中國式夢想”。</description>
是
5
類型
genre
Text
通常指作品本身的分類屬性
必選
不限
<genre>喜劇</genre>
是
是
6
演員
actor
Person
演員或動畫片中的配音演員
必選
不限
<actor>
<name>鄧超</name>
<url>http://people.mtime.com/1256584/</url>
</actor>
是
7
導演
director
Person
電影導演,包括執行導演等
必選
不限
<director>
<name>陳可辛</name>
<url>http://people.mtime.com/892817/</url>
</director>
是
8
編劇
author
Person
電影等的編劇
可選
不限
<author>
<name>周智勇</name>
</author>
是
9
內容語言
inLanguage
Text
電影對白主題語言
必選
1
<inLanguage>中文</inLanguage>
是
10
地區
contentLocation
Text
影片的制作地區
必選
不限
<contentLocation>中國</contentLocation>
是
是
11
上映信息
premiere
PremiereInfo
電影上映的有關信息
必選
不限
<premiere>
<datePublished>2013-05-17</datePublished>
<publishLocation>中國</publishLocation>
<duration>PT112M</duration>
</premiere>
是
是
是
12
摘要
abstract
Text
顯示在網頁中的摘要數據
強烈建議
1
略
13
綜合評價
aggregateRating
AggregateRating
用戶綜合評價
必選
1
<aggregateRating>
<ratingValue>8</ratingValue>
<bestRating>10</bestRating>
</aggregateRating>
是
是
14
預告片
trailer
VideoObject
預告片信息
強烈建議
不限
<trailer>
<name>鋼鐵俠3 中國版劇場預告片</name>
<url>http://movie.mtime.com/91881/trailer/43508.html</url>
</trailer>
15
評論數量
commentNum
Number
用戶評論、意見的數量,表達自己的觀點,不一定和作品相關
強烈建議
1
<commentNum>23</commentNum>
是
16
獲獎信息
awards
Text
電影的獲獎信息
強烈建議
不限
<adwards>金馬獎XXX</adwards>
是
演員 - actor
1
演員姓名
name
Text
演員的姓名
必選
1
<name>鄧超</name>
是
2
頁面鏈接
url
URL
演員頁面的URL鏈接
強烈建議
1
<url>http://people.mtime.com/1256584/</url>
3
角色名稱
role
Text
角色的姓
來源:百度搜索資源平臺