开放协议概述
使用此开放协议,将会为您的网站带去更多流量!
《互联网新闻开放协议》是百度新闻搜索制定的搜索引擎新闻源收录标准,网站可将发布的新闻内容制作成遵循此开放协议的XML格式的网页(独立于原有的新闻发布形式)供搜索引擎索引。
该协议主要适用于已经成为百度新闻源的网站;如果您的网站尚未成为百度新闻源,请先
申请收录。
如果您的网站符合以下《百度新闻源收录标准》,请您将网站信息发送邮件到 news@baidu.com ,我们的工作人员将会在7个工作日内对网站进行审核,审核通过后会邮件通知您。
百度新闻源收录标准:
- 百度新闻搜索收录的新闻源网站必须符合及严格遵守国家《互联网新闻信息服务管理规定》,并在新闻发布和转载过程中尊重创作人和源网站的著作权。
- 百度希望新闻源多样化,鼓励原创新闻内容,收录的新闻源网站应正规、合法、有媒体影响力,具有大量有价值的新闻内容,并能及时更新,且网站服务器稳定、高速。
- 百度新闻搜索收录的网站类型包括专业新闻网站和资讯门户、地方信息港、报刊杂志及广播电视媒体、专业及行业网站、政府及组织网站,不适合收录的网站类型包括论坛、博客、公司网站、个人网站等其它非新闻资讯类网站,以及非中文网站。
- 您应对提供的全部内容承担一切法律责任,保证您提供内容的真实性、合法性,并不得侵犯任何第三方的权益。
注意:
1、非新闻资讯类网站提交的信息我们将不予以回复。
2、未通过审核的网站提交的 XML 文件将不予以处理。
开放协议非常简单! 您可以在我们的帮助下轻松使用。
第一步:创建XML文件
下图为遵照《互联网新闻开放协议》制作的XML格式的网页,网页上按照标准格式列出了网站发布的新闻的相关信息。
XML网页示例:

XML标签说明:
其中带 * 标记的为必选项,未带星号标记为可选项。
*<document>——标记整个XML文件内容的开始和结束。
*<webSite>——站点地址。
*<webMaster>——负责人员的Email,请务必填写正确。您提交的XML文件不能正常收录时,我们将通过这个地址与您联系。
*<updatePeri>——更新周期,以分钟为单位。搜索引擎将遵照此周期访问该页面,使页面上的新闻更及时地出现在百度新闻中。
*<item>——标记每篇新闻信息的开始和结束。标记内为单篇新闻信息,不包括新闻专题。
*<link>——新闻url地址,与单篇新闻一一对应;若分页的新闻存在多个URL,标题相同则属于同一篇新闻,请提供一个URL。
注意:请只提交符合百度新闻搜索收录标准的URL:
1、 百度新闻搜索收录的内容包括:时政、娱乐、体育、财经、科教文化、社会生活等各类新闻报道及媒体评论,数码产品、房产、汽车等行情资讯及评测,各行业的动态及行情,组织机构的工作动态等,是由专业人士撰写或编辑的中文信息。
2、
百度新闻搜索收录的内容不包括:个人信息、论坛、博客、广告、幽默笑话、情感故事、情色、写真、剧照、明星档案、食谱、下载、多媒体等其它类型、其它语言互联网信息。
3、百度新闻搜索希望收录高质量的中文新闻,不收录英文等其它非中文新闻。
<title>——新闻标题。
<text>——完整的新闻正文(仅包含正文文字,不包含HTML语言等其它字符)。此项的目的是使该篇新闻更多、更准地出现在搜索结果中。
<image>——新闻正文内相关图片,采用绝对地址。若该篇新闻无相关图片,可以为空;若含有多张图片,请重复使用该标签。此项的目的是使该篇新闻的相关图片展现在搜索结果中。
<category>——新闻分类, 可以遵循网站自身的分类体系,最好采用一级分类。
<pubDate>——新闻发布时间,与该篇新闻HTML页面上的发布时间保持一致。请精确到分钟;若您网站的发布时间未记录小时分钟,提供年月日即可。
推荐时间格式:年月日小时分钟秒
如:2005-11-09 10:37 | 2005/11/09 10:37:00 | 2005.11.09 10:37:00 |
2005年11月09日10时37分00秒 | Fri, 09 Nov 2005 10:37:00 GMT
其他说明:
- 支持的编码格式有GB2312、GB18030、UTF-8、BIG5,推荐使用GB18030或UTF-8格式。
- 您可以将网站某一时间段发布的全部新闻放在一个XML文件中,也可以分频道或栏目放在多个XML文件中。
- 请保持每个XML文件处于按更新周期持续自动更新状态。更新周期可根据您的需要随时进行调整。
- 每个XML文件至多存放最新发布的100条新闻,无需保存之前的新闻。
- 请将发布的新闻按照时间排序,即最新发布的新闻在最上端,否则可能有新闻被遗漏。
- XML标签内容中,除文字文本以外不能包含其它任何代码,下表中的特殊字符必须转换为XML定义的转义字符。否则将发生错误导致搜索引擎不能获取页面上的新闻。
| 字符 | 转义后的字符 |
| HTML字符 | 字符编码 |
| 和(and) | & | & | & |
| 单引号 | ' | ' | ' |
| 双引号 | " | " | " |
| 大于号 | > | > | > |
| 小于号 | < | < | < |
转义字符中的"&"无需再转。
-
建议您使用CDATA 部件。一个 CDATA 部件以"<![CDATA[" 标记开始,以"]]>"标记结束。将包含代码或特殊字符的文本置于CDATA 部件内
,就无需再对特殊字符进行转义。
第二步:验证XML文件
下面的地址提供了帮助您验证XML文件结构的多种工具:
http://www.w3.org/XML/Schema#Tools
http://www.xml.com/pub/a/2000/12/13/schematools.html
通过验证的XML文件能够使您提供的信息更加标准,确保您发布的新闻信息不被搜索引擎遗漏。
第三步:提交XML网址
提交前请将XML文件上传到您的网站服务器,将XML文件的URL地址及其它信息输入下面对应的方框内。搜索引擎将定向访问该URL地址,当URL地址发生变化时需要重新提交。
若您提交的XML文件符合百度新闻源收录标准,百度新闻搜索将对您提交的数据进行测试和观察一周。如果XML文件基本按照
《互联网新闻开放协议》的要求制作但存在问题,我们会根据XML页面上提供的邮件地址与您联系。
注意:
1、 我们将对您提交的XML文件进行审核,百度新闻搜索不保证一定能收录您提交的全部内容。
2、 审核通过的XML文件,收录后发现网站发生变化,有不符合百度新闻源收录标准的内容,我们将停止收录。
3、站点名、地址为必填项,同一站点一天之内最多提交5个不同的XML文件地址。
4、提交地址后请您注意查看弹出窗口中的信息,以确认是否提交成功。
第四步:查询XML文件状态
您可以在下面的方框中输入您提交的XML文件地址,查询该文件的处理进度和反馈信息。
注意:输入的地址必须完整,即与您提交时的地址完全一致。
*《互联网新闻开放协议》以下简称《新闻开放协议》
网站的所有频道或栏目都可以被收录吗?
请将您网站发布的新闻报道、媒体评论、行情评测、组织动态等内容按照《新闻开放协议》的要求提供在XML页面上。
请不要加入广告、幽默笑话、情感故事、诗歌、情色、写真、剧照、明星档案、食谱、下载、多媒体
等内容。
使用《新闻开放协议》会影响我原来的新闻页面设计与发布吗?
完全没有影响。这个页面完全不干扰HTML新闻页面,也不需要有链接链到这个地址,不需要展现给普通用户。
使用《新闻开放协议》后期要大量人力进行维护吗?
不需要。您只需要进行一次开发,实现自动输出和自动更新。
我的网站已经提供RSS输出,可以直接提交RSS订阅地址吗?
为了保证您网站的新闻能够快速、准确地被百度新闻搜索收录,请您严格遵照《新闻开放协议》的各项要求创建XML文件,包括数据格式和数据内容,否则无法成功收录。
RSS订阅地址以及其它不符合《新闻开放协议》数据格式要求的XML地址不适合提交。
我的网站每天发布大量新闻,需要把全部新闻都按照一定格式放在XML页面上吗?
不需要。您只需要将最近一个更新周期内发布的新闻信息逐个罗列在XML页面上,更新周期由您在<updatePeri>标签中设定。假设更新周期为10分钟,您最少可以提供最近10分钟内发布的新闻,最多可以提供最近发布的100条新闻。
如何理解“自动更新”?什么时候需要重新提交XML地址?
百度新闻搜索的程序定周期定向地访问您提供的XML地址,这个周期由您在<updatePeri>标签中设定,如每10分钟访问一次,获取页面上新出现的相关数据。
因此,您应提供固定的XML地址,而地址上的内容按照更新周期持续更新;新闻内容讲求时效性,若无法更新将失去被收录的意义。
当您需要改变XML文件的路径或名称时,请重新提交更改后的XML地址。
一个站点可以提交多个不同的XML地址吗?
可以。您可以将网站某一时间段发布的全部新闻放在一个XML文件中,提交一个XML地址;也可以分频道或栏目放在多个XML文件中,提交多个XML地址。
但一个XML地址上的新闻只能来源于同一个站点。
哪些要求容易被我忽略,而导致全部或部分新闻收录失败?
1.<title>和<text>标签中如果不为空,必须仅仅是表达新闻内容的文字文本(XML转义符除外),请不要加入任何HTML语言。 您也可以将包含代码或特殊字符的文本置于CDATA 部件内。
2.标签中的所有内容如URL、标题、正文等,若包含以下特殊符号如“&”“<”“>”等,需要根据XML规范进行
转义;这些特殊符号仅针对半角符号而言,全角符号无需进行转义;转义符号中的“&”无需再转。
3.字符编码必须严格符合XML声明中的规范,例如XML声明为
<?xml version="1.0" encoding="GB2312" ?>,若不完全是标准GB2312规范的编码,会导致部分数据丢失。
4.XML页面中,提供和排列新闻顺序是:新闻发布时间的先后顺序,即页面从上至下的新闻时间由新到旧。若将已经展示的新闻置于新加入的新闻之上,将造成新闻数据的丢失。
提交之后,我如何知道网站是否被成功收录?
我们的工作人员将会对文件进行人工审核及机器测试。
如果发现问题,我们会根据XML文件上提供的邮件地址与您联系,测试时间需要相应延长。请保证邮件地址真实有效。
测试通过后,XML文件将会被正式收录。这时您可以在百度新闻搜索框内输入“site:网站域名”查看收录的来自您网站的新闻信息。
您也可以随时使用上面的“
查询XML文件状态”功能,查看文件的处理进度和反馈信息。
我还有其它的问题怎么办?