关于采集站采集文章更新维护的一些问答
从2013年开始,百度算法就被升级多次,其中尤为原创星火计划让人们开始知道了百度已经开始在强抓狠抓站长要搞好网站的原创工作。这一度让无数站长感到震惊,因为原创的内容对于不少草根站长来说是一项非常难以完成的任务,只有那些有着丰富的编辑资源才有可能解决原创问题,对于草根站长们来说,可没有这么多钱的投入,所以在互联网上出现了一致的哀叹之声。
不过我却在百度推出原创星火计划之后,并没有发现那些全部搞原创的网站就能够活得很自然,网站的排名就会靠前,网站内容的收录数量就会增多。相反一些依然靠着采集内容的老站却同样过得非常舒心,网站的排名依然不错,那么是不是表明百度算法中的原创星火计划失效呢?当然我们也发现的那些原创内容没有被收录也大多出现在刚上线的新站群体中,所以质疑百度算法似乎还为时过早了点。
我认为之所以出现新站原创不收录,而老站采集也有排名的现象并不会随着百度智能化水平的提升就会彻底解决,因为这涉及到算法的核心内容,下面我就借助马海祥博客来分享一下关于采集站靠采集文章更新维护的一些问答。
1、原创好?还是采集好?
当然是原创好,因为百度是这么说的,谁叫人家是裁判。
可为什么原创了很多文章,还是不收录?收录了没排名?
一个搜索引擎,它的核心价值是要为用户提供他/她最需要的结果。搜索引擎是有统计网民需求的,对于网民需求量小或者几乎没有需求的内容,即使你是原创也可能被搜索引擎忽略,因为它不想浪费资源在无意义的内容上。
对网民需求量大的内容,收录应该会比较多、比较快,但是,正因为收录多,即使你是原创,也可能很难挤进排名。
2、既然原创好,为什么要采集?
(1)、虽然原创好,但只要方法适当,采集的效果并不会比原创差多少,甚至比没掌握到方法的那些原创好很多(具体可查看马海祥博客《》的相关介绍)。
(2)、精力有限,原创很难保证长期大量更新,如果请个编辑,投入产出比可能是负数。
3、收录和索引到底什么关系?
收录表示蜘蛛来抓取过、分析过。索引表示蜘蛛分析之后,认为内容有一定价值。
只有进入索引的内容才有可能出现在搜索结果中,展现给用户。也就是说只有索引的内容才有机会带来流量。
4、市面上采集器那么多,应该用哪个好?
每个采集器都有它的独特之处,所谓存在即合理。请根据自己的需求来选择即可。我的采集器是自己开发的,开发的过程中考虑了以下几方面,使用其他采集器的也可作参考:
(1)、直接提供已分类的海量关键词,这些关键词都是百度已经统计的有网民需求的词(有百度指数),或者是这些词的长尾词,来自百度下拉框或相关搜索。
(2)、直接按关键词采集,智能分析网页正文进行抓取,不需要自己写采集规则。
(3)、抓取到的正文经过规范的标签清理,段落全部以标签呈现,乱码一律去除。
(4)、根据采集到的内容自动配图,图片一定是与该内容相关度非常高的。以这种方式代替伪原创,既不影响可读性,又使文章图文并茂,做到比原创所提供的信息更丰富。
(5)、正文内容中的关键词自动加粗,也可自定义要插入的关键词。但没有做句子重排、段落重排等影响可读性的所谓“伪原创”功能。
(6)、可直接使用关键词和其相关词组合作为标题,也可抓取目标网页标题。
(7)、可进行微信文章采集。
(8)、不用触发或者挂机。
(9)、集成百度站长平台主动推送,加快收录。
5、不同的网站程序,比如织梦、WordPress、dz、zblog、帝国cms或者其他,对SEO有什么影响?
理论上没有影响。因为搜索引擎并不知道你是什么程序,或者它可以通过一些规则识别出来,也不可能因为程序本身的不同而影响它的判断。
那什么会影响SEO呢?答案是模板。因为基本上这些程序都有模板机制,同样程序可以输出不同的页面,不同的程序也可以输出同样的页面,这就是模板。模板确定之后,你的每一个页面就按照这个框架来输出,也就是整个html结构已经确定。而这些html,正是搜索引擎要重点关注的,它得从这些html中得到它想要的信息。因此,一套好的模板非常重要。
6、采集站的模板设计应该注意哪些细节?
(1)、权重结构顺序。整个页面的html中(注意是html,而不是显示出来的版面),越靠前的位置,权重越高。由此引申出来,“title”、keyword、description三个标签,因为最靠前,权重最高。其次通常是导航,也是基本上是最靠上的,权重也非常高。再次就是文章标题和正文。这是根据html的前后来排序的。
(2)、因为搜索引擎首先要遵循W3C标准,所以,W3C定义的一些本来就是用来表示重要信息的标签,权重自然就高,比如,特别是h1,用来表示当前页面最重要的信息,一般每个页面只能有一个,其权重估计与title相当,也通常是用来放当前页面的标题,当然也有为了提高首页权重,用h1来放置logo或首页链接,都是可以的。另外还有em、strong这样的标签,用来表示强调,一般认为strong权重高于标签,同样也是加粗作用,但我们认为从SEO的角度看是没有权重加强的。
(3)、css或者js代码对搜索引擎来说通常是无意义的,尽量使用单独的文件来存放,或者在允许的情况下放到html尾部。
7、采集站结构规划应该注意哪些问题?
(1)、URL设计。URL也是可以包含关键词的,比如你的网站是关于电脑的,你的URL中可以包含“PC”,因为它在搜索引擎眼里通常是“电脑”的同义词。URL不要太长,层次尽量不要超过4层,这个就点到为止。
(2)、栏目设计。栏目通常是与导航相关联的,设计时应该考虑网站整体的主题,用户可能会对哪些内容感兴趣,栏目名称最好是网站的几个主关键词,这样也方便利用导航的权重。
(3)、关键词布局。理论上每一个内容页都应该有它的核心关键词,同一个栏目下的文章,尽可能围绕栏目关键词展开,马海祥提供大家一个简单粗暴的办法就是直接用栏目关键词的长尾词。
8、动态、伪静态、静态,这三者哪个好?
这个不能一概而论,推荐使用伪静态或静态。这三者的区别,是是否生成静态文件,以及URL格式是否动态。生成静态文件,本质上是为了加快访问速度,减少数据库查询,但会不断增加占用空间;伪静态只是通过URL重写修改URL,实际上还是每次都要经过程序运算、查询数据库再输出页面,对加快访问速度完全无效。动态与伪静态的差异只在于URL,带问号加参数。
所以关注两个点就好:网站打开速度是否够快?你是否需要节约服务器空间?
不同的网站程序,数据库操作的效率可能不同。一般来讲,内容页数量在1万以内的,页面打开速度都是比较快的,数据量更大一些,达到5万、十万甚至更多,通常就要考虑静态化了(具体可查看马海祥博客《》的相关介绍)。
9、有哪些途径改善访问速度?
(1)、上面已经说到的静态化。
(2)、通常很多网站模板中都有随机调用文章或者类似的版块,事实上对数据库来说,随机是一项比较重的负担,在模板中应该尽量减少随机文章的调用。如果不可避免,可以考虑从数据库上优化,对有索引的字段排序通常比没有索引要快很多。
(3)、将图片、js、css等不经常修改的文件,放到专用的静态服务器上,多个js、或者多个css能合并的尽量合并到一个文件,减少http连接次数。
(4)、使用各类云加速产品。对普通网站来说,免费的百度云加速或者360的云加速都还可以。
10、文章比较多,网站已经开启静态,但是每次全站更新都要花很长时间怎么办?
我的做法是使用缓存机制,这里只提供一个思路,可能需要自己二次开发。
网站设定为伪静态,每一个请求到达时,程序检查是否存在对应的缓存html文件,如果该文件的生成时间是多少小时或几天以前,我们判定它需要更新,这时候执行正常流程,程序查询数据库,生成html后,写入到缓存文件,再输出到客户端。
当下一次访问到达时,比如1分钟以后又来一个访问相同页面,再次检查缓存文件时间。从时间上可以判断文件非常新,完全不用更新,则直接读取文件内容输出到客户端。这样每个页面都可以实现自动生成,也只有第一个访客会感受到速度慢,后面的访客访问时都相当于是静态访问,速度是非常快的。
如果是独立服务器,还可以考虑自动检测服务器负载,如果负载本来就高,那就算判断出来需要更新,也暂时不更新,改为直接输出。
11、图片是引用远程网址好还是放在自己服务器好?
这个也是各有优劣。引用远程网址,可以节约自己的带宽,但很可能会因为对方服务器缓慢、或删除资源、或防盗链,图片无法显示。
如果下载到自己服务器,当然一切都自己掌控,但是图片会非常占用空间,总体上可能比生成静态所占的空间更大,而且如果访问量大,图片是最吃带宽的。
12、采集站内链应该怎样优化?
内链是百度官方推荐的优化手段之一,所以这是一定要做的。通常表现的形式是正文中出现某个关键词,给这个关键词加上一个链接,指向另一个正好是这个关键词相关内容的页面。因此就诞生了一些所谓的优化手法,强行在正文中插入一些关键词和链接,以此进行类似互推的操作。
还有的为了提高首页权重,到处都放上网站名称,并做上首页链接,以为这样可以提高目标页面的权重。但是这些很可能都是适得其反,因为搜索引擎会统计每个链接的点击率。如果放在醒目位置点击却很少的链接,有可能会判断为作弊。所以,请只在正文中本来就有的关键词上做内链,就可以了。
13、段落重排、句子重排、同义词替换这些伪原创手法到底好不好?
不好。因为搜索引擎已经智能,已经不是简单的数据库检索,它会自然语义分析,凡是语义解析比较困难的句子或者段落,它是可以判断为可读性差的,所以我认为这些“伪原创”可能是自作聪明。
14、评论模块基本上没有人用,该要还是不要?
要。评论模块最头疼是事情是垃圾评论,通常真正发言的访客很少,垃圾评论一大堆,整天和营销软件斗智斗勇。这里提供一个我已经实现的方案,对收录可能有一定帮助(没有依据的,只是猜测):
保留评论框、但禁止评论。所有评论由自己的网站程序生成。前面提到搜索引擎会自然语义分析,其中有一项重要的能力,就是情感判断。搜索引擎会计算每条评论的情感值,是positive(积极)还是negative(消极),具体倾向是10%还是90%。如果评论内容表达的是积极情感,则可以给你的正文加分,反之则减分。至于怎样自动生成积极的评论,就八仙过海各显神通吧。
这是在网络社交发展起来后的必然趋势,用这种方式来反映一个页面的用户体验度。同理还有分享、点赞等,原理类似。
15、绿萝算法之后,外链到底还有没有用?
有用。参见搜索引擎三定律之相关性定律。既然是定律,就不会改变。谁的内容被引用得多,谁就是权威。在主动推送出现之前,外链应该算是蜘蛛认识一个页面内容的第一渠道(具体可查看马海祥博客《》的相关介绍)。
16、外链一定要锚文本或者裸链吗?
不是。搜索引擎肩负重任,要努力发现真正有价值的东西,排除那些没价值的东西。所以有可能你直接提交的链接没收录,在别人地方随便发个纯文本网址,被它发现了,还计算了加分。
除了锚文本和裸链,还可以用关键词+网址的形式发纯文本。这样在网址前面的那个关键词是会自动与该网址关联的。
还有,有些链接虽然加了nofollow属性,但是在百度计算外链的时候,还是会计算的。
17、采集站需要做外链吗?
外链有没有效果,当然有,如果外链没有效果,百度推出外链查询工具做什么,外链为什么要购买,第一发外链的地方少了,第二发外链的成本大了,所以直接购买外链来增加网站收录和排名,很多朋友又说购买外链会导致网站K站,我可以肯定回答你,不会K站,如果会K站,你直接把你竞争对手搞死。
另外,外链链接的方式也非常重要,首先采集站大多数是用文章排名的,所以我们购买的外链一样要链接到文章页面,并且按照前面的规矩做,每篇文章都有一个关键词,那么这就是外链的锚文本了。如果全部连接到首页,而首页没有关键词,这就没什么意义了。
18、搜索引擎统计网民需求以什么来标识?
关键词。每一个人搜索一个关键词时,就表明他/她对这个词相关的内容有需求。而且,使用搜索引擎的人,通常是有问答需求、检索查询需求。当然搜索引擎内部肯定有非常庞大的分析系统,对这些需求进行精确的定位,详见百度指数。
比如搜索的关键词是“手机”,很有可能是想要买手机或者查某款的价格,也可能只是想要下载漂亮的壁纸。但是,如果是想要壁纸,就会有更精确的关键词“手机壁纸”,以下拉框或者相关搜索的形式呈现出来。
19、自己网站上原创的精选文章老是被其他站长采集,怎么办?
比如说,有个网站天天来采集我的博客网站上的原创文章,结果全让他收录了,我自己网站却没收录,怎么办呢?对此,我也分享几个解决方法:
(1)、联系对方站长,让其停止采集行为,这个直接些,有时候我们也经常是直接给对方站长打电话。
(2)、既然是原创文章,那么文章中可以多加一些自己站内不同形式专有的名词或者特征文字或网址等,尽量让他没办法直接通过采集程序替换掉这些文字或网址。
(3)、改模板了:采集也无非针对你页面特征布局了,可以直接在模板的不同地方加上不同的标签属性,如原来的内容部分标签为<div id="content"></div>他分析内容时可能就是用这个来界定,如果是,那么直接改下如<div style="" id="content">即在不破坏原有CSS的情况下破坏原有界定符,那么他就行重新制作采集规则了,当然也可直接整体改版(自己从采集者的角度来分析你自己的模块结构,然后针对性的作些修改)。
(4)、通过程序限制了,直接在PHP或者ASP中限制单IP单次连接次数等(具体可查看马海祥博客《》的相关介绍)。
(5)、屏蔽他的IP,但是他还是可以通过代理服务器访问,也可以本地采集。
20、原创不收录,采集的文章排名却很好,是怎么回事?
首先对于新站来说,百度虽然能够在新站提交相应的申请之后会进行收录,但是并不表明你的网站就一定会是高质量的网站,而是将这些网站收入到百度的考察沙盒中,如果这些网站的原创水平能够一直保持,那么这个新站在百度沙盒所呆的时间就会越短,而新站在百度沙盒的期间就算是被百度收录,也不会从搜索结果中释放出来,这就给广大站长朋友们造成新站的原创竟然还没有被收录的假象,实际上随着网站的持续运营,而且原创内容的有序增加,同时也保障了原创的质量,那么这些原创的内容会随着网站走出沙盒而被一道收录的。
而对于那些通过采集竟然就能够获得排名的老站,似乎同样和百度的原创星火计划格格不入,因为采集给百度搜索引擎蜘蛛的印象就好像互联网的寄生虫,依靠别人的创作而获得利益,所以百度搜索引擎对于这方面的网站打击的都比较厉害。
可是对于一些老网站而言,他们的采集更注重一些方法,并没有随意改变原作者的信息,同时还保留了他们的信息,而且这些采集的内容对于网站本身来说都有极高的相关性,而且能够得到广大用户的喜欢,比如很多采集的内容也能够获得巨大的浏览量,因为在互联网的世界中,搜索引擎也要尊重分享精神,从某种意义上来说采集的内容也是一种对别人的分享,只要你做出来版权的说明。
当然这些老站除了在采集上有了很多的限制之外,同时还在外链建设以及其他网站的推荐方面做了很多工作,所以这些网站就已经构成了现在知名的平台,所以这些网站上的内容具有进一步扩撒用户范围的作用,所以这些老网站就算是进行了内容采集,但是也并不影响其排名(具体可查看马海祥博客《》的相关介绍)。
所以说当出现原创新站不收录,而老站就算是有一定的采集内容,同样也能够获得不错的排名,对于这种现象的存在反而说明了百度算法的智能化,对于任何的规定都没有搞一刀切,所以体现了一种互联网精神。
马海祥博客点评:
转载和采集,分流了优质原创站点的流量,不再具属原创作者的名称,会直接影响到优质原创站长和作者的收益。长期看会影响原创者的积极性,不利于创新,不利于新的优质内容产生。鼓励优质原创,鼓励创新,给予原创站点和作者合理的流量,从而促进互联网内容的繁荣,理应是搜索引擎的一个重要任务。