揭秘SEO优化陷阱:阿瑞斯病毒式蜘蛛陷阱你不可不知的细节
SEO优化过程中需警惕的搜索引擎爬虫陷阱有哪些
[font=微软雅黑][size=3]
[/size][/font]
[align=left][font=微软雅黑][size=3]
众多站长纷纷表示,公司网站运营不易,原因在于许多网站在规划上对搜索引擎不够友好,不利于爬虫爬行和抓取,这些技巧被称为爬虫陷阱。因此,作为公司站,一定要尽量避免爬虫陷阱。
首先、Flash部分网站的主页全部由一个大型Flash构成,这便形成了爬虫陷阱。搜索引擎在抓取HTML代码时,仅能找到指向Flash文件的链接,没有其他文字内容。若想成为SEO技术高手,可以加入以下群组:425,五七一,206。这里每天都有SEO高手免费分享网站优化技巧,还有很多志同道合的朋友与你共同学习进步,无需付出任何代价,只需你有真心学习的意愿即可加入。
此外,部分网站在主页的banner中采用Flash,并添加活动链接,虽然对用户来说能直观地看到活动内容,但对于爬虫来说,却无法识别,也无法抓取Flash的链接地址。
其次、Session ID部分网站使用Session ID(会话ID)跟踪用户访问,每个用户访问都会生成一个唯一且独特的Session ID,附加在URL中。搜索引擎爬虫的每次访问也会被视作一个新的用户,URL中会附加一个不同的Session ID,这样搜索引擎每次访问同一页面时得到的URL将不同,后面附带一个不同的Session ID。这也是最常见的爬虫陷阱之一。
第三、各种跳转除了301跳转外,搜索引擎爬虫对其他跳转方式较为敏感,如302跳转、JavaScript跳转、meta refresh跳转。
若需进行跳转,301跳转是搜索引擎推荐的、用于网站更改的跳转方式,可以将页面权重从旧网址转移到新网址。其他跳转方式对爬虫爬行不利。因此,除非万不得已,尽量不要使用301跳转以外的跳转方式。
第四、结构结构使用框架结构规划页面,在网站诞生初期曾流行一时,但如今网站很少使用框架结构了,不利于搜索引擎抓取是框架结构越来越不流行的原因之一。对于搜索引擎来说,访问一个使用框架结构的网址所抓取的HTML仅包括调用其他HTML文件的代码,并不包含任何文字信息。搜索引擎无法判断这个网址的内容是什么。
总之,如果你的网站还在使用框架结构,或者你的老板打算使用框架结构,唯一要记住的是,忘记使用框架结构这回事。和Flash一样,不要浪费时间研究如何让搜索引擎收录框架结构网站。
第五、动态URL动态URL是指数据库驱动的网站生成的、带有问号、等号及参数的网址。一般来说,动态URL不利于爬虫爬行,应尽量避免。尽管百度如今已能识别动态URL,但也不能保证百分百能识别。
第六、JavaScript连接
由于JavaScript能够创造出许多吸引人的视觉效果,有些网站喜欢使用JavaScript脚本生成导航系统。这也是比较严重的爬虫陷阱之一。尽管搜索引擎都在尝试解析JS脚本,但我们不能指望搜索引擎自己解决问题,而要让搜索引擎跟踪爬虫链接的工作尽量简单。
JavaScript连接在SEO中也有特别用途,即站长不希望被收录的页面,可以通过JavaScript脚本阻止搜索引擎爬虫。
第七、需要登录部分网站的内容需要用户登录后才能看到,这部分内容搜索引擎是无法看到的。这个需要注意确定是否需要登录后才能看到。
第八、强行运用cookies
许多网站为了实现某种功能,强行使用cookies,用户浏览器若没有启用cookies,页面将无法正常显示。搜索引擎爬虫相当于一个禁止了cookies的浏览器,强行使用cookies只会导致搜索引擎爬虫无法正常访问。
[font=微软雅黑][size=3]
[/size][/font]
[align=left][font=微软雅黑][size=3]
网站SEO优化对百度爬虫构成陷阱的主要几种表现形式登录按钮
1.Flash动画
新入行的站长可能会疑问,为什么Flash动画属于爬虫陷阱,原因很简单,百度爬虫无法识别Flash。Flash自然很绚丽,有很好的视觉效果,但爬虫不能读取,有什么用?所以SEO公司建议,要么将Flash去掉,要么在首页Flash文件上设置一个通往HTML版本的链接,帮助爬虫爬行。
2.JS链接
同理,JavaScript链接也无法被爬虫读取,所以它也是一个爬虫陷阱。当然不是说网站中完全不能放JS,在爬虫不抓取的部分可以放,如果在爬虫爬行的部分放JS,一定会阻碍爬虫爬行。当然,现在据说百度已经可以抓取JS了,站长们可以验证一下。
3.动态URL
百度官方说过,无论是动态的URL还是静态的URL,爬虫都可以读取。但是,站长在做网站优化的时候发现,如果设置了动态的URL,因为里面参杂了很多问号、等号参数,容易让爬虫造成死循环。所以,一般情况下静态URL对爬虫更加友好。
4.Frame框架
Frame框架和Flash一样都是阻碍爬虫爬行的一道墙。
5.要求登录
6.强制使用Cookies
为了方便追踪用户信息,有些网站设置了强制用户登录、跟踪用户访问路径、强制用户使用Cookies等功能,如果用户不按照这种办法,就无法正常显示网站。百度爬虫其实就相当于一个禁止了Cookies的浏览器,强制使用Cookies只会给爬虫爬行造成困扰。
7.各种跳转
为了获得更好的点击率,除了301重定向之外,有些站长还设置了各种跳转。本来用户达到了一页面,什么都没看就跳转到另外一个页面。爬虫对这类跳转非常敏感。无论是JS跳转还是代码跳转,都会将爬虫搞糊涂。
为了提升点击量,除采用301重定向外,部分网站管理员还实施了多样化跳转。原本用户抵达一页面,未及浏览便被转向至另一页面。搜索引擎蜘蛛对此类跳转极为敏感。无论是JavaScript跳转还是代码跳转,都可能导致蜘蛛陷入混乱。
常见的蜘蛛陷阱主要包括这几种。阐述这些SEO优化知识并非旨在引导新手网站管理员采取此类行为,相反,是为了让网站管理员意识到这种做法是错误的。一旦搜索引擎蜘蛛陷入网站陷阱,想要提升网站排名并非易事。