探究常见网页分析算法:深度解析网页分类技术的奥秘
如何领会网站分析算法
网站分析算法大致可以划分为依循网络结构、依循网页实质以及依循用户浏览动态三种类别。以下是对其的替换版本:
1依循网络结构的分析算法
依循网页间的关联,通过既有的网页或数据,来对与其存在直接或间接关联的对象(可能是网页或网站等)进行评价的算法。它又可以分为网页级别、网站级别和网页块级别这三种。
1.1网页级别分析算法
PageRank和HITS算法是最普遍的链接分析算法,它们都是通过对网页间链接度的迭代和标准化计算,得出每个网页的重要度评估。PageRank算法尽管考虑了用户浏览的随机性和终点网页的存在,但忽视了大多数用户浏览的目的性,即网页和链接与查询主题的相关性。针对这个问题,HITS算法提出了两个核心概念:权威网页(authority)和枢纽网页(hub)。
基于链接的搜集的问题是相关页面主题群之间的隧道效应,即许多在搜集路径上偏离主题的网页也指向目标网页,局部评价策略中断了在当前路径上的搜集行为。文献提出了一种基于反向链接(BackLink)的分层式上下文模型(Context Model),用于描述指向目标网页一定物理跳数半径内的网页拓扑图的中心Layer0为目标网页,将网页依据指向目标网页的物理跳数进行层级划分,从外层网页指向内层网页的链接称为反向链接。
1.2网站级别分析算法
网站级别资源发现和管理策略相较于网页级别更为简便有效。网站级别搜集的关键之处在于站点的区分和站点等级(SiteRank)的计算。SiteRank的计算方法与PageRank类似,但是需要对网站之间的链接进行一定程度的抽象,并在一定的模型下计算链接的权重。
网站划分情况分为按域名划分和按IP地址划分两种。文献讨论了在分布式情况下,通过对同一个域名下不同主机、服务器的IP地址进行站点划分,构造站点图,利用类似PageRank的方法评价SiteRank。同时,根据不同文件在各个站点上的分布情况,构造文档图,结合SiteRank分布式计算得到DocRank。文献证明,利用分布式的SiteRank计算,不仅大大降低了单机站点的算法成本,而且克服了单独站点对整个网络覆盖率有限的缺点。附带的一个优点是,常见的PageRank造假难以对SiteRank进行欺骗。
1.3网页块级别分析算法
在一个页面中,通常含有多个指向其他页面的链接,其中只有一部分是指向主题相关网页的,或根据网页的链接锚文本表明其具有较高重要性。但在PageRank和HITS算法中,没有对这些链接进行区分,因此常常给网站分析带来广告等噪声链接的干扰。在网页块级别(Block-level)进行链接分析的算法的基本思想是通过VIPS网页分割算法将网页分为不同的网页块(page block),然后对这些网页块建立page-to-block和block-to-page的链接矩阵,分别记为Z和X。于是,在page-to-page图上的网页块级别的PageRank为Wp=X×Z;在block-to-block图上的BlockRank为Wb=Z×X。已经有人实现了块级别的PageRank和HITS算法,并通过实验证明,效率和准确率都比传统的对应算法要好。
2依循网页内容的网站分析算法
依循网页内容的分析算法指的是利用网页内容(文本、数据等资源)特性进行的网站评价。网页的内容从最初的以超文本为主,发展到后来动态页面(或称为hidden web)数据为主,后者的数据量约为直接可见页面数据(PIW,publiclyIndexable Web)的400~500倍。另一方面,多媒体数据、Web Service等各种网络资源形式也日益丰富。因此,依循网页内容的分析算法也从最初的较为单纯的文本检索方法,发展为涵盖网页数据抽取、机器学习、数据挖掘、语义理解等多种方法的综合应用。本节根据网页数据形式的不同,将依循网页内容的分析算法,归纳以下三类:第一种针对以文本和超链接为主的无结构或结构很简单的网页;第二种针对从结构化的数据源(如RDBMS)动态生成的页面,其数据不能直接批量访问;第三种针对的数据介于第一和第二类数据之间,具有较好的结构,显示遵循一定模式或风格,且可以直接访问。
2.1依循文本的网站分析算法
1)纯文本分类与聚类算法
很大程度上借鉴了文本检索的技术。文本分析算法可以快速有效地对网站进行分类和聚类,但由于忽略了网站间和网站内部的结构信息,很少单独使用。
2)超文本分类和聚类算法
无处可避的信息搜集与“隐私挑战”。热门的黑色幽默短剧《大妈的世界》中有一段情节:广场舞大妈们正为购买什么颜色的表演服装而发愁,此时王大妈随意说了一句晚上要吃西红柿炒鸡蛋,并请杨大妈去接“熊猫班”的外孙,结果手机购物App就分别给她推荐了红黄相间、黑白相间的衣服。平台以“窃听”的方式窃取数据用以分析用户的喜好,再“突袭式”地进行信息推荐,已引起广泛关注。调研中,多位受访者表示,置身于平台与算法共同构建的系统中,被“窃听”已成“家常便饭”。许多企业、App、第三方机构在共享用户个人信息的同时,试图掌握更多的个人隐私。访谈中,不少用户表示,浏览器总能“记住”其搜索历史并且同步到其他设备上,在首页反复推送搜索过的同类内容,让人有一种“被泄露”的不安感。
基于搜集个人信息的算法推荐服务带来的困扰不止于此。一方面,不当的推荐表现在“量”上,过多同质化的内容造成了信息冗余,容易使个体产生心理疲劳与隐私焦虑;另一方面,算法推荐的“度”也常常超出应该推荐的内容范围,色情、低俗等违背主流价值观的内容常常被置入开机页诱导用户点击。
被算法筛选与操控的“渐进式依赖”。“平时吃饭、遛娃我都会选择App上排名靠前的餐厅和游乐场”,31岁的二胎妈妈孙颖表示,虽然也“踩过雷”,但这样的选择对她而言更省时省力。互联网时代,不少网民越来越多地将事物的优劣判断交给算法。算法凭借着“优先”“分类”“联想”“筛选”等机制在很大程度上构建了“人们在互联网上的感知与现实”。调查显示,超六成的受访者会根据平台的排名、评分等数据做出个人决策,尽管他们并不认同排名靠前的商品或内容一定是更好的。
调研还发现,不少提供算法推荐服务的平台,更是通过将相关内容放在突出位置、屏蔽其他平台链接等方式,实现“入口垄断”与“自我优待”。这些平台在热搜榜、首屏、弹窗等重点环节,通过设置关键词、定向推送等方式将特定内容推至榜单前列,暗中控制人们可关注的信息范围。72.1%的被访者认为平台会推荐与自身兴趣相似的内容。当人们习惯由平台供应信息时,有可能陷入算法设置的“筛选气泡”中,人成为数据的“附属品”,渐渐丧失接触多元信息的机会。
应对:
从“躲避”到“栖息”的用户生存之道
从对“大数据杀熟”的批评,到对“信息茧房”的了解,普通用户在强大的算法技术应用面前,不得不选择以妥协的方式忍受算法带来的种种问题。调查中,超过半数受访者表示自己意识到了平台或商家对个人信息的收集,但如果不勾选“用户知情同意书”,就无法使用软件所提供的功能。让渡隐私来换取服务,成为普通人与算法共存时“无奈而自洽”的心态。然而,在“受制于算法”的大多数情形之外,仍有不少用户选择与算法“斗智斗勇”,规避算法的消极影响。
善用“反追踪”策略的“数字隐蔽”。大学生高宇是社交平台的“重度用户”,在和算法推荐日复一日的相处中,她练就了一身“躲避”算法的本领:“我每次在首页刷到不想看的内容就会‘以迅雷不及掩耳之势’划过。”此外,她还在同一个社交平台注册了“小号”,“大号用来追逐热点资讯,小号用来发日常,这样不想看到相关内容的时候就有个地方可以‘躲’了”。
当下,身处各类默认设置协议中的普通个体,发展出多元的“算法回避”策略。他们或更换手机号码、建立多个账号,以此迷惑算法;或采取不点赞、不发表、不评论的方式,减少在互联网中的数字痕迹;或因不喜欢某些软件的推荐机制而选择关闭或停用,直至寻求到算法友好的替代性产品;或想办法关闭手机收音功能,从硬件设备端对可能的算法监听予以阻隔。这些方式呈现出共性的算法化生存之策——“断连”与“隐蔽”。然而,调研中许多用户表示虽然可以远离算法软件,却无法躲避算法思维的连锁反应。调查显示,只有54.9%的人认为这种躲避产生了效果,霸王条款、偷用隐私、强行定位等情况依然难以靠个体力量得到缓解。
“因地制宜”投喂算法的“反向规训”。依据算法情境“因地制宜”地制定使用策略,主动探究算法运作的规则与思维方式,通过意图鲜明的点赞、收藏、点击“不感兴趣”等行为设置自主偏好,甚至在感兴趣的帖子下留言称“大数据请记住我,多向我推送这样的(帖子)”……调研发现,部分用户选择以主动“喂养”的方式寻求与算法的相处之道。
其中,一度活跃于“饭圈”的“数据粉”就是依靠与算法的“你来我往”试图影响信息排序的一群人。“数据粉”群体通常通过组织信息点击和发布,对偶像的作品点赞、带话题转发等,提高相关内容的热度,从而影响算法,令与偶像相关的内容跻身更显著的位置,高调抢占大众注意力。
借算法平台谋取红利的“栖息式共存”。“以前我只选择感兴趣的内容创作,但有一次偶然剪辑制作了一部爆款影视剧介绍,流量特别好,自此以后我开始琢磨怎么才能更火。”余家豪是一名业余的视频网站内容创作者,受和他类似感受的牵引,越来越多的MCN(多频道网络)及自媒体创作者全心“栖息”于算法主导的内容世界,迎合代码规则、抓住流量密码、实现商业变现,构成了算法化生存的另一种模式。调研中,在“是否主动迎合推荐机制发布内容”的回答中,选择“是”的比重超过三分之二。调研也发现,部分内容生产者不惜使用“三俗内容”“打擦边球”等方式迎合算法准则。