探究常见网页分析算法：深度解析网页分类技术的奥秘

a351910080 • 2025年7月8日 am12:26 • 域名头条

如何领会网站分析算法

网站分析算法大致可以划分为依循网络结构、依循网页实质以及依循用户浏览动态三种类别。以下是对其的替换版本：

1依循网络结构的分析算法

依循网页间的关联，通过既有的网页或数据，来对与其存在直接或间接关联的对象（可能是网页或网站等）进行评价的算法。它又可以分为网页级别、网站级别和网页块级别这三种。

1.1网页级别分析算法

PageRank和HITS算法是最普遍的链接分析算法，它们都是通过对网页间链接度的迭代和标准化计算，得出每个网页的重要度评估。PageRank算法尽管考虑了用户浏览的随机性和终点网页的存在，但忽视了大多数用户浏览的目的性，即网页和链接与查询主题的相关性。针对这个问题，HITS算法提出了两个核心概念：权威网页（authority）和枢纽网页（hub）。

基于链接的搜集的问题是相关页面主题群之间的隧道效应，即许多在搜集路径上偏离主题的网页也指向目标网页，局部评价策略中断了在当前路径上的搜集行为。文献提出了一种基于反向链接（BackLink）的分层式上下文模型（Context Model），用于描述指向目标网页一定物理跳数半径内的网页拓扑图的中心Layer0为目标网页，将网页依据指向目标网页的物理跳数进行层级划分，从外层网页指向内层网页的链接称为反向链接。

1.2网站级别分析算法

网站级别资源发现和管理策略相较于网页级别更为简便有效。网站级别搜集的关键之处在于站点的区分和站点等级(SiteRank)的计算。SiteRank的计算方法与PageRank类似，但是需要对网站之间的链接进行一定程度的抽象，并在一定的模型下计算链接的权重。

网站划分情况分为按域名划分和按IP地址划分两种。文献讨论了在分布式情况下，通过对同一个域名下不同主机、服务器的IP地址进行站点划分，构造站点图，利用类似PageRank的方法评价SiteRank。同时，根据不同文件在各个站点上的分布情况，构造文档图，结合SiteRank分布式计算得到DocRank。文献证明，利用分布式的SiteRank计算，不仅大大降低了单机站点的算法成本，而且克服了单独站点对整个网络覆盖率有限的缺点。附带的一个优点是，常见的PageRank造假难以对SiteRank进行欺骗。

1.3网页块级别分析算法

在一个页面中，通常含有多个指向其他页面的链接，其中只有一部分是指向主题相关网页的，或根据网页的链接锚文本表明其具有较高重要性。但在PageRank和HITS算法中，没有对这些链接进行区分，因此常常给网站分析带来广告等噪声链接的干扰。在网页块级别(Block-level)进行链接分析的算法的基本思想是通过VIPS网页分割算法将网页分为不同的网页块(page block)，然后对这些网页块建立page-to-block和block-to-page的链接矩阵，分别记为Z和X。于是，在page-to-page图上的网页块级别的PageRank为Wp=X×Z；在block-to-block图上的BlockRank为Wb=Z×X。已经有人实现了块级别的PageRank和HITS算法，并通过实验证明，效率和准确率都比传统的对应算法要好。

2依循网页内容的网站分析算法

依循网页内容的分析算法指的是利用网页内容（文本、数据等资源）特性进行的网站评价。网页的内容从最初的以超文本为主，发展到后来动态页面（或称为hidden web）数据为主，后者的数据量约为直接可见页面数据（PIW，publiclyIndexable Web）的400~500倍。另一方面，多媒体数据、Web Service等各种网络资源形式也日益丰富。因此，依循网页内容的分析算法也从最初的较为单纯的文本检索方法，发展为涵盖网页数据抽取、机器学习、数据挖掘、语义理解等多种方法的综合应用。本节根据网页数据形式的不同，将依循网页内容的分析算法，归纳以下三类：第一种针对以文本和超链接为主的无结构或结构很简单的网页；第二种针对从结构化的数据源（如RDBMS）动态生成的页面，其数据不能直接批量访问；第三种针对的数据介于第一和第二类数据之间，具有较好的结构，显示遵循一定模式或风格，且可以直接访问。

2.1依循文本的网站分析算法

1)纯文本分类与聚类算法

很大程度上借鉴了文本检索的技术。文本分析算法可以快速有效地对网站进行分类和聚类，但由于忽略了网站间和网站内部的结构信息，很少单独使用。

2)超文本分类和聚类算法

无处可避的信息搜集与“隐私挑战”。热门的黑色幽默短剧《大妈的世界》中有一段情节：广场舞大妈们正为购买什么颜色的表演服装而发愁，此时王大妈随意说了一句晚上要吃西红柿炒鸡蛋，并请杨大妈去接“熊猫班”的外孙，结果手机购物App就分别给她推荐了红黄相间、黑白相间的衣服。平台以“窃听”的方式窃取数据用以分析用户的喜好，再“突袭式”地进行信息推荐，已引起广泛关注。调研中，多位受访者表示，置身于平台与算法共同构建的系统中，被“窃听”已成“家常便饭”。许多企业、App、第三方机构在共享用户个人信息的同时，试图掌握更多的个人隐私。访谈中，不少用户表示，浏览器总能“记住”其搜索历史并且同步到其他设备上，在首页反复推送搜索过的同类内容，让人有一种“被泄露”的不安感。

基于搜集个人信息的算法推荐服务带来的困扰不止于此。一方面，不当的推荐表现在“量”上，过多同质化的内容造成了信息冗余，容易使个体产生心理疲劳与隐私焦虑；另一方面，算法推荐的“度”也常常超出应该推荐的内容范围，色情、低俗等违背主流价值观的内容常常被置入开机页诱导用户点击。

被算法筛选与操控的“渐进式依赖”。“平时吃饭、遛娃我都会选择App上排名靠前的餐厅和游乐场”，31岁的二胎妈妈孙颖表示，虽然也“踩过雷”，但这样的选择对她而言更省时省力。互联网时代，不少网民越来越多地将事物的优劣判断交给算法。算法凭借着“优先”“分类”“联想”“筛选”等机制在很大程度上构建了“人们在互联网上的感知与现实”。调查显示，超六成的受访者会根据平台的排名、评分等数据做出个人决策，尽管他们并不认同排名靠前的商品或内容一定是更好的。

调研还发现，不少提供算法推荐服务的平台，更是通过将相关内容放在突出位置、屏蔽其他平台链接等方式，实现“入口垄断”与“自我优待”。这些平台在热搜榜、首屏、弹窗等重点环节，通过设置关键词、定向推送等方式将特定内容推至榜单前列，暗中控制人们可关注的信息范围。72.1%的被访者认为平台会推荐与自身兴趣相似的内容。当人们习惯由平台供应信息时，有可能陷入算法设置的“筛选气泡”中，人成为数据的“附属品”，渐渐丧失接触多元信息的机会。

应对：

从“躲避”到“栖息”的用户生存之道

从对“大数据杀熟”的批评，到对“信息茧房”的了解，普通用户在强大的算法技术应用面前，不得不选择以妥协的方式忍受算法带来的种种问题。调查中，超过半数受访者表示自己意识到了平台或商家对个人信息的收集，但如果不勾选“用户知情同意书”，就无法使用软件所提供的功能。让渡隐私来换取服务，成为普通人与算法共存时“无奈而自洽”的心态。然而，在“受制于算法”的大多数情形之外，仍有不少用户选择与算法“斗智斗勇”，规避算法的消极影响。

善用“反追踪”策略的“数字隐蔽”。大学生高宇是社交平台的“重度用户”，在和算法推荐日复一日的相处中，她练就了一身“躲避”算法的本领：“我每次在首页刷到不想看的内容就会‘以迅雷不及掩耳之势’划过。”此外，她还在同一个社交平台注册了“小号”，“大号用来追逐热点资讯，小号用来发日常，这样不想看到相关内容的时候就有个地方可以‘躲’了”。

当下，身处各类默认设置协议中的普通个体，发展出多元的“算法回避”策略。他们或更换手机号码、建立多个账号，以此迷惑算法；或采取不点赞、不发表、不评论的方式，减少在互联网中的数字痕迹；或因不喜欢某些软件的推荐机制而选择关闭或停用，直至寻求到算法友好的替代性产品；或想办法关闭手机收音功能，从硬件设备端对可能的算法监听予以阻隔。这些方式呈现出共性的算法化生存之策——“断连”与“隐蔽”。然而，调研中许多用户表示虽然可以远离算法软件，却无法躲避算法思维的连锁反应。调查显示，只有54.9%的人认为这种躲避产生了效果，霸王条款、偷用隐私、强行定位等情况依然难以靠个体力量得到缓解。

“因地制宜”投喂算法的“反向规训”。依据算法情境“因地制宜”地制定使用策略，主动探究算法运作的规则与思维方式，通过意图鲜明的点赞、收藏、点击“不感兴趣”等行为设置自主偏好，甚至在感兴趣的帖子下留言称“大数据请记住我，多向我推送这样的（帖子）”……调研发现，部分用户选择以主动“喂养”的方式寻求与算法的相处之道。

其中，一度活跃于“饭圈”的“数据粉”就是依靠与算法的“你来我往”试图影响信息排序的一群人。“数据粉”群体通常通过组织信息点击和发布，对偶像的作品点赞、带话题转发等，提高相关内容的热度，从而影响算法，令与偶像相关的内容跻身更显著的位置，高调抢占大众注意力。

借算法平台谋取红利的“栖息式共存”。“以前我只选择感兴趣的内容创作，但有一次偶然剪辑制作了一部爆款影视剧介绍，流量特别好，自此以后我开始琢磨怎么才能更火。”余家豪是一名业余的视频网站内容创作者，受和他类似感受的牵引，越来越多的MCN（多频道网络）及自媒体创作者全心“栖息”于算法主导的内容世界，迎合代码规则、抓住流量密码、实现商业变现，构成了算法化生存的另一种模式。调研中，在“是否主动迎合推荐机制发布内容”的回答中，选择“是”的比重超过三分之二。调研也发现，部分内容生产者不惜使用“三俗内容”“打擦边球”等方式迎合算法准则。

以上所转载内容均来自于网络，不为其真实性负责，只为传播网络信息为目的，非商业用途，如有异议请及时联系btr2020@163.com，本人将予以删除。

THE END

分析分类奥秘

二维码

探究嘉兴职业技术学院的设施与环境——嘉兴在线视角下的办学状况分析

< <上一篇

探究班级优化大师在课堂评估中的应用价值 —— 如何评估班级优化大师工具的有效性

下一篇>>

搜索内容

探究常见网页分析算法：深度解析网页分类技术的奥秘

服务范围

网站简介

分类目录

热门文章排行榜