咨询热线:

185-9527-1032

联系QQ:

2863379292

官方微信:

网页抓取优先策略

全网营销

导读:网页抓取优先策略也称为“页面选择问题”(page Selection),通常是尽可能地首先抓取重要性的网页,这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。那么哪些网页才

发表日期:2019-12-23

文章编辑:兴田科技

浏览次数:9034

标签:

网页抓取优先策略也称为“页面选择问题”(page Selection),通常是尽可能地首先抓取重要性的网页,这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。那么哪些网页才是重要性高的呢?如何量化重要性呢?

重要性度量由链接欢迎度、链接重要度和平均链接深度这个方面决定。

定义链接欢迎度为IB(p),它主要由反向链接(Backinks)的数目和质量决定。首先考察数目,直观地讲,一个网页有越多的链接指向它(反向链接数多),那么表示其他网页对其的认可。同时这个网页被网民访问的机会就大,推测出其重要性也就越高;其次考察质量,如果被越多的重要性高的网指向,那么其重要性也就越高。如果不考虑质量,就会出现局部最优,而不是全局最优的问题。最典型的就是作弊网页,人为地在一些网页中设置了大量反策链接指向其自身的网页,以提高该网页的重要性。如果不考虑链接质量,就会被这些作弊者所利用。

定义链接重要度为IL(p),它是一个关于URL字符串的函数,仅仅考察字符串本身。链接重要度主要通过一些模式,比如认为包含“.COM”或者“HOME”的URL重要度高,以及具有较少斜杠(Slash)的URL重要度高等。

定义平均链接深度为ID(p),此为笔者所创。ID(p)表示在一个种子站点集合中,每个种子站点如果存在一条链路(宽度优先遍历规则)到达该网页,那么平均链接深度就是这个网页的又一个重要性指标。因为距离种子站点越近,说明被访问的机会越多,离种子站点越远,重要性越低。事实上,按照宽度优先的遍历规则即可满足这种重要性高的网页被优先抓取的需要。

最后,定义网页重要性的度量为I(p),它由以上两个量化值线性决定,即:

I(p)=a*IB(p)+β*IL(p)

平均链接深度同宽度优先的遍历规则保证,因此不作为重要性评价的指标。在抓取能力有限的情况下,如果能够把重要性高的网页尽可能地抓完,是合理科学的,最终被用户查询到的网页也往往是那些重要性高的网页。

尽管这样看来已经足够完美,事实上,还是忽视了一个重要的要素--时间。时间导致万维网动态变化的一面。如何抓取那些新增的网页呢?如何重访那些被修改了的网页呢?如何发现那些被删除了的网页呢?为了保持和万维网网页的同步变化,就必须有网页重访策略。通过该策略可以识别增加、修改及删除网页这3种网页变化的情况。

相关推荐

更多新闻

  • 8-11

    2023

    全网营销 / 2023-08-11

    如何选择靠谱商城网站建设?

    引言在如今数字化的时代,拥有一个靠谱的商城网站对于企业来说是至关重要的。。随着电子商务的兴起,越来越...

    View details

  • 8-24

    2023

    全网营销 / 2023-08-24

    云浮网站建设- 如何创建一个成功的在线平台?

    对于一个成功的云浮网站建设,一个专业的网站设计师可以帮助您创建一个独一无二的设计方案,并确保其与您的品牌形象一致。但如果您拥有设计经验,也可以尝试自己设计。

    View details

  • 8-23

    2023

    常见问题 / 2023-08-23

    怎么免费建设自己的网站:一场自主网站建设之旅

    引言在当今数字化时代,拥有一个个人或商业网站已经成为了非常重要的事情。。网站可以作为展示产品和服务,...

    View details

  • 8-23

    2023

    全网营销 / 2023-08-23

    东方网站优化

    东方网站优化是在中国东方地区市场上脱颖而出的重要数字营销策略。通过采取关键策略如关键词研究和优化、内容优化、网站结构优化、移动优化和本地化优化,您的网站可以在东方市场中获得更高的曝光度和可见性。始终记住,东方网站优化是一个不断发展和优化的过程,您可以通过理解和满足目标受众的需求来不断改进您的网站并获得更多商机。

    View details