岩棉复合板厂家
免费服务热线

Free service

hotline

010-00000000
岩棉复合板厂家
热门搜索:
行业资讯
当前位置:首页 > 行业资讯

关于Web你可能不知道的

发布时间:2020-03-10 10:14:20 阅读: 来源:岩棉复合板厂家

中介交易 SEO诊断淘宝客 站长团购 云主机 技术大厅

Web,全称为 World Wide Web,是 Internet 上最重要和最为人们所熟知的运用之一。Web 是指 Internet 上所有基于 http 协议的 html 网页、图象、音频、视频等内容的集合。虽然 Web 可能早已成你每天日常生活的一部分,但相信你对 Web 背后的秘密依然很感兴趣。本文向大家展现了关于 Web 的一些通常不为人所知而又有趣的细节。

虽然Internet(包括其前身ARPANET等)的历史比Web要长的多,但直到 Tim Berners-Lee 爵士于1989年设计出Web并在1991年开始实际运行以后,Internet才逐步大众化并开始流行。自1995年开始,Web占据了全部 Internet的大部分流量,而成为Internet上最重要的一项运用(注意不是之一)。

这类影响一直延续到今天:在日常生活中,我们一般乃至不 辨别Internet和Web,而上网这个词在很多情况下指的就是阅读Web。Web在流量上的主导地位自2000年起遭到以napster为始祖的P2P的挑战。相比Web来讲,P2P在大型文件的传输上具有很大优势,因此虽然从广度来讲Web依然是主导,但在流量上自2002年起被P2P运用超过。下图显示了自1993年到2004年Internet上重要协议的流量变化。

但这类状态在2007年产生了逆转。随着网络带宽的增加,以 YouTube 为首的在线视频网站开始流行,使得Web的流量迅速增长并重新超过了P2P流量,虽然这个优势很微弱。总结一下,仅从流量的角度看,目前的Internet可以说是Web和P2P各占半边天,而其余运用所占的比重是愈来愈小。关于Web和P2P流量更详细的分析可以参考这篇文章。

Web的范围定义为Web上包括的有效网页的数量。Google最近宣称已索引了1000000000000个网页, 不过Google明显不敢宣称已索引了Web上全部或绝大部分的网页,可以预计,Web的范围已远远超过了上面这个数值。顺便提一句,有效网页的数 量严格来讲其实是个伪命题,由于:1. 很多网站在被要求了不存在的页面时会返回一个友好的提示而非404毛病(可以测试url: 后面跟上任意的文件名),理论上说它们依然是有效的网页;2. 很多网页可以根据输入参数的不同而返回不同的结果(Google目前正着手解决的 Deep web 就是属于这种情况)。从这个意义上说,说Web的范围是无穷大的

退而求其次,我们可以来估计一下有多少网页是Google没有索引到的:假定我们知道了两个不同的搜索引擎 A 和 B,它们索引的网页数量分别是 s(A) 和 s(B),AB为两个搜索引擎的交集,那末根据容斥原理,所有被它们(中最少一个)索引的网页数量就是 S=s(A)+s(B)-s(AB);这个公式还可以推行到多个搜索引擎的情况,则此时S会愈来愈靠近真实的 Web 的范围。不过很遗憾,这个公式很不实用:-( 虽然 Google 不久前迫于 Cuil 的压力公布了自己的索引量,但其他几大搜索引擎仍习惯于对这个数据秘而不宣;更糟的是,Google 或是 Yahoo! 明显不可能把自己的索引库同享给对手以求得 s(AB) 这项。不过,Bharat 和 Broder 在1998年基于统计学原理提出了一个很奇妙并且很著名的解决方法:记 Pr(A) 为某个元素属于集合 A 的几率,Pr(AB|A) 为已知一个元素属于 A 时而它同时属于两个集合的条件几率。 则可以推出:Pr(AB|A)s(AB)/s(A),Pr(AB|B)s(AB)/s(B),即得 s(A)/s(B)Pr(AB|B)/Pr(AB|A)。而 Pr(AB|B)、Pr(AB|A) 都可以用随机采样的方法根据一系列精致构造的搜索用例通过实际的搜索实验估计出来,从这两个值还可以用来估算出 s(AB) 的大小。再进一步,从语言学模型中可以估计出之前构造的搜索用例在全部语言文本中出现的几率,从而估计出 s(A) 和 s(B) 具体的大小。

现在的问题就集中在3点:搜索用例的独立性、搜索用例的覆盖性、和结果检验的完整性(搜索结果集可能很大,如果只看靠前的部份,通常这部份的 rank 会比较高,因此被同时索引的几率也会偏高,参考下面的Web的结构1 节)。Bharat 和 Broder 构造的方法侧重解决了前两个问题,他们报告当时(1997年底)的几大搜索引擎HotBot AltaVista Excite Infoseek (其时 Google 还未正式发布) 的索引覆盖率 (占全部已被索引的 Web) 分别为:48% 62% 20% 和 17%,而 Web 的总范围约为 220000000。值得注意的是,他们的结果还显示各引擎的重合率 (即 s(AB)) 很低,平均只有 1.4%,可见当时的索引水平也还处于较低的阶段。到了 2005 年,Gulli 和 Signorini 改进了结果检验完整性的问题并在新的搜索巨头 Google Yahoo! Ask/Teoma MSN 上进行了测试,结果它们各自的覆盖度分别为 76% 69% 58% 62%,Web的总范围到达了约 11500000000。2006 年 Bar-Yossef 和 Gurevich 进一步优化了随机采样的理论,根据他们的结果,当时 Google Yahoo! MSN 的覆盖率大约为:64% 65% 50%,重合率平均为 44%,比1997年有很大提高。他们并没有给出估计的Web总范围,不过这组覆盖率数值应当比较接近目前的水平,因此结合上面 Google 最新的索引数量,相信大家不难估计出当前 Web 的总范围。

上面讨论了Web的范围。我们知道,Web的特点是各个网页之间由超链接相互连接而构成的网状结构,那末这么大的一张网具有什么样的特点呢?

Andrei Broder等人在2000年比较早的研究了这个问题,他们的研究基于两个Web爬虫各自爬取的超过2亿个网页和15亿个超链接,他们认为这些网页具有一种类似领结(bow tie) 的结构。领结的形状大致是中间一个大的结和两边各一个三角形的花,在每一个花上面附着了一些穗状的花边,而两个花之间还有一条长的项圈 让领结可以套在脖子上。中间的结是由约5600万网页组成的SCC(strong connected component,强连接组件),左侧和右侧的花分别是IN组件和OUT组件,分别包括4400万网页。剩下的4400万网页则是花上的穗状物 (TENDRIL组件)。在SCC组件中,任意两个网页都可以通过很短的有向链接路径到达彼此,它们是全部Web的核心部份。IN组件里的网页可以链入 SCC,但没法从SCC链回来,这些一般是比较新的网页还没有被大家所发现并链接到。OUT组件则是可以从SCC链入但不包括链回SCC的链接,这些可能 是一些只包括内部链接的企业网站。TENDRIL组件则是和IN或OUT组件相连但并不和SCC组件有较直接联系的网页,有趣的是,TENDRIL组件中 的一小部分可以联系IN和OUT组件而构成的项圈部份。还有很少一部分的网页是不被链接到的,不属于以上任何一个组件。这项结果中最使人惊奇的部份是 它显示SCC部份(全部 Web 中相互链接最稠密的部份,因此通常也是最常常阅读的部份,参考 PageRank 的基本原理,它们通常具有较高的 rank 值)的大小只占全部 Web 的一小部分,这暗示Web上可能大量充斥的是那些没多少价值的网页。

固然上面的是2000年的情况,在最近几年中Web的结构可能发生了变化,因此一些新的理论也被提了出来。2005年 Debora Donato 等人研究后认为,Web的结构已逐步转变成一个类似菊花 的形状:在 IN 和 OUT 组件内部出现了很多符合 IN-OUT-SCC 关系的细微结构,因此 IN 和 OUT 可以进一步被细分而构成围绕在 SCC 花心周围一圈大小不一的花瓣。不过在他们的结果中,SCC 的比例有所扩大,在部份数据集上乃至到达了 72.3%,这也让后来的研究者对他们的数据集覆盖性产生了一些怀疑,也许有一些较深的弱链接网页没有被他们索引到。另外,他们的结果还显示,不同语言的 Web 子集其结构有相当大的区分,其中最突出的特点是英语的页面无疑是 Web 的核心,其他语言的网页有很多指向英语网页的链接,而反过来的情况则相当的少。最后是中文 Web 的情况,今年 Jonathan J. H. Zhu 等的分析将中文 Web 形容为茶壶的结构:相比 IN 组件,OUT 组件的变小了很多,因此在 SCC 两侧构成了1大一小形如把手和壶嘴的结构,而游离的 TENDRIL 组件则很像壶中滴下的水滴。

查看:原文地址;

来源:。

重庆永辉超市有限公司渝中区龙湖时代天街分公司

重庆双远实业(集团)有限公司

中燚天下(北京)文化传媒有限公司