随着信息技术的飞速发展,当今社会越来越多的现象会涉及到复杂网络相关应用。 举例:社交网络、搜索引擎
原因:为预测和提高Internet的性能,特此引入Internet的拓扑结构 具体形式:(1)IP层次 (2)路由器层次 (3)自治系统层次 表现:随时间的推移,IPv4中的IP地址和AS数量逐渐增加
表现:万维网地位的提高以及发展,与搜索引擎的迅速发展密不可分,而搜索引擎属于复杂网络的一个应用领域,因此可见,研究复杂网络有所重要。
背景:经济全球化的大势,给世界上各个国家带来诸多机遇和挑战。提高国际地位的关键,在于成为相对应网络中的关键节点。 表现:在产品空间(Product Space) 相关知识中,我们可以了解到附加价值越高的产品会集中在中心位置,附加价值越低的产品会集中在边缘位置,类比于全球的金融网络和经济网络,我们会发现位于网络中心位置的往往是传播能力强的发达国家。
背景:六度分离理论的提出 发展:为探究六度分离理论的正确性,科学家们进行了Internet上的小世界实验,进而提出了弱连带和强连带的概念。
研究目的:网络科学所要研究的是各种复杂网络之间的共性和处理他们的普适方法。 研究内容:网络科学着眼于复杂网络的定量与定性特征的科学理解。 (1)发现 (2)建模 (3)分析 (4)设计
网络系统的复杂性主要体现在: (1)结构复杂性 (2)节点复杂性 (3)结构与节点之间的相互影响 (4)网络之间的相互影响(不同领域网络之间相互作用)
图:用抽象的点和线表示各种实际网络。 图的拓扑性质:主要与网络中结点个数与哪些节点有边直接相连相关。 好处:研究抽象的图,我们可以通过比较不同网络拓扑性质的异同点来建立网络拓扑性质的有效算法。
(1)加权有向图 (加权和有向指的是边) (2)加权无向图 (3)无权有向图 (4)无权无向图
类型:没有重边和闭环的无权无向图 假设边数为M,顶点数为N,则无向图中边数与顶点数的关系为: 极端情形: (1)空图 (2)完全图 假设边数为M,顶点数为N,则有向图中边数与顶点数的关系为:
(1)邻接矩阵(稠密图) (2)邻接表(稀疏图) (3)三元组(加权有向图)
共同点:都属于有向网络到无向网络的对偶方法 (1)共引:有向网络中节点i和j的共引数(Cij)定义为同时有出边指向节点i和节点j的节点数。 特殊情况:Cii表示节点i的入度。 转换到无向网络:基于共引矩阵,一个有向网络对应的无向网络定义为:如果Cij>0,那么节点i和j之间就有一个边。 (2)文献耦合:有向网络中节点i和j的文献耦合(Cij)定义为两个节点同时指向其他节点的数量。 结论:共引程度反映的是两篇文章同时被多少篇其他文章引用;文献耦合程度反映的是两篇文章引用了多少篇相同的参考文献。
简单路径:各个顶点都互不相同的路径是简单的。 判断网络是否连通: (1)当且仅当I+A+A2+…+AN-1是正矩阵,即所有元素都是正的。 (2)当且仅当邻接矩阵是不可约的。
点形式:所需去除的顶点的最少数目等于连接两个顶点的独立的简单路径的最大数目。->点割集 边形式:所需去除的边的最少数目等于连接两个顶点不相交的简单路径的最大数目。 ->边割集
Prim算法:适合计算边稠密的网络的最小生成树。 Kruskal算法:适合计算边稀疏的网络的最小生成树。
定义:图中的每条边的两个节点分别属于顶点集的两个子集中。 二分图的匹配:设G=(X,E,Y)为二分图,F为边集E的一个子集。如果F中任意两条边都没有公共端点,就称F为图G的一个匹配。
网络的密度ρ: 网络稠密:当N趋于无穷时,ρ为非零常数,表示网络是稠密的; 网络稀疏:当N趋于无穷时,ρ为0,表示网络是稀疏的.
节点i与j之间的距离:连接这两个节点的最短路径上的边的数目。 平均路径长度:任意两个节点之间的距离的平均值。 注意:一个含有N个节点和M条边的网络的平均路径长度可以用时间量级为O(MN)的广度优先搜索算法来确定。 直径:网络中任意两个节点之间的距离最大值称为网络的直径。
(1)度中心性(Degree Centrality,DC) 定义:一个节点的度越大,意味着该节点在网络中越重要。 公式:度中心值(DC) (2)介数中心性(Betweenness Centrality,BC) 定义:表示经过该边或该点的最短路径的数量。 公式:边介数/点介数(BC) (3)接近中心性(Closeness Centrality,CC) 定义:若一个点到其他所有点的平均距离为d,则接近中心性为1/d(d的倒数)。 公式:接近数(CC) (4)k壳与k核 k壳分解:按度数递增k从0开始,依次去除掉图中度为k的节点,最后剩下的节点即为最重要的节点。 优点:k壳分解相比度中心性的优点在于,可以排除一些度很大但并不是最重要的节点。 (5)特征向量中心性(Eigenvector centrality,EC) 基本思想:一个节点的重要性既取决于其邻居节点的数量,也取决于其邻居节点的重要性。 公式:特征向量中心性
基本思想:每个网页的重要性有两个刻画指标——权威性和枢纽性。其中一个网页的权威值由指向这个网页的所有页面的枢纽值确定,而一个网页的枢纽值由该网页指向的所有页面的权威值决定。 枢纽值 ——> 权威值 快速理解:举一个例子,一篇具有创新性的文章被很多人引用,那么这篇文章可以说具有权威性;一篇综述概况总结很多高权威的论点,那么这篇综述可以说具有枢纽性。
基本思想:WWW上一个页面的重要性取决于指向它的其他页面的数量和质量,根据网页PR值的大小确定页面的重要程度。 计算公式: 其中,Bu是所有链接到网页u的网页集合,网页v是属于集合Bu的一个网页,L(v)则是网页v的对外链接数(即出度). 步骤: (1)给每个网页一个PR值。 (2)通过(投票)算法不断迭代,直至达到平稳分布为止。 补充:网络中PR值的总和为1。
(1)链路预测 定义:它是指如何通过已知的各种信息预测给定网络中尚不存在连边的两个节点之间产生连接的可能性。 基本假设:如果两个节点的相似性越大,那么两个节点之间有链接的可能性越大。 应用:朋友推荐 (2)衡量指标
AUC:测试集中的边的分数值比随机选择的一个不存在的边的分数值高的概率。 Precision:只考虑排在前L位的边是否预测准确,即前L个预测边中预测准确的比例。(1)基于局部信息的相似性指标 典型代表:共同邻居(CN) (2)基于全局信息的相似性指标 典型代表:局部路径指标(LP)——在共同邻居的基础上,考虑了三阶邻居的影响。 (3)基于随机游走的相似性指标
定义:如果一个网络中的任意两个节点之间都有边直接相连,那么就称该网络为一个全局耦合网络。 局限性:大型实际网络都是稀疏的,边数目最多有O(n)。 聚类系数:1
定义:如果在一个网络中,每一个节点只和它周围的邻居节点相连,那么就称该网络为最近邻耦合网络。 特征:网络的拓扑结构是由节点之间的相对位置决定的,随着节点位置的变化网络拓扑结构可能发生切换。
定义:它有一个中心点,其余的N-1个点都只与这个中心点连接,而它们彼此之间不连接。 聚类系数:0
(1)具有固定边数的ER随机图模型 G(N,M) 定义:N个节点的图中,在任意两个节点之间添加M条边,其中选择的是两个不同的没有边连接的节点对。 (2)具有固定连边概率的ER随机图模型 G(N,p) 定义:把N个节点中任意两个不同的节点之间有一条边的概率固定为p,生成随机数r(0-1之间),若r<p,则在两个节点之间添加边。
定义:对于给定的网络,如果在移走少量节点后网络中的绝大部分节点是连通的,那么就称该网络的连通性对节点故障具有鲁棒性。
(1)无标度网络 无标度网络对随机节点故障具有较高的鲁棒性; 无标度网络对蓄意攻击具有高度的脆弱性。 原因: 无标度网络的网络度分布具有极端非均匀性,即绝大多数节点的度较小,只有一小部分节点的度较大。 (2)随机网络 随机网络对随机节点故障具有高度的脆弱性。