內容簡介
鏈路預測是網絡信息挖掘中最基礎最本質的問題,通過對已經觀察到的網絡結構和其他外部信息的分析,挖掘缺失的連接和預測未來可能齣現的連接。鏈路預測算法綜閤運用瞭相似性分析、網絡動力學、貝葉斯模型、機器學習、模體分析、最大似然分析等多學科方法和技術,在生物網絡分析、朋友及關注對象推薦、個性化推薦、網絡演化模型評價、標簽分類、網絡重構等問題上有著廣泛的應用。《網絡科學與工程叢書:鏈路預測》不僅係統介紹瞭鏈路預測問題描述、評價指標和針對不同網絡類型的各類代錶性算法,還在其中討論瞭許多網絡科學研究本質性的問題。
鏈路預測問題清晰、內涵豐富、入門容易、具有挑戰性,可以反映不同類型網絡結構和功能方麵形形色色的特徵,特彆適閤作為網絡科學與工程研究的題目。《網絡科學與工程叢書:鏈路預測》可供自然科學、工程技術科學以及社會科學領域的研究人員與廣大在校生參考使用。
作者簡介
呂琳媛,2008年獲北京師範大學理學碩士學位,2012年獲瑞士弗裏堡大學物理係博士學位。現任杭州師範大學特聘教授、中歐聯閤實驗室副主任兼執行主任、鏈路預測實驗室負責人。目前主要從事復雜性科學領域的研究工作,利用統計物理學的概念、理論、方法來解決信息領域中的若乾重要問題。近3年發錶關於鏈路預測的論文30餘篇,引用700餘次。
周濤,獲瑞士弗裏堡大學物理係博士學位。現任電子科技大學互聯網科學中心主任、教授、博士生導師。發錶論文200餘篇,論文SCI引用3000餘次,Google引用6500餘次。獲第五屆中國青少年科技創新奬、第十二屆中國青年科技奬,入選首批青年拔尖人纔支持計劃、四川省百人計劃和教育部新世紀優秀人纔計劃,獲首批國傢優秀青年科技基金支持。
內頁插圖
目錄
第一章 復雜網絡基本概論
1.1 什麼是網絡
1.1.1 社會網絡
1.1.2 技術網絡
1.1.3 生物網絡
1.2 如何刻畫網絡
1.2.1 平均距離與小世界效應
1.2.2 度分布與無標度特性
1.2.3 局部結構
1.2.4 節點與鏈路的中心性
1.2.5 群落結構
1.2.6 關聯性
1.2.7 熵
1.2.8 其他網絡特徵概覽
1.3 最基本的網絡模型
1.3.1 規則網絡
1.3.2 隨機網絡
1.3.3 小世界網絡
1.3.4 無標度網絡
1.4 小結
第二章 鏈路預測的基本概念
2.1 背景和意義
2.2 問題描述
2.3 數據集劃分
2.3.1 隨機抽樣
2.3.2 逐項遍曆
2.3.3 k-摺疊交叉檢驗
2.3.4 滾雪球抽樣
2.3.5 熟識者抽樣
2.3.6 隨機遊走抽樣
2.3.7 基於路徑抽樣
2.4 評價指標
2.4.1 AUC
2.4.2 精確度
2.4.3 排序分
第三章 基於相似性的鏈路預測
3.1 基於局部信息的相似性指標
3.1.1 基於共同鄰居的相似性指標
3.1.2 偏好連接相似性
3.1.3 局部樸素貝葉斯模型
3.2 基於路徑的相似性指標
3.2.1 局部路徑指標
3.2.2 Katz指標
3.2.3 LHN-II指標
3.3 基於隨機遊走的相似性指標
3.3.1 全局隨機遊走
3.3.2 局部隨機遊走
3.4 其他相似性算法
……
第四章 基於似然分析的鏈路預測
第五章 加權網絡的鏈路預測
第六章 有嚮網絡的鏈路預測
第七章 二部分網絡的鏈路預測
第八章 鏈路預測的應用
第九章 結束語
精彩書摘
直接注釋方法將根據網絡中某個蛋白質的連接情況直接推測該蛋白質的功能。這類方法基於的假設是:在蛋白質相互作用網絡中,距離相近的兩個蛋白質更加傾嚮於擁有相似的功能。鏈路預測中基於節點相似性的方法實際上為我們提供瞭一係列計算節點距離的方式,可以認為相似性大的節點距離更近,因此傾嚮於具有相似的功能。此外,當已知標簽稀疏,即隻知道少量蛋白質的功能時,可以通過鏈路預測的方式挖掘未標簽蛋白質與已標簽蛋白質之間的潛在聯係,從而提高功能預測的精度。
基於模塊的方法的思路是:首先將網絡相關的蛋白質組成不同的模塊,然後根據該模塊中已知的蛋白質的功能來得到整個模塊所共有的可能功能,最後再來預測其中未知成員的功能。一個功能模塊指其中的蛋白質所處的細胞位置以及相互作用使得它們可以實現一個特定的功能。而基於功能模塊的蛋白質功能標注方法主要目的不再是預測單個蛋白質的功能,而是試圖發現模塊中所有蛋白質的共同內在的功能。一旦模塊確定,可以通過一些簡單的方法來預測其功能,比如該模塊中如果大部分的蛋白質都具有某種功能,那麼這種功能就將賦予該模塊。本質上這種模塊的劃分與復雜網絡的社團結構劃分有很大的相似之處,而鏈路預測的方法可以幫助提高社團劃分的準確性——基於節點相似性的方法本身也是社團劃分的一類主要方法。
其他一些相關的問題包括:
(1)探測蛋白復閤體。蛋白復閤體由幾個蛋白質組成,在蛋白質作用網中錶現為緊密的小子圖。因此,通常的圖聚類、派係挖掘、圖分解等方法,都可以用來尋找蛋白復閤體。同樣,通過預測來完整化蛋白質作用網,可以幫助尋找蛋白質復閤體。
(2)網絡可靠性評估。前麵提到測定蛋白質相互作用的實驗成本很高,因此可以通過鏈路預測的方法提前給齣一些可靠性較高的鏈接關係作為實驗對象,與此同時也可以排除一些可靠性較低的鏈接關係。另一方麵,由於實驗中的隨機性因素和噪聲的乾擾,使得實驗結果有可能是不可靠的。這時,鏈路預測中對於虛假邊的識彆方法可以幫助我們找齣這些不可靠的結果,從而對實驗結果進行有效的修正。
……
網絡科學與工程叢書:鏈路預測 [Link Prediction] 下載 mobi epub pdf txt 電子書