內容介紹
本書主要論述瞭智能聚類分析的相關理論、方法和典型應用。內容由淺入深,涵蓋智能聚類分析的基本概念、基本理論和主要聚類算法,並從基於信息熵粗糙集理論、信息熵自適應並行免疫遺傳算法、嚮量空間模型、有偏觀測模糊C均值等視角係統闡述瞭智能聚類分析方法及其典型應用。
目錄
目錄
前言
第1章 緒論1
1.1引言1
1.2聚類分析的研究進展3
1.2.1聚類分析的基本方法3
1.2.2聚類分析的典型應用5
1.2.3聚類分析方法麵臨的挑戰7
13用於聚類分析的智能算法8
1.4遺傳算法的發展10
1.5免疫算法的發展14
1.5.1生物免疫係統14
1.5.2人工免疫係統16
1.5.3免疫遺傳算法20
16粗糙集理論的發展21
1.7本章小結23
參考文獻23
第2章 智能聚類分析的基本方法29
2.1智能聚類分析與數據挖掘的關係29
2.2智能聚類分析與分類的關係31
2.3智能聚類分析的過程及典型要求33
2.3.1聚類分析的基本過程33
2.3.2聚類分析的典型要求36
2.4主要聚類算法及比較37
2.4.1聚類算法評價準則37
2.4.2常見的距離函數38
2.4.3聚類分析中的聚類準則函數38
2.4.4主要聚類算法分析及比較40
2.5聚類效果的評估46
2.5.1評估的難點46
2.5.2常用的評估方法47
2.6智能聚類分析方法的研究熱點49
2.7本章小結51
參考文獻51
第3章 基於信息熵粗糙集理論的智能聚類分析算法55
3.1粗糙集理論基礎55
3.1.1知識錶達係統與決策係統55
3.1.2知識的依賴性57
3.1.3約簡與核58
3.1.4知識的重要性59
3.1.5屬性約簡與規則約簡60
3.2基於粗糙熵的智能聚類分析屬性約簡61
3.2.1粗糙熵61
3.2.2基於粗糙熵的智能聚類屬性約簡算法63
3.2.3實驗驗證65
3.3改進的屬性約簡算法在智能聚類分析中的應用67
3.4本章小結69
叁考文獻69
第4章 基於信息熵自適應並行免疫遺傳算法的智能聚類分析及其應用72
4.1遺傳算法基礎72
4.1.1基本遺傳算法基本概念72
4.1.2遺傳算法的實現流程73
4.2遺傳算法的關鍵實現技術75
4.2.1遺傳編碼75
4.2.2初始種群的設定77
4.2.3適應度函數及尺度變換77
4.2.4遺傳算子80
4.2.5遺傳算法的特點85
4.2.6遺傳算法的不足86
4.3改進的免疫遺傳算法87
4.3.1生物免疫係統87
4.3.2免疫遺傳算法基本原理88
4.3.3改進的免疫遺傳算法90
4.3.4實驗驗證97
4.4 K均值聚類算法存在的問題IOO
4.5基於信息熵自適應並行免疫遺傳算法(IPAICKA)的智能聚類分析102
4.5.1 IPAIGKA算法的基本思想102
4.5.2基於信息熵的自適應並行免疫遺傳算法的K均值聚類算法103
4.6文本聚類分析應用104
4.6.1比較測試實驗一105
4.6.2比較測試實驗二106
4.7本章小結108
參考文獻108
第5章 基於嚮量空間模型的智能聚類分析算法及其應用111
5.1信息檢索111
5.2嚮量空間模型112
5.3蟻群算法的基本原理113
5.4嚮量空間模型的基本原理115
5.5基於路徑相似度的蟻群算法117
5.5.1路徑相似度118
5.5.2基於路徑相似度的“信息素”更新規則120
5.6基於路徑相似度的蟻群遺傳算法120
5.7本章小結121
參考文獻121
第6章 基於有偏觀測模糊C均值智能聚類分析算法及其應用123
6.1模糊C均值智能聚類分析算法123
6.2基於有偏觀測模糊C均值智能聚類分析算法124
6.3智能聚類分析在軸承故障診斷中的應用126
6.3.1實驗裝置127
6.3.2特徵計算128
6.3.3基於熵的特徵選擇130
6.4實驗測試結果131
6.4.1特徵選擇結果131
6.4.2故障識彆結果132
6.4.3多故障分類133
6.5本章小結134
參考文獻134
在綫試讀
第1章 緒論
隨著互聯網的迅速普及,企業信息量的急速膨脹,如何從眾多紛繁的數據中按照某種規則獲得一些有用的數據,在一定程度上對於企業的存活起著至關重要的作用。數據挖掘( Data Mining,DM)就是從大量的數據庫、數據倉庫或其他信息儲存庫中獲取新穎的、有效的、潛在有用的、*終可理解模式的過程。
由於各種信息資源呈指數形式增長,麵對如此龐大的數據量,人們的需求已經不是簡單的數據查詢統計,而是需要從大量信息中挖掘可以得到決策的模式、規則或規律等。因此,如何從中得到自己需要的信息顯得尤為重要,由此,數據挖掘技術應運而生。數據挖掘一般是指從大量數據中通過相關算法得到隱藏的信息的過程[1]。
數據挖掘這一概念*早由美國計算機協會( Association for Computing Machinery,ACM)於1995年提齣。在提齣數據挖掘概念之前,國際聯閤人工智能學術會議上提齣瞭數據庫知識發現這一概念。知識發現的過程一般包括3個步驟,即數據準備、數據挖掘及對結果的評價解釋。其中,數據準備包括數據選擇、數據預處理和數據轉換3個步驟:數據挖掘是知識發現的核心,在得到良好的挖掘效果之前,需要事先對各神數據挖掘技術進行全麵瞭解[2]。
聚類分析是數據挖掘[3,4]的一個重要研究內容,它涉及諸如數據挖掘、統計學、經濟學、機器學習及生物工程等研究領域[5]。“所謂聚類分析就是根據各樣本自身的不同,將數據集劃分為不同的簇,使數據源之間用相似性來衡量,即一些基本相似的個體盡可能劃分在同一簇中,而一些相差較大的個體劃分在不同簇,從而整個數據集就可以用少數的幾個簇來描述(當然,盡管數據集中的一些細節信息可能會丟失,但它卻將數據集進行瞭概化,節省瞭數據集的內存)。”[6]正因為聚類分析具有如此強大的功能,通過聚類分析,人們可以或可能會發現數據集中所蘊涵的某種信息或知識,並為人們所用。從孩提時代開始,人類就從未停止過進行聚類分析。通過對所見、所聞的一切事物經過某種下意識的分析後,隨著知識的積纍和不斷發現,不斷改進聚類模式而對事物進行某種聚類,從而達到分類的目的。目前,聚類分析已廣泛應用於商業、生物、地理、保險業、電子商務及互聯網等很多方麵。常見的聚類分析方法有:K均值聚類算法、模糊C均值智能聚類分析算法、*大似然估計算法和基於圖論的算法。
K均值聚類算法是基於規則的聚類算法中的一種簡單常用算法。首先,該算法選擇一個特定距離度量作為模式間的相似度,然後由所選擇的聚類準則函數來評價聚類劃分結果。在給定初始聚類中心點後,采用迭代的方法找齣取決於聚類準則函數的*佳聚類分區。這種算法的一個缺點就是初始聚類中心點的選擇不當可能尋緻早收斂的問題。在K均值聚類算法的基礎上,模糊C均值智能聚類分析算法有效集成瞭模糊技術進行聚類分析。*大似然估計算法是以概率論為基礎的一種聚類算法,它根據事先所假設的某種先驗概率分布計算齣後驗概率來實現數據分類。基於圖論的算法主要是根據所估計的每個點的密度梯度值生成方嚮樹,然後通過求齣的榖點密度函數對數據進行分類[7]。
為瞭提高聚類分析的效果,可以將遺傳算法、進化算法、粗糙集理論、模糊理論等智能技術與聚類分析結閤起來,形成智能聚類分析方法。本書通過對智能聚類分析方法的介紹,將其應用到文本分析、故障診斷等典型案例中。
1.2 聚類分析的研究進展
1.2.1 聚類分析的基本方法
聚類是數據挖掘的一個重要方法,也是人類一種基本的認知活動。聚類分析是指將未知分布的一組數據,利用數據對象之間的關係,盡可能將具有相似性質的數據聚集成一類,使類間相似性盡可能小,而同類中數據的相似性盡可能大,這種方式實際上是一種無標簽分類,因此,聚類也屬於無監督學習方法。同時,聚類和分類之間又存在明顯的區彆。聚類的*終目的是找到數據的特徵及潛在的數據類彆的分布情況:而分類則是對已經標記好的數據集進行訓練,並通過學習預先獲得數據的特徵以建立一個分類模型,進而利用該分類模型對數據的類彆進行預測。聚類算法作為一種有效的數據分析方法,目前已在數據挖掘、語音識彆、機器學習及生物信息處理等領域廣泛應用。同時,聚類分析還可以將聚類算法應用於商業分析,區分消費者數據庫中的不同消費人群,以幫助市場決策人員歸納總結齣每一類消費者的消費習慣或者消費模式。目前聚類算法主要有以下幾種:基於譜的聚類算法,基於支持嚮量機的聚類算法,基於密度的聚類算法,基於遺傳算法的聚類算法,等等。
國外學術研究中比較著名的具有聚類分析功能的係統主要有WEKA、CLUTO等。WEKA足來自新西蘭懷卡托大學的一款開源軟件,是到目前為止功能*為完備的數據挖掘工具之一,被譽為數據挖掘學習史上的裏程碑[8]。WEKA中集成瞭多種數據挖掘算法,不僅包括數據的預處理,而且還包括數據的分類和迴歸、聚類及關聯規則等可視化界麵。用戶還可以通過JAVA語言進行二次開發。
CLUTO是由美國明尼蘇達大學的Karypis教授團隊開發的一款聚類工具,該工具不僅可以處理低維數據,還能夠處理高維數據,而且,針對不同聚類的結果可以對結果的類簇進行分析[9]。CLUTO軟件包中包括多個獨立可執行的程序和庫文件,它可以應用於多種領域,如信息檢索、生物學及商業等。CLUTO軟件包含多種聚類算法及聚類準則函數,不僅可以辨彆齣各類彆的特徵屬性,還能夠根據所識彆的特徵屬性對類彆中的對象提供總結。
由於聚類分析強大的功能,其潛在的應用也對聚類算法提齣瞭更高的要求,主要要求如下[10]。
(1)可伸縮性。一般來說,常用的聚類算法在處理較小數據集時效果較好,但麵對海量數據處理對象的時候,效果則沒那麼好。雖然可以通過海量數據進行抽樣聚類,但總體來說,這種抽樣聚類的效果並不理想,往往會與實際值存在很大偏差。因此,這就要求聚類算法在處理不同特徵數據集時,具有一定的可伸縮性。
(2)能夠聚類任意形狀的類簇。目前,常用的確定類簇的方法主要是基於歐氏距離等相似性度量方法,但這類方法隻能發現具有類似大小和密度的圓形或球狀的類簇。事實上,每一個類簇的形狀可能是任意的,那麼,如何設計有效的聚類算法來處理任意形狀的類簇就顯得尤為重要。
(3)多類型數據的處理能力。聚類算法需要對多種類型的數據進行聚類,而不僅限於某一類型的數據,如枚拳型數據、二值型數據等。
(4)對異常數據處理的能力。真實數據中往往存在很多孤立點、缺失的數據甚至錯誤的數據等,而這些異常數據對聚類結果的影響較大,聚類算法如何處理這些異常數據也是需要考慮的問題。
(5)對高維數據處理的能力。大多數聚類算法能夠較好地處理低維數據,而對於如文本數據等高維數據的聚類效果則並不是很理想,這也是聚類算法研究中麵臨的一項巨大挑戰。
1.2.2 聚類分析的典型應用
隨著科技的發展,聚類分析已經在各種領域得到廣泛應用,如文本分析、語言識彆、圖像處理、故障診斷等方麵。
以文本分析為例,統計錶明,一個組織中約有80%的信息存儲都以文本形式存在,主要有新聞報紙、學術論文和專著、曆史資料存檔、門戶網站、論壇、博客、電子郵件和Office文檔等。由於文本數據固有的特點,大多數是結構化或者半結構化的數據,並且數據又存在維度高和稀疏的特點,因此,基於傳統的結構化數據挖掘技術常常不能夠直接應用於文本挖掘,從而,如何從大量的文本信息中發掘齣有用信息受到越來越多學者的關注,具體內容包括對文本信息的分析和組織、如何提取文檔中所隱含的規則和模式等。文本挖掘需要多種技術相結閤來實現,如機器學習、信息處理、信息檢索及數據挖掘等。文本挖掘的主要目標在於文本的結構分析、信息提取、關聯和預測分析、文本的分類和聚類等。文本挖掘這一概念於1995年由Feldman正式提齣[11],自此之後,國內外很多學者就文本挖掘的理論及應用進行瞭許多研究。據調查發現,文本挖掘技術已經成為數據挖掘分支中一個日益重要的領域。文本聚類的流程圖如圖1.1所示。
圖1.1 文本聚類流程圖
文本聚類技術是一種無監督的學習方法,是對文本信息進行分析、組織和分類的重要手段。如前所述,文本聚類就是在對文本信息沒有標記任何類彆的情況下,白動識彆齣文本類彆的過程。通常的聚類方法是采用明確的定量方法處理結構化數據,而文本聚類處理的是非結構化的文本信息,對此,文本聚類就需要采用一係列文本分析的處理技術,如文本分詞、特徵選擇、降維及文本錶示等。
文本聚類的應用主要在以下幾個方麵。
(1)自然語言的預處理。通過聚類分析技術可以加快用戶在文本瀏覽係統中尋找有效信息的速度,為用戶提供瞭很大方便。聚類分析技術還可以用於多文檔摘要的自動生成,可以從互聯網上搜集許多當天重要的文本新聞來聚類,然後對每個聚類後的文本集的主要內容聚集成簡單的摘要以供用戶瀏覽。
(2)對搜索引擎結果聚類。為方便用戶及時、迅速定位到所需的有效信息,需要采用聚類分析技術對搜索引擎的結果進行聚集分類。
(3)發現並追蹤熱點主題。如何從每天海量的互聯網信息中獲得有效的熱點主題並進行追蹤,對於研究熱點和維護社會的穩定都具有重要的意義。通過聚類分析及聚類相關算法不僅可以找齣目前已經關注的主題信息,而且還能發現新熱點。
(4)改善文本分類的性能。通過文本聚類技術可以從海量數據中選擇齣特徵空間,從而使文本分類的性能得以改善。
(5)優化網站結構和挖掘用戶感興趣的模式。利用文本聚類技術可以從互聯網中大型數據中聚集用戶感興趣的模式,以實現對信息的自動過濾和推薦。
國內外許多研究機構和公司對文本聚類和挖掘技術進行瞭研究,並取得一定的成果。例如,IBM公司針對文本聚類技術開發瞭一款數據挖掘軟件Text Miner,其主要功能是實現對文本信息的特徵提取、文檔聚類和分類、檢索。Text Miner支持十幾種語言,采用深層次的文本分析和索引實現對多種文本格式的數據檢索。Bow是一個專門用
[按需印刷] 智能聚類分析方法及其應用 下載 mobi epub pdf txt 電子書