編輯推薦
本書對數據挖掘技術在醫學中的應用進行瞭研究,介紹瞭數據挖掘中的因子分析法、模糊聚類法、關聯規則方法、Logistic 迴歸法、灰色預測方法理論基礎。
全書以醫學信息挖掘為主綫,運用以上五種方法或多種方法的結閤對醫學數據(中風患者的血流變數據、肺癌圖像、試管嬰兒成功數據、女性膽固醇數據等)進行瞭數據挖掘,包括數據采集、數據預處理、數據挖掘與分析、數據挖掘結果分析,並提齣相應的建議。定量地描述疾病與臨床數據指標之間的關係,為提高疾病診斷的準確性提供新的思路。
內容簡介
本書的第1章,對數據挖掘的研究曆史和現狀、當前數據挖掘熱點做瞭簡要介紹;第2章為數據挖掘技術,對數據挖掘概念及功能、數據挖掘流程、數據挖掘工具、數據挖掘在醫學上的應用進行瞭描述;第3章介紹瞭主要的數據挖掘的算法及理論依據;第4章研究瞭因子分析在臨床檢驗中的應用,對大量臨床檢驗數據信息中的女性生化指標進行數據挖掘,為女性預防保健和評價女性健康水平提供參考依據;第5章分析瞭逐步聚類在血流變檢驗中的應用;第6章為逐步聚類在肺癌CT 圖像特徵的應用研究,得到瞭孤立性肺結節肺癌患者的CT 圖像醫學特徵分類;第7章是因子聚類分析在中風與血流變關係的應用研究;第8章是模糊聚類和Logistic迴歸在試管嬰兒成功因素的應用;第9章為關聯規則在中風疾病與血流變關係中的應用;第10章為Apriori算法在試管嬰兒成功因素分析中的應用;第11章是灰色預測在女性膽固醇隨年齡變化中的應用,對女性健康保健和疾病有一定的預防意義。
作者簡介
張維朋,中國礦業大學電路與係統碩士研究生,現於寜波大紅鷹學院任教,副教授,研究方嚮為數據挖掘技術。近年主持國傢星火計劃項目1 項,浙江省公益項目2 項,市廳級項目多項,以di一作者發錶SCI/EI 收錄核心論文10 餘篇,並參與guo傢級、省部級項目10 餘項,指導學生參加第十四屆“挑戰杯”全國大學生課外學術科技作品競賽“智慧城市”專項賽獲三等奬。
徐穎,河北大學計算機應用技術碩士研究生,現於寜波大紅鷹學院任教,講師,研究方嚮為數據分析、數據挖掘。善於定量分析各種結構化與非結構化數據,科研經驗較豐富。近年來發錶核心論文1 篇,主持並完成市廳級項目3 項,在研市廳級課題1 項,參與guo傢級課題1 項,市廳級課題多項。
目錄
目 錄
第1章 緒論……………………………………………………………………… 1
1.1 引言……………………………………………………………………… 1
1.2 數據挖掘的研究曆史和現狀…………………………………………… 2
1.3 當前數據挖掘的研究熱點……………………………………………… 4
第2章 數據挖掘技術………………………………………………………… 5
2.1 數據挖掘的定義………………………………………………………… 5
2.2 數據挖掘係統的主要成分……………………………………………… 5
2.3 數據挖掘的功能………………………………………………………… 6
2.4 數據挖掘的流程………………………………………………………… 8
2.5 數據挖掘在醫學領域的應用…………………………………………… 11
2.6 數據挖掘係統工具……………………………………………………… 12
第3章 數據挖掘的算法及依據…………………………………………… 17
3.1 聚類……………………………………………………………………… 17
3.2 模糊理論與聚類的結閤………………………………………………… 20
3.3 因子分析………………………………………………………………… 23
3.4 Logistic迴歸…………………………………………………………… 26
3.5 關聯規則………………………………………………………………… 28
3.6 灰色預測………………………………………………………………… 31
第4章 女性生化指標的因子分析………………………………………… 35
4.1 因子分析在女性生化指標中的應用意義……………………………… 35
4.2 因子分析在臨床檢驗中的應用過程…………………………………… 36
4.3 結果分析………………………………………………………………… 40
4.4 結論和討論……………………………………………………………… 41
第5章 逐步聚類在血流變檢驗中的應用………………………………… 43
5.1 研究血流變指標的臨床意義…………………………………………… 43
5.2 將數據挖掘技術引入血流變的應用…………………………………… 44
5.3 逐步聚類基本原理……………………………………………………… 45
5.4 原始數據的準備工作…………………………………………………… 46
5.5 原始數據預處理………………………………………………………… 48
5.6 逐步聚類步驟…………………………………………………………… 52
5.7 逐步聚類結果…………………………………………………………… 58
5.8 逐步聚類方法的優缺點………………………………………………… 64
5.9 結果分析………………………………………………………………… 65
5.10 運用方差分析驗證聚類結果的可靠性……………………………… 69
第6章 逐步聚類在肺癌CT圖像特徵的應用研究…………………… 75
6.1 孤立性肺結節肺癌與CT 圖像特徵關係研究現狀及意義…………… 75
6.2 研究方法………………………………………………………………… 76
6.3 結果分析………………………………………………………………… 80
6.4 討論……………………………………………………………………… 81
第7章 因子分析與聚類方法在中風與血流變關係的應用研究…… 82
7.1 中風與血流變關係的應用研究的意義………………………………… 82
7.2 研究方法………………………………………………………………… 83
7.3 結果分析………………………………………………………………… 88
7.4 結論和討論……………………………………………………………… 89
第8章 模糊聚類和Logistic迴歸在試管嬰兒成功因素的應用……… 90
8.1 研究背景及現狀………………………………………………………… 90
8.2 數據預處理……………………………………………………………… 91
8.3 建立Logistic迴歸模型………………………………………………… 93
8.4 關鍵因素的相對重要性分析…………………………………………… 94
8.5 樣本的模糊聚類過程…………………………………………………… 99
8.6 兩組患者的醫學特徵比較…………………………………………… 101
8.7 主要結論……………………………………………………………… 103
第9章 關聯規則在中風疾病與血流變關係中的應用……………… 105
9.1 研究中風疾病的意義………………………………………………… 105
9.2 關聯規則在醫學中研究現狀………………………………………… 105
9.3 關聯規則的分析過程………………………………………………… 106
9.4 中風疾病與血流變關係的關聯規則結果分析……………………… 111
9.5 結論和討論…………………………………………………………… 112
第10章 Apriori算法在試管嬰兒成功因素分析中的應用…………… 114
10.1 試管嬰兒成功因素研究的意義……………………………………… 114
10.2 試管嬰兒成功率關聯規則的獲取…………………………………… 115
10.3 試管嬰兒成功因素結果分析………………………………………… 117
10.4 結論和討論…………………………………………………………… 118
第11章 灰色預測在女性膽固醇隨年齡變化中的應用……………… 120
11.1 研究女性膽固醇隨年齡變化的的意義……………………………… 120
11.2 GM (1,1)模型原理……………………………………………… 121
11.3 數據的收集與數據整理……………………………………………… 122
11.4 灰色GM (1,1)預測模型的建立………………………………… 122
11.5 模型檢驗……………………………………………………………… 124
11.6 模型檢驗評價………………………………………………………… 125
11.7 外推預測……………………………………………………………… 126
11.8 結果分析……………………………………………………………… 126
11.9 結論與討論…………………………………………………………… 127
第12章 總結與展望………………………………………………………… 129
12.1 總結…………………………………………………………………… 129
12.2 展望…………………………………………………………………… 130
附錄A 中風患者血流變數據指標值……………………………………… 131
附錄B 孤立性肺結節圖像特徵…………………………………………… 151
附錄C 試管嬰兒培育情況錶……………………………………………… 154
參考文獻………………………………………………………………………… 162
精彩書摘
第1章 緒論
1�保薄∫�言
隨著計算機與信息技術的發展,人類社會發生瞭巨大變化。在人類社會的三大主導能源、物質和信息要素中,信息變得越來越重要,它將把人類社會從工業時代推嚮信息時代。隨著計算機硬件及軟件的發展,尤其是數據庫技術與應用在全球範圍內的日益普及,人們麵臨著大數據的迅速擴張,如果沒有有效的辦法來提取有用的信息和知識,人們就會感到麵對信息海洋像大海撈針一樣束手無策。在日常生活工作中,人們並不僅僅滿足於對這些數據的查詢、檢索和簡單的數學運算,而是迫切需要將這些數據轉化為有用的信息和知識。如何利用這一豐富海量數據為人類服務,已經成為廣大信息工作者所關注的焦點之一。據統計,現今一個大型企業數據庫中的數據,隻有7%得到瞭很好應用。為瞭剋服“豐富的數據,貧乏的知識”這種獨特現象,人們對能夠處理和分析這些數據的技術需求顯得更加強烈,於是數據挖掘(DataMining)技術應運而生[1-2]。隨著計算機及雲數據庫和混閤數據的快速發展,數據挖掘技術利用統計分析及人工智能的應用程序,可以動態地、無指導地從原始數據中提取領域的知識,使學者從對演繹數據庫的研究轉嚮對歸納數據庫的研究。
醫院數據庫的信息容量不斷擴大,數據庫技術的發展解決瞭計算機信息處理過程中海量數據的存儲冗餘,實現數據共享、保障數據安全以及高效地檢索數據和處理等問題,但無法改變“數據爆炸但知識貧乏”的現象,數據量的劇增與數據分析方法的落後之間的矛盾越來越突齣。如何充分利用這些寶貴的醫學信息資源來為疾病的預防、檢測、診斷和治療提供科學的決策,促進醫學研究,已成為人們關注的焦點[3]。醫學研究人員希望從已有的成韆上萬份病曆中找齣某種疾病的共同特徵,從而為治愈這種疾病提供一些幫助等等。針對這些問題,傳統的信息管理係統中的數據分析工具無法給齣解決方法。因為醫院的信息處理大多都仍停留在基於數據庫操作型事物處理水平上,無論統計、查詢或報錶,其處理方式都是對特定數據進行簡單的數字運算處理,而不能對這些數據所包含的內在信息進行提取,這是對醫學信息資源的一種浪費,實在可惜。而隨著數據量的激增,人們越來越希望係統能夠提供更高層次的數據分析功能,通過學習醫療數據豐富醫學知識庫,從而更好地去支持決策或科研工作。正是基於這種新的要求,數據挖掘技術在醫學中的應用應運而生[4]。如何對大量的數據資源挖掘深層次的、隱含的、有價值的知識是我們麵臨的一個難題,數據挖掘有解決這方麵的能力。數據挖掘技術的齣現為醫務管理者和科研工作者分析和利用這些數據資源進行科學管理、決策以及開展醫學研究提供瞭技術工具,麵對海量的醫學資源,利用現代數據倉庫和數據挖掘技術進行分析和處理數據,探索數據挖掘技術在醫療信息化方麵的研究具有更重要的使用價值和廣闊的發展前景[5]。因此,利用數據挖掘技術開展科學研究,提高醫學管理水平及醫學技術是有必要的。
1�保病∈�據挖掘的研究曆史和現狀
1.2.1 數據挖掘研究的曆史
“知識發現”(KDD)術語首次被提齣是在美國底特律召開的第11屆國際人工智能聯閤會議上[6]。1995 年在加拿大召開瞭第一屆知識發現和數據挖掘國際
學術會議,此後每年舉辦一次。1997年, 《KnowledgeDiscoveryandData Min�玻椋睿紜吩又鏡�生,其專用於收錄有關KDD 的研究成果,國外學者在該方麵發錶瞭大量論文並開發齣相關的數據挖掘軟件,建立大量的相關網站。近些年我國人工智能領域的專傢和學者也投入大量熱情到KDD 和數據挖掘的研究中,其研究規模從專題討論會嚮國際學術大會擴展,研究重點從發現方法嚮係統應用轉變,同時集成瞭多種發現策略和挖掘技術,注重多學科之間的相互滲透。特彆是近10年以來,伴隨著大數據的迅猛發展,數據挖掘技術不僅在學術界掀起瞭新一輪的研究熱潮,也引起瞭工業界的極大關注[7]。
1.2.2 國外數據挖掘研究的現狀
近幾年國外在數據挖掘的研究主要是Bayes和Boosting兩方麵。天文領域和人工智能的結閤為學者們發現新的星體提供新的理論支持[8]。在醫學領域,數據挖掘技術被用於分析醫療數據和基因研究, 其有助於醫生發現病因, 治療疾病[9];在商業領域,利用數據挖掘技術可以分析不同類彆信用卡客戶的特徵,並據此采用不同的營銷策略和風險控製方案。如分析貸款人是否安全,是否存在信息詐騙等[10�玻保保藎唬桑攏� 自主研發瞭AS (AdvanceScout) 係統, 在美國籃球聯賽中,AS能夠幫助教練提升團隊閤作能力,提高戰術和獲勝概率[12]。數據挖掘與數據庫技術息息相關,互相滲透,影響不斷擴大。國外很多著名公司開發瞭相關軟件,如SPSS、SAS和Matlab,這些軟件已成為數據挖掘的首選工具[13]。美國是全球數據挖掘最繁榮的地區,占據著研究的核心地位[14]。
前言/序言
前 言
隨著社會信息化程度日益加深,醫療行業每天都在産生大量數據,如何更好地開發和利用日益增長的海量醫學數據成為人們關注的焦點。數據挖掘理論通過對醫學數據進行分析,挖掘蘊藏於其中的潛在規律,對明確診斷、正確治療及促進對健康和疾病的研究均具有非常重要的意義。如何根據醫學數據特點,有針對性地進行研究,挖掘齣有意義的信息,為醫務工作人員提供決策參考,是當今學者研究的熱點,但目前相關的中文書籍較少。本書作者具有多年醫院工作背景,在攻讀碩士期間,深入研究數據挖掘在臨床醫學中的應用,並在高校的教研和科學工作中一直追蹤數據挖掘在醫學研究中的新動嚮。
本書對數據挖掘技術在醫學中的應用進行瞭研究,書中重點介紹瞭聚類分析、因子分析及關聯分析、Logistic迴歸法、灰色預測的理論基礎。本書力圖通過一係列實例來說明進行醫學數據挖掘的過程,包括數據采集、數據預處理、數據挖掘、挖掘結果分析,並提齣相應的決策建議。
本書的第1章為緒論,對數據挖掘的研究曆史和現狀、當前數據挖掘熱點做瞭簡要介紹;第2章為數據挖掘技術,對數據挖掘概念及功能、數據挖掘流程、數據挖掘工具、數據挖掘在醫學上的應用進行瞭描述;第3章介紹瞭主要的數據挖掘的算法及理論依據;第4章研究瞭因子分析在臨床檢驗中的應用,對大量臨床檢驗數據信息中的女性生化指標進行數據挖掘,定量分析各屬性之間的關係,找齣描述係統本質特徵因素,為女性預防保健和評價女性健康水平提供參考依據;第5章分析瞭逐步聚類在血流變檢驗中的應用,發現性彆、年齡與臨床血流變數據指標存在一定的關係,對於老年癡呆及其他疾病的診斷與預防有重要意義,運用方差分析法驗證瞭聚類結果的可靠性;第6章為逐步聚類在肺癌CT 圖像特徵的應用研究,得到瞭孤立性肺結節肺癌患者的CT 圖像醫學特徵分類,這對於輔助醫生對肺癌的早期診斷及臨床治療具有十分重要的意義;第7章是因子聚類分析在中風與血流變關係的應用研究,通過因子分析和聚類分析法在中風與血流變指標關係研究的聯閤應用,得到瞭中風患者血流變4類不同的臨床特徵,為臨床中風的診斷和預防提供一定依據;第8章是模糊聚類和Logistic迴歸在試管嬰兒成功因素的應用,建立瞭妊娠結果對影響因素的Logistic迴歸模型,檢驗後將年齡、移植胚胎數、Gn總量、輸卵管和卵巢確定為關鍵影響因素;第9 章為關聯規則在中風疾病與血流變關係中的應用,得到隱含於血流變與中風疾病之間的更有價值的信息,獲取客觀的結論或提示,將有助於醫生作齣相應的更科學的醫療決策,使預防中風更加具有針對性,從而提高臨床預防和早期治療的效果;第10章為Apriori算法在試管嬰兒成功因素分析中的應用,發現其中蘊含的新信息,繞開瞭先入為主的專業思維,獲取客觀的結論或提示,有助於醫生作齣相應的更科學的醫療決策,使治療不孕不育技術方案更加具有針對性,得齣具有臨床意義的指導意見;第11 章是灰色預測在女性膽固醇隨年齡變化中的應用,建立女性膽固醇隨年齡變化的灰色預測模型,對女性健康保健和疾病有一定的預防意義。
全書由寜波大紅鷹學院機電學院張維朋老師提齣創作動議及撰寫,並負責通稿審校,寜波大紅鷹學院信息學院的徐穎老師負責第8章模糊聚類和Logistic迴
歸在試管嬰兒成功因素的應用相關章節撰寫。
本書的研究內容是在浙江省公益項目(基於多特徵的肺癌CT 圖像關聯規則的關鍵技術研究2014C31161) 支持下完成的。本書是跨學科研究專著,研究的
內容屬於交叉學科,涉及醫學方麵的知識與數據。感謝安徽省淮北礦工總醫院心血管內科主任魏紅霞在中風與血流變關係方麵專業知識的建議和指導,感謝安徽省淮北礦工總醫院CT 室主任李勇在研究孤立性肺結節肺癌與CT 圖像特徵關係方麵給予的專業技術指導,感謝田思、王水教授在數據挖掘技術方麵的建議和對本書的關注。
由於作者的經驗和水平所限,書中可能多有錯謬之處,還望廣大讀者海涵並不吝賜教。Email:zwphb@163.com。
2017年8月於寜波大紅鷹學院
數據挖掘在醫學中的應用 下載 mobi epub pdf txt 電子書