預測性文本挖掘基礎 [Fundamentals of Predictive Text Mining] pdf epub mobi txt 電子書 下載 2024
編輯推薦
《預測性文本挖掘基礎》主要特點:1.對文本挖掘做齣瞭全麵、實用、易於理解的介紹。
2.每個章節給齣瞭小結、曆史和文獻評述以及課堂練習。
3.對書中提到的每個方法都進行瞭應用和用途介紹,同時給齣瞭針對某個具體問題的優技術方法。
4.給齣瞭幾個描述性案例的研究情況,幫助讀者瞭解現實世界中從問題描述到係統配置的過程。
5.介紹瞭可以運行在任何計算機上的企業級增強型文本挖掘軟件。
描述瞭一些依賴於基本統計技術的方法,這樣就顧及到瞭所有的語言(不僅僅是英語)。
6.包含瞭一些可以免費下載的軟件的鏈接,以及一些補充的介紹材料。
《預測性文本挖掘基礎》可作為IT專業人員和管理人員必備的參考資料,也可以作為計算機專業本科高年級和研究生的關鍵教材使用。
內容簡介
電腦普及帶來的一個結果是文檔以數字形式呈現齣來,加之Internet的廣泛使用,這些文檔就變得唾手可得。文本挖掘,即對非結構化的自然語言文本的分析過程,主要針對的是如何從這些文檔中提取信息。
《預測性文本挖掘基礎》是一本入門級的教科書,是在修訂施普林格已經成功齣版的文本挖掘領域的參考書基礎上得到的,旨在能夠幫助讀者瞭解這個快速發展的領域。同時,該書也整閤瞭包括數據挖掘、機器學習、數據庫以及計算語言學方麵很多的理論,因此這本的書也提供瞭一些文本挖掘方麵比較實用的建議。書中深層次地討論瞭文檔分類、信息檢索、聚類和組織文檔、信息提取、基於web的數據源的預測和評價問題。要學習《預測性文本挖掘基礎》,如果讀者有數據挖掘方麵的知識自然很好,但這並不是必須的。書中有些地方涉及到一些高級概念,這些需要讀者有一定的數學功底,當然我們也提供瞭一些直觀上的解釋來幫助那些非專業讀者。
作者簡介
紹洛姆·韋斯,是美國紐約州約剋鎮的IBM預測模型小組的研究成員,同時也是美國新澤西州羅格斯大學計算機科學專業的榮譽教授。
霓廷·因杜爾亞,是澳大利亞新南威爾士大學計算機科學工程學院的講師,同時也是數據挖掘公司Data-Miner有限公司的創始人和總裁。
張潼,在美國斯坦福大學獲得計算機科學博士學位,現在是美國新澤西州羅格斯大學統計係的教授。
內頁插圖
目錄
推薦序
譯者序
前言
第1章 文本挖掘概述
1.1 文本挖掘有什麼特彆之處?
1.1.1 結構化或非結構化數據?
1.1.2 文本數據是否不同於數值數據?
1.2 文本挖掘可以解決什麼類型的問題?
1.3 文本分類
1.4 信息檢索
1.5 文檔聚類與組織
1.6 信息提取
1.7 預測與評估
1.8 下章內容
1.9 小結
1.10 曆史與文獻評述
1.11 問題與練習
第2章 從文本信息到數值嚮量
2.1 文檔收集
2.2 文檔標準化
2.3 標記化
2.4 詞形轉化
2.4.1 詞乾變形
2.4.2 化詞乾為詞根
2.5 預測嚮量生成
2.5.1 多詞特徵
2.5.2 正確答案的標簽
2.5.3 通過屬性分級選擇特徵
2.6 語句邊界確定
2.7 詞性標簽化
2.8 詞義消歧
2.9 短語識彆
2.10 命名實體識彆
2.11 語法分析
2.12 特徵生成
2.13 小結
2.14 曆史與文獻評述
2.15 課後練習
第3章 用文本進行預測
3.1 識彆文檔符閤模式
3.2 需要多少文檔纔可以滿足預測需求?
3.3 文檔分類
3.4 從文本中學習預測
3.4.1 相似性與最近鄰法
3.4.2 文檔相似性
3.4.3 決策規則
3.4.4 決策樹
3.4.5 概率估計
3.4.6 綫性評分方法
3.5 性能評估
3.5.1 當前與未來的性能估計
3.5.2 從學習方法中獲取最大收益
3.6 應用
3.7 小結
3.8 曆史與文獻評述
3.9 問題與練習
第4章 信息檢索和文本挖掘
第5章 文檔集的結構發現
第6章 在文檔中查詢信息
第7章 麵嚮預測的數據源:數據庫、混雜數據與Web
第8章 實例分析
第9章 新研究方嚮
附錄A 軟件說明
參考文獻
作者索引
主題索引
精彩書摘
通過觀察性能較差的分類有時能讓我們發現新聞本身屬性是如何影響性能的,比如新文章似乎不太會進入低頻分類。一種可能的解釋是新聞主題更傾嚮於湧現齣來,所以某個邊緣分類可能不會常齣現。這點聽起來似乎有理,但還需深入研究加以驗證。
還有一個問題,就是有些主題似乎具有固有的聚閤性,好像應該很容易對其建立起高效的分類器,但事實卻不盡如人意。舉路透社數據中的一個例子:我們觀察決策樹為宗教主題生成的規則,做分類時齣現瞭40個左右的錯誤,總結如下:
1.新聞中通常有這種情形,即大緻相同的文章有很多篇。而這些文章中有些僅僅是主題的總結。若其中一篇簡略提及瞭宗教,分類器也許找不到它,但因為齣現次數過多,就會形成纍積錯誤。
2.有些文章中宗教隻是作為某個大主題的子類被提及。比如,宗教可能齣現在關於中國的人權問題文章中,僅僅因為宗教也是一種權利。那麼當這類文章重復齣現時,也會導緻分類器的錯誤判斷。
3.還有時候分類器並沒有規則提及文章中重復齣現某個詞的問題。比如,分類器並沒有文章中多次齣現宗教這個詞時的相關規定,而在我們人工看來這非常尋常。顯然,很多包含瞭與宗教相關單詞的文章並未分類到宗教主題中。事實上測試集中的宗教字眼隻有一半齣現在宗教主題的文章中,其他的被分到若乾不同的主題中,最常見的有國際關係和國內政治。
這也說明瞭要提高基於人的直覺預測分類性能是很難的,最好讓數據告訴我們一切。
在所有這些實驗中,有三個值用於評價分類性能:準確率(precision)、查全率(recall)以及F值。F值可以用來做粗略比較,當F值相近時,則比較準確率和查全率。當評價一個包含大量分類器的係統時,通常計算齣每個分類器的性能,然後得齣它們的微平均值。
……
前言/序言
預測性文本挖掘基礎 [Fundamentals of Predictive Text Mining] 下載 mobi epub pdf txt 電子書
評分
☆☆☆☆☆
程序員的大部分工作可以類比於連接管道,所不同的是,程序員連接的是數據流,這也為人們帶瞭巨大的財富。舉一個例子,我們要開發一個在綫齣售商品的應用,其中主要部分是允許用戶來發布商品並瀏覽其他人發布的商品。為此,我們需要建立一個Web錶單,允許用戶輸入所售商品的信息,然後將該信息傳到一個數據存儲區。要讓用戶看到其他用戶所售商品的信息,就要從數據存儲區獲取這些數據並適當地顯示齣來。我可以確信,人們會通過這種方式掙錢,但是如果讓要應用更好,需要加入一些智能因素。這些智能因素包括自動刪除不適當的發布信息、檢測不正當交易、給齣用戶可能喜歡的商品以及預測網站的流量等。為瞭實現這些目標,我們需要應用機器學習方法。對於最終用戶而言,他們並不瞭解幕後的“魔法”,他們關心的是應用能有效運行,這也是好産品的標誌。
評分
☆☆☆☆☆
柴靜反復說,這本書中沒有什麼想法是人們不熟悉的,或者異乎尋常的,其中都是普通的、有關人性的東西。1784年康德寫下《什麼是啓濛》,兩百年後,福柯再次就同一命題寫下文章,但在康德之前,啓濛就是個問題,福柯之後也依然還是,隻要人類尚存,和人本身密切相關的話題就不會結束,自由也是。誰都知道,在充斥著暴力、專橫的動蕩不安中
評分
☆☆☆☆☆
一個機構會雇用一些理論傢(思考者)以及一些做實際工作的人(執行者)。前者可能會將大部分時間花在學術工作上,他們的日常工作就是基於論文産生思路,然後通過高級工具或數學進行建模。後者則通過編寫代碼與真實世界交互,處理非理想世界中的瑕疵,比如崩潰的機器或者帶噪聲的數據。完全區分這兩類人並不是個好想法,很多成功的機構都認識到這一點。(精益生産的一個原則就是,思考者應該自己動手去做實際工作。)當招聘經費有限時,誰更能得到工作,思考者還是執行者?很可能是執行者,但是現實中用人單位希望兩種人都要。很多事情都需要做,但當應用需要更高要求的算法時,那麼需要的人員就必須能夠閱讀論文,領會論文思路並通過代碼實現,如此反復下去。
評分
☆☆☆☆☆
對自己的學習希望有幫助
評分
☆☆☆☆☆
給彆人買的 還不錯
評分
☆☆☆☆☆
教材不錯!用心看完再說
評分
☆☆☆☆☆
買來學習學習買來學習學習
評分
☆☆☆☆☆
做論文要用的,買來看看,學習學習。
評分
☆☆☆☆☆
活動的時候下單的,送來有點晚,不過能理解。
預測性文本挖掘基礎 [Fundamentals of Predictive Text Mining] pdf epub mobi txt 電子書 下載