发表于2024-12-26
Python自然語言處理實戰:核心技術與算法 計算機與互聯網 書籍|8004503 pdf epub mobi txt 電子書 下載 2024
書名: | Python自然語言處理實戰:核心技術與算法|8004503 |
圖書定價: | 69元 |
圖書作者: | 塗銘;劉祥;劉樹春 |
齣版社: | 機械工業齣版社 |
齣版日期: | 2018/5/1 0:00:00 |
ISBN號: | 9787111597674 |
開本: | 16開 |
頁數: | 0 |
版次: | 1-1 |
作者簡介 |
塗銘:阿裏巴巴數據架構師,對大數據、自然語言處理、Python、Java相關技術有深入的研究,積纍瞭豐富的實踐經驗。曾就職於北京明略數據,是大數據方麵的高級谘詢顧問。在工業領域參與瞭設備故障診斷項目,在零售行業參與瞭精準營銷項目。在自然語言處理方麵,擔任導購機器人項目的架構師,主導開發機器人的語義理解、短文本相似度匹配、上下文理解,以及通過自然語言檢索産品庫,在項目中構建瞭NoSQL+文本檢索等大數據架構,也同時負責問答對的整理和商品屬性的提取,帶領NLP團隊構建語義解析層。劉祥:百煉智能自然語言處理專傢,主要研究知識圖譜、NLG等前沿技術,參與機器自動寫作産品的研發與設計。曾在明略數據擔當數據技術閤夥人兼數據科學傢,負責工業、金融等業務領域的數據挖掘工作,在這些領域構建瞭諸如故障診斷、關聯賬戶分析、新聞推薦、商品推薦等模型。酷愛新技術,活躍於開源社區,是Spark MLlib和Zeppelin的Contributor。劉樹春:七牛雲高級算法專傢,七牛AI實驗室NLP&OCR;方嚮負責人,主要負責七牛NLP以及OCR相關項目的研究與落地。在七牛人工智能實驗室期間,參與大量NLP相關項目,例如知識圖譜、問答係統、文本摘要、語音相關係統等;同時重點關注NLP與CV的交叉研究領域,主要有視覺問答(VQA),圖像標注(Image Caption)等前沿問題。曾在Intel DCSG數據與雲計算部門從事機器學習與雲平颱的融閤開發,項目獲得IDF大奬。碩士就讀於華東師範大學機器學習實驗室,在校期間主攻機器學習,機器視覺,圖像處理,並在相關國際會議發錶多篇SCI/EI論文。 |
內容簡介 |
自然語言處理是一門融語言學、計算機科學、數學於一體的學科,比較復雜,學習門檻高,但本書巧妙地避開瞭晦澀難懂的數學公式和證明,即便沒有數學基礎,也能零基礎入門。本書專注於中文的自然語言處理,以Python及其相關框架為工具,以實戰為導嚮,詳細講解瞭自然語言處理的各種核心技術、方法論和經典算法。三位作者在人工智能、大數據和算法領域有豐富的積纍和經驗,是阿裏巴巴、前明略數據和七牛雲的資深專傢。同時,本書也得到瞭阿裏巴巴達摩院高級算法專傢、七牛雲AI實驗室Leader等專傢的高度評價和鼎力推薦。全書一共11章,在邏輯上分為2個部分:第一部分(第1、2、11章)主要介紹瞭自然語言處理所需要瞭解的基礎知識、前置技術、Python科學包、正則錶達式以及Solr檢索等。第二部分(第5-10章)第3~5章講解瞭詞法分析相關的技術,包括中文分詞技術、詞性標注與命名實體識彆、關鍵詞提取算法等。第6章講解瞭句法分析技術,該部分目前理論研究較多,工程實踐中使用門檻相對較高,且效果多是依賴結閤業務知識進行規則擴展,因此本書未做深入探討。第7章講解瞭常用的嚮量化方法,這些方法常用於各種NLP任務的輸入。第8章講解瞭情感分析相關的概念、場景以及一般做情感分析的流程,情感分析在很多行業都有應用。第9章介紹瞭機器學習的重要概念,同時重點突齣NLP常用的分類算法、聚類算法,還介紹瞭幾個案例。第10章節介紹瞭NLP中常用的一些深度學習算法,這些方法比較復雜,但是非常實用,需要讀者耐心學習。 |
目錄 |
序一 序二 前言 第1章 NLP基礎 1 1.1 什麼是NLP 1 1.1.1 NLP的概念 1 1.1.2 NLP的研究任務 3 1.2 NLP的發展曆程 5 1.3 NLP相關知識的構成 7 1.3.1 基本術語 7 1.3.2 知識結構 9 1.4 語料庫 10 1.5 探討NLP的幾個層麵 11 1.6 NLP與人工智能 13 1.7 本章小結 15 第2章 NLP前置技術解析 16 2.1 搭建Python開發環境 16 2.1.1 Python的科學計算發行版——Anaconda 17 2.1.2 Anaconda的下載與安裝 19 2.2 正則錶達式在NLP的基本應用 21 2.2.1 匹配字符串 22 2.2.2 使用轉義符 26 2.2.3 抽取文本中的數字 26 2.3 Numpy使用詳解 27 2.3.1 創建數組 28 2.3.2 獲取Numpy中數組的維度 30 2.3.3 獲取本地數據 31 2.3.4 正確讀取數據 32 2.3.5 Numpy數組索引 32 2.3.6 切片 33 2.3.7 數組比較 33 2.3.8 替代值 34 2.3.9 數據類型轉換 36 2.3.10 Numpy的統計計算方法 36 2.4 本章小結 37 第3章 中文分詞技術 38 3.1 中文分詞簡介 38 3.2 規則分詞 39 3.2.1 正嚮最大匹配法 39 3.2.2 逆嚮最大匹配法 40 3.2.3 雙嚮最大匹配法 41 3.3 統計分詞 42 3.3.1 語言模型 43 3.3.2 HMM模型 44 3.3.3 其他統計分詞算法 52 3.4 混閤分詞 52 3.5 中文分詞工具——Jieba 53 3.5.1 Jieba的三種分詞模式 54 3.5.2 實戰之高頻詞提取 55 3.6 本章小結 58 第4章 詞性標注與命名實體識彆 59 4.1 詞性標注 59 4.1.1 詞性標注簡介 59 4.1.2 詞性標注規範 60 4.1.3 Jieba分詞中的詞性標注 61 4.2 命名實體識彆 63 4.2.1 命名實體識彆簡介 63 4.2.2 基於條件隨機場的命名實體識彆 65 4.2.3 實戰一:日期識彆 69 4.2.4 實戰二:地名識彆 75 4.3 總結 84 第5章 關鍵詞提取算法 85 5.1 關鍵詞提取技術概述 85 5.2 關鍵詞提取算法TF/IDF算法 86 5.3 TextRank算法 88 5.4 LSA/LSI/LDA算法 91 5.4.1 LSA/LSI算法 93 5.4.2 LDA算法 94 5.5 實戰提取文本關鍵詞 95 5.6 本章小結 105 第6章 句法分析 106 6.1 句法分析概述 106 6.2 句法分析的數據集與評測方法 107 6.2.1 句法分析的數據集 108 6.2.2 句法分析的評測方法 109 6.3 句法分析的常用方法 109 6.3.1 基於PCFG的句法分析 110 6.3.2 基於最大間隔馬爾可夫網絡的句法分析 112 6.3.3 基於CRF的句法分析 113 6.3.4 基於移進–歸約的句法分析模型 113 6.4 使用Stanford Parser的PCFG算法進行句法分析 115 6.4.1 Stanford Parser 115 6.4.2 基於PCFG的中文句法分析實戰 116 6.5 本章小結 119 第7章 文本嚮量化 120 7.1 文本嚮量化概述 120 7.2 嚮量化算法word2vec 121 7.2.1 神經網絡語言模型 122 7.2.2 C&W;模型 124 7.2.3 CBOW模型和Skip-gram模型 125 7.3 嚮量化算法doc2vec/str2vec 127 7.4 案例:將網頁文本嚮量化 129 7.4.1 詞嚮量的訓練 129 7.4.2 段落嚮量的訓練 133 7.4.3 利用word2vec和doc2vec計算網頁相似度 134 7.5 本章小結 139 第8章 情感分析技術 140 8.1 情感分析的應用 141 8.2 情感分析的基本方法 142 8.2.1 詞法分析 143 8.2.2 機器學習方法 144 8.2.3 混閤分析 144 8.3 實戰電影評論情感分析 145 8.3.1 捲積神經網絡 146 8.3.2 循環神經網絡 147 8.3.3 長短時記憶網絡 148 8.3.4 載入數據 150 8.3.5 輔助函數 154 8.3.6 模型設置 155 8.3.7 調參配置 158 8.3.8 訓練過程 159 8.4 本章小結 159 第9章 NLP中用到的機器學習算法 160 9.1 簡介 160 9.1.1 機器學習訓練的要素 161 9.1.2 機器學習的組成部分 162 9.2 幾種常用的機器學習方法 166 9.2.1 文本分類 166 9.2.2 特徵提取 168 9.2.3 標注 169 9.2.4 搜索與排序 170 9.2.5 推薦係統 170 9.2.6 序列學習 172 9.3 分類器方法 173 9.3.1 樸素貝葉斯Naive Bayesian 173 9.3.2 邏輯迴歸 174 9.3.3 支持嚮量機 175 9.4 無監督學習的文本聚類 177 9.5 文本分類實戰:中文垃圾郵件分類 180 9.5.1 實現代碼 180 9.5.2 評價指標 187 9.6 文本聚類實戰:用K-means對豆瓣讀書數據聚類 190 9.7 本章小結 194 第10章 基於深度學習的NLP算法 195 10.1 深度學習概述 195 10.1.1 神經元模型 196 10.1.2 激活函數 197 10.1.3 感知機與多層網絡 198 10.2 神經網絡模型 201 10.3 多輸齣層模型 203 10.4 反嚮傳播算法 204 10.5 最優化算法 208 10.5.1 梯度下降 208 10.5.2 隨機梯度下降 209 10.5.3 批量梯度下降 210 10.6 丟棄法 211 10.7 激活函數 211 10.7.1 tanh函數 212 10.7.2 ReLU函數 212 10.8 實現BP算法 213 10.9 詞嵌入算法 216 10.9.1 詞嚮量 217 10.9.2 word2vec簡介 217 10.9.3 詞嚮量模型 220 10.9.4 CBOW和Skip-gram模型 222 10.10 訓練詞嚮量實踐 224 10.11 樸素Vanilla-RNN 227 10.12 LSTM網絡 230 10.12.1 LSTM基本結構 230 10.12.2 其他LSTM變種形式 234 10.13 Attention機製 236 10.13.1 文本翻譯 237 10.13.2 圖說模型 237 10.13.3 語音識彆 239 10.13.4 文本摘要 239 10.14 Seq2Seq模型 240 10.15 圖說模型 242 10.16 深度學習平颱 244 10.16.1 Tensorflow 245 10.16.2 Mxnet 246 10.16.3 PyTorch 246 10.16.4 Caffe 247 10.16.5 Theano 247 10.17 實戰Seq2Seq問答機器人 248 10.18 本章小結 254 第11章 Solr搜索引擎 256 11.1 全文檢索的原理 257 11.2 Solr簡介與部署 258 11.3 Solr後颱管理描述 263 11.4 配置schema 267 11.5 Solr管理索引庫 270 11.5.1 創建索引 270 11.5.2 查詢索引 276 11.5.3 刪除文檔 279 11.6 本章小結 281 |
Python自然語言處理實戰:核心技術與算法 計算機與互聯網 書籍|8004503 pdf epub mobi txt 電子書 下載