![]() 内容简介 《Python自然语言处理(影印版)》提供了非常易学的自然语言处理入门介绍,该领域涵盖从文本和电子邮件预测过滤,到自动总结和翻译等多种语言处理技术。在《Python自然语言处理(影印版)》中,你将学会编写Python程序处理大量非结构化文本。你还将通过使用综合语言数据结构访问含有丰富注释的数据集,理解用于分析书面通信内容和结构的主要算法。 《Python自然语言处理》准备了充足的示例和练习,可以帮助你: 从非结构化文本中抽取信息,甚至猜测主题或识别“命名实体”; 分析文本语言结构,包括解析和语义分析; 访问流行的语言学数据库,包括WordNet和树库(treebank); 从多种语言学和人工智能领域中提取的整合技巧。 《Python自然语言处理(影印版)》将帮助你学习运用Python编程语言和自然语言工具包(NLTK)获得实用的自然语言处理技能。如果对于开发Web应用、分析多语言新闻源或记录濒危语言感兴趣——即便只是想从程序员视角观察人类语言如何运作,你将发现《Python自然语言处理》是一本令人着迷且极为有用的好书。 作者简介 Steven Bird是墨尔本大学计算机科学和软件工程系副教授,以及宾夕法尼亚大学语言数据联合会高级研究助理。 克莱因是爱丁堡大学信息学院语言技术教授。 洛普最近从宾夕法尼亚大学获得机器学习自然语言处理博士学位,目前是波士顿BBN Technologies公司的研究员。 目录 第1章自然语言处理概述1 1.1人工智能发展历程1 1.1.1第一阶段: 20年黄金时代1 1.1.2第二阶段: 第一次寒冬1 1.1.3第三阶段: 繁荣期1 1.1.4第四阶段: 第二次寒冬2 1.1.5第五阶段: 稳健时代2 1.2自然语言处理2 1.2.1概述2 1.2.2发展历程3 1.2.3处理流程4 1.2.4研究内容4 1.3机器学习算法6 1.3.1监督学习6 1.3.2无监督学习7 1.4自然语言处理相关库8 1.4.1NumPy8 1.4.2Matplotlib8 1.4.3Pandas8 1.4.4SciPy9 1.4.5NLTK9 1.4.6SnowNLP11 1.4.7Sklearn12 1.5语料库12 1.5.1认识语料库12 1.5.2分类13 1.5.3构建原则13 1.5.4常用语料库13 1.5.5搜狗新闻语料库15第2章Python语言简述19 2.1Python简介19 2.1.1Python发展历程19 2.1.2Python的特点19 2.1.3Python应用场合20 2.2Python解释器21 2.2.1Ubuntu下安装Python21 2.2.2Windows下安装Python21 2.3Python编辑器22 2.3.1IDLE22 2.3.2VS Code23 2.3.3PyCharm23 2.3.4Anaconda24 2.3.5Jupyter 31 2.4代码书写规则32 2.4.1缩进32 2.4.2多行语句33 2.4.3注释33 2.4.4编码习惯33 2.5自学网站34 2.5.1菜鸟网站34 2.5.2廖雪峰学Python网站35 2.5.3Python官方网站35 2.5.4Python 100天从新手到大师网站35 第3章Python数据类型37 3.1变量37 3.1.1变量命名37 3.1.2变量引用38 3.2运算符38 3.2.1算术运算符38 3.2.2关系运算符39 3.2.3赋值运算符40 3.2.4逻辑运算符41 3.2.5位运算符41 3.2.6成员运算符43 3.2.7身份运算符43 3.3表达式43 3.3.1概念43 3.3.2操作44 3.4数据类型44 3.5数字45 3.5.1概念45 3.5.2操作45 3.6字符串46 3.6.1概念46 3.6.2操作46 3.7列表48 3.7.1概念48 3.7.2操作48 3.8元组53 3.8.1概念53 3.8.2操作54 3.9字典55 3.9.1字典的概念55 3.9.2字典操作56 3.9.3字典举例59 3.10集合59 3.10.1集合的概念59 3.10.2集合操作60 3.10.3集合举例61 3.11组合数据类型62 3.11.1相互关系62 3.11.2数据类型转换62 第4章Python流程控制63 4.1流程结构63 4.2顺序结构63 4.2.1输入输出64 4.2.2举例67 4.3选择结构67 4.3.1单分支67 4.3.2双分支68 4.3.3多分支69 4.3.4分支嵌套70 4.4循环概述72 4.4.1循环结构72 4.4.2循环分类72 4.5while语句72 4.5.1基本形式72 4.5.2else 语句73 4.5.3无限循环74 4.6for语句74 4.6.1应用序列类型74 4.6.2内置函数range()75 4.7循环嵌套76 4.7.1原理76 4.7.2实现76 4.8辅助语句77 4.8.1break语句77 4.8.2continue语句79 4.8.3pass语句79 第5章Python函数81 5.1函数声明与调用81 5.1.1函数声明81 5.1.2函数调用81 5.1.3函数返回值83 5.2参数传递84 5.2.1实参与形参84 5.2.2传对象引用84 5.3参数分类85 5.3.1必备参数85 5.3.2默认参数85 5.3.3关键参数86 5.3.4不定长参数86 5.4两类特殊函数87 5.4.1匿名函数87 5.4.2递归函数88 第6章Python数据科学93 6.1科学计算93 6.2NumPy94 6.2.1认识NumPy94 6.2.2创建数组95 6.2.3查看数组97 6.2.4索引和切片97 6.2.5矩阵运算98 6.3Matplotlib99 6.3.1认识Matplotlib99 6.3.2线形图100 6.3.3散点图101 6.3.4饼状图102 6.3.5直方图102 6.4Pandas103 6.4.1认识Pandas103 6.4.2Series104 6.4.3DataFrame108 6.4.4Index112 6.4.5Plot114 6.5SciPy115 6.5.1认识SciPy115 6.5.2稀疏矩阵115 6.5.3线性代数116 6.6Seaborn117 6.6.1认识Seaborn117 6.6.2图表分类119 第7章Sklearn和NLTK120 7.1Sklearn简介120 7.2安装Sklearn121 7.3数据集122 7.3.1小数据集122 7.3.2大数据集127 7.3.3生成数据集128 7.4机器学习流程132 7.4.1语料清洗132 7.4.2划分数据集132 7.4.3特征工程137 7.4.4机器算法137 7.4.5模型评估137 7.5NLTK简介138 7.6NLTK语料库139 7.6.1inaugural语料库139 7.6.2gutenberg语料库139 7.6.3movie_reviews语料库140 7.7NLTK文本分类141 7.7.1分句分词141 7.7.2停止词142 7.7.3词干提取143 7.7.4词形还原143 7.7.5WordNet144 7.7.6语义相关性145 第8章语料清洗146 8.1认识语料清洗146 8.2清洗策略147 8.2.1一致性检查147 8.2.2格式内容检查147 8.2.3逻辑错误检查147 8.3缺失值清洗147 8.3.1认识缺失值147 8.3.2Pandas处理148 8.3.3Sklearn处理150 8.4异常值清洗151 8.4.1散点图方法151 8.4.2箱线图方法151 8.4.33σ法则153 8.5重复值清洗155 8.5.1NumPy处理155 8.5.2Pandas处理155 8.6数据转换157 8.6.1数据值替换157 8.6.2数据值映射158 8.6.3数据值合并159 8.6.4数据值补充160 8.7Missingno库161 8.7.1认识Missingno库161 8.7.2示例163 8.8词云165 8.8.1认识词云165 8.8.2示例166 第9章特征工程168 9.1特征预处理168 9.1.1归一化168 9.1.2标准化169 9.1.3鲁棒化171 9.1.4正则化171 9.1.5示例172 9.2独热编码176 9.2.1认识独热编码176 9.2.2Pandas实现177 9.2.3Sklearn实现178 9.2.4DictVectorizer179 9.3CountVectorizer180 9.3.1认识CountVectorizer180 9.3.2Sklearn调用CountVectorizer180 9.4TFIDF181 9.4.1认识TFIDF181 9.4.2计算TFIDF181 9.4.3Sklearn调用TFIDF182 第10章中文分词183 10.1概述183 10.1.1简介183 10.1.2特点183 10.2常见中文分词方法184 10.2.1基于规则和词表方法184 10.2.2基于统计方法184 10.2.3基于理解方法185 10.3中文分词困惑185 10.4jieba分词库186 10.4.1认识jieba186 10.4.2三种模式187 10.4.3自定义词典188 10.4.4词性标注189 10.4.5断词位置190 10.4.6关键词抽取190 10.4.7停止词表192 10.5HanLP分词195 10.5.1认识HanLP195 10.5.2pyhanlp196 10.5.3中文分词196 10.5.4依存分析使用197 10.5.5关键词提取198 10.5.6命名实体识别199 10.5.7自定义词典199 10.5.8简体繁体转换200 10.5.9摘要提取200 第11章文本分类202 11.1历史回顾202 11.2文本分类方法202 11.2.1朴素贝叶斯202 11.2.2支持向量机203 11.3贝叶斯定理203 11.4朴素贝叶斯204 11.4.1GaussianNB方法204 11.4.2MultinomialNB方法205 11.4.3BernoulliNB方法207 11.5朴素贝叶斯进行新闻分类208 11.6支持向量机210 11.6.1线性核函数210 11.6.2多项式核函数211 11.6.3高斯核函数212 11.7支持向量机对鸢尾花分类213 11.8垃圾邮件分类216 11.8.1朴素贝叶斯定理实现217 11.8.2Sklearn朴素贝叶斯实现219 第12章文本聚类222 12.1概述222 12.1.1算法原理222 12.1.2流程223 12.2KMeans算法223 12.2.1算法原理223 12.2.2数学理论实现223 12.2.3Python实现225 12.3主成分分析228 12.3.1算法原理228 12.3.2components参数228 12.3.3对鸢尾花数据降维230 12.4KMeans评估指标232 12.4.1调整兰德系数232 12.4.2轮廓系数232 12.5KMeans英文文本聚类235 12.5.1构建DataFrame数据236 12.5.2进行分词和停止词去除236 12.5.3向量化236 12.5.4TFIDF模型236 12.5.5计算余弦相似度237 12.5.6KMeans聚类237 12.6KMeans中文文本聚类237 12.6.1程序流程237 12.6.2程序文件238 12.6.3执行代码238 第13章评价指标242 13.1Sklearn中的评价指标242 13.2混淆矩阵242 13.2.1认识混淆矩阵242 13.2.2Pandas计算混淆矩阵243 13.2.3Sklearn计算混淆矩阵244 13.3准确率244 13.3.1认识准确率244 13.3.2Sklearn计算准确率245 13.4精确率245 13.4.1认识精确率245 13.4.2Sklearn计算精确率245 13.5召回率246 13.5.1认识召回率246 13.5.2Sklearn计算召回率246 13.6F1 Score247 13.6.1认识F1 Score247 13.6.2Sklearn计算F1 Score247 13.7综合实例247 13.7.1数学计算评价指标248 13.7.2Python计算评价指标248 13.8ROC曲线250 13.8.1认识ROC曲线250 13.8.2Sklearn计算ROC曲线251 13.9AUC面积252 13.9.1认识AUC面积252 13.9.2Sklearn计算AUC面积252 13.10分类评估报告253 13.10.1认识分类评估报告253 13.10.2Sklearn计算分类评估报告253 13.11NLP评价指标254 13.11.1中文分词精确率和召回率254 13.11.2未登录词和登录词召回率254 第14章信息提取258 14.1概述258 14.2相关概念258 14.2.1信息258 14.2.2信息熵258 14.2.3信息熵与霍夫曼编码259 14.2.4互信息260 14.3正则表达式260 14.3.1基本语法261 14.3.2re模块261 14.3.3提取电影信息264 14.4命名实体识别266 14.4.1认识命名实体266 14.4.2常见方法266 14.4.3NLTK命名实体识别267 14.4.4Stanford NLP命名实体识别269 14.5马尔可夫模型273 14.5.1认识马尔可夫273 14.5.2隐马尔可夫模型273 第15章情感分析275 15.1概述275 15.1.1认识情感分析275 15.1.2基于词典方法275 15.2情感倾向分析276 15.2.1情感词276 15.2.2程度词276 15.2.3感叹号276 15.2.4否定词276 15.3textblob276 15.3.1分句分词278 15.3.2词性标注278 15.3.3情感分析279 15.3.4单复数279 15.3.5过去式279 15.3.6拼写校正280 15.3.7词频统计280 15.4SnowNLP280 15.4.1分词281 15.4.2词性标注281 15.4.3断句281 15.4.4情绪判断282 15.4.5拼音282 15.4.6繁转简283 15.4.7关键字抽取283 15.4.8摘要抽取283 15.4.9词频和逆文档词频284 15.5Gensim284 15.5.1认识Gensim284 15.5.2认识LDA286 15.5.3Gensim实现LDA286 15.6小说人物情感分析288 15.6.1流程288 15.6.2代码288 15.7电影影评情感分析289 15.7.1流程289 15.7.2代码289 附录A教学大纲292 一、 课程简介292 二、 课程内容及要求292 三、 教学安排及学时分配298 四、 考核方式299 五、 建议教材及参考文献299 参考文献300 点击下载:PYTHON自然语言处理(中文版) (访问密码: 7509) |