更新时间:2024-09-10 16:35:58
封面
版权信息
作者简介
献词
前言
审校者简介
第一部分 自然语言理解技术入门
第1章 自然语言理解方法与应用程序
1.1 自然语言基础知识
1.2 自然语言与字符编码
1.3 对话式人工智能与自然语言理解
1.4 交互式应用程序——聊天机器人与语音助手
1.4.1 通用语音助手
1.4.2 企业助手
1.4.3 翻译
1.4.4 教育
1.5 非交互式应用程序
1.5.1 分类
1.5.2 情感分析
1.5.3 垃圾邮件与网络钓鱼检测
1.5.4 虚假新闻检测
1.5.5 文档检索
1.5.6 分析
1.5.7 信息抽取
1.5.8 机器翻译
1.5.9 其他应用程序
1.5.10 应用程序类型总结
1.6 Python自然语言处理展望
1.7 本章小结
第2章 识别自然语言理解问题
2.1 识别适合当前技术水平的问题
2.1.1 自然语言理解难以解决的问题
2.1.2 不需要自然语言理解的应用程序
2.1.3 训练数据
2.1.4 应用数据
2.2 开发成本
2.3 维护成本
2.4 决定是否使用自然语言理解的流程
2.5 本章小结
第二部分 自然语言理解系统开发与测试
第3章 自然语言理解方法
3.1 基于规则的方法
3.1.1 词与词典
3.1.2 词性标注
3.1.3 语法
3.1.4 句法分析
3.1.5 语义分析
3.1.6 语用分析
3.1.7 pipeline
3.2 传统的机器学习算法
3.2.1 文档表示
3.2.2 文档分类
3.3 深度学习方法
3.4 预训练模型
3.5 选择自然语言理解方法需要考虑的因素
3.6 本章小结
第4章 用于自然语言理解的Python库与工具
4.1 技术要求
4.2 安装Python
4.3 安装JupyterLab和GitHub
4.3.1 JupyterLab
4.3.2 GitHub
4.4 常用的自然语言处理Python库
4.4.1 NLTK
4.4.2 spaCy
4.4.3 Keras
4.4.4 其他自然语言处理Python库
4.4.5 自然语言处理Python库的选择
4.4.6 其他有用的Python库
4.5 一个示例
4.5.1 设置JupyterLab
4.5.2 处理一句话
4.5.3 查看语料库属性
4.6 本章小结
第5章 数据收集与数据预处理
5.1 数据收集与数据标注
5.1.1 收集应用程序所需数据
5.1.2 收集科研项目所需数据
5.1.3 元数据
5.1.4 常用语料库
5.2 确保数据的隐私性并遵守道德准则
5.2.1 确保训练数据的隐私
5.2.2 确保运行时数据的隐私
5.2.3 人道地对待实验参与者
5.2.4 人道地对待众包工作者
5.3 数据预处理
5.3.1 删除非文本数据
5.3.2 文本正则化
5.3.3 拼写错误校正
5.4 针对具体应用程序的数据预处理
5.4.1 用类token替换单词和数字
5.4.2 修改数据
5.4.3 特定领域的停用词
5.4.4 删除HTML标记
5.4.5 数据不平衡问题
5.4.6 文本预处理pipeline
5.5 选择合适的数据预处理方法
5.6 本章小结
第6章 数据探索与数据可视化
6.1 为什么要进行数据可视化