书籍简介:

首先论述网页提取：对网站链接进行过滤以缩小搜索范围，提高搜索准确度、效率和可行性；通过选择精当检索词、遴选相关主题词，增强搜索的精度和效率；根据HTML生成DOM树，根据不同模板类型进行正文抽取和正文过滤。其次阐述了文本的特征向量表示，用分词词典将中文文本进行分词，分词的过程中进行了歧义分析，将分词后的文本用特征向量表示，通过去停用词、进行词性标注、同义词替换等进行文本的特征降维。再讲述文本聚类与分类，包括文本特征加权、主成份分析和基于模糊矩阵的蚁群聚类。最后讲述文本的倾向性分析。

书籍规格:

书籍详细信息
书名	Web中文舆情信息挖掘站内查询相似图书
	9787030635464 如需购买下载《Web中文舆情信息挖掘》pdf扫描版电子书或查询更多相关信息，请直接复制isbn,搜索即可全网搜索该ISBN
出版地	北京	出版单位	科学出版社
版次	1版	印次	1
定价(元)	98.0	语种	简体中文
尺寸	26 × 19	装帧	平装
页数	200	印数

书籍信息归属:

Web中文舆情信息挖掘是科学出版社于2019.12出版的中图分类号为 G202 的主题关于互联网络－舆论－信息处理的书籍。