出版社:科学出版社
年代:2019
定价:98.0
首先论述网页提取:对网站链接进行过滤以缩小搜索范围,提高搜索准确度、效率和可行性;通过选择精当检索词、遴选相关主题词,增强搜索的精度和效率;根据HTML生成DOM树,根据不同模板类型进行正文抽取和正文过滤。其次阐述了文本的特征向量表示,用分词词典将中文文本进行分词,分词的过程中进行了歧义分析,将分词后的文本用特征向量表示,通过去停用词、进行词性标注、同义词替换等进行文本的特征降维。再讲述文本聚类与分类,包括文本特征加权、主成份分析和基于模糊矩阵的蚁群聚类。最后讲述文本的倾向性分析。
书籍详细信息 | |||
书名 | Web中文舆情信息挖掘站内查询相似图书 | ||
9787030635464 如需购买下载《Web中文舆情信息挖掘》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN | |||
出版地 | 北京 | 出版单位 | 科学出版社 |
版次 | 1版 | 印次 | 1 |
定价(元) | 98.0 | 语种 | 简体中文 |
尺寸 | 26 × 19 | 装帧 | 平装 |
页数 | 200 | 印数 |
Web中文舆情信息挖掘是科学出版社于2019.12出版的中图分类号为 G202 的主题关于 互联网络-舆论-信息处理 的书籍。