出版社:中国水利水电出版社
年代:2017
定价:30.0
本书基于数据挖掘的相关技术做了如下几个方面的工作:①针对标准互信息和tf.idf特征权重公式的缺点提出了改进方法,改进的方法明显提高了宏观准确率、宏观召回率和宏观F1值;②针对标准tf.idf方法估算特征权重的盲目性,提出了基于实数域粗糙集理论的特征频率重要度加权方法,该方法改善了样本空间的分布状态,明显提高了文本分类的效果;③提出了一种基于互信息和信息熵对的特征选择方法,利用该方法进行特征选择的分类效果接近代表分类水平的支持向量机;④提出了基于粗糙集的多知识粒度的启发式属性约简方法,通过引入悲观和乐观多粒度函数,有效提高了分类的效率和准确率;⑤研究了基于深度学习的主要模型,并选择其中的Autoencoder进行文本分类研究,在语料库20NG上进行了验证,证明了方法的有效性。