一种基于主题集成聚类的产品典型性特质挖掘方法及系统

成果简介

本发明提供了一种基于主题集成聚类的产品典型性特质挖掘方法，通过在预处理阶段，保留分词结果中的词性信息，并利用文本不同的词性筛选，构造融入词性信息的LDA主题模型；将多个LDA主题模型获取的聚类结果，看成为原始数据的新增属性，以此定义原始数据在基聚类空间上的表达；通过最大互信息系数方法（Maximal information coefficient，MIC）计算原始数据在基聚类空间内的相关性，以此构建最大相关系数矩阵；采用对称非负矩阵分解方法获取最大相关系数矩阵的相应划分，实现主题聚类集成；构建任意文本中某一个词在特定窗口下的词性属性矩阵，并在该词的词性属性矩阵中引入文本的主题概率，以此区分不同文本对目标词的影响；利用集成学习方法，对同一个词的多个词性属性矩阵进行集成，通过预置的位置属性向量与词性属性矩阵的乘积，获取词的词性标记序列向量；采用Mean-Shift算法，利用词对相似度排序方法，获取产品短评文本的典型性特质。本发明将多个主题模型引入集成学习中，解决了对短评文本进行产品典型性特质挖掘时所存在的语义表征丢失、聚类效率低以及可解释能力不足等问题。

其他成果推荐

更多>

宁夏电信一体化算力服务能力建设成果

所属单位：中国电信股份有限公司宁夏分公司

面向行业赋能的宁夏城市算力平台

所属单位：中国电信股份有限公司宁夏分公司

智能化煤矿机器人集群应用关键技术创新与示范

所属单位：陕煤集团神木柠条塔矿业有限公司

电缆通道智能巡检机器人监控应用系统

所属单位：陕西丰鼎鸿邑电子科技有限公司

综采工作面巷道单元支护装备及智能搬运机器人研发与应用

所属单位：陕西陕煤黄陵矿业有限公司

用于易燃易爆区域的机器人充电系统及充电方法

所属单位：西安量子智能科技有限公司