本发明提供了一种基于主题集成聚类的产品典型性特质挖掘方法,通过在预处理阶段,保留分词结果中的词性信息,并利用文本不同的词性筛选,构造融入词性信息的LDA主题模型;将多个LDA主题模型获取的聚类结果,看成为原始数据的新增属性,以此定义原始数据在基聚类空间上的表达;通过最大互信息系数方法(Maximal information coefficient,MIC)计算原始数据在基聚类空间内的相关性,以此构建最大相关系数矩阵;采用对称非负矩阵分解方法获取最大相关系数矩阵的相应划分,实现主题聚类集成;构建任意文本中某一个词在特定窗口下的词性属性矩阵,并在该词的词性属性矩阵中引入文本的主题概率,以此区分不同文本对目标词的影响;利用集成学习方法,对同一个词的多个词性属性矩阵进行集成,通过预置的位置属性向量与词性属性矩阵的乘积,获取词的词性标记序列向量;采用Mean-Shift算法,利用词对相似度排序方法,获取产品短评文本的典型性特质。本发明将多个主题模型引入集成学习中,解决了对短评文本进行产品典型性特质挖掘时所存在的语义表征丢失、聚类效率低以及可解释能力不足等问题。