[00251762]一种基于拓扑特征扩展的知识主题短文本层次分类方法
交易价格:
面议
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201710129359.2
交易方式:
完全转让
许可转让
技术入股
联系人:
西安交通大学
所在地:陕西西安市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明一种基于拓扑特征扩展的知识主题短文本层次分类方法,能够有效的对知识主题短文本进行组织和管理,解决互联网海量知识短文本造成的信息过载问题。其包括以下步骤1)初始文本特征构建;2)基于拓扑特征的短文本特征扩展;3)异构知识主题间的迁移学习方法。通过采集多个知识主题对应的短文本长度做初步的量化统计和分析,明确了知识主题短文本文本特征的稀疏程度。通过短文本之间的词共现情况构建并分析知识主题短文本网络,最终选取社区特征有效扩展文本特征。通过计算知识主题之间的KL散度来度量域的差异性,进而选择辅助数据;将层次分类问题转换为多分类问题,有效的对知识主题短文本进行组织和管理。