[00230810]一种图文主题描述方法、装置以及系统
交易价格:
面议
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201310589757.4
交易方式:
完全转让
许可转让
技术入股
联系人:
中国科学院深圳先进技术研究院
所在地:广东深圳市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明适用于移动终端技术领域,提供了一种图文主题描述方法及装置,包括:获取未标注的图文并茂文档,所述图文并茂文档包括图片和文字;对获取到的未标注的图文并茂文档进行预处理,获取所述未标注的图文并茂文档的图文信息,所述图文信息包括图片特征元素以及文本单词;根据预先建立的主题模型以及所述图文信息,生成描述所述图片的所有文本单词的概率,所述主题模型包括第一主题模型和第二主题模型;对所述概率从高到低进行排序,选取排名前若干个文本单词作为描述所述图片的文本单词。在本实施例中,避免了出现现有技术只对图文并存文档进行单侧的主题描述,导致描述得到的结果有效性偏低的情况,从而提高了主题描述的有效性和描述效率。