[00251751]一种从社区问答网站自动获取知识领域短文本的方法
交易价格:
面议
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201610101431.6
交易方式:
完全转让
许可转让
技术入股
联系人:
西安交通大学
所在地:陕西西安市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明提供一种从社区问答网站自动获取知识领域短文本的方法,能够爬取社区问答网站知识领域相应领域下每个主题的问题网页和作者网页,获取数据全面系统,方便用户学习和使用。其包括如下步骤:步骤1,爬取社区问答网站中知识领域的Web页面;步骤2,抽取网页数据集中的知识领域短文本;步骤3,构建领域主题树;步骤4,领域主题树的存储。其能够从社区问答网站半结构化数据中自动抽取知识领域短文本,通过爬取社区问答网站知识领域相应领域下每个主题的问题网页和作者网页,构建了知识领域的网页数据集,然后自动抽取其中的知识领域短文本并发现其中的父子关系,从而构建了领域主题树并实现了领域主题树的存储,最终方便用户学习和使用。