一类样本标签缺失数据的分类器训练方法

成果简介

本技术处理两类样本的分类问题。其中负类样本的标签数据全部缺失，观测数据中仅有部分正类样本的标签是已知的。缺失标签的数据可能是正类样本，也可能是负类样本。该种类型的数据广泛出现于图像识别、多肽鉴定等问题．主要技术难点：由于负类样本标签均未知，该类问题在数据质量较差的数据集上通常不稳定，另外，许多模型是较复杂的非凸优化模型，在求解大规模数据集时存在困难．所提供的技术核心支撑点包括：（1）提供一套建模技术，将样本标签的可靠性作为待求解的决策变量，采用基于核的学习技术，建立适于求解的分类模型；（2）引入自步长学习技术，首先用可靠样本训练模型，分批将复杂的样本自动纳入训练过程，避免了分类器训练过程中，算法陷入较差的局部最优解；（3）开发了在线学习算法，高效分析大规模数据集。应用前景：凡是仅观测到部分正类样本的标签、而其余样本标签缺失的分类问题，均可尝试该技术方案。例如 (1)多肽谱匹配匹配鉴定问题：部分匹配错误的样本标签已知，从数据集中寻找匹配正确的样本；（2）识别问题：从未标注数据中寻找与用户提供的样本相似的样本，如从数据库中寻找与用户提供的图片相似的图片；（3）垃圾邮件检测：正常邮件具有稳定的分布，可视为正类样本，垃圾邮件随时间推移通常采用不同的策略，可视为未标号样本。

其他成果推荐

更多>

宁夏电信一体化算力服务能力建设成果

所属单位：中国电信股份有限公司宁夏分公司

面向行业赋能的宁夏城市算力平台

所属单位：中国电信股份有限公司宁夏分公司

智能化煤矿机器人集群应用关键技术创新与示范

所属单位：陕煤集团神木柠条塔矿业有限公司

电缆通道智能巡检机器人监控应用系统

所属单位：陕西丰鼎鸿邑电子科技有限公司

综采工作面巷道单元支护装备及智能搬运机器人研发与应用

所属单位：陕西陕煤黄陵矿业有限公司

用于易燃易爆区域的机器人充电系统及充电方法

所属单位：西安量子智能科技有限公司