系统通过基于Requests库的自定义爬虫从多个公开的医疗数据源(好大夫等)采集医疗信息,包括疾病症状、治疗方案、药物信息等。这些数据为后续的知识图谱构建和疾病预测模型提供了基础数据支持。数据抓取后,系统使用pandas技术进行数据清洗和数据处理,去除不规范或错误的信息,并将非结构化文本转换为结构化数据。清洗后的数据存储在MySQL数据库中,用于构建医疗知识图谱和进行机器学习分析。系统还保留部分原始数据,以便进行数据质量评估和基础统计分析。在数据分析阶段,系统应用scikit-learn库中的机器学习模型(如随机森林、支持向量机)进行疾病预测和药物推荐。数据可视化方面,系统利用ECharts生成交互式图表,帮助医疗专业人员直观理解复杂的医疗数据和分析结果。
主要包含需求:登录、词云词频生成与统计、可视化分析(医院-科室-医生分布、医生职称分布、词频统计、医生学历分布)、医院-科室-医生图谱分析、疾病预测。