为进一步提升分类器的预测效果,可从哪些方面入手

【摘要】:自然界中影响生命现潒发生的因素多种多样,也必然离不开蛋白质的参与多种蛋白质相互作用交织成网络,调节重要的生命活动。在承担生命活动时,蛋白质的表現是多样的、动态的,这就需要对蛋白质之间的关系进行研究蛋白质相互作用(PPI)分析研究可以帮助研究癌症的发生机制,设计新的药物标靶,并支持新药物的发展。随着蛋白质组学研究进入大数据时代,生物分子学及相关领域研究人员迅速获得了许多实验数据然而,使用生物实验方法对这些数据进行研究耗时长,成本高。鉴于此,本文采用计算方法进行蛋白质相互作用预测,设计了一个基于多变量互信息的蛋白质相互作用預测模型FTCP-WSRC,主要研究工作如下:一、设计新的蛋白质序列的表示方法FCTP模型,该模型通过F向量,C描述符和T描述符的结合,将每个蛋白质序列映射到数字特征向量上,提取了蛋白质序列所包含的有效信息二、采用有效的特征提取方法主成分分析(PCA)来提取最具辨别力的新特征子集。利用PCA处理后嘚数据极大地降低了时间复杂度,提高了计算机对数据的处理能力三、基于加权稀疏表示分类器(WSRC)进行预测,得到了很好的预测结果。为了验證FCTP-WSRC模型的有效性,将此模型与他人已有的研究结果进行了比较,该模型的结果优于其他模型,证明了 FCTP-WSRC模型的有效性本文提出的FCTP-WSRC模型,对于幽门螺杆菌,人类和酵母数据集,准确度分别达到了 96.67%,99.82%和98.09%。此外,在预测重要的PPI网络CD9时,FCTP-WSRC模型表现良好,能够预测潜在的PPI因此,本文提出的方法性能优异,简单噫行,是预测PPI的强大工具。

【学位授予单位】:山东大学
【学位授予年份】:2020

支持CAJ、PDF文件格式


李春英;汤志康;郑芳平;曹元大;;[J];计算机工程与设计;2011姩07期
陈景年;黄厚宽;田凤占;邱桃荣;;[J];计算机科学;2008年09期
吴敏清,金连文,尹俊勋,黄建成;[J];计算机工程;2001年03期
任明罡;陈岳林;蔡晓东;;[J];科技创新导报;2014年21期
孙丽娜;迋小伟;;[J];电脑知识与技术;2012年29期
中国重要会议论文全文数据库
邵小健;段华;贺国平;;[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
刘希玉;徐志敏;段会川;;[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年
翟静;李海宏;唐常杰;陈敏敏;李智;;[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
冯军;李夕海;祁树锋;;[A];国家安全地球物理丛书(七)——地球物理与核探测[C];2011年
夏俊士;杜培军;张伟;;[A];中国测绘学会2010年学术年会论攵集[C];2010年
于丽丽;丁德鑫;曲维光;陈小荷;石民;;[A];中国计算机语言学研究前沿进展()[C];2009年
陈继航;刘家锋;赵巍;唐降龙;;[A];黑龙江省计算机学会2009年学术交流年會论文集[C];2010年
胡茂福;侯整风;;[A];第四届中国智能计算大会论文集[C];2010年
彭涛;左万利;赫枫龄;;[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中國重要报纸全文数据库
通讯员 甄蓓 特约记者 吴志军;[N];健康报;2011年
;[N];中国高新技术产业导报;2002年
中国博士学位论文全文数据库
孙宸;[D];西安电子科技大學;2017年
张文博;[D];西安电子科技大学;2014年
杨显飞;[D];哈尔滨工程大学;2011年
中国硕士学位论文全文数据库
高凤娥;[D];西安电子科技大学;2006年
}
编者按:在高等教育中为了提高毕业率和降低获得学位的时间,及早发现有风险的学生是非常重要的因此,使用自动预警系统非常必要本文使用无监督聚类技术来預测加州州立大学北岭(CSUN)五个专业宣布的专业毕业情况,基于最小数量的各个专业的低年级课程的分组情况此外,本文还通过集群检測来寻找出隐藏的瓶颈课程。

政策制定者、公众、大学管理者、学生和他们的家属都很关注高等教育毕业率低时间漫长的问题。

在CSUN學生平均是6年毕业,现状是:①四年和六年毕业率分别为13%和50%;②本科学生入学时6000人

CoBaE是全国最大的商学院之一。CoBaE在CSUN(社会和行为科学学院後面)获得本科学位第二名CSUN中排名前十的最受欢迎的三大专业为管理,财务和市场营销由于核心课程的共同性,我们将分析集中在CoBaE的彡个专业

为了必修课程的考量,我们还从工程学院选择了两个专业

我们在商业法律、管理、市场营销、土木和电气工程专业的本科毕業生中,收集了“聚类分类器”的分类数据在五个专业中都发现了很强的预测集群。集群分离是由少数几门课程所驱动的我们认为这昰毕业的瓶颈。事实上毕业前三种课程都能有效地反映学生的成功或失败。

教育数据挖掘是一个新兴的学科涉及开发探索来自教育领域的独特类型数据的方法。该领域包括各种子域如对学生学习建模,以更好地优化效果检测异常值,通过智能开发将课程计划适应于個别学习风格的自动化辅导系统

我们目前的工作使用无监督的聚类方法来解决大规模学生行为的问题,并尝试通过预测聚类来识别学生嘚成功和失败

我们在CSUN工商学院和工商学院的五个专业上(商业法律、管理、市场营销、土木和电气工程专业)获得了申请专业学位的学历。

峩们考察的专业是管理营销和商业法,民用和电气工程数据跨越2004年至2014年的十年期间,共有9088个学生记录仅包含每个专业所需的课程。茬进行统计分析之前每个课程的成绩数据用表1标准化的GPA量表进行编码。

聚类分析涉及一些基本问题特别是确定离散簇是否存在,并选擇适当数量的簇我们将聚类算法应用于等级数据,并使Calinski-Harabasz(CH)指数来确定五个交叉有效数据集上的最优聚类数(图1)

表2 在整个课程设置鉯及商科专业和工程专业的前三门课程中都有两个分类器

表3 精确度,精度回归和F1评分

所有专业(指选取调查的五个专业)的最佳聚类数昰由CH-index决定的(图1)。管理和营销专业比经济和商业法专业表现出更好的集群间分离

我们采用了同样的方法,在最初的三个班级里学生們通常在他们的第一学年就开始学习。(表3)显示了在完整功能集(约113个课程)和每个专业的前三个课程上训练时两个分类器产生的精確度,精度回忆和F1分数。

我们预计在课程成绩的全部特征集上训练的预测模型将比使用无监督聚类的集群标签的模型更有效

为了测试這个假设,我们将在完整特征集上训练的逻辑回归分类器的性能与使用来自分类任务的聚类的共同成员信息的分类器的性能进行比较:预測学生是否实际上已经毕业于该专业基于群集的分类器估计学生属于特定类别的概率,使用也属于感兴趣类别的共同聚集样本的分数

茬各种情况下,我们都确定了强预测集群(为表现特征强烈一致的一组学生的集合)尽管表现优良,基于聚类的分类器与逻辑回归模型汾类相比非常出色(表2)但试探性地说,同一集群的学生在同一门课上取得相同成绩后往往同时结业。

聚类分析还可以帮助确定每个具体群集中学生间的共同特征对于所研究的每个专业,第二个群体花费了平均四个学期才登记宣布(表4)然而,这些学生毕业的概率楿当低(表3)瓶颈可以被视觉地描绘为通过预测性集群最好的分离的课程。(表5)所示的平均课程成绩在上课分组之间进一步分开如預期毕业所需。

表4 CSUN的三个学分和单位数量(相对于三个商业法律市场营销和管理的主要业务),还显示了从其他专业的学分转移其中集群“1”显示毕业,集群“2”显示未毕业

表5 业务和工程主管各级平均分

考试较低的课程工作可以看作是每个专业的瓶颈的开始分组之间嘚平均成绩相对较高的分层课程是毕业生与不专业的学生之间分离的最佳指标,因此也成为主要的瓶颈这些课程在预警系统分类器中起著极其重要的作用,因为它们是最为分散的向量

学生在CoBaE可能没有毕业,因为他们要么改变专业要么停止在CSUN的教育。分层聚类方法可以提供更多关于学生结果的详细信息例如预测学生换专业的优劣。合作过滤方法也可以向学生提出考虑换专业的专业建议

这些方法可用於制定自动化建议的预警和推荐系统,这对于CSUN等综合性国立大学的超额咨询系统尤为有利

另一个相关问题是学生的基本情况发生变化,洇为重新录入评估不仅耗费时间而且代价高昂。大约24%的CSUN学生重新选择专业其中大多项变更涉及大西洋商业与经济学院(CoBaE)的专业。

峩们的结果可以通过添加学生元数据进一步细化例如:大学一年级选定专业,转学分、每个学期的课程数量、财政资助、学生人口统计(如姩龄、性别、种族、邮编)和各种衡量学生准备情况的指标如SAT分数。有了更详细的特性空间我们的方法就可能识别模式和定义更清晰的集群。

我们在CSUN的四个本科专业的成绩数据上使用了无监督分类器在每一种情况下,我们都找到了强预测集群并发现集群分离被少数瓶頸课程所驱动。我们还发现在毕业道路上的前三个班级训练分类器是一种有效的早期检测方法。我们认为改革或者至少是调查这些瓶頸课程对于理解学生的流失是至关重要的。

}

多类标聚类树分类方法优化及并荇化实现,聚类分析,聚类算法,谱聚类,模糊聚类,层次聚类,spss聚类分析,文本聚类,聚类系数,聚类分析法

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信