如何使用spss clementine 安装

1277人阅读
最近咋研究clementine,发现他功能很强大,流程也很清晰化,现在记录一个简单的操作过程,以下为整个操作过程图
研究说明,主要研究顾客的购买行为,主要究对象为顾客购买A商品的情况,我们主要研究顾客买了A商品后是否会再次购买A。B商品是A商品的附加商品,使用B商品会对是否再次购买A商品产生较大影响。
数据说明,来自数据库的2张表,第一张来自一个商品A销售数据,记录了客户ID,第一次购买A的消费金额,客户等级,是否有第二次购买A。第二张表记录和这个商品相关的另外一个商品B,记录了客户ID(和第一张表关联),B的使用数量。现在来预测第一次购买A的人是否会第二次再购买A。根据以往的数据显示,第一次消费金额,客户等级,B商品的使用情况会对是否再次购买A产生比较大的影响
现在直接到clementine进行操作
首先用&源模块的sql导入节点载入数据:商品A和数据:商品B。
接下来做简单的处理数据,首先把商品A和商品B这2个数据合并,这步可以在数据库中用join做,不过为了操作一下clementine的数据处理功能,还是用记录选项中的
节点来操作,合并方法选择关键字:客户ID,下面选择全外连接,因为需要的数据是购买A商品的客户使用B商品的情况,也有部分客户使用了B商品但是没有购买A商品或者购买了A商品没有使用B商品,所以要用外连接,稍后把使用B商品但没有购买A商品的客户过滤掉,同时对买了A商品没有使用B商品的数据做一些处理,因为目前只关心购买A商品客户的相关情况
合并数据后,
接下来过滤掉
使用B商品但没有购买A商品的数据
,用节点,以首次金额这个字段为null,以及客户等级为null为条件来丢弃记录
接下来生成一个是否使用B商品的字段,用节点,如果B的使用次数大于0,为1,等于0或Null&则为0,这个变量稍后将进入模型,更改为标志型变量。
接下来对数据进行简单的审核,用节点,发现客户等级有30个缺失记录,
其他进入模型的变量都没有缺失,所以这里对客户等级缺失的记录不进入模型。
选择节点,对进入模型的变量做最后的处理,把客户ID和B的使用次数方向选为无,这些变量不进入模型,是否再次购买A为预测变量,选择输出,类型选择标志,其他为输入,是否使用B商品选择标志,客户等级的缺失开启,检查选择丢弃。
接下来进入建模阶段,这里的数据变量比较少,数量也不大&,所以不选择建立训练和测试分区了,由于是预测再次购买与否,所以选择,
模型排序选择总体精确性,方法选择全部,执行一下。结果都差不多,准确率都在90%左右,C5,C&R数,神经网络,排在前三,选择这3种模型生成节点
接下来看看这个模型的解释结果,变量重要性显示,是否购买B商品最重要,A的首次费用其次,客户等级重要性不强,被排除在决策树的模型外。
同样的,C&R数的结果和C5的结果相似,神经网络算法比较复杂,这里暂时不陈述了。通过决策树可以看到,没有使用B商品的客户,几乎不会再第二次购买A商品了,使用了B商品的客户购买A商品的概率就比较大了,同时首次购买A商品费用大于62块的客户,再使用了B商品后,再次购买A商品的概率将达到70%
接下来通过一个的节点将模型整合,通过和可以看看模型的效果。
也可以保存在表中查看,
最后,对于新的数据,但是没有是否再次购买A商品的字段,我们可以通过这个模型来预测一下。
只要更换数据节点即可,之后的不能用了,可以通过生成表或者图表来看预测结果。
新的数据的预测结果为:整体上再次购买A的概率降低了
总结:通过一个简单的数据对spss&clementine的从数据导入,选择,处理,建模,分析,应用有所了解。
当然由于数据量小和变量少,这个操作过程对简单,
在面对海量数据时,整个操作过程会更加复杂,数据处理已经其他考虑的方面将多得多。还需要多多学习和积
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:3729次
排名:千里之外  摘 要: 分析影响读者借阅量的因素,确定不同读者的借阅需求,进而依据需求定制差异化的借阅权限和服务。利用SPSS Cl" />
免费阅读期刊
论文发表、论文指导
周一至周五
9:00&22:00
SPSS Clementine决策树建模在图书馆中的应用
&&&&&&本期共收录文章20篇
  摘 要: 分析影响读者借阅量的因素,确定不同读者的借阅需求,进而依据需求定制差异化的借阅权限和服务。利用SPSS Clementine挖掘工具,采用C5.0决策树算法,对国际关系学院图书馆的读者借阅数据进行挖掘,建立读者决策树分类模型,将读者按借阅频度分为活跃读者、一般读者和沉默读者。结果表明,读者身份、专业、年级和性别对借阅量有重要影响,本科大三学生借阅需求较大,大四学生借阅需求小。决策树分类能对图书馆读者进行细分,可为调整读者借阅权限提供理论依据。 中国论文网 /8/view-5827373.htm  关键词: 决策树; 分类; 图书馆; Clementine; 借阅权限   中图分类号:TP391 文献标志码:A 文章编号:(-04   Abstract: The factors influencing readers' borrowing amount are analyzed and different readers' borrowing demand are determined. The differential borrowing authority and service are customized. A decision tree classification model of reader borrowing frequency is built with C5.0 in mining tool of SPSS Clementine. The decision tree classifies readers into three groups: activing readers, common readers and silent readers. The mined data come from reader borrowing records of the library of university of international relations. The results show readers' identity, major, grade and gender have an important effect on borrowing amount. The borrowing demand of junior students is great, while that of senior students is small. The library readers may be classified by refering to decision tree classification to provide theoretical evident for adjusting borrowing authority.   Key words: decision tree; classification; library; Clementine; borrowing authority   0 引言   数据挖掘能从大量数据中发现有用的知识,目前己成功应用于各个领域。图书馆系统积累了大量读者数据,研究如何将数据挖掘有效地用于图书馆[1-4],变数据为知识,从而更好地为读者服务,是数据挖掘和图书馆工作者的共同责任。   决策树分类是数据挖掘中的一种重要方法,该方法通过对已有数据的学习,识别影响对象分类的若干因素,构建一个决策树分类模型,对对象进行分类。文献[5-6]为决策树在图书馆读者借阅数据中的应用实例,其中文献[5]利用C4.5算法,对306条读者借阅记录进行了分类建模,利用学历、专业和年级三个属性,构建借阅次数(高/中/低)分级模型,得出的结论为:学历是第一决定因素,其次是专业和年级,研究生和大四学生借阅量低等。笔者认为文献[5]挖掘的数据量过小,不具有足够的说服力,且借阅次数分级采取主观划分的方法,缺乏依据。文献[6]利用ID3算法,对1969条研究生的借阅记录进行了分类建模,利用读者是否为新生、是否为工程类学生、性别和距离图书馆的远近等属性,构建决策树模型,得出的结论为:读者是否为新生为第一决定因素,其次为是否工程类、距离远近和性别,一年级新生离图书馆近的、高年级工科学生为活跃读者等。笔者认为文献[6]的数据只覆盖研究生读者,样本不全,且模型仅从训练数据构建,没有测试数据测试,使模型的普适性受到怀疑。另外,文献[5-6]没有对具体所用挖掘工具的介绍。   针对上述研究背景,本文使用SPSS Clementine软件,采用基于C5.0的决策树分类算法,对国关图书馆的4366条读者借阅记录进行建模。建模过程综合考虑读者身份、专业、年级、性别、民族和索书号等因素,构建读者借阅频度决策树分类模型,分析影响读者借阅量的主要因素,给出针对不同读者群的借阅权限分配和服务建议。作为数据挖掘在图书馆的进一步应用探索,本文一方面可为国际关系学院图书馆开展实际业务工作提供帮助;另一方面可为其他高校图书馆开展挖掘实践,提供方法和过程指导。   1 需求分析及技术思路   1.1 需求分析   国际关系学院图书馆藏书37万余册,服务对象为全校师生员工、家属、成人教育学员、国际大学预科项目PCP学员(Pre-College Program)等。服务的部门涵盖法律系、公共管理系(简称公管)、国际经济系(简称国经)、国际政治系(简称国政)、日语法语系(简称日法)、文化与传播系(简称文传)、信息科技系(简称信科)、英语系共八个系。   长期以来,国关图书馆对于读者权限的设定按本科生、研究生和教工划分,见表1。这种划分一是没有结合读者的实际借阅需求,可能造成借阅需求量大的读者权限不足,借阅需求量小的读者权限过剩;二是划分不够细化,没有考虑到读者年级、专业、性别、成绩等因素对借阅量的影响。依据读者的现实个性化需求来确定借阅权限,已成为目前高校图书馆借阅权限改革的方向[7],问题在于:影响用户借阅量的因素有哪些,哪些是主要因素,如何确定这些因素,如何根据这些因素定制差异化权限和服务。本文针对这些问题展开讨论。
  1.2 技术思路   本文收集国关图书馆的借阅数据,通过对历史数据的挖掘和分析找出影响读者借阅需求的若干因素,依靠这些因素进行借阅权限细分。具体地,本文借助于SPSS Clementine工具中的决策树挖掘方法对数据进行分析,借助于挖掘得到的决策树识别影响读者借阅量的主要因素,对借阅量按借阅频度进行分级,并构建一个判定用户借阅频度的决策树分类模型,然后基于决策树分类模型,给出针对国关图书馆读者的借阅权限建议。具体技术思路如图1所示。   2 具体的实现方案   2.1 数据源   数据源于国关图书馆金盘系统Oracle数据库,主要涉及原始数据库三个表:、、。其中流通日志表记录读者每次到馆的一项事务。笔者利用这三张表进行连接,从流通日志表抽取完整一学年的数据,抽取后的数据存储在Excel表中,命名为 (格式见表2),该表共包含记录109609条,字段8个。其中操作类型为事务类型,如J:借书/H:还书/S:赔书等;读者级别为读者身份,如本科生、研究生、信科教职工等;源单位具体到班级,如:信科0601/国经0702/国政研二等。   2.2 数据预处理   ⑴ 数据筛选   取出流通事务记录表中操作类型为“J”(借书)的全部记录。   ⑵ 分组计数   取出的记录集按读者条码分组,统计每个读者出现的次数,将此数值记为读者在一学年中的“借书数”。将此属性添加到中具有相同读者条码的记录中。未在流通事务记录表中出现的读者条码的借书数记为0。   ⑶ 空缺值的处理   一些记录在“单位”字段上取值为空,用“资料不全”填充空缺值。   ⑷ “借书数”区间化   对“借书数”这一数值属性,在建模前对其区间化,把它划分为几个等级来描述读者的借阅频度,并让其作为输出属性,为读者建立分类决策树。该字段原先的数值分布如图2所示。在4366个读者中,一年中读者借书数最多的为174本,平均约12本,最少的为0本(约占50%,即一般读者该年没有借过书)。借过书的读者按照其累计借书量的增加,人数基本呈递减模式。   对“借书数”区间化时,先将没借过书的读者单分一个区间,即借书数等于0,记为“Null”。其余读者尽量按照等频,即相等人数的原则,分为高(high)、低(Low)两个区间,经过统计分析,发现“17”为较好的分界点,区间划分规则为:0<借书数<=17:Low;17<借书数:High。   为记录区间化后的借阅频度,为读者库表添加列“借阅频度”,来储存每位读者的年借阅量,处理后的借阅频度属性不同区间的样本数量分布为:   Null:2187;Low:1103;High:1076;总计:4366。   ⑸ 其他字段的概化   “读者级别”字段中,教职人员具体到各系和各行政部门,将该字段统一归为“教职工”。“源单位”字段中,学生的单位具体到班级,将其概化到年级。将“索书号”字段概化为索书号头一位。   将预处理后的数据导入到Microsoft Access数据库中,表名命名为,它共包含国关4366名读者09-10学年的借书统计数据,见表3。   2.3 模型构建   利用数据挖掘工具SPSS Clementine(版本11.1)中的C5.0建模节点构建决策树模型。将预处理后的Access数据库表文件作为数据源节点,先后连接工具中的“选择节点”、“抽样节点”和“C5.0节点”,形成如图3所示的读者借阅频度挖掘训练流程图。   将得到的分类模型加入到流程取代“借阅频度类别”建模节点,链接相关输出节点,检验训练样本的自检正确率。之后再用原样本剩下的30%做测试,具体流程如图7所示。其中测试路径抽样节点的配置跟图6基本相同,除了将单选按钮“包含”改为“丢弃。   执行图7流程,得到模型测试结果,其中训练样本上的测试正确率为69.1%,测试样本上的正确率为67.2%。   模型分类结果与测试样本的对比矩阵见表4。该矩阵记录了得到的决策树模型对不同属性取值的分类结果和所占总样本的比例等信息。例如表4,对于测试样本中原来标注为“High”的记录,决策树准确地将其中的203条记录归类为“High”,占所有标为“High”的样本数的60.237%,占总样本数的16.009%。在所有被决策树归类为“High”的记录中,正确归类的这432条占其中的59.882%。   2.4 模型优化   在创建决策树过程中,训练样本可能存在噪声和离群点,形成异常分支,异常分枝在训练模型中表现好,但会对预测带来不良影响。因此通常需对决策树剪枝,使树的复杂度降低,更易理解,预测分类时更快更好。   在SPSS Clementine中,C5.0模型通过“修剪严重性”指标控制对决策树的修剪程度,取值为0到100,该指标值越小剪枝越少;值越大剪枝越多。为保证模型精度,并使构建的决策树简单。笔者对“修剪严重性”指标进行了不同设置和反复测试,测试结果见表5。   从表5看出,当“修剪严重性”在50-85间变化时,测试样本准确率和训练样本自检率并没有出现较大变化,而树的复杂度降低了,深度从3变为2。为了在不增加决策树深度的情况下保留较完整的决策树信息,我们将“修剪严重性”值设为50,此时树的深度为2。   最终生成的国关读者借阅频度决策树分类模型如图8所示。   集合A={法律(大三,研一/研二),公管大三,国经(研一/研二),国政(大二/大三,研一/研二),日法(研一/研二),文传(大一/大二/大三,研一/研二),信科(大一/大二/大三,研一/研二),英语(大一/大三/大四,研一/研二),应用化学研一}
  集合B={法律(大一/大二/大四),公管(大一/大四),国经(大一/大三/大四),国政(大一/大四),日法(大二/大三/大四),信科大四,英语大二,应用化学研二,家属,成人教育}   集合C={公管大二,信科研三,应用化学研三,教职工,外教,PCP}   需说明的是,公管系在2009年至2010学年还没有研究生,故相应信息未出现在决策树分支集合中。除信科系外,其他系的研究生学制均为两年,没有研三。   2.5 模型分析和建议   模型的准确度还不够高,这可能是由于源数据缺乏更多与“借阅频度”相关的属性,可继续收集一些有关读者学习成绩(如GPA、年级排名)、距离图书馆远近等信息来为建模服务。   从图8中看出,所在单位(包括身份、专业和年级)对其借阅量影响较大,其次是“性别”。具体如下。   ⑴ 借阅量高的读者(活跃读者群):文传大四女生,集合A(特别是大三的学生)。约占总人数的25%。   ⑵ 借阅量低的读者(一般读者群):国经大二女生,日法大一女生,集合B;约占总人数的25%。   ⑶ 无借阅的读者(沉默读者群):国经大二、日法大一、文传大四的男生,集合C。约占总人数的50%。   按身份分析,大致地,本科生大二、大三的借阅需求较大,大一新生和大四毕业班学生借阅需求较小;研究生文科的借阅需求较大,理科非毕业班的借阅需求大,理科毕业班研三的借阅需求小;教职工借阅需求小。尤其是理科研三学生和教职工在09-10学年的借阅量为0,这可能是由于理科研三写论文所需要的文献大多从电子数据库中获取,而国关教职工每人每年都有充足的购书经费,使得他们更愿意自己购买图书的方式获取资料。   从上述分析结果看出,权限最低的本科生中很多群体借阅量高,而权限最高的教工的借阅量却为0,这跟表1的权限分配相悖,说明了表1权限分配的不合理性。针对国关图书馆读者的借阅权限分配,本文提出以下建议。   建议⑴:按决策树分类模型划分权限。模型中活跃读者群,借阅册数权限设为20;一般读者群,借阅册数权限设为10;沉默读者群,借阅册数权限设为5。权限划分的关键在于模型的构建和基于模型的读者分类,具体数值可根据藏书量、读者人数加以调整。   建议⑵:平均划分权限。按教育部规定,高校图书馆的生均藏书量应达到80-100册,按一个图书馆可经常利用文献量约为馆藏总量的20%计[8],理论上的每生借阅权限应在16-20之间。国关人均藏书量约为85册(37万册/4366人),因此理论上每人借阅权限应为20%×85册=17册,考虑到国关有约50%的人基本不到图书馆借书,理论上的借阅权限还有较大上调空间。保守计算,可将借阅册数权限统一设为17,以最大程度体现“平等服务”和最大限度满足读者借阅量。   建议⑴重视读者需求差异,有助于提高文献利用率和读者需求满足率,但未考虑读者对“平等借阅权”的诉求,然而相对于表1的权限设置更为合理和科学;建议⑵重视读者借阅权的平等。   除借阅权限,图书馆还可针对不同读者群提供针对性服务,比如针对活跃读者群,图书馆可让其参与到图书购买、图书资源评价中,进行新书推荐,提供额外的培训,以提高文献资源利用率和最大限度满足读者需求。   3 结束语   图书馆的数据挖掘对提升图书馆服务质量,开发增值服务具有重要意义。本文从校图书馆的实际需求分析和数据出发,采用SPSS Clementine中的C5.O决策树算法,建立借阅频度决策树分类模型。建模结果显示,决策树模型可按借阅量对读者有效分类,读者身份、专业、年级和性别对借阅量有重要影响,本科大三学生借阅需求较大,大四学生借阅需求小。决策树模型能够帮助图书馆进行读者细分、调整借阅权限和提供差异化服务。   进一步的研究可从两个方面开展,一是收集更多年份、更多属性的数据,提高模型的准确率;二是以分析读者的借阅时长为目标,建立读者借阅时长分类模型,为图书馆针对不同读者群制定不同借阅期限提供帮助。   参考文献:   [1] 顾倩.数据挖掘应用于高校图书馆个性化服务的探讨[J].图书馆杂志,):63-65   [2] 郑斐,郭彦宏,郝俊勤,刘娜.数据挖掘技术如何在图书馆建设中体现价值[J].图书情报工作,3-264,212   [3] 王伟.基于数据挖掘的图书馆用户行为分析与偏好研究[J].情报科学,):391-394,418   [4] 冯研,王馨.国内图书馆数据挖掘技术实践应用进展分析[J].图书馆学研究,-4   [5] 吴修琴.决策树分类技术在图书馆管理中的应用[J].农业图书情报学刊,):24-26,35   [6] 张金镯.基于数据挖掘的图书馆活跃读者研究[J].现代图书情报技术,-99   [7] 朱远春,杨光,卢秀英.试论高校图书馆借阅权限分配[J].图书馆,3,130   [8] 杨玲梅.我国高校图书馆读者借阅权限研究综述[J].图书馆学研究,-4
转载请注明来源。原文地址:
【xzbu】郑重声明:本网站资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有,如有不愿意被转载的情况,请通知我们删除已转载的信息。
xzbu发布此信息目的在于传播更多信息,与本网站立场无关。xzbu不保证该信息(包括但不限于文字、数据及图表)准确性、真实性、完整性等。&&&&数据挖掘原理与SPSS Clementine应用宝典
本文集从数据挖掘基础、数据挖掘经典算法、数据挖掘业务建模与模型评价、SPSS Clementine数据挖掘实务这4方面对数据挖掘技术进行了全面介绍,既包含传统经典的数据挖掘方法,同时也包含了部分数据挖掘的研究成果;通过学习,大家可以对数据挖掘理论有一定的认识,理解数据挖掘经典算法的实现,并且可以掌握数据挖掘建模以及SPSS Clementine数据挖掘实战。
浏览量:-- 专题合计
份文档-- 所需金币:960
( 文档总价:1920
所需金币:960
, 您当前剩余:0
1920 金币, 已优惠960
请使用 winRar 5.0
以上的版本,否则解压后的文件可能会有乱码!SPSS Clementine是Spss公司收购ISL获得的数据挖掘工具。在Gartner的客户数据挖掘工具评估中,仅有两家厂商被列为领导者:SAS和SPSS。SAS获得了最高ability to execute评分,代表着SAS在市场执行、推广、认知方面有最佳表现;而SPSS获得了最高的completeness of vision,表明SPSS在技术创新方面遥遥领先。
客户端基本界面
SPSS Clementine(在此简称clementine)在安装好后会自动启用服务,服务端的管理需要使用SPSS Predictive Enterprise Manager,在服务端clementine没有复杂的管理工具,一般的数据挖掘人员通过客户端完成所有工作。下面就是clementine客户端的界面。
一看到上面这个界面,我相信只要是使用过SSIS+SSAS部署数据挖掘模型的,应该已经明白了六、七分。是否以跃跃欲试了呢,别急,精彩的还在后面 ^_’
顾名思义,是对项目的管理,提供了两种视图。其中CRISP-DM (Cross Industry Standard Process for Data Mining,数据挖掘跨行业标准流程)是由SPSS、DaimlerChrysler(戴姆勒克莱斯勒,汽车公司)、NCR(就是那个拥有Teradata的公司)共同提出的。Clementine里通过组织CRISP-DM的六个步骤完成项目。在项目中可以加入流、节点、输出、模型等。
工具栏总包括了ETL、数据分析、挖掘模型工具,工具可以加入到数据流设计区中,跟SSIS中的数据流非常相似。Clementine中有6类工具。
源工具(Sources)
相当SSIS数据流中的源组件啦,clementine支持的数据源有数据库、平面文件、Excel、维度数据、SAS数据、用户输入等。
记录操作(Record Ops)和字段操作(Field Ops)
相当于SSIS数据流的转换组件,Record Ops是对数据行转换,Field Ops是对列转换,有些类型SSIS的异步输出转换和同步输出转换(关于SSIS异步和同步输出的概念,详见拙作:。
图形(Graphs)
用于数据可视化分析。
输出(Output)
Clementine的输出不仅仅是ETL过程中的load过程,它的输出包括了对数据的统计分析报告输出。※在ver 11,Output中的ETL数据目的工具被分到了Export的工具栏中。
模型(Model)
Clementine中包括了丰富的数据挖掘模型。
数据流设计区
这个没什么好说的,看图就知道了,有向的箭头指明了数据的流向。Clementine项目中可以有多个数据流设计区,就像在PhotoShop中可以同时开启多个设计图一样。
比如说,我这里有两个数据流:Stream1和Stream2。通过在管理区的Streams栏中点击切换不同的数量流。
管理区包括Streams、Outputs、Models三栏。Streams上面已经说过了,是管理数据流的。
不要跟工具栏中的输出搞混,这里的Outputs是图形、输出这类工具产生的分析结果。例如,下面的数据源连接到矩阵、数据审查、直方图工具,在执行数据流后,这个工具产生了三个输出。在管理区的Outputs栏中双击这些输出,可看到输出的图形或报表。
经过训练的模型会出现在这一栏中,这就像是真表(Truth Table)的概念那样,训练过的模型可以加入的数据流中用于预测和打分。另外,模型还可以导出为支持PMML协议的XML文件,但是PMML没有给定所有模型的规范,很多厂商都在PMML的基础上对模型内容进行了扩展,Clementine除了可以导出扩展的SPSS SmartScore,还可以导出标准的PMML 3.1。
作者:Cheney Shue
转载请注明来自36大数据(): &
除非特别注明,本站所有文章均不代表本站观点。报道中出现的商标属于其合法持有人。请遵守理性,宽容,换位思考的原则。如何在SPSS Clementine中加入文本挖掘模块,以及相关的教程?跪求!!急用_百度知道
如何在SPSS Clementine中加入文本挖掘模块,以及相关的教程?跪求!!急用
我有更好的答案
celemtine原本就是做数据挖掘的我替别人做这类的数据分析蛮多的
对字符串型的文本如何进行挖掘呢?需要加入文本挖掘的模块吗?
其他类似问题
为您推荐:
clementine的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁}

我要回帖

更多关于 clementine和spss 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信