数据挖掘毕业论文(共7篇)

个人学习 17 0

数据挖掘毕业论文 第1篇

摘要:本文简述如何将数据挖掘技术应用于图书馆各部门管理中,帮助图书馆管理者依据数据挖掘技术更好地为读者提供科学化和人性化的服务,促进图书馆事业的创新与发展。

关键词:高校图书馆;数据挖掘;创新;发展。

随着网络技术、计算机技术的快速发展,高校图书馆事业也顺应时变,不断向高科技、高水平领域进展,尤其是当今处于数字信息发展的时代。如果利用图书馆现有以及收集的数据资源,通过数据挖掘技术来分析、筛选对图书馆有用的数据信息,依据提炼的数据资源来指导、推进图书馆事业的创新与发展,是当今信息时代图书馆亟待研究、探讨的一个问题。本文将简述如何将数据挖掘技术应用于图书馆各部门管理之中,帮助图书馆管理者依据数据挖掘技术更好地为读者提供科学化和人性化的服务,促进图书馆的事业创新与发展。

一、数据挖掘技术综述。

数据挖掘定义。数据挖掘(Data Mining,DM)是一种新的信息处理技术,其主要特点是对单位、企业数据库中的大量业务数据进行抽取、转换分析和其他模型化处理,以从中提取辅助管理决策的关键性数据。数据挖掘就是从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。换句话说,数据挖掘技术就是从收集的大量、繁杂的数据中挖掘出其隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。

数据挖掘的意义。在当今的竞争时代社会中,随着计算机的飞速发展,计算机强大的数据处理能力、内存储存容量和网络宽带等价格的持续快速下降,因此大型的数据分析、提取技术不再是一个障碍。面对图书馆每天接收的庞大数据源,管理者必须学会从所拥有的大量数据信息源中提取并利用隐含在这些数据中的有用价值以及有用新信息,从而获取对图书馆事业研究领域的本质认知和未来认知,帮助图书馆管理者从传统的经验管理、主观管理提升为理性管理和科学管理。

数据挖掘的应用分类。目前较常用的一般有分类与回归、关联规则、聚类分析、时序模式等。

二、数据挖掘技术对图书馆事业创新与发展的影响。

面对大量数据,如何去存储和收集数据,如何利用数据挖掘技术将图书馆海量信息数据中提取供管理者决策的有价值的数据,提取并利用隐藏在这些数据中的有用知识的能力变得越来越重要。运用数据挖掘技术从数据中获得有用的知识,这在图书馆管理方面显得尤为重要,本文将简述如何将数据挖掘技术应用于图书馆各部门工作,为今后各部门的创新与发展提供策略分析。

流通部门。流通部门作为图书馆的一线服务岗位,对图书馆功能的发挥起着举足轻重的作用。作为窗口形象岗位,直接体现了图书馆的整体工作状态。

要实现从以往的经验管理、主观管理提升为科学管理和理性管理,数据挖掘技术将利用现代技术展现其独天得厚的优势。图书馆每天都会产生大量的图书流通数据,这些数据包含进、出馆读者人数,借、还书数量,检索查询次数以及网上咨询等大量繁杂的数据。在流通部门最为常用的数据就是借书、还书量,通过借书、还书数据的统计,可获取读者信息行为、借阅书兴趣导向,充分利用数据挖掘技术如关联规则、分类、聚类、时间序列分析等,对图书馆蕴含的大量丰富的用户行为进行建模,从而挖掘出有用的或有兴趣的信息和知识。如可利用这些有价值的信息,借鉴“啤酒与尿布”的经典商业案例,尝试在流通部开辟一块试验田地――搭档书架,即通过借、还书数据挖掘,将读者感兴趣、组合搭档频率高的书籍挑选出来,开辟一块搭档书架,方便读者在借用专业书籍的同时顺便也借阅自己感兴趣的图书,既学习了自己的专业知识,同时也顺便阅读了自己感兴趣的书籍,充分实现了图书馆“第二课堂”的育人价值。

采编部门。传统的采编部门在采集书籍时大多数情况是依据采集经验或是依据各院系、读者反馈的需求书籍进行征订。大部分购买的图书还是比较适合读者所用的`,但也会存在一些盲目性,有时会造成采集的偏差,这是采编部门一直比较困惑的问题。如何既将购书经费合理利用好,同时又能满足读者借阅所需,是采编部门长期探索、研究的问题。如果将数据挖掘技术运用到采编部门,通过一线的文献借阅数据,分析、挖掘、提炼读者借、还书的信息量,且一直追踪这些信息数源的变化,即可获得可被部门利用的有价值数据,并汇总出读者借、还书的规律。依据这些一线信息数源的价值,加之网上荐购及读者书面荐购等信息,汇总出哪些是读者专业常用书籍,哪些是读者感兴趣的书籍,哪些又是常年被冷落的书籍,从中提炼出书籍采集的方向;合理化的采集方案继续延用,不合理的采集要进行科学化的数据分析,及时理清思路,尽可能做到书籍采集的合理化、科学化。

技术部门。在信息飞速发展的时代,作为图书馆负责信息网络技术的部门,其肩上的重量显得格外沉重。技术部门不但肩负着网络技术的责任,当今也要肩负起图书馆所有数据的收集、存储、挖掘及分析技术。数据挖掘及分析技术在技术部十分重要,技术部应将图书馆各部门所产生的相关数据进行长期性、系统性的收集和科学分析,并将研究数据的挖掘及分析作为当前和今后技术部研究及发展的方向,承担起“数据监护员”的角色,通过实践为图书馆提供数据监护操作技能及策略。注意将可获得的数据及时进行收集,并通过收集数据使用案例,分析并总结用户需求及使用规律,为数据监护提供基础资料。

数据挖掘毕业论文 第2篇

(1)确定业务对象:做好业务对象的明确是数据域挖掘的首要步骤,挖掘的最后结构是不可预测的,但是探索的问题必须是有预见的,明确业务对象可以避免数据挖掘的盲目性,从而大大提高成功率。

(2)数据准备:首先,对于业务目标相关的内部和外部数据信息进行查找,从中找出可以用于数据挖掘的信息;其次,要对数据信息的内容进行全面细致分析,确定需要进行挖掘操作的类型;然后,结合相应的挖掘算法,将数据转化称为相应的分析模型,以保证数据挖掘的顺利进行。

(3)数据挖掘:在对数据进行转化后,就可以结合相应的挖掘算法,自动完成相应的数据分析工作。

(4)结果分析:对得到的数据分析结果进行评价,结合数据挖掘操作明确分析方法,一般情况下,会用到可视化技术。

(5)知识同化:对分析得到的数据信息进行整理,统一到业务信息系统的组成结构中。这个步骤不一定能够一次完成,而且其中部分步骤可能需要重复进行。

二、数据挖掘技术在水利工程管理中的实施要点

水利工程在经济和社会发展中是非常重要的基础设施,做好水利工程管理工作,确保其功能的有效发挥,是相关管理人员需要重点考虑的问题。最近几年,随着社会经济的飞速发展,水利工程项目的数量和规模不断扩大,产生的水利科学数据也在不断增加,这些数据虽然繁琐,但是在许多科研生产活动和日常生活中都是不可或缺的。例如,在对洪涝、干旱的预防以及对生态环境问题的处理方面,获取完整的水利科学数据是首要任务。那么,针对日益繁杂的海量水利科学数据,如何对有用的信息知识进行提取呢?数据挖掘技术的应用有效的解决了这个问题,可以从海量的数据信息中,挖掘出潜在的、有利用价值的知识,为相关决策提供必要的支持。

1.强化数据库建设

要想对各类数据进行科学有效的收集和整理,就必须建立合理完善的数据库。对于水利工程而言,应该建立分类数据库,如水文、河道河情、水量调度、防洪、汛情等,确保数据的合理性、全面性和准确性,选择合适的方法,对有用数据进行挖掘。

2.合理选择数据挖掘算法

(1)关联规则挖掘算法:关联规则挖掘问题最早提出于1993年,在当前数据挖掘领域,从事务数据库中发现关联规则,已经成为一个极其重要的研究课题。关联规则挖掘的主要目的,是寻找和挖掘隐藏在各种数据之间的相互关系,通过量化的数据,来描述事务A的出现对于事务B出现可能产生的影响,关联规则挖掘就是给定一组Item以及相应的记录组合,通过对记录组合的分析,推导出Item间存在的相关性。当前对于关联规则的描述,一般是利用支持度和置信度,支出度是指产品集A、B同时出现的概率,置信度则是在事务集A出现的前提下,B出现的概率。通过相应的关联分析,可以得出事务A、B同时出现的简单规则,以及每一条规则的支持度和置信度,支持度高则表明规则被经常使用,置信度高则表明规则相对可靠,通过关联分析,可以明确事务A、B的关联程度,决定两种事务同时出现的情况。

(2)自顶而下频繁项挖掘算法:对于长频繁项,如果采用关联规则挖掘算法,需要进行大量的计算分析,不仅耗时耗力,而且影响计算的精准度,这时,就可以采用自顶而下频繁项挖掘算法,这种算法是一种相对优秀的长频繁项挖掘算法,利用了事务项目关联信息表、项目约简、关键项目以及投影数据库等新概念与投影、约简等新方法,在对候选集进行生成的过程中,应该对重复分支进行及时修剪,提升算法的实际效率,从而有效解决了长频繁项的挖掘问题。结合计算机实验以及算法分析,可以看出,这种方法是相对完善的,同时也是十分有效的。不过需要注意的是,当支持度较大、频繁项相对较短时,利用关联规则挖掘中典型的Apriori方法,可以起到更好的效果。

(3)频繁项双向挖掘算法:这种算法是一种融合了自顶向下以及自底向上的双向挖掘算法,可以较好的解决长频繁项以及段频繁项的挖掘问题,主挖掘方向是利用自顶向下挖掘策略,但是结合自底向上方法生成的非频繁项集,可以对候选集进行及时修剪,提升算法的实际效率。

三、结语

数据挖掘毕业论文 第3篇

摘要:随着计算机信息网络的快速发展,数据挖掘在软件工程中的地位越来越突出。软件工程数据挖掘是在冗余的数据中发现有用的数据,从而得到更好地利用。社会的发展,科技的进步使得社会进入了网络信息热时代,随之计算机软件也不断增加,人们获取的信息大部分是人手动操作软件获得的,这样的信息量具有一定的局限性。因此,为了满足当今社会的需要,必须借助于软件工程数据挖掘的手段。

关键词:软件工程;数据挖掘;研究现状

利用数据挖掘技术对大量冗余的数据进行筛选从而得到少量精确的信息。冗余的数据是指既包含有用信息有包含无用信息,利用数据挖掘技术剔除掉多余的无用信息留下有用信息,这样既可以提高手机数据的质量又可以提高工作效率。所以,数据挖掘技术在当前的软件工程中起着越来越重要的作用。数据挖掘技术提取、筛选、分析和整理数据比人工操作软件获得的数据更精确更高效。同时,使用这种技术为软件开发者提供了有利的条件,它可以给软件开发者提供一些对其开发软件有用的信息。软件开发者想要更有效率的开发出更高质量的软件,就必须获得更多的更有用的数据,而想要收集和整理出有用数据就需要借助数据挖掘技术来实现,进而提高工作效率。

1 数据挖掘的基本概述

软件工程数据主要是指开发软件过程中所涉及的各类数据,如需求分析、可行性分析、设计等文档,开发商通信、软件注释、代码、版本、测试用例和结果、使用说明、用户反馈等信息数据,一般情况下其是软件开发者获取软件数据的唯一来源;而数据挖掘是指在海量数据中集中发现有用知识或信息的过程。

软件工程数据挖掘的工作原理 主要包括数据预处理阶段、挖掘阶段以及评估阶段三个方面。在挖掘阶段主要是运用分类、统计、关联、聚类、异常检测等一系列算法的过程。在评估阶段数据挖掘的意义主要在于其结果应易被用户理解,其结果评估主要有两个环节分别是模式过滤和模式表示。

数据挖掘在计算机软件工程中的研究相当多,它是分析数据的一种新颖方式。目前,随着社会工作的复杂度,需要更加完善的软件,因此对于软件代码的数量也在急剧增加进而导致了数据量的快速增长。而传统的数据计算方式已经不能满足目前对于大量数据进行分析的要求,所以,研究者希望能够发掘出一种新的数据分析方式更高效的整理出有用的数据信息。软件开发中会积累大量的数据,比如说文本数据,测试数据,用户信息数据以及用户体验反馈数据等等,软件开发者为了开发出更好的软件就必须分析和整理这些数据。但是,目前软件工程开发的软件越来越大,其数据越累越复杂对于数据的处理已经超出了人工处理的能力的范畴,所以说继续使用传统数据处理的方式来收集,整理和分析数据已经不可能实现。因此,推动了人们对于新的数据处理方式的研究,所以才提出了软件工程数据挖掘技术。

2 软件工程数据挖掘的应用

随着计算机软件工程的发展,可以发现传统的数据挖掘技术具有很多的不足,存在一定的缺陷。传统的数据挖掘技术的定位系统不完善,定位不精确,并没有体现出数据挖掘技术的高性能,它不足以满足当代对于数据处理的要求,因此需要对传统的数据挖掘技术进行改进和完善,这是我们目前的首要任务之一。为了迎合现代化网络信息技术的快速发展,需要发掘出新的数据处理模式,就是在这样的背景条件下,诞生了软件工程数据挖掘技术。相比于存在很多缺陷与不足的传统软件工程而言,软件工程数据挖掘技术更加简单、方便、高效以及精确。软件工程数据挖掘技术并不需要特定的技术平台,体现了其普适性。当前,我国已经开始深入的研究软件工程数据挖掘技术,但是,仍然需要更深的开发其性能以便更好地满足社会的需求。

3 软件工程数据挖掘面临的挑战

软件工程数据相比于普通数据更加复杂,所以对于软件工程数据进行处理具有很大的挑战性。处理软件工程的大量数据具有:软件工程数据复杂性,软件工程的数据处理非传统以及需要严格精确的软件工程数据的分析结果等三方面的困难。

对数据复杂性的分析

软件工程数据包括结构化数据和非结构化数据。软件工程中所产生的缺陷报告以及各种版本信息构成了结构化数据信息;而软件工程处理过程中所产生的代码信息和文本文檔信息构成了非结构化数据信息。由于这两类数据包含的具体内容不同,所以需要分别处理这两种数据,需要使用不同的算法对他们进行处理。虽然说需要不同方式处理这两种数据但是并不表示这两种数据之间没有任何联系,事实上,它们之间存在着重要的对应关系。例如:代码中存在着缺陷报告,版本信息中存在着对应的文档信息,由于它们之间存在着这样的对应关系,所以使得人们不能很好地对其进行整体分析,这就促使了人们开发出一种新的算法,新的数据分析技术能够同时将结构化信息和非结构化信息这两种对应数据一起挖掘出来。

对数据处理非传统的分析

分析和评估软件工程数据挖掘出来的信息,这是数据挖掘过程的最后一步。客户是软件工程数据挖掘数据处理的最后宿体,软件开发者需要对最终挖掘出来的数据进行转变,格式转变是为了满足广大客户对于数据不同的要求。但是,由于需要对数据进行格式转变,相当于增加了一定的工作量,那么软件工程数据挖掘的效率则会被大大降低。对于客户而言,他们需要的信息各种各样并不单一,比如说客户可能会同时需要具体的例子和编程代码等;或者说需要具体例子和缺陷报告等;或者三者皆需要。由此可见,我们仍然需要改进和完善软件工程数据挖掘技术来提高其效率。怎样才能做到让客户得到满意的数据挖掘结果呢?那么就需要高效的数据挖掘技术将各类信息进行归纳总结,改变其格式。这样的技术,不仅仅可以满足客户需求而且还可以使软件开发者从中得到更大的利益。

对数据挖掘结果好坏的评价标准

对于传统的数据挖掘技术而言,它也有一套自己的对于数据结果处理好坏的分析标准,而这个标准对于传统数据挖掘技术数据处理的分析较准确。但是,在当前的软件工程所要处理的数据量很大,传统的评价标准已经不能满足现在的数据分析要求;使用不同的数据结果评价标准来评判不同的数据挖掘结果。然而不同的评价标准之间的`联系并不紧密,因此就需要开发者针对不同的数据类型做出不同的评价分析标准以便满足客户需求。想要对数据分析结果是否准确,数据挖掘的信息是否合理等等这些不同的问题进行更加深刻的了解,就要求开发者有独特的见解,对于数据结果是否精确有一定的判断能力。总之,获取准确的信息就是软件工程数据挖掘的目的。所以,最后获得的数据是否满足要求就是评判软件工程数据挖掘结果是否完美的标准。endprint

4 对软件工程数据挖掘应用进行分析

对软件数据挖掘技术进行分析

在软件开发的过程中,数据挖掘技术包括两个方面:(1)程序编写;(2)程序成果。在这个过程中,程序结构和程序功能技术的主要作用就是检索出有效的信息。提升信息的有效性需要联系到客户的实际需要,同时也需要对程序编写过程进行智能化培训。将调用、重载和多重继承等关系家合起来进行有效的记录各种相关信息,重视静态规则的同时利用递归测试的方式来分配工作,从而更有效的掌握关联度之间的可信性。

做好软件维护中的软件工程数据挖掘工作

在软件维护的过程中,软件修复和软件改善工作依赖于数据挖掘技术。数据挖掘技术在软件缺陷以及软件结构等也起到了重要的作用。软件修复即维护者通过依据缺陷分派进行有效的评估并改善缺陷程序进而确定修复级别或者维护者可以选择缺陷修复方式,无论哪种方式最终目的都是进行软件修复来保证数据挖掘的高效性。缺陷分派即将缺陷转化为文本类型,采取有效措施来进行修复。但是,这样的方式它的实际准确率并不高,因而需要利用强化检测来完善缺陷报告技术。

注重高性能数据挖掘技术开发工作

数据挖掘技术体现在软件开发工作中的创新性不可或缺,在实际的工作过程中,目前的软件工程数据挖掘更加重视两个工作:(1)规则分析方式;(2)项目检索工作。总而言之,想要高效快速地寻找病毒,并对其进行全方位分析和评估得到准确的病毒数据需要高性能数据挖掘技术。只有提升数据分析的可行性,提升软件开发安全性能,才能更好地实现软件工程的良好发展。

5 总结

综上所述,數据挖掘技术的应用非常广泛,比如说分析代码、软件故障检测以及软件项目管理等三个方面应用较多。值得关注的是,当前对于数据挖掘技术的研究还不够成熟。因此,研究者需要对软件工程数据挖掘技术进行深入的研究,从而能够促进软件更好地开发和管理。相信在不久的将来,我们一定可以在数据挖掘方面取得非常好的优化效果。

参考文献:

[1] 江义晟.软件工程数据挖掘研究进展[J].电子技术与软件工程,20xx(22).

[2] 胡金萍.探析软件工程数据挖掘研究进展[J].电脑知识与技术,20xx(34).

[3] 马保平.关于对软件工程中的数据挖掘技术的探讨[J].电子技术与软件工程,20xx(19).

[4] 徐琳,王宁.数据挖掘技术在软件工程中的应用分析[J].数字通信世界,20xx(8).

数据挖掘毕业论文 第4篇

[1]刘莹.基于数据挖掘的商品销售预测分析[J].科技通报.20xx(07)

[2]姜晓娟,郭一娜.基于改进聚类的电信客户流失预测分析[J].太原理工大学学报.20xx(04)

[3]李欣海.随机森林模型在分类与回归分析中的应用[J].应用昆虫学报.20xx(04)

[4]朱志勇,徐长梅,刘志兵,胡晨刚.基于贝叶斯网络的客户流失分析研究[J].计算机工程与科学.20xx(03)

[5]翟健宏,李伟,葛瑞海,杨茹.基于聚类与贝叶斯分类器的网络节点分组算法及评价模型[J].电信科学.20xx(02)

[6]王曼,施念,花琳琳,杨永利.成组删除法和多重填补法对随机缺失的二分类变量资料处理效果的比较[J].郑州大学学报(医学版).20xx(05)

[7]黄杰晟,曹永锋.挖掘类改进决策树[J].现代计算机(专业版).20xx(01)

[8]李净,张范,张智江.数据挖掘技术与电信客户分析[J].信息通信技术.20xx(05)

[9]武晓岩,李康.基因表达数据判别分析的随机森林方法[J].中国卫生统计.20xx(06)

[10]张璐.论信息与企业竞争力[J].现代情报.20xx(01)

[11]杨毅超.基于Web数据挖掘的作物商务平台分析与研究[D].湖南农业大学20xx

[12]徐进华.基于灰色系统理论的数据挖掘及其模型研究[D].北京交通大学20xx

[13]俞驰.基于网络数据挖掘的客户获取系统研究[D].西安电子科技大学20xx

[14]冯军.数据挖掘在自动外呼系统中的应用[D].北京邮电大学20xx

[15]于宝华.基于数据挖掘的高考数据分析[D].天津大学20xx

[16]王仁彦.数据挖掘与网站运营管理[D].华东师范大学20xx

[17]彭智军.数据挖掘的若干新方法及其在我国证券市场中应用[D].重庆大学20xx

[18]涂继亮.基于数据挖掘的智能客户关系管理系统研究[D].哈尔滨理工大学20xx

[19]贾治国.数据挖掘在高考填报志愿上的应用[D].内蒙古大学20xx

[20]马飞.基于数据挖掘的航运市场预测系统设计及研究[D].大连海事大学20xx

[21]周霞.基于云计算的太阳风大数据挖掘分类算法的研究[D].成都理工大学20xx

[22]阮伟玲.面向生鲜农产品溯源的基层数据库建设[D].成都理工大学20xx

[23]明慧.复合材料加工工艺数据库构建及数据集成[D].大连理工大学20xx

[24]陈鹏程.齿轮数控加工工艺数据库开发与数据挖掘研究[D].合肥工业大学20xx

[25]岳雪.基于海量数据挖掘关联测度工具的设计[D].西安财经学院20xx

[26]丁翔飞.基于组合变量与重叠区域的SVM-RFE方法研究[D].大连理工大学20xx

[27]刘士佳.基于MapReduce框架的频繁项集挖掘算法研究[D].哈尔滨理工大学20xx

[28]张晓东.全序模块模式下范式分解问题研究[D].哈尔滨理工大学20xx

[29]尚丹丹.基于虚拟机的Hadoop分布式聚类挖掘方法研究与应用[D].哈尔滨理工大学20xx

[30]王化楠.一种新的混合遗传的基因聚类方法[D].大连理工大学20xx

[31]杨毅超.基于Web数据挖掘的作物商务平台分析与研究[D].湖南农业大学20xx

[32]徐进华.基于灰色系统理论的`数据挖掘及其模型研究[D].北京交通大学20xx

[33]俞驰.基于网络数据挖掘的客户获取系统研究[D].西安电子科技大学20xx

[34]冯军.数据挖掘在自动外呼系统中的应用[D].北京邮电大学20xx

[35]于宝华.基于数据挖掘的高考数据分析[D].天津大学20xx

[36]王仁彦.数据挖掘与网站运营管理[D].华东师范大学20xx

[37]彭智军.数据挖掘的若干新方法及其在我国证券市场中应用[D].重庆大学20xx

[38]涂继亮.基于数据挖掘的智能客户关系管理系统研究[D].哈尔滨理工大学20xx

[39]贾治国.数据挖掘在高考填报志愿上的应用[D].内蒙古大学20xx

[ 40]马飞.基于数据挖掘的航运市场预测系统设计及研究[D].大连海事大学20xx

数据挖掘毕业论文 第5篇

1、大数据概述

大数据用来描述和定义信息爆炸时代所产生的海量数据,它是计算机和互联网互相结合的产物,计算机实现了信息的数字化,互联网实现了信息的网络共享化。随之兴起的则是从海量数据中挖掘预测出对人类行为有效的方法和结果,即数据挖掘技术[1]。数据挖掘(Datamining)指从大量的数据中通过算法搜索隐藏于其中的信息的过程,是一门跨多个领域的交叉学科,通常与人工智能、模式识别及计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。其特点为:海量数据寻知识、集成变换度量值、分析模式评效果、图形界面来展示[2]。

2、大数据时代下的高校机房现状

顺应时代潮流的发展,各高校都开设有计算机专业,非计算机专业也在大一或大二时期开设公共计算机课程,计算机成为教育领域内不可或缺的教学设备,随着高校的进一步扩招,教育事业的不断更新发展,学校的机房建设也随之增多,其任务由原来的面向计算机专业发展到面向全校的所有专业开设公共计算机教学、承担各种计算机考试等多项任务。因此机房管理系统在日常教学和考试任务中积累了海量数据,一般这些数据都保存在主服务器上仅供查询使用[3]。利用数据挖掘技术,对学校机房信息管理系统所积累的大量学生上机数据进行深入分析与挖掘,将挖掘得到的预测结果辅助学生成绩管理决策,能合理利用机房资源,提高学生成绩管理质量。本文利用关联规则,从现有的机房信息管理系统中收集到的海量学生上机记录数据中挖掘出隐藏在数据中的.学生上机规律和上机效率,进而预测学生的期末考试成绩,提前告知,学生可以在随后的学习中通过人为干预学习过程:比如挖掘预测出某生成绩将会较差,则可以在其后的学习中调整学习方式和学习态度,以修正期末考试结果,提高学习效率和考试通过率,为以后的就业做好铺垫,因此不管是对于当前利益还是长远利益,都有深远的意义。

3、数据挖掘阶段

1)定义问题:明确数据挖掘的预期目标。本次挖掘目标旨在从海量机房学生登录信息中找出能预测成绩的相关规则。

2)数据准备:提取数据挖掘的目标数据集,并进行预处理[4]。本次挖掘数据对象为吉首大学设备中心六楼公共计算机机房的学生上机信息表,并检查数据的有效性、一致性、完整性,并去除噪声,进行预处理。

3)数据挖掘:根据上个步骤所提取数据的特点和类型选择相应合适的算法,并在预处理过的数据集上进行数据挖掘。根据问题定义,本次选择关联规则算法Apriori算法,进行关联规则发现并预测。

4)分析挖掘结果:解释评价数据挖掘的结果,并将其转换成能被用户所理解的规则。

5)运用规则:通过分析挖掘结果,可以适当进行人工干预,修正学习行为,使得最终结果达到理想学习效率。

4、数据挖掘在机房管理系统中的应用

关联规则算法

Apriori算法采用逐层搜索的迭代方法,不需要复杂的理论推导,易于实现,是利用挖掘布尔关联规则频繁项集的一种算法。基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来[5]。

关联结果分析

以吉首大学实验室与设备管理中心为例,吉首大学实验室与设备管理中心下设置的公共计算机实验教学中心,负责学校公共计算机实验室建设与管理,组织实施公共计算机实验教学与开放,完成基于计算机平台进行的计算机等级考试、普通话测试、各类社会化考试等测试工作。其中承担公共计算机教学的机房共有7间,每个机房平均配置95台学生用计算机和一台教师教学用计算机,每台电脑上都安装有奥易机房管理软件,学生每次上机都必须通过奥易软件登录界面输入自己的学号和密码才能进入系统使用计算机,从而收集到学生的上机登录时间、离开时间,教师端可以利用奥易软件对任意学生电脑端进行调换、抓屏、控制屏幕、考试、答疑等操作,所有数据存储在机房管理端的后台数据库中,通过调用后台数据库中的学生上机情况数据,进行挖掘分析。由于数据量庞大,所以采用从起始顺序抽样的方法,抽取出20xx年11月5日的部分学生上机的相关数据,去除不完整、不一致、有缺失的数据,进行预处理,为达到预测挖掘目标提供正确的数据源。表1中的数据前六列是从奥易软件后台数据库中提取到的原始数据,我们设置第二、三、五列数据与学习情况有关联。将这些数据存在于整合表中,剔除学号异常的记录,即只要是学号异常,强制设定其上机情况为较差(异常学号学生,应为重修生,是学习重点关注对象),为了方便系统分析,将关联整合后的数据转化为布尔类型。登录时间:S1:10:00;S2:迟到五分钟;S3:迟到十分钟;S4:迟到十分钟以上。学号:N1:正常学号;N2:异常学号。下课时间:E1:正常下课时间;E2:提前五分钟下课;E3:提前五至十分钟下课;E4:提前十分钟以上下课。利用关联算法产生频繁项集情况分析Q:Q1:优秀;Q2:良好;Q3:一般;Q4:较差。利用Apriori算法挖掘关联规则,可以得到学生上机情况规律:S1,E1→Q1;(S2,E2)/(S1,E2)→Q2/Q3;S4,E4→Q4评价结果:按照正常上课时间上机并且坚持不早退的同学学习情况为优秀;上课准时但是提前五分钟之内下课的同学学习情况为良好;上课迟到五分钟以内且下课也提前五分钟的同学学习情况为一般;上课迟到十分钟以上并且下课早退十分钟以上的同学学习评估为较差。如果利用关联算法得出某个学生的学习情况有三次为较差,就启动成绩预警,提示并干预该生以后的上机学习,督促其学习态度,提高学习效率,以避免期末考试挂科现象。

5、结束语

借数据挖掘促进治理主体多元化[6],借关联分析实现决策科学化[7].,本文利用关联规则思路和算法,将吉首大学设备中心机房中存在的大量学生上机情况数据进行分析挖掘,尝试从学生上机相关数据中预测其学习情况,并根据预测结果有效提示学生的期末考试成绩走向,引导该生在随后的学习应该更加有效,以达到避免出现最坏结果,从而提高期末考试通过率。

参考文献:

[1]李涛,曾春秋,周武柏,等.大数据时代的数据挖掘——从应用的角度看大数据挖掘[J].大数据,20xx(4):57-80.

[2]王梦雪.数据挖掘综述[J].软件导刊,20xx(10):135-137.

[3]袁露,王映龙,杨珺.关于高校计算机机房管理与维护的探讨[J].电脑知识与技术,20xx(18):4334-4335.

[4]李明江,唐颖,周力军.数据挖掘技术及应用[J].中国新通信,20xx(22):66-67+74.

[5]胡文瑜,孙志挥,吴英杰.数据挖掘取样方法研究[J].计算机研究与发展,20xx(1):45-54.

[6]黄梦桥,李杰.因素挖掘法在投资学课程中的教学实践[J].吉首大学学报:自然科学版,20xx(4):80-83.

[7]尹鹏飞,欧云.基于决策树算法的银行客户分类模型[J].吉首大学学报:自然科学版,20xx(5):29-32.

数据挖掘毕业论文 第6篇

[摘要] 本文立足于web数据挖掘技术,从个性化网站的设计、crm中的应用和推荐系统中的应用三个角度,分析了电子商务中的web数据挖掘应用。

[关键词] 电子商务 web 数据挖掘

电子商务改变了人们传统的商务模式,同时,也改变了商家与顾客之间的关系。客户选择余地的扩大使得他们更加关注商品的价值,而不象以前首先考虑品牌和地理因素。因此对销售商而言尽可能的了解客户的爱好、价值取向,才能在竞争中立于不败之地。数据挖掘技术可以有效地帮助销售商理解客户行为,提高站点的效率。在电子商务网站的设计、客户关系管理(crm)、网络营销等方面得到广泛的应用。

一、数据挖掘在电子商务网站设计中的应用

数据挖掘可以得出诸如:什么客户喜欢这个站点、客户通过什么访问路径达成交易,以及客户访问站点的频率等信息,从而优化网站的结构提高网站的访问量,吸引更多的客户。对于改进网站设计、定制个性化页面、判断站点效率有着重要帮助。

利用web数据挖掘技术,个性化电子商务系统的实现过程包括信息采集、信息分析和个性化服务三个主要步骤:

1.信息采集。收集客户个人信息是提供个性化服务的基础。收集个人信息主要有两种方式。第一种方式是通过客户注册来获得,这种方式可以得到客户的性别、出生日期、最高学历、家庭收入、婚姻状况、职业等;第二种是通过客户在网站上的行为来判断个人的兴趣爱好等特点,从而获得客户个人信息。如果客户经常浏览某类产品或相关广告,我们就可以知道客户对这类产品感兴趣。

2.信息分析。一个成功和完善的个性化电子商务网站应该能够在对客户透明的情况下,对客户的资料、行为进行分析,并尽量不影响客户的页面处理时间,对于耗时较多的分析、分类处理应放在系统相对空闲和客户退出网站等时间处理,减少客户等待时间。信息分析过程如下:(1)将网站客户群进行分类,然后按照客户群兴趣特点进行内容设计,并且将内容相应归类;(2)定义客户类别所对应的内容,即某类客户最需要看到什么内容;(3)分析客户的行为和登录资料,判别客户所属的类别;(4)客户浏览网站不同页面时,以及提交购买定单时,修改相应行为资料。

3.个性化服务。根据客户类别显示相应的内容给客户,达到个性化服务的目的。为了使分类更具有可信性和稳定性,对注册时间较长,浏览及购买行为相对稳定的客户优先抽样。

二、数据挖掘在crm中的应用

1.客户的获取。在大多数的商业领域中,业务发展的主要指标包括新客户的获取能力。企业的市场部门人员可以采用传统的方法来发展新客户,如开展大规模广告活动;也可以根据所了解的目标客户群,将他们分类,然后进行直销活动。但是当数据量增大时,即使有丰富经验的市场人员想要选择出相关的人口调查属性的筛选条件也会变得很困难,随客户数量不断增长和每位客户的细节因素增多,要得出这样的行为模式的复杂度也同样增大。而数据挖掘技术可以帮助完成潜在客户的筛选工作。首先从一份潜在的客户名单开始,列出可能对企业的产品或服务感兴趣的消费者的信息,通过调查和处理对这些信息进行数据扩展,并和一些外部信息匹配,使之更适合数据挖掘分析。然后进行市场试验活动,根据所需要预测的客户行为在一定范围内对客户进行试验,记录下客户的反馈,称之为“反应行为模式”。剔除无反应行为和反应行为类别中重复的数据后,在确定细节粒度的基础上,利用数据挖掘技术构建出n元反应行为预测模型。根据这个模型,可以将潜在的客户排序,以便找出那些对企业的产品或服务最感兴趣的客户。

2.客户的保持。随着行业中的竞争愈来愈激烈和获得一个新客户的开支愈来愈大,保持原有客户的工作也愈来愈有价值。在crm的实施中,企业通过预测,找出可能会流失的客户,并分析出主要有哪些因素导致他们想要离开,在此基础上,有针对性地挽留那些有离开倾向的客户。

利用数据挖掘技术,可以通过挖掘大量的客户信息来构建预测模型,较准确地找出易流失客户群,并制定相应的方案,最大程度地保持住老客户。数据挖掘技术中的决策树技术能够较好地应用在这一方面。

3.客户的细分。细分是指将一个大的消费群体划分为一个个细分群体的动作,同属一个细分群的消费者彼此相似,而隶属于不同细分群的消费者被视为不同的。通过crm的实施,将产生细分的客户群,企业根据客户提出的要求和实际所做的不断地改善产品和服务,从而使企业不断提高使该客户群满意的能力。

数据挖掘技术中的聚类分析技术能够被运用来从客户信息数据库中发现不同的客户群,并且用购买模式来刻画不同客户群的特征,达到细分客户群的目的。根据客户数据特点,一般可采用聚类技术中的k平均算法来进行划分。其原理为将含原始客户信息的.数据库划分成k个聚簇,然后采用一定的算法使得同一簇中的对象是“相似的”,而不同簇中的是“相异的”。

三、推荐系统中的数据挖掘技术

1.贝叶斯网络。贝叶斯网络技术利用训练集创建相应的模型,模型用决策树表示,节点和边表示客户信息。模型的建立可以离线进行,一般需要数小时或数天,得到的模型非常小,对模型的使用非常快,这种方法适合客户的兴趣爱好变化比较慢的场合,推荐精度和最近邻技术差不多。

2.关联规则。关联规则既可用来分析商品间的参考模式,也可以向客户推荐商品,提高交叉销售能力。关联规则的发现可以离线进行,随着商品数目的增加,规则的数量呈指数增加,但通过决策者对支持度和置信度的选择,感兴趣模式以及算法的选取,也可以高效实现。推荐精度比最近邻技术略差。

3.聚类分析。该技术将具有相似爱好、购物兴趣的客户分配到相同的族中,聚类产生之后,根据该族中其他客户对某商品的评价就可以得到系统对该商品的评价,聚类过程可以离线进行,聚类产生之后,性能比较好,但如果某客户处于一个聚类的边缘,则对该客户的推荐精度比较低,推荐精度比最近邻技术略差。

4.推荐系统要兼顾准确性和实时性。一个好的系统可能是多种方法和技术的结合,取长补短。譬如,可以把聚类分析作为最临近算法的预处理,即通过聚类分析来减小候选集,最临近算法就可以在一个较小的数据集合中进行,从而提高了实时性。

参考文献:

[1]周彦晖:电子商务与web数据挖掘.计算机应用.20xx(5)

[2]董逸生:web挖掘研究综述.计算机科学,20xx(11)

数据挖掘毕业论文 第7篇

题目:大数据挖掘在智游应用中的探究

摘要:大数据和智游都是当下的热点, 没有大数据的智游无从谈“智慧”, 数据挖掘是大数据应用于智游的核心, 文章探究了在智游应用中, 目前大数据挖掘存在的几个问题。

关键词:大数据; 智游; 数据挖掘;

1引言

随着人民生活水平的进一步提高, 旅游消费的需求进一步上升, 在云计算、互联网、物联网以及移动智能终端等信息通讯技术的飞速发展下, 智游应运而生。大数据作为当下的热点已经成了智游发展的有力支撑, 没有大数据提供的有利信息, 智游无法变得“智慧”。

2大数据与智游

旅游业是信息密、综合性强、信息依存度高的产业[1], 这让其与大数据自然产生了交汇。2010年, 江苏省镇江市首先提出“智游”的概念, 虽然至今国内外对于智游还没有一个统一的学术定义, 但在与大数据相关的描述中, 有学者从大数据挖掘在智游中的作用出发, 把智游描述为:通过充分收集和管理所有类型和来源的旅游数据, 并深入挖掘这些数据的潜在重要价值信息, 然后利用这些信息为相关部门或对象提供服务[2]。这一定义充分肯定了在发展智游中, 大数据挖掘所起的至关重要的作用, 指出了在智游的过程中, 数据的收集、储存、管理都是为数据挖掘服务, 智游最终所需要的是利用挖掘所得的有用信息。

3大数据挖掘在智游中存在的问题

2011年, 我国提出用十年时间基本实现智游的目标[3], 过去几年, 国家旅游局的相关动作均为了实现这一目标。但是, 在借助大数据推动智游的可持续性发展中, 大数据所产生的价值却亟待提高, 原因之一就是在收集、储存了大量数据后, 对它们深入挖掘不够, 没有发掘出数据更多的价值。

信息化建设

智游的发展离不开移动网络、物联网、云平台。随着大数据的不断发展, 国内许多景区已经实现Wi-Fi覆盖, 部分景区也已实现人与人、人与物、人与景点之间的实时互动, 多省市已建有旅游产业监测平台或旅游大数据中心以及数据可视化平台, 从中进行数据统计、行为分析、监控预警、服务质量监督等。通过这些平台, 已基本能掌握跟游客和景点相关的数据, 可以实现更好旅游监控、产业宏观监控, 对该地的旅游管理和推广都能发挥重要作用。

但从智慧化的发展来看, 我国的信息化建设还需加强。虽然通讯网络已基本能保证, 但是大部分景区还无法实现对景区全面、透彻、及时的感知, 更为困难的是对平台的建设。在数据共享平台的建设上, 除了必备的硬件设施, 大数据实验平台还涉及大量部门, 如政府管理部门、气象部门、交通、电子商务、旅行社、旅游网站等。如此多的部门相关联, 要想建立一个完整全面的大数据实验平台, 难度可想而知。

大数据挖掘方法

大数据时代缺的不是数据, 而是方法。大数据在旅游行业的应用前景非常广阔, 但是面对大量的数据, 不懂如何收集有用的数据、不懂如何对数据进行挖掘和利用, 那么“大数据”犹如矿山之中的废石。旅游行业所涉及的结构化与非结构化数据, 通过云计算技术, 对数据的收集、存储都较为容易, 但对数据的挖掘分析则还在不断探索中。大数据的挖掘常用的方法有关联分析, 相似度分析, 距离分析, 聚类分析等等, 这些方法从不同的角度对数据进行挖掘。其中, 相关性分析方法通过关联多个数据来源, 挖掘数据价值。但针对旅游数据, 采用这些方法挖掘数据的价值信息, 难度也很大, 因为旅游数据中冗余数据很多, 数据存在形式很复杂。在旅游非结构化数据中, 一张图片、一个天气变化、一次舆情评价等都将会对游客的旅行计划带来影响。对这些数据完全挖掘分析, 对游客“行前、行中、行后”大数据的实时性挖掘都是很大的挑战。

数据安全

2017年, 数据安全事件屡见不鲜, 伴着大数据而来的数据安全问题日益凸显出来。在大数据时代, 无处不在的数据收集技术使我们的个人信息在所关联的数据中心留下痕迹, 如何保证这些信息被合法合理使用, 让数据“可用不可见”[4], 这是亟待解决的问题。同时, 在大数据资源的开放性和共享性下, 个人隐私和公民权益受到严重威胁。这一矛盾的存在使数据共享程度与数据挖掘程度成反比。此外, 经过大数据技术的分析、挖掘, 个人隐私更易被发现和暴露, 从而可能引发一系列社会问题。

大数据背景下的旅游数据当然也避免不了数据的安全问题。如果游客“吃、住、行、游、娱、购”的数据被放入数据库, 被完全共享、挖掘、分析, 那游客的人身财产安全将会受到严重影响, 最终降低旅游体验。所以, 数据的安全管理是进行大数据挖掘的前提。

大数据人才

大数据背景下的智游离不开人才的创新活动及技术支持, 然而与专业相衔接的大数据人才培养未能及时跟上行业需求, 加之创新型人才的外流, 以及数据统计未来3~5年大数据行业将面临全球性的人才荒, 国内智游的构建还缺乏大量人才。

4解决思路

在信息化建设上, 加大政府投入, 加强基础设施建设, 整合结构化数据, 抓取非结构化数据, 打通各数据壁垒, 建设旅游大数据实验平台;在挖掘方法上, 对旅游大数据实时性数据的挖掘应该被放在重要位置;在数据安全上, 从加强大数据安全立法、监管执法及强化技术手段建设等几个方面着手, 提升大数据环境下数据安全保护水平。加强人才的培养与引进, 加强产学研合作, 培养智游大数据人才。

参考文献

[1]翁凯。大数据在智游中的应用研究[J]。信 息技术, 2015, 24:86-87.

[2]梁昌勇, 马银超, 路彩虹。大数据挖掘, 智游的核心[J]。开发研究, 2015, 5 (180) :134-139.

[3]张建涛, 王洋, 刘力刚。大数据背景下智游应用模型体系构建[J]。企业经济, 2017, 5 (441) :116-123.

[4]王竹欣, 陈湉。保障大数据, 从哪里入手?[N]。人民邮电究, 2017-11-30.

抱歉,评论功能暂时关闭!