[TiMing]:ShuJuWaJueXiTongDeYingYongYanJiu
[作者]:蒋方纯[ZuoZhe]:JiangFangChun[专业]:计算机技术[ZhuanYe]:JiSuanJiJiShu
[导师]:蔡庆生[DaoShi]:CaiQingSheng[学位]:硕士[XueWei]:ShuoShi
[单位]:中国科学技术大学[DanWei]:ZhongGuoKeXueJiShuDaXue
[关键词]:数据挖掘;应用研究
[时间]:20031101[页数]:75页[点击]:20041[分类号]:TP311.13[语种]:中文文摘[来源]: 毕业论文
[文摘]:聚类发现是数据挖掘的一类重要技术.它是一种在无导师的情况下,根据样品间的相似程度自动地进行分类的方法.聚类作为统计数学的分支已经被长期广泛的研究.在数据挖掘领域,有关聚类的研究主要集中于空间数据库、多媒体数据库和图象等.这些研究的共同特点是,聚类的处理对象是由数值属性构成的数据集.但是在商业应用中,特别是在商业服务机构的数据仓库中,大部分数据是非数值数据.对非数值数据,特别是对范围数据进行聚类比对数值数据有更多的困难,而对它的研究却很少.在该文中,重点研究了范畴数据中的聚类问题,分析了范畴数据的数学特征,给出了范畴数据的局部相似测度和全局相似测度的概念;探讨了范畴数据聚类的最优合并问题,给出了三个最优合并准则;在以上分析的基础上,给出三个范畴数据中的层次聚类算法.分析了它们的时间复杂度并比较了它们的实验结果.实验表明提出的最优合并准则能显著提高范畴数据聚类结果的正确性.事务数据是一类特殊的范畴数据.我们讨论了事务数据库中的聚类问题.我们将范畴数据的聚类算法用于事务数据库中的事务聚类和项聚类并进行了优化.我们实现了这两个算法,讨论了它们的时间复杂度和空间复杂度.分析和实验表明我们的算法能有效的处理大型事务数据集.大量数据之间的关联关系的发现在选择购物、决策分析和商务管理方面具有重要的意义.Apriori算法是一种有效的关联规则挖掘算法,它探查逐级挖掘Apriori性质.多层关联规则可以根据每个抽象层上的最小支持度阈值如何定义,使用多种策略挖掘.基于约束的挖掘允许用户聚焦,按提供的元规则即模式模板和其他挖掘约束搜索规则.电力调度数据联机分析系统,运用关联发现规则,采用Microsoft SQL SERVER 2000数据仓库技术.结合安徽省电力调度通信中心的需求,选取用电量,发电量,历史采样以及历史采样与计划对比四个主题,针对时间、采样点、设备等级、发电类型等建立维度,用户可以随意挑选感兴趣的主题,选择不同的维度组合查看原始数据并对数据进行分析,并可用饼图,直方图,折线图,条形图等不同的图形直观的显示.电力调度数据挖掘系统(Data Mining System for Electric Power Dispatching,简称为DMSEPD)采用先进的KDD技术,所发现的知识可以方便地用于电力调度中心的决策支持、过程控制等领域,从而为其科学决策提供有价值的信息;并为应用单位进一步适应电力市场的需要,为增强竞争性、扩大市场占有率打下坚实基础,同时为其下一步与国际接轨做好准备.根据上述系统的方法和经验,运用于学校信息库的知识发现系统的研究.
[上一条]:界面不稳定性的数值模拟
[下一条]:育龄妇女服务与管理信息系统及数据挖掘方法

