[TiMing]:JiYuCuCaoJiLiLunDeZhiShiFaXianZaiwebWenBenWaJueShangDeYingYongYanJiu
[作者]:罗强[ZuoZhe]:LuoQiang[专业]:控制理论与控制工程[ZhuanYe]:KongZhiLiLunYuKongZhiGongCheng
[导师]:梁家荣[DaoShi]:LiangJiaRong[学位]:硕士[XueWei]:ShuoShi
[单位]:广西大学[DanWei]:GuangXiDaXue
[关键词]:web文本挖掘;粗糙集理论;信息熵;函数值
[时间]:20030501[页数]:56页[点击]:20042[分类号]:TP393.092[语种]:中文文摘[来源]: 毕业论文
[文摘]:本文提出了一种基于粗糙集理论的web文本分类模型,该文提出了基于信息熵的文本关键词测度函数,通过对关键词函数值进行比较,获取对文本分类最具影响性的关键词序列;同时,针对Web上异质、非结构化信息的特点,该分类算法还考虑了超文本标记对关键词权值的影响.为获取本文项目实验材料,以配合IR(Informationretrieval)和IF(information filter)做仿真实验,我们编制了Web文本收集模型WebCrawler,该模型利用目前较流行的Hits算法解析网络链接结构,从Internet上收集相关的web文本.基于对所获实验材料的web文本分类实验,该文实现了相关的web文本挖掘算法,对提出的算法进了实验分析.
[上一条]:基于Internet的代理缓存技术研究
[下一条]:基于J2EE分布式系统的持久性框架设计策略的研究

