登陆注册
3049900000012

第12章 数据存储与数据挖掘(4)

1.多媒体数据库

音频、图像、视频等多媒体数据已逐渐成为信息领域的重要表现形式。音频、视频的数据量很大,要从多媒体数据中找出所需要的数据和信息有一定的困难。目前,对多媒体数据的处理往往局限于存取、编辑、集成、快进快退等基本操作上,对多媒体信息的检索一般依据文件标识、关键字等进行,局限性很大。基于内容的多媒体检索,通过实例的查询方式,检索相似图像、音频、视频信息,已成为研究的热点,基于内容的音频、视频信息的聚类、分类、相似性查询等数据挖掘技术正在兴起。

2.空间数据库

空间数据库存储了大量与空间有关的数据,例如地图,预处理后的遥感或医学图像数据,以及VLSI芯片设计数据等:空间数据库有许多与关系数据库不同的特征。空间数据库包含了拓扑或距离信息,通常按复杂的、多维的空间索引结构组织数据,其访问是通过空间数据的访问方法,常用空间推理、地理计算和空间知识表示技术。空间数据挖掘是指在空间数据库中非显式存在的知识、空间关系或其他意义的模式等的提取,它需要综合数据挖掘和空间数据库技术。目前在GIS中得到广泛的应用,空间数据挖掘的方法主要有归纳方法、聚集方法、统计信息网格算法(STING)以及空间聚集和特征邻近关系采掘等。

3.文本数据库

一般认为,数据挖掘的大部分研究主要针对结构化的数据,如关系的、事务的数据川。然而在现实世界中,可获取的大邻分信息存储在文本数据库中,由新闻、论文、书籍、数字图书馆、电子邮件消息等各种数据源的大量文档组成。文本数据库中存储的数据一般是半结构化的数据,也可能包含大量的非结构化的成分。传统的信息检索技术已不适应日益增加的大量文本数据处理的需要,而用户需要知道不同文档的比较,以及文档的重要性和相关性排列,或需要找出多文档的模式或趋势。文本挖掘不仅仅是把统计模型应用到数据文件上,而且是揭示文本集合之间的联系。特别地,联机文本挖掘指把网上的文本数据仔细搜寻一遍并从中获得一些信息,目前是通过互联网的搜索和文本分析方法实现。

4.Web数据库

Web数据库是Web和数据库技术的有机结合,是一个庞大而复杂的数据库,其存储数据的最大特点就是半结构化。Web上的每一个站点就是一个数据源,每一站点的信息和组织都不一样,形成了一个巨大的异构数据库环境。Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题,这就必须要有一个模型来清晰地描述Web上的数据。针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在,另外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。XML可看作一种半结构化的数据模型描述语言,将XML的文档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。显然,面向Web的数据挖掘比一般的数据挖掘要复杂得多。

3.4.4数据挖掘的方法

1.神经网络方法

神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类:以感知机、bp反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以art模型、koholon模型为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是“黑箱”性,人们难以理解网络的学习和决策过程。

2.遗传算法

遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其他模型结合等性质使得它在数据挖掘中被加以应用。

sunil已成功地开发了一个基于遗传算法的数据挖掘工具,利用该工具对两个飞机失事的真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数据挖掘的有效方法之一。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。如利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐层单元;用遗传算法和bp算法结合训练神经网络,然后从网络提取规则等。但遗传算法的算法较复杂,收敛于局部极小的较早收敛问题尚未解决。

3.决策树方法

决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由quinlan提出的著名的基于信息熵的id3算法。它的主要问题是:id3是非递增学习算法;id3决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好的改进算法,如schlimmer和fisher设计了id4递增式学习算法;钟鸣,陈文伟等提出了ible算法等。

4.粗集方法

粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。但粗集的数学基础是集合论,难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。现在国际上已经研制出来了一些基于粗集的工具应用软件,如加拿大regina大学开发的kddr;美国kansas大学开发的lers等。

5.覆盖正例排斥反例方法

它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。比较典型的算法有michal-ski的aq11方法、洪家荣改进的aq15方法以及他的ae5方法。

同类推荐
  • 趣味经济学:把握经济脉动的绝佳教材

    趣味经济学:把握经济脉动的绝佳教材

    你想了解当下的经济动向吗?你想把握时代的经济脉动吗?跟随知名经济学教授或商界巨擘在趣味横生的案例中学习那些不可不知的经济学知识,将是怎样的一种体验呢?本书从供需、消费、厂家、财税等方面,采用趣味案例引出经济理论,以经济理论结合实际生活的模式,向读者介绍了不可不知的经济学知识及应用,帮助读者更清楚地认识各种经济现象,更准确地把握经济脉动,进而更合理地规划自己的经济生活。
  • 幽默图解经济学

    幽默图解经济学

    GDP、CPI、通货膨胀、失业率、附加价值、边际效应……这些耳熟能详的经济名词深深地影响了我们的日常生活,但经济学究竟学什么?你是否真的了解它?本书把经济学还原为生活,让你以更经济、有效率的阅读方式读懂经济学,了解经济学的本质,并轻松地掌握尽可能多的经济学知识。你会发现,原来经济学可以这么有趣、好玩、幽默;经济学可以这样改变我们的日常生活!笑着学,躺着学,玩着学……从现在开始,向板着面孔的经济学说再见!
  • 李慎明论金融危机

    李慎明论金融危机

    2007年发生在美国的次贷危机引发的国际金融危机,到2017年已经十个年头了。本书汇集了作者1999~2017年关于金融危机的主要研究成果。近20年间,作者对美国、国际金融危机以及世界政治经济形势有过一些重要预判,如在2000年前成功预言美国股市泡沫的破灭和后来爆发的美国与国际金融危机;在2007年美国次贷危机爆发之前就曾经预言它的发生。
  • 中国平安保险

    中国平安保险

    为了更好的探究中国平安保险(集团)股份有限公司的成长轨迹,找出其成功秘笈,本套丛书主要从平安的管理模式与企业规划、企业文化与团队管理、营销模式与品牌管理三方面进行了阐述。
  • 梁启超的经济面向

    梁启超的经济面向

    梁启超的著述非常多,所涵盖的题材相当宽广,但有一个面向是至今尚未被充分探索的,那就是他的经济论述。在梁启超的全集里,经济论述所占的比例不高,只是作为他议论众多时事的一环;但他对某些经济问题曾下功夫深入研究过,尤其关注币制改革和财政制度。梁启超的文笔犀利活泼,老少咸宜;他所论述的主题,大都具有时事性与政策建议的意涵,很能引起当时读者的关注。但从另一个角度来看,这项特性也是负面的:环境一变、时间一过,这些问题的意义就随风而逝(“能动人”但“不能留人”)。一个世纪之后,本书作者重读梁启超的经济论著,得到三个观感:文笔方面情绪高张,内容方面动人听闻,手法方面自我矛盾。
热门推荐
  • 抓住晨曦

    抓住晨曦

    【双男主设定,女主不是傻白甜】一个温柔体贴运筹帷幄,一个酷帅毒舌热血冲动,既然青春不能重来,那么就什么都尝试一把!可是生活中的绿茶白莲,游戏里的牛鬼蛇神,怎么就这么多?还要面对高考的严峻和家庭的危机,到底能不能安安稳稳的谈个恋爱啊?不过好在不是一个人升级打怪,双男主智商在线保驾护航!但到最后总要抉择,到底该选谁呢?———————————青春就像一场舞台剧,一切都在剧情中,一切又都在即兴里……———————————欢迎大家加Q群755869919,一起预测一下谁会陪女主走到最后吧~
  • 明园杯 2015上海市民文学大赛佳作选(卷三)

    明园杯 2015上海市民文学大赛佳作选(卷三)

    我们一提到上海,想到最多的就是灯红酒绿,红男绿女,高楼林立,钢筋铁泥下的一座时髦的现代化都市。但是在这本文集中,许多生活在上海多年或正在上海打拼的人们,用他们的文字为读者讲诉一个普通人对上海的记忆。本书包括《永久牌自行车》、《上海地铁实录》、《我的文艺小时代》、《悬崖上的樱花树》等篇章,为您展示一场来自上海的生活秀!
  • 职场自控力(金牌员工必读书系)

    职场自控力(金牌员工必读书系)

    "想要在职场上顺风顺水,职场人应该加强职场自控力的修炼,明白在职场上怎么做才能做得更好更成功。本书全面剖析并揭示了职场人该如何提升职场自控力以及要在哪些方面提升自控力,对渴望取得职场成功的职场人士大有帮助。"
  • 谁家嫡女不轻狂

    谁家嫡女不轻狂

    一朝穿越,古武世家小姐居然成了克死祖父、被父亲冷落、被全家人欺负的弱势嫡女!娘亲软弱、父亲薄情、祖母偏心,庶姐绿茶、表姐白莲,姨娘狠毒、下人无礼,这种生活能忍?谁家嫡女不轻狂呢?且看带着空间穿越而来的墨云汐斗庶姐、气表姐、虐姨娘,顺便开他个几间铺子引领京城的时尚潮流,生活过的越发肆意潇洒。只是,为什么某位传言中喜怒无常、暴戾成性的战神侯爷就天天来招惹她呢?“小姐既然救了本侯,本侯无以为报也只好以身相许了。”墨云汐扶额:侯爷,你这样不好……情节虚构,请勿模仿
  • 潜夫论

    潜夫论

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。汇聚授权电子版权。
  • 翠崖必禅师语录

    翠崖必禅师语录

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。汇聚授权电子版权。
  • 有趣的昆虫王国

    有趣的昆虫王国

    广袤太空,神秘莫测;大千世界,无奇不有;人类历史,纷繁复杂;个体生命,奥妙无穷。
  • 苍帝绝爱

    苍帝绝爱

    一个17岁的可爱小女生——蓝贝,单纯、善良,有点小迷糊、小狡猾,和所有的应考生一样,渴望与心目中的花样美男谈一场纯纯小恋爱。一天,好不容易得到心仪学长爱的表白,却被一股神秘诡异的力量带到了一个奇异神幻的古代异世界。【银色的面具,掩住了大半张脸,两道寒彻透骨的冷冷眸光,直直射向她。纵是湖水冻人,也比不过他黑眸中摄人的寒意。可是,为什么他看着她的眼神,得暗潮汹涌,带着丝丝恨意?!为什么她会来到这个世界?为什么他明明讨厌她,却非要她做他的皇后呢?在这里,她会有什么样的使命要去完成?】★★★★★★★★慎重申明:并非后宫文!★★★★★★★★欢迎加入朵的读者圈:http://m.wkkk.net/有好文推荐、音乐欣赏、美图展示,欢迎亲们来圈子里畅所欲言!★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★---------------------------本文已经进入5折书库,一次全部订阅可以打5折,折下来大概10元左右。亲们千万不要一章一章点哦!本文被删除章节查看处:★★★★★本文已加入半价优惠区,欢迎订阅!★★★★★第三卷【宝贝,我的爱】简介(朵感慨一下,终于走到幸福的这一天咯!)秘法不重要了,灵力不重要了,杀魔不重要了,治国不重要了,经商更不重要了,那么,现在什么最重要!(呃,表要敲偶脑袋哇!)八年后。他成功统一了四国界,成为名符其实的一国之帝,却坚持不称“帝”。只因为,那紫碧圣湖中的人儿,一日不醒,便无苍帝。经历了那么多波折、磨难、欢乐、血泪,这段“绝爱”之情,如何圆满?伊人重生,但看一界帝王如何使尽千百招数、上穹落碧,赢回命定之爱!没有后宫争宠,没有江湖之乱,没有朝堂博奕,没有阴谋诡计……“绝爱”最终卷【宝贝,我的爱】,只有酸酸涩涩、甜甜蜜蜜、轻松快乐的浓情腻爱,敬请期待!~~~~~~~~~~~~~~~~~~~~~~~~~~~~第一卷【血海深宫遗心】简介后宫,这个被历史喻为花季女子坟墓的华贵鸟笼。复杂、残酷、血腥、狡诈,充满层层阴谋与诡计的世界,怎么看都不适合她这样的小女生待着。可偏偏命运捉弄,她一来就当上了最强大国的圣女皇后。因为众艳争夺的后位,她成了众人的标靶,欲除之而后快;因为古老预言,她更成了众国争相抢夺的一块肥肉。
  • 香莲品藻

    香莲品藻

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。汇聚授权电子版权。
  • 重生空间之欣欣向然

    重生空间之欣欣向然

    林雨欣,前世错信渣男,害得自己身死。今世,得空间,虐渣男渣女,努力当个学霸,去追求自己梦想,却没有想到自己的亲人为她饱受折磨,后悔不已……