第3章 知识驱动的多目标决策的数据挖掘方法评估理论框架

3.1 研究背景

随着云技术、物联网、移动互联网以及互联网金融技术的突飞猛进,社会产生的数据正以前所未有的增长速度激增[1-2]。商业、科研和政府机构相继建立起许多大型的数据库,积累了海量的异构数据。数量巨大且复杂异构的数据可以被形容为“数据丰富但信息贫乏”。信息管理系统可以对大量的数据进行收集、传输、加工、储存、更新和维护,以企业战略竞优,提高企业效益和效率为目的,为企业高层决策、中层控制、基层运作提供技术化服务的集成信息系统。信息管理系统并不能直接理解数据,也不能和数据直接互动。同时,重要和关键性的决策也并不是基于存储设备中的大量数据而作出的,而是依靠大量数据背后所隐藏的知识而科学地作出正确的决策。数据挖掘近年来作为信息处理的一门新兴的核心骨干技术,虽然诞生时间并不是很长,但是发展十分迅速,并取得了广泛的应用。其主要原理是从海量数据中挖掘、提取和识别有价值的模式、知识与规律,并将其进一步高效地指导商业决策和进行科学研究[8-9]

数据挖掘虽然诞生的时间不长,并且历史较短,但其发展极为迅速,已在许多领域得到了广泛的应用,如金融领域、医疗领域、通信领域、制造领域、司法领域、软件工程、生物工程等[11-15]。经过二十多年的研究和发展,关于数据挖掘的新模型和新方法更是层出不穷。通过文献调研,对在1994年到2005年期间发表的数据挖掘期刊、会议及学位论文进行分析,1600多篇论文中关于方法和模型的研究就高达70%[18]。由于这些研究的核心在于设计和开发鲁棒的、高效率的新模型和新方法,关注的是预测精度和运行时间,所以学者们把其称为“方法驱动的数据挖掘”[19]。数据挖掘方法或模型的确定是在海量数据中知识发现的一个重要而又艰难的步骤,很大程度上决定着数据挖掘的成败。通过对神经网络、关联规则、K-Means聚类、决策树等数据挖掘方法的对比研究,分析了一些挖掘方法的特性及适用情况,如表3-1所示[112]。同时Wolpert和Macready[60]在没有免费午餐的定理中,指出不存在一个普适性的最优方法。一个方法可能在某个领域准确率高、非常有效,但是在另外一个研究领域,结果却可能完全不适合;或者在具有不一样数据结构的数据上,也可能使得方法完全失效。因此,针对目标问题,如何对模型进行科学准确的评估,进而选出适合数据集的、有效的方法或模型成为科学研究任务首要解决的一项难题。

表3-1 数据挖掘方法特性[112]

方法或模型的评估问题在数据挖掘、统计学习、人工智能、商业分析、机器学习等领域是一个研究热点问题。在管理学领域,如信用风险管理,也涉及方法或模型的评估问题。然而,Wolpert和Macready[60]明确指出在考虑到对所有函数的相互补偿行为时,最优化方法的性能是等价的。也就是说,对于给定的目标问题,不存在任何单一的方法或模型可以达到完全最优的性能。既然不存在普适性的最优方法,而决策者往往又十分期待和关注最优决策,这一矛盾如何调和呢?如何针对给定的目标问题或数据集,来选定合适的评估方法或模型呢?这些极具挑战性的问题,将一直存在。

本章聚焦此热点问题,根据没有免费午餐的定理,通过结合领域知识和专家经验,确立本研究的技术方案,重点关注数据挖掘中分类和聚类方法评估问题,建立基于多目标决策的数据挖掘方法评估理论框架。Rokach[21]认为方法或模型的评估需要考虑多个度量指标,如方法或模型的预测精度、运行时间、稳定性和泛化能力等,可以被看作多目标决策问题,而多目标决策方法不仅能够基于多个相互矛盾乃至冲突的度量指标进行方案评估,而且还可以很好地反映决策者对评价指标的主观偏好,因此多目标决策方法在方法或模型评估领域具有极大的潜在优势。

2011年以来,有些学者把多目标决策和数据挖掘技术结合起来,进行了一些探索性的研究工作。Peng等[59]基于数据集成、多目标决策方法和数据挖掘技术提出一个能够有效应对突发事件的信息管理框架。该框架由三个主要模块组成:第一个模块是高级别数据集成模块,为了保障大量异构的源数据以统一的方式集成和输出;第二个模块是数据挖掘模块,使用数据挖掘方法来识别有用的模式,并为突发事件事前和事后的信息管理提供差异化的服务;第三个模块是多目标决策模块,其利用多目标决策方法来评估突发事件当前态势,找出满意的解决方案,并及时作出恰当的应对。Peng等[33]指出不相关和冗余的数据特征,可能会降低分类器的性能,同时也会延缓预测过程。此外,在预测领域的另一个问题是在大量的分类方法中如何确定它们的可用性。本书针对预测问题提出了一种特征选择和分类评估的综合评估方案。它结合了传统的特征选择技术和多目标决策方法,以试图提高分类方法的预测精度,并针对不同类型的数据集选择适合的分类器。Kou等[34]通过集成多目标决策方法和数据挖掘技术来评估软件可靠性问题。文章首先应用数据挖掘分类方法对软件缺陷数据进行分类预测,生成方法评估绩效的性能指标,然后通过多目标决策方法选出最佳的分类器。Kou和Wu[32]基于多目标决策和数据挖掘理论与方法,针对信用风险数据,提出一个层次分析模型对分类方法进行评估和优选。该优化模型可以快速准确地识别出最鲁棒的信用评分方法,进而能够进一步有效地指导决策者规避信用风险,并且该模型很好地解决了没有免费午餐的定理指出的经典难题。

由于多目标决策在数据挖掘中的研究起步较晚,还未形成较体系化的研究成果,而且基于多目标决策的数据挖掘交叉集成研究,在建模、评估、决策和结果表现上,要求决策者既要具备多目标决策方面的知识,又要了解数据挖掘方面的技术,从而导致了在建模过程中用户参与度低、结果的可理解性和可操作性低等问题。同时,没有免费午餐的定理指出无法找到一个普遍性的数据挖掘方法。每种数据挖掘方法有其适用的条件及各自的特点,为给定的目标问题选定适合有效的模型是一项具有挑战性的工作,它直接关系着挖掘结果的质量和知识发现的效率。而通过结合领域知识和专家经验,提出基于多目标决策的数据挖掘方法评估理论框架为解决这些问题提供了可行的研究方向。