2003年至2008年复合年增长率:8%迎接“后数据挖掘”时代
数据挖掘是预测分析技术成长的丰沃“土壤”。而在预测分析的带动之下,数据挖掘也开始走出以报表和查询为主的应用范畴,尝试着从历史数据中发现有关未来行为的线索。所以,今天的预测分析与数据挖掘存在着非常大的交集,它可以被看作是一种“后数据挖掘”时代的技术分支。
同时,由于预测分析仍然处在成长期,其自身的边界尚未完全明确。BusinessObjects中国区售前技术咨询总监鲁百年博士就表示,目前我们很难把“预测”和“分析”剥离开,很多被划定为预测的项目实际上只是进行了预警操作,那些所谓的实时预测系统也基本上只具备了预警能力。不过,在未来,预测应该会成为数据挖掘的一个独立的组成部分。
由此可见,我们今天所享用的预测服务可能还不是纯粹意义上的“预测”。但是,在多种技术的综合作用下,预测分析通过不断的“吐故纳新”实现自我优化。它对文本挖掘技术的采用就是一个很好的例证。
目前,已经有用户开始通过文本挖掘来提高其预测模型的准确度。LoanPerformance就在原先贷款历史、信用报告、人口统计学数据等结构化数据的基础上,在计算模型中引入了呼叫中心人员与顾客交谈的文本记录信息。他们使用了IntelligentResults公司的工具来分析这些语言数据,以确定某人是不是在说谎。而分析的重点在于寻找导致事件的原型。实践证明,融合了文本信息的模型比标准模型的效果更好,它使得系统预测的准确性比原始模型提高了18%。
J.D.PowerandAssociates最近也开始了文本挖掘技术的早期测试。他们正在研制一种名为ClearForest的工具,希望帮助用户预测出比基于结构化数据更实用的答案。SAS的EnterpriseMiner也可以根据呼叫中心对话中捕获的文本数据进行预测分析。
未来有多美?
成功的预测分析服务模式可以带来巨大的回报。以国外某金融机构为例,一个预测客户信用风险的模型在6个月内为该机构节省2百万美元,而系统的部署成本约为40万美元。这种高回报导致了预测分析工具的销售额大幅增长。据IDC预测,预测分析工具的销售额将在2008年时增加到30亿美元,比2004年增长近40%。同时它将占据BI(商业智能)市场25%的份额。
如此巨大的发展前景势必引发软件厂商新一轮的市场追逐。而在这一领域,主要的产品类型可以通过功能进行明确地划分。目前SAS、SPSS等公司组成了专业型预测分析工具的阵营,他们所提供的产品具有较高的预测准确性,但是应用起来非常复杂,使用范围有限,像SPSS主要就是面向教育、科技等专业人员的;而在应用型预测分析工具方面,主要的成员Kxen、Unica、J.D.PowerandAssociates等,他们向用户提供“傻瓜型”的预测工具,通常具备易用、高速等特点。
鲁百年介绍,Kxen的抽样水平非常高,擅长处理大型、复杂的数据结构,它在国内的应用比较广泛,有8家电信运营商正在使用这一产品。BusinessObjects也OEM了Kxen,希望通过这种产品绑定的方式帮助客户实现客户细分、预测等应用。而这也是许多BI厂商的普遍做法。
在应用方面,预测分析也表现出了惊人的行业渗透能力。除了在金融、电信等重点行业外,预测分析正在尝试着幻化出更多的应用形式。SAS大中华区解决方案总经理曾濠生就表示,目前预测分析在零售行业的表现相当活跃。据介绍,目前国内很多大型超市都在采用基于时间序列法的购买模型,以此分析客户的购买行为,制定吸引客户消费的优惠政策。另外,海关、卫生、公安等机构也是预测分析的热点应用区域。而从目前客户的需求状况看来,与市场越接近、业务数据量越大的对象,与预测分析的匹配程度就越高。
两个必要条件
技术的创新让预测分析的结果不断地向准确的目标靠近,不过目前用户必须面对的问题是,在技术尚未完全成熟的条件下,如何通过应用水平的提高来尽可能地保证预测的准确程度。在预测分析的一些早期案例中,用户经常会发现用预测分析工具所得到的是一些不相关、幼稚甚至是错误的结果。
比如,国内某电力企业,由于早期建模过程中的失误,导致花费大量资金所得出的结果根本无法成为决策参考。因此,专家建议,用户在部署预测分析系统时要报以科学、谨慎的心态,避免盲目行为。同时,专家强调,由于预测是基于大量、可靠的企业业务数据所做出的综合判断,所以强大的数据体系和具有多元化知识结构的分析人才是成功实施预测分析项目的两个必要条件。
曾濠生指出,准确的预测需要大量、持续的操作、交易等类型的数据作为支撑,因此用户必须拥有运行顺畅的业务数据流,基本的条件是企业已经拥有了一个成熟的平台。鲁百年也表示,一般的分析需要1年的业务数据就可以了,而要做出预测需要4年的数据才行,如果考虑到数据周期的问题,最理想的历史数据量是5年5个月。另一方面,人才问题也在逐渐得到企业用户的重视。目前,一些企业为了提高预测的准确性,已经采用了由专业人员来审查、输入变量的方法。曾濠生表示,预测分析人员不仅要具备深厚的统计学功底,还需要熟悉企业的业务应用,这样才能创建出更加合理的预测模型。鲁百年指出,单一的知识结构对预测来说太过单薄,对预测结果的解释和分析将会考验分析人员的综合素质。
鲁百年还强调,预测模式需要一个反复验证的过程。所以在开始时预测出现偏差是正常现象,用户不必对此过于担心,今后有很多种方法可以进行校正。总的说来,模型运行的时间越久,其预测的准确性就越高。
来源:CCW
信息发布:广州名易软件有限公司 http://www.myidp.net