TAG标签 | 网站地图 现代商业杂志社-国内统一刊号:CN11-5392/F,国际标准刊号:ISSN1673-5889,全国中文流通经济类核心期刊
热门搜索:跨境电商 构建 存在的问题及对策 大学生 互联网 财务管理 信息化 目录 大数据 现代商业杂志

网络应用

当前位置:主页 > 文章导读 > 网络应用 >

大数据研究:现状、问题及趋势

2014-02-11 00:34 来源:xdsyzzs.com 发布:李瑞琴 郑建国 阅读:

李瑞琴 郑建国 东华大学旭日工商管理学院

摘要:“大数据”是继“物联网”和“云计算”后IT界最炙手可热的新词。本文对大数据概念及其所涉及的技术进行了评述,并阐述了大数据在金融和电商行业的研究现状,在此基础上分析了目前大数据在发展研究过程中存在的突出问题,针对这些问题提出了大数据未来的发展趋势。

关键词:大数据;分布式处理;Hadoop;金融;电商

一、大数据研究现状

(一)概念研究

早在1980年代,阿尔文·托夫勒就提出过“大数据”的概念,直到2009年才成为炙手可热的话题。大数据是一个抽象概念,各领域对其定义各不相同。麦肯锡最早提出“大数据”时代已经到来。《著云台》的分析师团队将大数据定义为公司创造的大量非结构化和半结构化数据。中国人民大学的孟小峰院长从数据量角度认为100PB以上的数据则是大数据;2013年有相关学者认为大数据的概念准确的讲应该是指大数据技术,指对海量数据的、新的、低成本的处理技术。总之,目前对于大数据尚未有一个公认定义,应基于大数据的特征来理解。

20123Teradata公司张锦沧从四个维度来解释大数据的概念——三个V和一个C。三个V是指数据量大、数据种类多和数据增长速度快,一个C指处理、升级或利用大数据的分析手段比处理结构化数据要复杂的多。同年10月国际数据公司IDC补充到大数据还具有价值性(Value),其价值往往呈现出稀疏性。随后不久IBM公司又增加了真实性(Veracity)这一重要特征。

技术支持

对于大数据的搜集、整理、分析及应用都需要有相应的技术来实现与支撑。从技术起源来看,相关学者认为最初大数据技术是指需要处理的信息量过大,已超出一般电脑在处理数据时所能使用的内存量,工程师们必须改进处理数据的工具,这就导致新的处理技术的诞生。Google(2006)自行研发了一系列云计算技术和工具来支撑其内部各种大数据的应用。基于此平台,EMCFacebookOracleVMwareMicrosoft、亚马逊等又开发了诸如GFSMapReduce以及BigInsights产品的数据计算、数据收集等服务。英特尔(2012)随后开发了Hadoop分布式挖掘工具,其本质是一个用于分析大数据集的机制,不一定位于数据存储中,可以扩展到无数个节点,处理所有活动和相关数据存储的协调。201393,惠普在京推出了名为HAVEn的大数据分析平台,此平台整合了多项惠普技术与Hadoop行业的解决方案。同日,华为也发布了其大数据平台FusionInsight,能帮助企业通过数据挖掘发现全新价值点和企业商机。但目前相比而言业界主流的大数据平台产品还是Hadoop。下图为Intel公司的Hadoop开源分布式数据处理平台:

 图1 IntelHadoop发行版 

二、大数据的研究领域

(一)金融行业

大数据时代到来,首先引起全球高度关注的行业之一就是金融界。2011年麦肯锡全球研究所针对美国各行业应用大数据潜在价值提升做的一个评估结果中就提出未来金融界将在大数据技术中获得极大的价值提升。丁震表明中信银行选择了EMC提供的大数据分析方案,发卡量2008年达到500万张,2010年翻了一倍,实现了实时商业智能,同时也大大提升了营销水平。包括国金证券研究所、国泰君安证券研究所在内的多家卖方研究机构在对大数据进行深入调研后,认为这或将是全新的投资主线。

刘启滨在探讨金融业的大数据管理时发现该行业存在大数据安全存储和有效应用的重要难题,金融行业大集中将导致大数据激增。金融业业务种类和产品日渐丰富,导致存储的数据类型更多,数据容量暴增,存储要求更高。从金融管理目标出发,因为大数据容量极大,保存就非常重要,因此需要整合各种数据源,建立集中的中央数据系统,形成大数据规模,创新管理方式和工具,有效利用大数据本身的特点,将NASSAN方式的存储管理逐步深入到金融行业的数据存储领域。同时他表示大数据正在从根本上改变着金融业业务模式,可以分析客户交易数据,建立一段时间的回溯模型,并以此为基础消除客户的欺诈行为。

(二)电商行业

在大数据时代,电商系统的访问量在爆长,大数据量必然成为电商系统面对的最大挑战,其产生的数据无疑还会继续更新,且只增不减。而对于电商用户,除了功能以外,电商系统网站的访问速度能否持续提供高质量、高稳定性的服务等都是影响用户使用感觉的重要因素。因此,高珍、谢玉婧认为应对服务器和客户端的实现做相应的优化。他们主要针对数据库中大数据量处理的实现和数据库设计、数据库查询优化、算法优化以及高效的利用索引方面做了阐述。王雍认为在当今数据为王的时代,电商具有大数据数据营销的天然基因和优势,阿里巴巴就率先开启了大数据营销时代。同时珂兰钻石也意识到了大数据营销的重要性,通过数据分析追踪用户网上的浏览轨迹,从而帮助其更准确、更有效的投放广告。

三、大数据面临的问题

(一)IT技术架构无法满足大数据的技术需求

根据ScholarSpace,大数据的处理流程可分为:数据生成、存储、分析及应用。

存储方面,企业的数据动则TB级的爆长,对数据库的存储功能构成了挑战,而半结构化和非结构化数据的大量涌现更加剧了这种挑战。因此,大数据时代,数据库技术必须不断进行演进,才能支持更多的应用,创造更大的价值。

分析处理方面,大数据量给传统的分析技术带来了巨大的冲击与挑战。传统的数据仓库系统、BI、链路挖掘等应用对数据处理的时间要求仅以小时或天为单位,但蔡汉辉表示在大数据时代,要处理的数据量增长速度快、容量大,而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求,传统的常规技术手段根本难以应付。

(二)传统措施无法应对当前隐私安全问题

大数据时代数据的快速变化显然给隐私保护带来了新的挑战。孟小峰等人认为单个地点的信息可能不会暴露用户的隐私,但如果将某人的很多行为从不同的独立地点聚集在一起,他的隐私就很可能会暴露。邬贺铨指出可以利用海量数据,不去追求个人隐私,而是了解整个群体的趋势。但如果仅仅为了保护隐私就将所有数据隐藏,那数据的价值将无法体现,因此大数据时代的隐私性主要体现在不暴露用户敏感信息的前提下进行有效的数据挖掘。基于此分析,AgrawalRSrikantR提出保护隐私的数据挖掘(privacy preserving datamining)这一概念。然而,现有隐私保护技术主要基于静态数据集,大数据环境下实现对动态数据的利用和隐私保护将更具挑战。

四、大数据发展趋势

(一)技术发展方向

大数据存储技术最初是关系型数据库,由于其规范的设计、友好的查询语言、高效的数据处理在线事务的能力,长时间占据了市场主导地位。然而,其严格的设计定式、为保证强一致性而放弃性能、可扩展性差等问题在大数据分析中被逐渐暴露。随之而来,NoSQL数据存储模型以及Google提出的Bigtable开始风行。

大数据分析技术是以Google提出的MapReduce技术框架来处理大规模并发的批量事务。利用文件系统存放非结构化数据,不仅没有丢失性能,而且还赢得了可拓展性。随后又不断出现了MapReduce+GFS框架以及Hadoop2013年惠普和华为分别推出了HAVEnFusionInsight大数据分析平台。毫无疑问,这种态势将会持续下去,在未来还会继续出现新的技术和工具,如下一代数据仓库、Hadoop分发等。

(二)市场发展趋势

就规模来看,大数据市场潜力巨大。贝叶思咨询表示2012年大数据服务形成的市场规模达到近百亿美元,到2020年该规模有望突破l000亿美元。

由于大数据市场还不成熟,规模尚小的大数据专营公司才刚刚发力。然而,就大数据市场而言,最具冲击力的创新会来自于众多的专营公司,虽然他们目前所占的份额并不大。有报告预测,未来几年,随着产品、服务支持以及销售渠道的逐步成熟,大数据专营公司将会迎来快速增长期,大数据市场将会迎来一个重要的并购时期,而这些专营公司将会成为被并购的对象。IDC2012)预测未来几年Hadoop将趋于商业化,也会有重量级的Hadoop商业化版本发布。针对大数据的一体化设备市场将迅速增长,大数据还将创造出新的细分市场。

五、结论

大数据时代已经来临,人们正被数据洪流所包围,正确利用大数据给人们的生活带来了极大的便利,但同时也有很多挑战需要去解决与克服。本文通过大量的文献搜集,对大数据进行了全面分析,然而经过分析发现:

1、大数据的开发与利用已在金融界广泛展开,并产生了巨大的社会价值和产业空间,然而对产生海量信息的新兴产业移动支付的相关研究却几乎没有,因此有必要对此进行深入研究。

2、大数据的应用在电商网络零售还不成熟,要想给消费者提供更高级更精细化更个性化的服务,就必须进一步细致分析客户行为,才能给商家提供更加有针对性的解决方案。

3、各领域虽然意识到大数据蕴含的商业价值并展开其应用,但几乎没有对其价值回报进行评估。所以有必要将大数据在应用中的经济效益进行评估,以权衡它的商业价值。

相关内容
发表评论