大数据学术分析论文范文
大数据随着技术发展而蓬勃发展起来,迫切需要一种技术实现大数据精准开发应用。这是学习啦小编为大家整理的大数据学术论文,供大家参考!
大数据学术论文篇一:《试谈大数据技术》
摘 要:大数据是继物联网、云计算技术后世界又一热议的信息技术,这种密集型数据爆炸现象的出现,标志着“大数据”时代的到来。文章介绍了大数据的概念,分析阐述了大数据相关技术。
关键词:大数据 数据处理 相关技术
“大数据”是从英语“Big Data”一词翻译而来的,是当前IT界热议和追逐的对象,是继物联网、云计算技术后世界又一热议的信息技术,发展迅速。截至2011年年底,全球互联网总数据存储量已达100亿TB以上,并且以59%以上的年增长率递增。麦肯锡公司在2011年的报告(Bigdata:the Next FrontierforInnovation)中,对这种密集型数据爆炸的现象称为“大数据”时代的到来。大数据领域出现的许多新技术,是大数据采集、存储、处理和呈现的有力武器。
1 大数据概念
大数据概念的前身是海量数据,但两者有很大的区别。海量数据主要强调了数据量的规模,对其特性并没有特别关注。而大数据对传播速率、体积、特征等数据的各种特性进行了描述。目前对大数据最广泛的定义是:大数据是无法在一定时间内用通常的软件工具进行收集、分析、管理的大量数据的集合。大数据的特点一般用“4V”概括,即:Volume:数据量大,目前大数据的最小单位一般被认为是10~20TB的量级;Variety:数据类型多,包括了结构化、非结构化和半结构化数据;value:数据的价值密度很低;velocity:数据产生和处理的速度非常快。
2 大数据相关技术
2.1 大数据处理通用技术架构
大数据的基本处理流程与传统数据处理流程的主要区别在于:由于大数据要处理大量、非结构化的数据,所以在各个处理环节中都可以采用并行处理。目前,MapReduce等分布式处理方式已经成为大数据处理各环节的通用处理方法。
MapReduce分布式方法最先由谷歌设计并实现,包括分布式文件系统GFS、MapReduce分布式编程环境以及分布式大规模数据库管理系统Bigrable。MapReduce是一套软件框架,包括Map和Reduce两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。MapReduce的工作原理是先分后合的数据处理方式。Map即“分解”,把海量数据分割成若干部分,分给多台处理器并行处理;Reduce即“合并”,把各台处理器处理后的结果进行汇总操作,以得到最终结果。用户只需要提供自己的Map函数以及Reduce函数就可以在集群上进行大规模的分布式数据处理。MapReduce将处理任务分配到不同的处理节点,因此具有更强的并行处理能力。
2.2 大数据采集
大数据的采集是指利用数据库等方式接收发自客户端(Web、App或者传感器形式等)的数据。大数据采集的主要特点是并发访问量大,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站的并发访问量在峰值时达到上百万,这时传统的数据采集工具很容易失效。大数据采集方法主要包括:系统日志采集、网络数据采集、数据库采集、其他数据采集等四种。
2.3 大数据分享
目前数据分享主要通过数据集市和开放数据平台等方法实现。开放数据平台可以提供涵盖本地服务、娱乐、教育和医疗等方方面面的数据集合,用户不但可以通过API访问,还可以很方便地通过SDK集成到移动应用当中。在线数据集市除了提供下载数据的功能外,还为用户提供上传和交流数据的场所。数据平台和数据集市不但吸引有数据需求用户,还能够吸引很多数据开发者在平台上进行开发。
2.4 大数据预处理
数据预处理就是对采集的数据进行清洗、填补、平滑、合并、规格化以及检查一致性等处理,并对数据的多种属性进行初步组织,从而为数据的存储、分析和挖掘做好准备。通常数据预处理包含三个部分:数据清理、数据集成和变换和数据规约。
2.5 大数据存储及管理
大数据需要行之有效的存储和管理,否则人们不能处理和利用数据,更不能从数据中得到有用的信息。目前,大数据的存储和管理技术主要分三类:分布式文件系统、数据仓库和非关系型数据库(NoSOL)。
2.6 大数据分析及挖掘
大数据的分析和挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、数据挖掘、统计学、数据库等技术,高度自动化地分析大数据,做出归纳性的推理,从中挖掘出潜在的模式,从而在大数据中提取有用信息。大数据的分析和挖掘与传统的数据挖掘比较有两个特点:一是通常采用并行处理的方式;二是大数据分析对实时处理的要求很高,流处理等实时处理技术受到人们欢迎。常用的方法有:机器学习、数据挖掘、模式识别、统计分析、并行处理。
2.7 大数据检索
①数据库实时检索:在数据仓库或者NoSOL等大数据存储平台上,或者多个不同结构的数据存储平台之间快速、实时地查询和检索不同结构的数据。②实时搜索引擎:对互联网上的大量数据和信息进行即时、快速搜索,实现即搜即得的效果。目前各大搜索引擎都在致力于实时搜索的实现。
2.8 大数据可视化
可以提供更为清晰直观的数据感官,将错综复杂的数据和数据之间的关系,通过图片、映射关系或表格,以简单、友好、易用的图形化、智能化的形式呈现给用户供其分析使用,可通过数据访问接口或商业智能门户实现,通过直观的方式表达出来。可视化与可视分析通过交互可视界面来进行分析、推理和决策;从海量、动态、不确定甚至相互冲突的数据中整合信息,获取对复杂情景的更深层的理解;可供人们检验已有预测,探索未知信息,同时提供快速、可检验、易理解.的评估和更有效的交流手段。可视化是人们理解复杂现象,诊释复杂数据的重要手段和途径。
2.9 大数据应用
①视频搜索;②内容分析;③理赔分析;④社交网络分析;⑤社会分析;⑥社交媒体监控。
2.10 大数据安全
大数据技术的发展,使得人们能够从这些数据中观察和分析社会动态、人群的动作和行为、人群活动规律以及企业的商业秘密。海量数据本身,以及数据中蕴藏的信息涉及到国家、社会、企业和人们的隐私,这对大数据时代的信息安全提出巨大挑战。因此,大数据时代需要发展信息安全技术,确保关系到人们生活方方面面的数据和信息不会被泄漏。
目前除了传统的信息安全方法外,大数据领域还有安全基础设施、安全数据仓库等。此外,一些数据库安全管理软件能够对不同操作系统上运行的异构关系型数据库进行实时监控,一些大型安全数据库能够对与商务数据结合在一起的数据进行预防性的分析,以便识别钓鱼攻击,防止诈骗和阻止黑客入侵。
大数据学术论文篇二:《试论大数据技术研究》
摘 要: 大数据技术是继物联网、云计算技术之后IT业界又一次技术浪潮。为了全面深入地理解大数据技术的内涵,从大数据的定义及4V特征、关键技术及主要应用领域等四个方面进行阐述。介绍了大数据的基本概念、特征,总结了大数据的热门应用领域并用典型案例进行佐证,重点剖析了云计算、Hadoop、数据备份等三大核心技术及关键策略,最后对大数据应用中滋生的信息安全隐患提出了相应的对策。
关键词: 大数据; 4V特征; Hadoop; 云计算
0 引言
物联网、云计算等新兴技术的迅速发展开启了大数据时代的帷幕。大数据技术是指从各种各样的海量数据中,快速获取有价值信息的技术,大数据的核心问题就是大数据技术。目前所说的“大数据”不仅指数据本身的规模大,还包括采集数据的工具、平台和数据分析系统复杂程度大。大数据的研发目的是发展大数据技术并将其应用到相关领域,解决实际生产、生活中的各种问题,从而推动信息技术健康地可持续发展。
1 大数据的定义及主要特征
与其他新兴学科一样,目前大数据没有一个统一的标准和定义。一般认为:大数据是由大量异构数据组成的数据集合,可以应用合理的数学算法或工具从中找出有价值的信息,并为人们带来经济及社会效益的一门新兴学科。大数据又被称为海量数据、大资料、巨量数据等,指的是所涉及的数据量规模巨大,以至于无法在合理时间内通过人工攫取、管理、处理并整理成为人类所能解读的信息。这些数据来自方方面面,比如社交网络、传感器采集、安防监控视频、购物交易记录等。尽管尚无统一定义,但这些无比庞大的数据被称为大数据。大数据具有如下4V特性[1]:
⑴ 体量Volume,是指数据存储量大,计算量大;
⑵ 多样Variety,是指大数据的异构和多样性,比如数据来源丰富,数据格式包括多种不同形式,如网络日志、音频、视频、图片、地理位置信息等等;
⑶ 价值Value,是指大数据价值密度相对较低,信息海量,但是要挖掘出真正有价值的数据难度较大,浪里淘沙却又弥足珍贵;
⑷ 速度Velocity,是指数据增长速度快,处理速度要求快。
2 大数据技术的应用领域
通过对海量数据进行采集、分析与处理,挖掘出潜藏在数据海洋里的稀疏但却弥足珍贵的信息,大数据技术正在对经济建设、医疗教育、科学研究等领域产生着革命性的影响,其所带来的巨大使用价值正逐渐被各行各业的人们所感知。
2.1 金融领域
大数据的火热应用突出体现在金融业,各大互联网企业(谷歌、阿里巴巴等)纷纷掘金大数据,开创了新的互联网金融模式。目前阿里巴巴的互联网金融做得如火如荼:基金、小额信贷、余额宝和理财保险产品等等,阿里巴巴之所以能够做火金融服务,其主要原因就在于阿里的大数据,阿里巴巴的电商平台存储了大量微小企业客户及数以亿计的个人用户行为信息、交易记录、身份数据等,拥有最好、最全的数据以及最完整的产业链,做P2P及个人小额信贷,具有最大优势[2]。相反,传统商业银行早期就已推出的小额信贷业务,开展得并不十分顺利。
2.2 市场营销
今天的数字化营销与传统市场营销最大的区别就在于精准定位及个性化。如今企业与客户的交流渠道发生了革命性的变化,从过去的电话及邮件,发展到今天的博客、论坛、社交媒体账户等,从这些五花八门的渠道里跟踪客户,将他们的每一次点击、加好友、收藏、转发、分享等行为纳入到企业的销售漏斗中并转化成一项巨大的潜在价值,就是所谓的360度客户视角。例如谷歌的销售策略主要着眼于在线的免费软件,用户使用这些软件时,无形中就把个人的喜好、消费习惯等重要信息提交给了谷歌,因此谷歌的产品线越丰富,他们对用户的理解就越深入,其广告定位就越精准,广告所攫取的价值就越高,这是正向的循环。 2.3 公众服务
大数据的另一大应用领域是公众服务。如今数据挖掘已经能够预测海啸、地震、疾病暴发,理解交通模型并改善医疗和教育等。例如,可采用神经网络和基于地震时间序列的支持向量机方法来预测地震的大概方位、时间、震级大小等重要信息,为通用地震模拟程序提供关键的数据,从而对地震进行早期预警,以使防震抗灾部门可以提前做好应对措施,避免大量的人员伤亡及财产损失;再如,将各个省市的城镇医疗系统、新农村合作医疗系统等全部整合起来,建立通用的电子病历等基础数据库,实现医院之间对病患信息的共享,提高患者就医效率[3];电力管理系统通过记录人们的用电行为信息(做饭、照明、取暖等),大数据智能电网就能实现优化电的生产、分配及电网安全检测与控制,包括大灾难预警与处理、供电与电力调度决策支持和更准确的用电量预测等,并通过数据挖掘技术找出可行的节能降耗措施,以实现更科学的电力需求分配管理。
2.4 安防领域
安防领域中最重要的就是视频监控系统,从早期看得见到现在看得远、看得清,视频监控是典型的数据依赖型业务,依赖数据说话。尤其是高清、超高清监控时代的到来,会产生巨量的视频数据。这些巨量视频监控数据中,多数是冗余无用的,只有少数是关键数据,如何剔除这些无用数据,一直是人们研究问题的焦点。在大数据技术的支撑下,通过对巨量视频数据的分析与处理,可实现模糊查询、精准定位、快速检索等,能够对高清监控视频画质进行细节分析,智能挖掘出类似行为及特征的数据,从而为业务分析和事件决策判断提供精准依据。
3 大数据处理关键技术
3.1 数据备份技术
在大数据时代,如何做好数据的安全备份至关重要。数据备份是数据容灾的前提,具体是指当出现某种突发状况导致存储系统中的文件、数据、片段丢失或者严重损坏时,系统可准确而快速地将数据进行恢复的技术。数据容灾备份是为防止偶发事件而采取的一种数据保护手段,其核心工作是数据恢复,根本目的是数据资源再利用。
3.2 Hadoop
大数据时代对于数据分析、管理等都提出了更高层次的要求,传统的关系型数据库和数据分析处理技术已经不能满足大数据横向扩展的需求。为了给大数据处理、分析提供一个性能更好、可靠性更高的平台,Apache基金会开发了一个开源平台Hadoop[4],该平台用Java语言编写,可移植性强,现在Hadoop已经发展为一个包括HDFS(分布式文件系统 )、HBase(分布式数据库)等功能模块在内的完整生态系统,成为目前主流的大数据应用平台。
3.3 云计算
如果把各种各样的大数据应用比作在公路上行驶的各种汽车,那么支撑这些汽车快速运行的高速公路就是云计算,云计算是大数据分析处理技术的核心。正是由于云计算在海量信息存储、分析及管理方面的技术支持,大数据才有了如此广阔的用武之地。谷歌的各种大数据处理技术和应用平台都是基于云计算,最典型的就是以UFS(UIT云存储系统)、MapReduce(批处理技术)、BigTable(分布式数据库)为代表的大数据处理技术以及在此基础上产生的开源数据处理平台Hadoop[5]。
4 大数据应用带来的信息安全隐患及应对策略
大数据时代,海量数据通常存储在大规模分布式的网络节点中,管理相对分散,而且系统也无法控制用户进行数据交易的场所,因此很难辨别用户的身份(合法及非法用户),容易导致不合法用户篡改或窃取信息;此外,大数据存储系统中包含了海量的个人用户隐私数据及各种行为的记录信息,如何在大数据的挖掘利用中确定一个信息保护和开放的尺度, 是大数据面临的又一难题。为了合理利用大数据并有效规避风险,我们提出以下四点建议:
⑴ 国家出台相关政策,加强顶层设计,保障数据存储安全;
⑵ 增强网络安全防护能力,抵御网络犯罪,确保网络信息安全;
⑶ 提高警惕积极探索,加大个人隐私数据保护力度;
⑷ 深化云计算安全领域研究,保障云端数据安全。
5 结束语
在当今信息知识爆炸的时代,大数据技术已经被广泛应用于商业金融、电力医疗、教育科研等领域。随着数据挖掘技术的不断进步,相关信息行业竞相从规模庞大、结构复杂的大数据海洋中攫取更多有价值的数据信息用于分析、解决现实生活中的各种实际问题,从而实现信息技术的快速健康发展。本文梳理了大数据的基本概念及4V特征,总结归纳了大数据技术的四大热门应用领域及三大核心处理技术,分析了大数据技术带来的诸如信息窃取及篡改、个人隐私数据泄露等信息安全隐患,并提出了相应的解决措施及建议。当然,目前大数据技术的研究尚处在起步阶段,还有许多深层次的问题亟待解决,如大数据的存储管理是通过硬件的简单升级还是通过系统的重新设计来解决,大数据4V特征中起关键作用的是什么,大数据技术的应用前景是什么,等等。就目前来看,未来大数据技术的研究之路还很长,需要我们用更加敏锐的洞察力来分析和研究。
参考文献:
[1] BARWICK H. The "four Vs" of big data. Implementing Information Infrastructure Symposium[EB/OL]. [2012-10-02].
[2] 韦雪琼,杨哗,史超.大数据发展下的金融市场新生态[Jl.时代金融,2012.7:173-174
[3] 张敬谊,佘盼,肖筱华.基于云计算的区域医疗信息化服务平台的研究[J].计算机科学,2013.40(10):360-365
[4] Hadoop [EB/OL].[2012-10-02].h
[5] 吴朱华.云计算核心技术剖析[M].人民邮电出版社,2011.
大数据学术论文篇三:《浅谈企业大数据与大数据企业》
每个企业都可能拥有大数据,但是并非每个企业都能够成为大数据企业。
大数据因其体量之“大”而得名,然而体量并非大数据的唯一特征,甚至也不是大数据最为重要的特征。巨大的体量凸显的是技术需求。而对于管理者而言,刻意追求巨大体量的数据并不具有多少现实意义,大数据更重要的特征在于其多样化的来源和形态、持续快速的产生和演变,以及对深度分析能力的高度依赖。因此,企业对大数据的驾驭和掌控,其核心并不在于拥有多大规模的数据,而在于是否能够对来自于企业内外部多样化信息源的涌流数据进行敏捷持续的捕捉和整合,并通过深度分析开发其商务价值。
一家中等规模的百货商场,通过视频监控记录下商场各个区域的客流人数,从而评估每天各个时段客流的在店时长,进而结合销售记录数据估算出客流中带有明确购买目标的“搜索型”顾客和无明确购买目标的“浏览型”顾客的比例,从而为之设计针对性的营销手段和服务措施。这一实践中所涉及的数据量,从技术视角上看并不算庞大,但该商场对多源数据的整合和开发,不失为基于大数据管理的一种典型体现。
从这个意义上来说,在管理视角上,大数据既不是一种技术,也不是一种应用系统,而更应该是一种立足于企业内外部数据融合以提升管理效率、开拓价值创造模式的管理思维。建立这种面向大数据的管理思维,其基础是业务流程信息资源的高度集成化,以及信息创造和传播形式的高度社会化。
所以,企业大数据的一个重要焦点,在于业务流程信息与社会化媒体信息的全方位融合。以ERP为代表的企业系统应用推动业务流程信息资源从分割走向集成,日渐兴起的企业内外部社交媒体则推动信息的创造和传播形式从通道式/平台式走向社交式,二者的融合将成为企业大数据的核心特征。由此看来,未来的“大数据企业”,则代表着建立在这种融合基础上的新型组织形态和价值创造模式。
驾驭企业内部大数据
企业内部数据包括两个主要维度:一是与业务功能及流程紧密相关的数据,如库存信息、物料需求信息、生产计划信息、采购信息等,可统称为业务流程信息;二是企业内员工及各种管理系统在其日常工作及活动中所创造、记录、交换和积累的信息,例如员工间的交流记录、工作心得、经验分享、活动新闻等,可统称为知识及沟通信息,知识及沟通信息高度松散且非结构化,但可能蕴藏着企业的重大潜在价值。
这两个数据维度的发展和融合,催生出了企业内部大数据。如图1所示,在传统的企业组织中,业务流程信息分散地存在于一个个孤立的业务系统中。在过去二十余年的企业信息化进程之中,一个主要的方向是业务流程信息从分割走向集成。从库存管理系统、物料需求计划 (MRP) 发展到企业资源计划 (ERP),分散的业务信息被集成于企业系统之中,从而实现面向业务流程的信息共享和沟通,并在此基础上借助跨部门的协同实现业务流程的优化和决策能力的提升。
另一方面,近年来逐步兴起的企业内社交媒体应用,推动着企业内部数据环境在知识及沟通信息维度上的重大变革。在传统企业组织中,知识及沟通信息借助于通道式或平台式的媒体产生和传播。在通道式的媒体上(例如email),所有的人都可以发信息,但信息的发送对象是明确的、有限的;在平台式的媒体上(例如企业内的新闻网站),信息是开放的,但只有专门的人员才能发布信息。在企业内社交媒体中,这两种形式被整合在了一起:所有人都可以发布和分享信息,而且这些信息是开放的、可定制、可再分享的。在这样的应用环境中,跨部门、跨层级的社交联系成为可能,并使得企业能够更为敏锐地应对变化的环境,以即兴式的团队组织来捕捉发展机遇。这种转变带来了三方面的价值:企业知识的有效共享和管理;企业文化建设,增强员工的归属感;对企业内协同创新的有效支持和促进。
进一步而言,当集成化的业务信息与社交化的知识沟通信息相融合,便带来了企业内部大数据。在集成化企业系统、内部社交媒体以及深度数据分析技术的共同支撑下,杰克・韦尔奇所畅想的“无边界组织”在新兴环境下成为可能,并被赋予了新的内涵。部门边界、层级边界被紧密的业务联系和广泛的社交联系所弱化,结构化的业务流程信息与非结构化的知识及管理活动信息被多维度融合的深度数据分析能力连接在一起,从而使企业真正具有驾驭内部大数据的能力。
从另一种角度上看来,业务资源整合使得企业信息资源的管理从分散走向集中,社交媒体的发展使得企业内的信息创造和传播从集中走向分散,二者相辅相成,使得优化控制与灵活创新的并存成为可能(见图2)。基于业务流程与社交媒体的融合而展开的深度数据分析,将为企业的决策优化、协同创新以及灵活应变开辟广阔的空间。
驾驭企业外部大数据
在企业外部的视角上,数据资源也包括两个维度:一是与上下游交易直接相关的供应链信息,如交易报价信息、订单信息、上下游企业库存及生产能力信息等;二是市场及社会环境信息,如原材料价格走势、市场需求及消费者偏好信息、顾客服务及满意度信息等。
企业外部大数据的基本特征,也正是在这两个维度的发展之中呈现出来的。如图 3所示,在传统的商务活动形式下,上下游企业的业务系统相互独立,交易伙伴借助电话、传真、电子邮件等手段以实现上下游信息交换,企业通过市场调研等方式了解消费者,获取市场及社会环境信息。组织间信息系统的发展带来了供应链信息的集成。通过将合作伙伴的信息系统进行对接,或是借助于电子市场平台实现企业信息系统的相互连接,上下游企业的业务信息能够通过标准化的接口自动交换,从而使得企业能够在较为充分地掌握上下游信息的基础上进行业务决策,实现交易伙伴之间的协同优化。 在市场及社会环境信息的维度上,信息的创造和传播形态同样经历了从通道式/平台式媒体向社交媒体的转变。公众社交媒体的巨大影响力为社会化商务注入了强大的生命力。初期的社会化商务包括作为对外沟通渠道的企业邮箱、博客、微博或即时通讯等,其主要目的在于提升企业形象、提供客户服务。随之发展而来的社会化营销,则注重在社交网络中通过与顾客及其他商务伙伴的沟通和互动,进而通过实时化、精确化的市场洞察以获取商业机会、开拓市场、把握创新机遇。此外,基于社交媒体的众包、众筹与众创,也日益成为社会化商务的重要组成部分。
供应链信息集成与社会化商务信息的融合,构成企业外部大数据的核心特征。来自于社交媒体信息源的市场环境信息与来自于组织间信息系统的供应链信息相结合,借助于深度数据分析技术实现面向企业商务网络的预测与优化,并支撑起实时化、精确化、个性化的消费者洞察与敏捷响应,在此基础上为基于网络协同及社会化商务的模式创新提供了丰富的可能性。从而,对外部大数据的管理和驾驭,也将成为现代企业在网络化的商务生态系统中占据主导地位并获取经营优势的关键途径。
成为“大数据企业”
基于以上分析,企业内部大数据的焦点,在于业务流程信息与知识及沟通信息的融合;企业外部大数据的焦点,在于供应链信息与市场及社会环境信息的融合。进而,大数据时代企业组织的基本内涵,在于内部大数据与外部大数据的全方位融合。如图 4所示,大数据企业立足于内外部业务与社交媒体数据的集成交汇。
业务流程数据主要来源于以ERP为代表的企业系统,涵盖了产品、物料、采购、生产、销售、财务等与企业生产及服务提供过程紧密相关的数据;商务交易数据来源于以供应链管理系统 (SCM)、客户关系管理系统 (CRM)、电子化交易系统为代表的组织间信息系统,涵盖了供应商、客户、订单、物流等与外部交易活动紧密相关的信息;内部社交媒体数据包括了企业员工在内部博客、微博、Wiki、内容分享平台、群体化即时通讯工具等应用中创造和传播的信息,以及企业在办公自动化系统等交流协作平台上所记录积累的数据,涵盖并反映了员工的知识、建言、创意、心态、氛围等形式多样、内容广泛的信息;外部社交媒体数据主要来源于公众社交媒体,包括企业博客、企业微博/微信服务号、品牌社区等各种形式,所涵盖的信息内容包括市场环境、需求信号、全生命周期顾客行为、个性化偏好、营销互动记录等。
在这四大类型的数据之间,致力于大数据管理的企业可以有两种不同的发展策略。其一是以社交媒体与业务数据的融合为主导,以期通过敏捷响应快速发现并应对内外部环境中的变化和机遇。在这种策略下,面向高速数据流的实时数据采集和分析方法,将成为大数据管理的主要支撑手段。
第二种策略是以内外部数据融合为主导,以期通过全面汇集内外部信息,对中长期发展趋势作出准确的预判,从而实现高度优化的业务决策,并通过对信息环境的掌控,获取企业网络生态系统中的领导地位。在这种策略下,大规模多源异构数据的采集、清洗和整合方法,将成为大数据管理的核心支撑。
如何挖掘企业大数据的价值
企业大数据的价值开发高度依赖于深度数据分析能力。从内外部融合的视角上看来,企业大数据分析包括三个基本维度,即内容、关系和时空。
内容维度指的是数据本身所承载的信息内容。例如,G公司是一家大型电信服务商,其内部建设实施了一套“班组博客”系统。在这个内部社交媒体平台上,公司中的3000多个工作团队都开设了自己的博客,用于发布和交流工作经验、生活体验等方面的内容。经过数年的发展,整个博客系统中积累了博文700多万篇,评论超过1500万条,并保持着每月15万篇以上的博文发表数量,年阅读量超过1000万篇次。对于这一平台所积累的大量数据的价值开发,首先体现在对其信息内容的提炼上。平台上与工作相关的博文内容,如客服案例、经验分享等,经自动筛选分类、主题识别、关键词索引之后,被构建成企业知识库,为业务及管理工作提供快速有效的知识支撑,同时成为员工培训和自学的有力工具。而大量与工作无关的博文和评论内容,包括生活常识、娱乐信息、心情表达、心灵鸡汤等,在智能化的分类整理之后,也成为了该公司的一个独特的文化情景,支撑着企业中活跃的氛围,强化了员工的文化认同。
关系维度指的是数据及其所指代的对象之间的联系。在G公司的班组博客中,员工的发表、阅读、评论、回复、关注等行为详尽地反映了其相互之间密集而持续的联系,而这些联系毫无遗漏地被记录在平台的数据库之中。通过对这些关系结构的深度分析和挖掘,G公司获得了对员工及团队的影响力、凝聚力、创造力的更为准确而深入的评估手段。进一步而言,博客平台的行为记录数据与业务系统中的事务处理记录数据,以及员工及团队的绩效表现数据,也能够被有效地关联起来,从而使得管理者拥有强有力的工具,帮助其发现和理解员工的行为特质、工作表现、业务能力之间的潜在关联,进而实现良性优化的人员配置和人才培养。
时空维度指的是数据生成及传播的位置以及数据随时间演变的模式。对G公司而言,其数以千计的业务场所分散在众多城市的不同地点,因此,数据中的位置信息对于虚拟化的团队协同而言具有直接的意义。此外,位置信息也包括了数据在组织功能结构和层级结构中所处的位置。同时,在G公司的班组博客中,对特点话题时间演变规律的分析,也为管理者提供了有效的参考。其中对企业重要活动、运营理念相关信息在班组博客中的传播演变模式的跟踪,有效地揭示了员工对管理理念的认知、态度和接受过程。
更深入的价值开发来自于上述三个维度的交叉综合。例如,内容维度与关系维度的结合,使得G公司能够识别员工的兴趣偏好、社交特质、工作性质以及工作表现之间的匹配关系,也能够更为准确地发现那些分散在不同的员工手中、但具有重要潜在影响力的经验、创意以及机遇信号。内容维度、关系维度与时空维度的结合,使得企业能够更为深入地理解不同的员工特质、知识技能、团队特性、热点偏好在整个组织中的分布,以及这些结构随时间演变的过程和趋势,从而更为有效地调度和配置这些资源。 这些维度上的分析需求,主要需要三方面的数据分析技术予以支撑。第一类是全局视图技术。对于管理者而言,对大数据内容全局状况的把握,往往是开发大数据价值的一个基本需求。然而大数据的体量和结构复杂性往往远远超出人类认知的信息承载能力。因此,有效的技术应当能够在大量数据中提取出一个足够小的集合以呈现给管理者,并使得这个小集合能够充分地代表数据全局。例如,在G公司的博客平台上,一种“代表性博文提取”技术能够在每天所出现的数以千计的博文中自动选择出10篇。这10篇博文在很大程度上全面代表了当天所出现的数千篇文章,既充分反映热点,也不能忽略冷门信号,从而使得管理者能够通过阅读这些文章来了解全局。第二类支撑技术是关联发现技术,其目标在于敏锐识别数据间的联系。例如,当G公司试图整合博客平台、业务系统、人力资源系统中的数据以全方位分析员工、团队特质以及绩效信息时,大量的数据属性之间所构成的复杂潜在关联网络,就需要强有力的关联发现技术来加以处理。第三类支撑技术是动态跟踪技术,即实时化的流数据分析处理、快速增量数据分析。三方面技术都处于快速发展之中,但尚未全面成熟,有待于学界和业界的持续努力和探索。
结束语
从一定意义上说来,业务资源集成与社交媒体相融合的过程,是一个“信息去中心化”的过程。信息资源的创造和管理,从以往以经营和运作为核心的中心化模式,转化为以分散创造、自由传播、灵活汇聚为特征的众创模式。另一方面,内外部数据融合的过程,是一个“信息去边界化”的过程。企业部门之间的信息交换、企业之间的信息交换以及企业与市场环境的信息,以日益多样化、实时化的方式实现。
这样的转变对于企业组织及其员工而言,其影响将会是多方面的。正面的影响可能包括创新意识与创新行为的出现、员工能力和技能的发展、沟通满意度的提升、员工关系资本的建立和积累、员工对组织的认同和归属感的增加;而负面的影响则可能包括员工注意力分散、过度争论,以及负面情绪的传播等。所以,建设“大数据企业”的过程,也将会是一个伴随着困难与风险的过程。在此过程中,需要管理者有效地把握创新发展的长期收益与短期业绩之间的平衡,在推进大数据融合的同时防范和控制其中的组织风险,并审慎地思考和重新定义组织内外部边界。
换言之,对企业而言,大数据实质上是一种管理思维,其支点在于业务信息资源与社交媒体的融合,以及内外部数据的融合,在这样的支点上反思企业的组织形态、运作范式和价值创造模式,是“大数据企业”的真正内涵所在。
猜你喜欢:
3.大数据学术论文