当大数据遇上人工智能,会发生什么?

1 2017-07-11 2:11:09 下午 449 | 大数据

 2017 / 07 / 13 星期三

 Article | 胡琪

Pagemaker | 谭文静

 

有据可查的“大数据”概念于2008年8月中旬,由《大数据时代》的作者维克托·迈尔-舍恩伯格提出。书中提及的大数据是指不使用传统的随机分析法,而采用覆盖所有样本的方法进行分析处理的数据集。

此种数据集一般具有五个特性:数据量大(Volume)、种类和来源多样化(Variety)、潜在价值大(Value)、增长速度快(Velocity)、结果的真实性(Veracity),俗称”5V”特性。

与之想匹配的大数据技术水平在存储、处理及分析等方面的要求都不低,其中,它在分析挖掘领域的最大特点在于侧重数据的相关性,而非因果性。相关性通常是指各维度之间存在同向或反向的关系,它本身并不关心这种关系是由谁引起的、他们是否具有一致,它只关心各维度之间波动的变化情况。

举个简单的例子,在金融领域有个叫“风控模型”的神奇工具。它在接收成百上千个维度信息后,会输出一个评分结果,这个结果可以反应主体的风险承受能力。

可这样的一个结果能真切反应主体的全部风险承受能力吗?

答案是否定的。一个主体肯定不止数千个维度,因为意外在所难免。现实情况能做到的,只能是用有限的数据反应有限的事实。即,一个“风控模型”要做的好,它只能尽可能发现与结果相匹配的强关联维度,找出它们的相关性;然后经历几个运作周期后,不断调整各维度之间的权重,以期达到目前最佳风险控制效果。

实现一个好的“风控模型”,其难点在于如何找到正确的强关联维度并确认维度之间的相关性。行之有效且较为简单的方法是对主体进行较长周期的研究,总结其共性,形成其特性,再用周期内得到的数据进行反复检验,俗称机器学习中的“监督学习”。这样的一个分析对数据并没有充分的利用,因为这么多数据就只得到了这么一个结果,大数据的价值不仅仅如此!

大数据的价值不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理得到有效的信息。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

人工智能的出现,可以将大数据的价值发挥到极致。它可以实现自动将大数据中各式各样的维度进行综合分析,得到相关性很强的维度信息。简言之,人工智能它可以自己得出结论,而且是各式各样的结论。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

*

*