大数据时代下的数据采集

1 2017-04-17 12:16:56 下午 259 大数据

 大数据,这个词在前几年被炒的火热,在今年感觉好像已经淡出我们的视野,宣传和炒作开始集中的转向人工智能和机器学习等领域。但这并不是因为大数据只是炒作出来的泡沫,转瞬即逝,而是因为大数据技术已经从一种新技术演变成企业在生产环境中实际部署的核心系统,大数据技术已经从概念走向实际生产,炒作的泡沫自然把焦点转移到了新兴的人工智能和机器学习上。

大数据的基础,便是数据采集。单个的数据可能并没有价值,但把它们收集起来并进行系统分析,这也是一座不小的金矿,从目前各种查看公司信息的网站就能看出,它们通过各种途径采集到海量公司信息,将其系统化分析,转化成了有价值、客户感兴趣的信息,从中获得巨大的收益。

数据采集带来的影响

从数据采集的角度看大数据,大数据带来了几个显著的影响。一个是可采集的数据比以往丰富了不少,以往采集的数据都是未经过处理分类的原始数据,现在还有各种经过处理后更加直观、更有价值的数据。一个是数据采集的难度大大增加,各大企业都认识到了数据的价值,不希望自己辛苦采集到的数据又被他人采集,从而开发出了各种反制措施,但是从公开的页面采集数据就是把人工访问页面并记录数据的过程自动化,除非禁止所有用户访问页面,不然无法完全禁止数据采集活动。这是一个矛盾点,有了强大的反采集措施,就会在一定程度上影响到用户体验,而有了极高的用户体验,在一定程度上也给数据采集提供了便利。

采集方法

在《大数据——大价值、大机遇、大变革》中提到了三种数据采集方法:

  • 第一种是系统日志采集方法,这是企业采集自己的系统日志得到数据的一种方法。
  • 第二种是网络数据采集方法,这是指通过网络爬虫或网站公开API等方式从网站上获取数据的一种方式。
  • 还有是其他数据采集方法,这是对数据保密性要求高的数据,通过和企业或研究机构合作,约定好特定的系统接口得到数据的一种方式。

其中,第二种网络数据采集方法能够最有效的获得数据,利用网络爬虫可以获取互联网上各种公开的信息,这也是各个大数据企业获取数据最主要的方式,也是限制最多的方式。在数据越来越值钱的大数据时代,大数据企业一方面采集着他人的数据,一方面用各种方式防止自己数据被他人采集,有验证码、限制访问次数、登陆后访问等等反制措施。限制访问次数和登陆后访问可以通过海量代理和多个账号解决。最难的是验证码,解决验证码需要的图像识别技术在实现上有很高的技术壁垒,在识别准确度上更是会严重影响数据采集进度。

可采集数据越来越丰富,数据越来越有价值,采集数据的难度越来越大,在大数据时代下,机遇与挑战并存,这也是符合公司“数据为本,科技铸金”的理念。数据就是新能源,是公司发展的动力,在数据采集中,技术壁垒会一个一个越过,困难会一个一个解决,大数据时代,我们准备好了。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

*

*