有个笑话说,老婆把钥匙掉进下水道,催老公去捞。老公不捞。老婆一生气,把老公买的结婚戒指丢了进去。老公赶快去捞钥匙。他找来一块磁铁,系上绳子丢进下水道,不料,钥匙没上来,结婚用的“黄金戒指”居然跟着磁铁一块上来了!这个笑话说明什么?物以类聚,不同类别的物质,要用不同的处理方法。因此,学习大数据,先要学习数据分类。
上一节我们知道:大数据就是海量信息;大数据分析,就是在海量信息中提炼出有价值的信息。既然是海量信息,必须通过分类才可加工。最常见的数据分类是怎样的呢?通常把数据分为结构化、半结构化和非结构化数据。严谨用大家熟悉的砖块作比:结构化数据就像完整规则的砖块;半结构化数据就像半完整、半规则的砖头;非结构化数据就像不完整、不规则的碎砖。比如财务系统、行政审批数据,是结构化数据;文本、图片、图像、音频、视频,是非结构化数据;介于结构化与非结构化之间的数据,有规则但不标准,是半结构化数据。
据统计,一个城市的数据中,结构化数据不到5%,其它都是半结构化和非结构化数据,尤其是文本、图像、音频、视频等非结构化数据,逐年呈指数级增长,如何存储和利用这些数据,尤为关键,是大数据研究的重要课题。