<返回更多

什么是大数据的结构化、非结构化、半结构化及多结构化?

2019-12-03    
加入收藏

人们在面对非结构性的数据时,常常是没有控制权的,能做的就是接收它们。像是文本数据、视频数据、音频数据等等都是这样。图像是独立像素用特定的方式组合起来的,只不过组合的方式是千变万化的。完全非结构性的数据就是如此。事实上大多数的大数据应该算是半结构化的。

什么是大数据的结构化、非结构化、半结构化及多结构化?

 

半结构性的数据还是具备可理解的逻辑流程和格式,只是这些格式并非对用户都表现出了友好的姿态。半结构性的数据从某种程度上也可以被称作是多结构性的数据。此类数据,大量无价值的数据包裹着有价值的数据。相同情况下,理解和分析半结构性的数据难度要大很多。因此要用一套复杂的规则来理解半结构性的数据,只有在读了每一条信息之后才能动态地决定处理方法。

半结构性数据中最典型的就是网络日志。人们看到网络日志时,会觉得很丑陋,事实上它们中的每一条信息都有特定的价值。

 

非结构性的大数据源并不常见,反倒是大量的半结构性数据和多结构性数据比较常见。它们拥有可理解的逻辑流程,从中能提取出能用于分析的信息。只不过要驾驭半结构化的数据,必须有时间的保障,这才是处理它们的最佳方式。

 

网络日志的信息是有逻辑的,尽管很多时候很难看出来。日志中字段和分隔符都是不同的,仿佛是结构性的数据一般,包含了大量的价值。只不过它们彼此间非以固定的方式相联系。不同网站上的网络日志点击所用的时间长短不一。另外,半结构性的数据要理解其内在的逻辑并非不可能的,只不过要花上一段时间才行。

 

分析专家似乎更怕非结构性数据,半结构性的数据对他们来说,要征服是需要付出努力的,而他们也能够做得到。分析专家首先要把半结构性的数据组织成结构性的,然后再在他们的分析流程中运用。而对于非结构性的数据来说,困难就会大很多。即便是已经征服了半结构性的数据,他们要面对非结构性的数据时还是会感觉是个巨大的挑战。

声明:本站部分内容来自互联网,如有版权侵犯或其他问题请与我们联系,我们将立即删除或处理。
▍相关推荐
更多资讯 >>>