你好,游客 登录 注册 发布搜索
背景:
阅读新闻

非结构化数据背后的真相

[日期:2014-03-13] 来源:  作者: [字体: ]

  随着大数据概念的流行,非结构化数据已经逐渐成为了大数据的代名词。Soltius公司的工程师Ram Subramanyam今天发表了一篇文章,对非结构化数据进行了解读。

  相比于交易型数据,非结构化数据(Unstructured Data)的增长速度要快很多。整理、组织并分析非结构化数据,能够为企业带来更多的竞争优势。每一个数据元素都有它的意义,尽管有些是和你不那么相关的。在本文中,我就将解释一些常见的非结构化数据问题。

  非结构化数据包括以下几个类型:

  文本:在掌握了元数据结构时,机器生成的数据,如传感器等就一定能够进行解译。当然,流数据中有一些字段需要更加高级的分析和发掘功能。

  交互数据:这里指的是社交网络中的数据,大量的业务价值隐藏其中。人们表达对人、产品的看法和观点,并以文本字段的方式存储。为了自动分析这部分数据,我们需要借助实体识别以及语义分析等技术。你需要将文本数据以实体集合的形式展现,并结合其中的关系属性。

  图像:图像识别算法已经逐渐成为了主流。此外,这些技术也会产生实体,尽管获取关系以及舆情分析更加具有挑战性。

  音频:目前有许多研究是针对于解译音频流数据的内容,并能够判断说话者的情绪。然后在利用文本分析技术对这部分数据进行分析。

  视频:毫无疑问,视频是最具挑战性的数据类型。图像识别技术可以对每一帧图像进行抽取,当然,要真正做到对视频内容进行分析还需要技术的进一步发展。而视频中又包括音频,可以用上述的技术进行解译。

  根据上述内容,我们需要一些新的数据处理与分析功能,来获得这些数据类型的价值,下面就是其中一部分技术:

  动态元数据发现:该技术主要针对文本数据,它能够动态地将元数据从结果集中抽取出来,比如新的REST结束点。在持续基础上维护和控制元数据。在运行时间,从大量可用选项中,选择适当的最佳匹配的元数据集。

  分类设置:你需要能够针对其他分析层捕获并表现你的业务及其实体,以对输入的数据进行注释和参考。由于业务元素的加入,这一分类将变得更加普遍。

  实体提取和语义分析:它能够将分类利用到任何数据流当中,并将数据流中表达的实体和关系进行提取。这种分析可以存储在一个关系型数据库当中,也可以以图表的形式进行存储。

  多媒体识别技术:如上述所言,进行非结构化数据分析,我们就需要各种解译图片、音频视频的技术。

  其层级如下所示:

  

  我们看到,目前许多动作还都停留在最上层,但逐渐也会渗透到音频和视频层面。

收藏 推荐 打印 | 录入:Cstor | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款