无论我以及其他人对“大数据”一词缺乏合理定义的担忧如何,毫无疑问它已成为 2011 年的重大新闻,并且看起来明年将继续发挥同样的作用。我看到的一个有趣的趋势是来自曾经独立的数据和内容世界的供应商之间的兴趣和方法的融合。这个想法源于最近与劳尔的一次谈话 图像无论我(以及其他人)对“大数据”一词缺乏合理定义的担忧如何,毫无疑问它已成为 2011 年的重大新闻,并且看起来明年将继续发挥同样的作用。我看到的一个有趣的趋势是来自曾经独立的数据和内容世界的供应商之间的兴趣和方法的融合。这一想法源于最近与Coveo总裁兼首席技术官 的一次对话。但首先,让我们确保我们所指的数据和内容都是相同的。 正如其他地方所讨论的,我发现将大数据分为四个不同的类别是有用的器生成的事件数据,计算机生成的日志数据用户生成的文本和用户生成的音频、图像和视频。这些类别主要基于数据内的结构级别以及存储和处理数据所需的不同技术,从而导致类别边界有些灵活。
为了完整性并包括我
们所谓的小数据,让我在这里添加类别 (0),其中包括半个多世纪以来我们通过计算机存储和操作的传统交易和状态数据。作为人类,我们似乎倾向于以二元方式对世界进行分类——好或坏、矮或高、黑或白等等。毫无疑问,您熟悉结构化与非结构化信息的二元分类,该分类将上述类别划分为 (2) 附近的某 秘鲁手机号码列表 个位置。我本人更喜欢硬信息与软信息的对等术语,仅仅是因为“非结构化信息”是一个矛盾的说法;根据定义,信息具有结构。 另一种常见的二元分类是数据与内容,其中内容从上面的类别 (3) 开始。数据/内容划分源于数据库和内容存储之间的旧技术边界。数据库根据信息的含义来区分信息,并将它们存储在单独的记录和字段中;访问是通过查询进行的。内容存储不会看到或强加较低级别的信息结构;通过搜索进行访问。当然,这种区别过于简单化了。多年来,数据库一直在添加功能来支持大型文本字段和 blob进制大型对象。
当然内容存储确实支持字段结构
然而,此类非核心附加组件往往被双方视为二等公民。 更多阅读 数据安全揭晓 数据安全揭晓:在互联世界中保护您的信息 大数据赋能家长:保障儿童安全与发展 自动文档处理中的安全性:确保数据完整性和机密性 释放胜利:数据收集如何彻底改变足球表现分析! 使用数据分析为收入运营提供信息的 7 个技巧 电话号码 MX 最近的业务发展和技术进步使得两边的供应商都把目光投向了另一边。我最近的白皮书由赞助,研究了如何将搜索技术有效地应用于企业数据。的早期白皮书从内容方面进行了融合,将倒排索引的使用从内容世界扩展到了更结构化的数据。 始终拥有大量连接器,可连接网站、电子邮件和内容存储中的各种内容,以及与关系数据库的 连接。7.0 版本添加了 作为来源。他们的企业搜索 2.0 概念(停止移动数据并开始访问知识)对于任何关注等供应商在 BI 领域推动数据虚拟化的人来说都是非常有意义的。