词条信息

admin
超级管理员
版本创建者 发短消息   
简易百科旧版 >> 数据湖跟数据库有什么区别? >> 历史版本

最新历史版本 :数据湖跟数据库有什么区别? 返回词条



  如果你与大数据有一丝关系,你就会知道,为每秒生成的数据量找到存储解决方案是至关重要的。当涉及到管理数据时,数据专业人员可以考虑使用数据仓库或数据湖作为数据存储库。为了确定什么对您的组织最有利,让我们首先定义它们是什么,然后比较它们。


目录

什么是数据湖?回目录


  有些人错误地认为数据湖只是数据库的2.0版本。虽然它们相似,但它们是不同的工具,应该用于不同的目的。James Dixon是Pentaho的首席技术官,他命名了数据湖的概念。他用了下面的比喻:


  “如果你把数据仓库想象成储存瓶装水的仓库——经过清洗、包装,结构简单,便于消费——数据湖是一个更自然的大水体。”数据湖的内容从一个来源流入来填满湖,湖的各种用户可以来检查,潜水,或取样。


  数据湖以非结构化的方式保存数据,在单个数据块之间没有层次结构或组织。它以最原始的形式保存数据,不进行处理或分析。此外,数据湖接受并保留来自所有数据源的所有数据,支持所有数据类型和模式(数据存储在数据库中的方式)仅在数据准备使用时应用。


什么是数据库?回目录


  数据库以一种有组织的方式存储数据,所有数据都以一种定义的方式存档和排序。在开发数据仓库时,在分析数据源和理解业务流程的初始阶段会进行大量工作。对于要从仓库中包含和排除哪些数据,需要做出决策。只有在标识了数据的使用之后,数据才被加载到仓库中。


数据湖和数据库如何比较?回目录


1.数据


  数据湖保留所有数据结构、半结构和非结构/原始数据。数据湖中的一些数据可能永远不会被使用。数据湖也保存着所有的数据。数据仓库只包含经过处理(结构化)的数据,并且只包含报告或回答特定业务问题所需的数据。


2.敏捷性


  由于数数据湖缺乏结构,因此对模型和查询进行更改相对容易。数据湖更加灵活,可以根据需要对数据湖进行配置和重新配置。由于与数据库相关联的业务流程数量多,因此更改数据库的结构要麻烦得多,耗时也长。


3.用户


  数据科学家通常是在数据湖中访问数据的人,因为他们有进行深入分析的技能。从技术上讲,数据湖可以支持所有用户,并对所有用户开放。数据库由特定的业务用户使用,用于从数据库建立时定义的数据中报告和提取特定含义;对于需要跨越仓库边界从数据中收集新分析的数据科学家来说,它们通常太过严格。


4.安全


  由于数据库比数据湖更加成熟,数据库的安全性也更加成熟。还有一个问题是,由于所有数据都存储在数据湖中的一个存储库中,这也会使数据更加脆弱。只要管理一个存储,审计和遵从性就会变得更容易。


  数据湖和数据库是用于不同目的的不同工具。如果您已经建立了数据库,那么您可能会选择在它旁边实现一个数据湖,以解决您在数据仓库中遇到的一些约束。要确定数据湖或数据库是否最适合您的需求,您应该从您试图实现的目标开始,并使用帮助您实现目标的数据存储库。