适用于大数据的开源OLAP系统的比较：ClickHouse，Druid和Pinot

2020-04-24 13:52:01 聞數起舞

在这篇文章中，我想比较ClickHouse，Druid和Pinot这三个开放源数据存储，它们通过交互延迟对大量数据运行分析查询。

警告：这篇文章很大，您可能只想阅读最后的"摘要"部分。

信息来源

我从核心开发人员之一Alexey Zatelepin那里了解了ClickHouse的实现细节。本文档页面的最后四个部分是英语提供的最好的材料，但是非常稀缺。

我是Druid的提交者，但是我对这个系统没有既得利益（实际上，我可能很快就会停止参与它的开发），因此读者可以期望我对Druid相当客观。

我在这篇关于Pinot的文章中写的所有内容都是基于Pinot Wiki中的Architecture页面以及" Design Docs"部分中的其他Wiki页面，这些页面的最新更新于2017年6月，已经有半年多了。

这篇文章还评论了Alexey Zatelepin和Vitaliy Lyudvichenko（ClickHouse的开发人员），Gian Merlino（PMC成员和Druid的最活跃开发人员），Kishore Gopalakrishna（黑皮诺的建筑师）和Jean-FrançoisIm（黑皮诺的开发人员）。感谢审稿人。

在选择大数据OLAP系统时，请不要比较它们在当前用例中的最佳状态。目前，它们都非常次优。比较您的组织可以使这些系统朝着使您的用例更优化的方向移动的速度。

由于其基本的架构相似性，ClickHouse，Druid和Pinot在效率和性能优化上具有大约相同的"极限"。没有"魔术药"可以使这些系统中的任何一个都比其他系统快得多。在当前状态下，系统在某些基准测试中的性能差异很大，因此请不要为之困惑。例如目前，Druid不像ClickHouse（请参见上文）那样很好地支持"主键排序"，而ClickHouse不像Druid那样不支持倒排索引，这使得这些系统在特定工作负载方面处于优势。如果您有意愿和能力，则可以在选定的系统中实施缺少的优化，而无需花费很多精力。

· 您的组织中的任何一个都应该具有能够阅读，理解和修改所选系统的源代码并具有执行此功能的工程师。请注意，ClickHouse用C ++，Druid和Pinot用Java编写。

· 或者，您的组织应与提供所选系统支持的公司签订合同。 ClickHouse有Altinity，德鲁伊有Imply和Hortonworks。目前没有针对Pinot的此类公司。

其他开发注意事项：

· Yandex的ClickHouse开发人员表示，他们将50％的时间用于构建公司内部所需的功能，而50％的时间用于"社区投票"次数最多的功能。但是，要从中受益，您在ClickHouse中所需的功能应与社区中大多数其他人所需的功能匹配。

· Imply的Druid开发人员具有建立广泛适用的功能的动机，以最大程度地发展其未来业务。

· Druid的开发过程与Apache模型非常相似，多年来，它是由几家公司开发的，这些公司的优先级相差很大，而且没有一家公司占有主导地位。 ClickHouse和Pinot目前距离该州还很遥远，它们分别是分别由Yandex和LinkedIn开发的。对德鲁伊的贡献以后被拒绝或撤销的可能性最小，因为它们与主要开发者的目标不一致。德鲁伊没有"主要"开发商公司。

· Druid承诺支持"开发人员API"，该API允许提供自定义列类型，聚合算法，"深度存储"选项等，并使它们与核心Druid的代码库保持独立。 Druid开发人员记录了此API，并跟踪其与先前版本的兼容性。但是，该API尚未成熟，并且在每个Druid版本中都几乎被破坏了。据我所知，ClickHouse和Pinot没有维护类似的API。

· 根据Github的说法，黑皮诺从事这项工作的人最多，去年似乎至少有10个人年在黑皮诺上进行了投资。对于ClickHouse来说，这个数字可能是6；对于德鲁伊，这个数字大约是7。这意味着从理论上讲，黑皮诺在主题系统中的进步最快。

系统之间的相似性

耦合数据和计算

从根本上讲，所有ClickHouse，Druid和Pinot都是相似的，因为它们在同一节点上存储数据并进行查询处理，这与去耦BigQuery体系结构不同。最近，我描述了在德鲁伊（1，2）情况下耦合体系结构的一些固有问题。目前没有与BigQuery等效的开源软件（也许是Drill？），我在此博客中探讨了构建此类开源系统的方法。

与大数据SQL系统的区别：索引和静态数据分发

主题系统的查询运行速度比SQL-on-Hadoop系列中的大数据处理系统Hive，Impala，Presto和Spark更快，即使后者访问以列格式存储的数据（如Parquet或Kudu）也是如此。这是因为ClickHouse，Druid和Pinot

· 具有自己的格式来存储带索引的数据，并与查询处理引擎紧密集成。 Hadoop上的SQL系统通常与数据格式无关，因此在大数据后端的"侵入性"较小。

· 在节点之间相对"静态"地分配数据，并且分布式查询执行利用了这一知识。另一方面，ClickHouse，Druid和Pinot不支持要求在节点之间移动大量数据的查询，例如 G。在两个大表之间联接。

没有点更新和删除

从数据库的另一端来看，与诸如Kudu，InfluxDB和Vertica（？）之类的列存储系统相反，ClickHouse，Druid和Pinot不支持点更新和删除。这使ClickHouse，Druid和Pinot能够进行更有效的列压缩和更积极的索引，这意味着更高的资源效率和更快的查询。

Yandex的ClickHouse开发人员的目标是将来支持更新和删除，但是我不确定这是否是真正的点查询或数据范围的更新和删除。

大数据样式提取

所有ClickHouse，Druid和Pinot都支持从Kafka接收流数据。 Druid和Pinot支持Lambda样式的流传输和同一数据的批量提取。 ClickHouse直接支持批量插入，因此不需要像Druid和Pinot那样的单独的批量摄取系统。这篇文章下面将对此进行更详细的讨论。

大规模验证

这三个系统都得到了大规模验证：在Yandex.Metrica上有一个ClickHouse集群，大约有上万个CPU内核。 Metamarkets运行着类似规模的Druid集群。 LinkedIn上的单个黑皮诺集群拥有"数千台机器"。

不成熟

按照企业数据库标准，所有主题系统都非常不成熟。（但是，可能不比一般的开源大数据系统还不成熟，但这是另一回事。）ClickHouse，Druid和Pinot到处都缺乏明显的优化和功能，并且到处都是bug（这里我不能百分百确定）关于ClickHouse和Pinot，但没有理由认为它们比Druid更好。

这将我们带入下一个重要部分-

性能比较与制度选择

我经常在网上看到人们如何比较和选择大数据系统-他们获取数据样本，以某种方式将其吸收到评估的系统中，然后立即尝试衡量效率-它占用了多少内存或磁盘空间，在不了解所评估系统内部的情况下，查询完成的速度如何。然后，仅使用此类性能信息，有时还使用它们所需的功能列表以及当前比较的系统，他们会做出选择，或者更糟糕的是，决定从头开始编写自己的"更好"的系统。

我认为这种方法是错误的，至少在开源大数据OLAP系统中是如此。设计通用的大数据OLAP系统，使其能够在大多数用例和功能（及其组合的强大功能！）中有效地工作，这个问题确实非常巨大-我估计这至少需要100个人年。建立这样的系统。

ClickHouse，Druid和Pinot当前仅针对开发人员关心的特定用例进行了优化，并且几乎仅具有开发人员所需的功能。如果您要部署其中一个系统的大型集群并关心效率，那么我保证您的用例将遇到其独特的瓶颈，主题OLAP系统的开发人员以前从未遇到过或没有遇到过不在乎。更不用说上述方法"将数据投入您所不了解的系统并衡量效率"很有可能会遇到一些主要瓶颈，而这些瓶颈可以通过更改某些配置或数据模式或以其他方式进行查询来解决。

CloudFlare：ClickHouse与Druid

MarekVavruša的一个帖子说明了上述问题，其中一个例子是Cloudflare在ClickHouse和Druid之间的选择。他们需要4个ClickHouse服务器（超过了9个），并估计类似的Druid部署将需要"数百个节点"。尽管Marek承认这是不公平的比较，但是由于Druid缺乏"主键排序"，他可能没有意识到仅通过在"摄取规范"中设置正确的尺寸顺序就可以在Druid中获得几乎相同的效果。简便的数据准备：将Druid的__time列值截断为一些粗粒度，例如e。 G。一个小时，如果某些查询需要更细的时间范围，则可以选择添加另一个长型列" precise_time"。这是一种技巧，但是允许Druid在__time之前按某种维度对数据进行实际排序也很容易实现。

我不会质疑他们选择ClickHouse的最终决定，因为在大约10个节点的规模上，对于他们的用例，我还认为ClickHouse比Druid是更好的选择（我将在本文下面进行解释）。但是他们得出的结论是，ClickHouse的效率（在基础设施成本方面）至少比Druid高出一个数量级，这完全是谬论。实际上，在这里讨论的三个系统中，Druid提供了最多的功能来实现真正便宜的安装，请参阅下面的"在Druid中分层查询处理节点"。

ClickHouse和Druid / Pinot之间的区别

数据管理：Druid和Pinot

在Druid和Pinot中，每个"表"中的所有数据（无论这些系统用什么术语称呼）都被划分为指定数量的部分。按照时间维度，通常还会将数据除以指定的时间间隔。然后，将这些数据的各个部分分别"密封"到称为"段"的自包含实体中。每个段包括表元数据，压缩的列数据和索引。

段被保留在"深度存储"（例如，HDFS）中，并且可以被加载到查询处理节点上，但是后者不负责段的持久性，因此可以相对自由地替换查询处理节点。段并非严格地附加到某些节点，它们可以或多或少地加载到任何节点上。特殊的专用服务器（在Druid中称为"协调器"，在Pinot中称为"控制器"，但在下面我将其统称为"主服务器"）负责将分段分配给节点，并在节点之间移动分段，如果需要的话。（这与我在本文中上面指出的观点并不矛盾，因为包括Druid和Pinot在内的所有三个主题系统在节点之间均具有"静态"数据分布，因为Druid（我想是Pinot）中的段载荷和运动是昂贵的操作，而不是针对每个特定查询执行操作，通常仅每隔几分钟，几小时或几天执行一次。）

有关段的元数据直接在Druid中以及通过Pinot中的Helix框架保存在ZooKeeper中。在Druid中，元数据也保留在SQL数据库中，本文下面的" Druid与Pinot之间的区别"部分对此进行了详细说明。

数据管理：ClickHouse

ClickHouse没有"细分"，其中包含严格属于特定时间范围的数据。没有数据的"深度存储"，ClickHouse群集中的节点还负责查询处理以及存储在其上的数据的持久性/持久性。因此，不需要像Amazon S3这样的HDFS设置或云数据存储。

ClickHouse具有分区表，由特定的节点集组成。没有"中央权限"或元数据服务器。在其中对某个表进行分区的所有节点都具有表元数据的完全相同的副本，包括存储该表分区的所有其他节点的地址。

分区表的元数据包括节点的"权重"，用于分配新写入的数据，例如， G。 40％的数据应流向节点A，30％的数据流向节点B，30％的数据流向节点C。通常，数据在节点之间的分配应相等。如上例所示，只有在将新节点添加到分区表中时才需要"倾斜"，以便用某些数据更快地填充新节点。这些"权重"的更新应由ClickHouse群集管理员手动完成，或者应在ClickHouse之上构建一个自动化系统。

数据管理：比较

在ClickHouse中，数据管理方法比在Druid和Pinot中更简单：不需要"深度存储"，只需一种类型的节点，就不需要用于数据管理的专用服务器。但是，当任何数据表变得如此之大以至于需要在数十个或更多节点之间进行分区时，ClickHouse的方法就变得有些问题了：查询放大因子变得与分区因子一样大，即使对于查询而言，其覆盖范围很小。数据：

适用于大数据的开源OLAP系统的比较：ClickHouse，Druid和Pinot

> Data distribution tradeoff in ClickHouse

在上图中给出的示例中，表数据分布在Druid或Pinot中的三个节点之间，但是查询少量数据间隔通常只会命中两个节点（除非该间隔跨越了段间隔边界）。在ClickHouse中，如果表在三个节点之间进行分区，则任何查询都需要命中三个节点。在此示例中，这似乎并没有太大的区别，但是可以想象节点数为100，而分区因子仍可以是e。 G。 10德鲁伊或黑皮诺。

为了缓解此问题，实际上，Yandex上最大的ClickHouse群集（数百个节点）被分成许多"子群集"，每个群集包含几十个节点。该ClickHouse集群用于支持网站分析，并且每个数据点都有"网站ID"维度。每个网站ID都严格分配给特定的子集群，该网站ID的所有数据都存放在该子集群中。该ClickHouse群集之上有一些业务逻辑层，可在数据提取和查询方面管理此类数据分离。值得庆幸的是，在用例中，很少有查询可以跨多个网站ID来访问数据，而且这些查询并非来自服务客户，因此它们没有严格的实时SLA。

ClickHouse方法的另一个缺点是，当群集快速增长时，如果没有人工手动更改分区表中的"节点权重"，数据就不会自动重新平衡。

Druid中的查询处理节点分层

具有段的数据管理"很容易推理"。段可以相对容易地在节点之间移动。这两个因素帮助Druid实现了查询处理节点的"分层"：将旧数据自动移动到磁盘相对较大但内存和CPU较少的服务器上，从而可以显着降低运行大型Druid集群的成本，减慢对旧数据的查询。

与"扁平"集群相比，该功能可使Metamarkets每月节省数十万美元的Druid基础设施支出。

> Tiering of query processing nodes in Druid

据我所知，ClickHouse和Pinot还没有类似的功能，它们群集中的所有节点都应该是相同的。

由于Pinot的体系结构与Druid的体系非常相似，因此我认为在Pinot中引入类似的功能并不难。在ClickHouse中执行此操作可能会比较困难，因为段的概念对于实现此类功能确实很有帮助，但是仍然可以实现。

数据复制：Druid和Pinot

德鲁伊和黑皮诺的复制单位是单个段。段在"深层存储"层（例如，HDFS中的三个副本，或者在云blob存储（例如Amazon S3）中透明完成）和查询处理层中复制：通常在Druid和Pinot中，每个段在两个不同的节点上加载。如果复制因子低于指定级别，则"主"服务器将监视每个段的复制级别并在某个服务器上加载一个段。 G。如果某个节点无响应。

数据复制：ClickHouse

ClickHouse中的复制单元是服务器上的表分区，即 e。来自某个表的所有数据，存储在服务器上。与分区类似，ClickHouse中的复制是"静态且特定的"，而不是"云样式"，即 e。多台服务器知道它们是彼此的副本（对于某些特定表；对于其他表，复制配置可能不同）。复制可提供持久性和查询可用性。当某个节点上的磁盘损坏时，数据也不会丢失，因为它也存储在其他节点上。当某个节点暂时关闭时，查询可以路由到副本。

在Yandex上最大的ClickHouse集群中，不同数据中心中有两组相等的节点，并且它们是成对的。在每一对中，节点是彼此的副本（即使用两个的复制因子）并且位于不同的数据中心中。

ClickHouse依赖ZooKeeper进行复制管理，但是不需要ZooKeeper。这意味着单节点ClickHouse部署不需要ZooKeeper。

数据提取：Druid和Pinot

在Druid和Pinot中，查询处理节点专门用于加载段并向段中的数据提供查询，但不累积新数据并产生新段。

当可以延迟一个小时或更长时间来更新表时，将使用批处理引擎（例如Hadoop或Spark）创建分段。 Druid和Pinot都对Hadoop提供了"一流"的现成支持。 Spark中有一个用于Druid索引的第三方插件，但目前尚不支持。据我所知，Pinot甚至没有对Spark的这种支持。 e。您应该自己做出贡献：了解Pinot接口和代码，编写一些Java或Scala代码。但这并不难。（更新：Slack的Ananth PackkilDurai现在正在为黑皮诺的Spark提供支持。）

当应该实时更新表时，Druid和Pinot都引入了"实时节点"的概念，该概念可做三件事：接受来自Kafka的新数据（Druid也支持其他来源），查询最近的数据，以及在后台创建细分，然后将其推送到"深度存储"。

数据提取：ClickHouse

ClickHouse无需准备严格包含所有数据（属于特定时间间隔）的"段"，因此可以简化数据提取架构。 ClickHouse不需要像Hadoop这样的批处理引擎，也不需要"实时"节点。常规ClickHouse节点（用于存储数据并为其提供查询）与之相同，它们直接接受批处理数据写入。

如果表已分区，则接受批量写入的节点（例如1万行）将根据分区表本身中所有节点的"权重"来分配数据（请参见上方的"数据管理：ClickHouse"部分）。

单批写入的行形成一个小的"集合"。集立即转换为列格式。每个ClickHouse节点上都有一个后台进程，该进程将行集合并为较大的行集。 ClickHouse的文档在很大程度上将此原则称为" MergeTree"，并强调了它与日志结构的合并树的相似之处，尽管IMO有点令人困惑，因为数据不是以树的形式组织的，而是采用扁平列格式。

数据提取：比较

Druid和Pinot的数据摄取"繁重"：它包含几种不同的服务，而管理是一项负担。

尽管有一个警告，但ClickHouse中的数据提取要简单得多（以更复杂的历史数据管理为代价-参见上文）：您应该能够在ClickHouse本身前面"批量"处理数据。开箱即用的功能是自动获取和批处理来自Kafka的数据，但是如果您有不同的实时数据源，包括从Kafka替代的排队基础架构，流处理引擎到简单的HTTP端点，则需要创建中间批处理服务，或直接向ClickHouse提供代码。

查询执行

Druid和Pinot具有称为"代理"的专用节点层，它们接受对系统的所有查询。它们基于从段到加载段的节点的映射，确定应向哪些"历史"查询处理节点发出子查询。代理将此映射信息保留在内存中。代理节点将下游子查询发送到查询处理节点，当这些子查询的结果返回时，代理将它们合并，并将最终的合并结果返回给用户。

我只能推测为什么在设计Druid和Pinot时决定提取另一种类型的节点。但是现在看来，这是必不可少的，因为随着群集中的段总数超过一千万，段到节点的映射信息需要GB的内存。在所有查询处理节点上分配这么多的内存太浪费了。因此，这是Druid和Pinot的"分段"数据管理架构所带来的另一个缺点。

在ClickHouse中，通常不需要为"查询代理"指定单独的节点集。 ClickHouse中有一种特殊的临时"分布式"表类型，可以在任何节点上进行设置，并且对该表的查询可以完成在Druid和Pinot中负责"代理"节点的工作。通常，此类临时表是在参与分区表的每个节点上建立的，因此，实际上，每个节点都可以作为对ClickHouse集群进行查询的"入口点"。该节点将向其他分区发出必要的子查询，处理该查询本身的一部分，并将其与其他分区的部分结果合并。

当一个节点（ClickHouse中的一个处理节点，或Druid和Pinot中的"代理"节点）向其他节点发出子查询，并且单个或几个子查询由于某种原因而失败时，ClickHouse和Pinot会正确处理此情况：合并所有成功子查询的结果，并且仍将部分结果返回给用户。现在，德鲁伊非常缺乏此功能：如果任何子查询失败，那么整个查询也会失败。

ClickHouse与Druid或Pinot：结论

Druid和Pinot中数据管理的"分段"方法与ClickHouse中较简单的数据管理方法定义了系统的许多其他方面。但是，重要的是，这种差异对潜在的压缩效率（尽管目前这三个系统中的压缩情况目前都是令人沮丧的）或查询处理速度几乎没有影响。

ClickHouse与传统的RDMBS类似。 G。 PostgreSQL。特别是，ClickHouse可以仅部署在单个服务器上。如果预计的部署规模很小，则e。 G。不超过100个用于查询处理的CPU内核和1 TB数据的数量，我想说ClickHouse相对于Druid和Pinot具有显着优势，因为它简单易用，不需要其他类型的节点，例如" master"， "实时提取节点"，"经纪人"。在此领域，ClickHouse与InfluxDB竞争而不是与Druid或Pinot竞争。

Druid和Pinot类似于大数据系统，例如HBase。不取决于它们的性能特征，而是取决于对ZooKeeper的依赖性，对持久性复制存储（例如HDFS）的依赖性，对单个节点故障的恢复能力的关注以及不需要常规人员关注的自主工作和数据管理。

对于广泛的应用程序，ClickHouse或Druid或Pinot都不是明显的赢家。首先，我建议考虑能够理解的系统源代码，修复错误，添加功能等。"性能比较和系统选择"部分将对此进行更多讨论。

其次，您可以查看下表。该表中的每个单元格都描述了某个应用程序的属性，这使ClickHouse或Druid / Pinot可能是更好的选择。行没有按其重要性排序。每行的相对重要性对于不同的应用程序是不同的，但是如果您的应用程序由表中一列的许多属性来描述，而由另一列的无或几个属性来描述，则很可能应该从列标题中选择相应的系统。

注意：以上两个属性都不意味着您必须使用相应的系统，或者必须避免使用其他系统。例如，如果您预测的集群很大，那并不意味着您应该只考虑Druid或Pinot，而不要考虑ClickHouse。相反，这意味着Druid或Pinot可能会成为更好的解决方案，但是在某些应用中，即使对于大型集群，ClickHouse最终也可能是更理想的选择，即使对于大型集群也是如此。

Druid与Pinot的区别

正如我在上面多次提到的，Druid和Pinot具有非常相似的体系结构。在一个系统中存在着几个相当大的功能，而在另一个系统中则没有，还有一些区域，其中一个系统比另一个系统前进得远得多。但是，我要提到的所有这些内容都可以通过合理的努力在另一个系统中复制。

Druid和Pinot之间只有一个区别，那就是太大了，无法在可预见的将来消除-这是"主"节点中的细分管理的实现。而且，这两种系统的开发人员可能都不想这样做，因为两者的方法各有利弊，并不是说一个人总比别人好。

Druid中的细分管理

Druid（和Pinot中都不是）中的"主"节点不负责集群中数据段的元数据的持久性以及段与加载这些段的查询处理节点之间的当前映射。此信息保留在ZooKeeper中。但是，Druid还将这些信息保存在SQL数据库中，应该提供该信息以设置Druid集群。我不能说为什么最初做出这个决定，但是目前它提供了以下好处：

· 较少的数据存储在ZooKeeper中。 ZooKeeper中仅保留有关从段ID到加载该段的查询处理节点列表的映射的最少信息。剩下的扩展元数据（例如细分的大小，数据中的维度和指标列表等）仅存储在SQL数据库中。

· 如果由于数据段太旧而将其从集群中逐出（这是时间序列数据库的常见功能，所有ClickHouse，Druid和Pinot都具有），则将它们从查询处理节点上卸载，并从ZooKeeper中删除有关它们的元数据，但不是来自"深度存储"和SQL数据库。只要不从这些地方手动删除它们，就可以快速"恢复"真正的旧数据，以防某些报告或调查需要该数据。

· 最初这不太可能是一个意图，但是现在Druid中有计划使对ZooKeeper的依赖成为可选。目前，ZooKeeper用于三种不同的事物：段管理，服务发现和属性存储，例如。 G。用于实时数据摄取管理。服务发现和属性存储功能可以由Consul提供。细分管理可以通过HTTP公告和命令来实现，而ZooKeeper的持久性功能已由SQL数据库"备份"，则部分启用了细分管理。

将SQL数据库作为依赖项的弊端是更大的操作负担，尤其是在组织中尚未建立某些SQL数据库的情况下。 Druid支持MySQL和PostgreSQL，Microsoft SQL Server有一个社区扩展。同样，当Druid部署在云中时，可以使用方便的托管RDBMS服务，例如Amazon RDS。

Pinot的细分市场管理

与Druid本身实现所有段管理逻辑并仅依赖Curator与ZooKeeper进行通信不同，Pinot将大部分段和集群管理逻辑委托给Helix框架。一方面，我可以想象它为Pinot开发人员提供了一种专注于其系统其他部分的杠杆。与在Druid中实现的逻辑相比，Helix的bug可能更少，这是因为在不同的条件下对它进行了测试，并且可能将更多的时间投入到Helix开发中。

另一方面，Helix的"框架界限"可能会限制Pinot。螺旋线，进而是Pinot，可能永远永远依赖ZooKeeper。

现在，我将列举Druid与黑皮诺之间更浅的区别。这里的"浅"是指如果有人愿意的话，有一条清晰的途径可以在缺少这些功能的系统中复制这些功能。

黑皮诺的"谓词下推"

如果在摄取期间通过某些维键在Kafka中对数据进行了分区，则Pinot会生成包含有关该分区的信息的段，然后在执行带有该维谓词的查询时，代理节点会预先过滤段，这样有时段会少得多因此，查询处理节点需要命中。

此功能对于某些应用程序的性能很重要。

当前，如果在Hadoop中创建了段，但在实时摄取期间创建段时尚不支持，Druid支持基于密钥的分区。德鲁伊目前尚未对经纪人实施"谓词下推"。

"可插拔"Druid和自以为是的Pinot

由于Druid由许多组织使用和开发，因此随着时间的流逝，它几乎为每个专用部件或"服务"获得了几个可交换选项的支持：

· HDFS或Cassandra或Amazon S3或Google Cloud Storage或Azure Blob存储等作为"深度存储"；

· Kafka或RabbitMQ，Samza或Flink或Spark，Storm等（通过宁静）作为实时数据提取源；

· Druid本身，或Graphite，Ambari或StatsD或Kafka，作为Druid群集（度量标准）遥测的接收器。

由于Pinot几乎都是在LinkedIn上专门开发的，并且要满足LinkedIn的需求，因此，它通常不能为用户提供太多选择：HDFS或Amazon S3必须用作深度存储，而只有Kafka才能进行实时数据提取。但是，如果有人需要，我可以想象不难为Pinot中的任何服务引入对多个可插拔选项的支持。自Uber和Slack开始使用黑皮诺以来，这种情况可能很快就会改变。

在Pinot中更好地优化了数据格式和查询执行引擎

也就是说，Druid目前尚不具备Pinot分段格式的以下功能：

· 在Druid中以位粒度和字节粒度压缩索引列。

· 每一列的倒排索引都是可选的，在Druid中这是必填项，有时不需要，并且占用大量空间。 Uber观察到的Druid和Pinot之间在空间消耗上的差异可能是由于这一点。

· 每段记录数值列中的最小值和最大值。

· 开箱即用的数据排序支持。如上文" CloudFlare：ClickHouse与Druid"部分中所述，在Druid中只能通过手动方式和破解方式实现。数据排序意味着更好的压缩，因此Pinot的这一功能是Uber观察到的Druid和Pinot之间的空间消耗（和查询性能！）差异的另一个可能原因。

· 与Druid相比，用于多值列的某种更优化的格式。

所有这些事情都可以在Druid中实现。而且，尽管Pinot的格式在目前比Druid的格式上有了更好的优化，但距离真正的优化还差很远。例如，Pinot（以及Druid）仅使用通用压缩（例如Zstd），而尚未实现Gorilla论文中的任何压缩思想。

关于查询执行，不幸的是，Uber主要使用计数（*）查询来比较Druid和Pinot（1、2）的性能，因为目前这只是Druid中的哑线性扫描，尽管用a代替它真的很容易。正确的O（1）实现。这是"黑匣子"比较毫无意义的说明，本文上面的"关于性能比较和系统选择"部分对此进行了介绍。

我认为，Uber观察到的GROUP BY查询性能的差异应归因于Druid的细分市场中缺乏数据排序，如本节上文所述。

Druid拥有更智能的细分分配（平衡）算法

Pinot的算法是将段分配给当前加载的总段数最少的查询处理节点。 Druid的算法更加复杂，它考虑了每个细分的表格和时间，并应用了一个复杂的公式来计算最终得分，通过该公式对查询处理节点进行排名，以选择最佳的节点来分配新的细分。该算法使Metamarkets的生产查询速度提高了30–40％。然而，在Metamarkets，我们仍然对这种算法不满意，请参阅本文中的"历史节点性能的巨大差异"部分。

我不知道LinkedIn在Pinot中使用如此简单的分段平衡算法的效果如何，但如果他们需要时间来改进其算法，可能会有巨大的收获等待着他们。

Pinot在查询执行路径上更具容错能力

正如我在上面的"查询执行"部分中提到的那样，当"代理"节点向其他节点进行子查询，而某些子查询失败时，Pinot会合并所有成功的子查询的结果，并且仍将部分结果返回给用户。

德鲁伊目前尚未实现此功能。

Druid中的查询处理节点分层

请参阅本文上方的同名部分。 Druid允许为较旧和较新的数据提取查询处理节点的"层"，并且较旧数据的节点具有较低的" CPU，RAM资源/已加载段数"比率，从而可以在访问时以较小的基础架构开销换取较低的查询性能旧数据。

据我所知，Druid目前没有类似的功能。

摘要

ClickHouse，Druid和Pinot具有根本上相似的架构，它们在通用大数据处理框架（例如Impala，Presto，Spark和列式数据库）之间具有独特的优势，并适当支持唯一主键，点更新和删除（例如InfluxDB）。

由于它们的架构相似，ClickHouse，Druid和Pinot具有近似相同的"优化限制"。但是到目前为止，这三个系统都还不成熟，距离该限制还很遥远。仅需花费几个月的工程师工作，就可以对其中任何一个系统（当应用于特定用例时）大幅度提高效率。我不建议您完全比较主题系统的性能，不要选择您可以理解和修改的源代码，或者要投资的源代码。

在这三个系统中，ClickHouse与Druid和Pinot略有不同，而后两个几乎相同，但它们几乎是完全独立于同一系统的两个独立开发的实现。

ClickHouse更类似于PostgreSQL之类的"传统"数据库。 ClickHouse的单节点安装是可能的。在小规模（少于1 TB的内存，少于100个CPU内核）上，如果您仍然想与它们进行比较，则ClickHouse比Druid或Pinot更有趣，因为ClickHouse更简单并且移动部件和服务更少。我要说的是，它在这种规模上与InfluxDB或Prometheus竞争，而不是与Druid或Pinot竞争。

Druid和Pinot更类似于Hadoop生态系统中的其他大数据系统。它们即使在非常大的规模（超过500个节点）中仍保留"自动驾驶"属性，而ClickHouse需要专业SRE的大量关注。此外，与ClickHouse相比，Druid和Pinot更适合优化大型集群的基础架构成本，并且更适合云环境。

Druid和Pinot之间唯一的可持续区别是Pinot依赖Helix框架，并将继续依赖ZooKeeper，而Druid可以摆脱对ZooKeeper的依赖。另一方面，Druid的安装将继续取决于某些SQL数据库的存在。

目前，黑皮诺比德鲁伊的优化效果更好。（但是请在上面再次阅读-"我不建议您完全比较主题系统的性能"，以及帖子中的相应部分。）

Druid和Pinot的体系结构几乎完全相同，而ClickHouse则与它们略有不同。我将首先将ClickHouse的架构与"通用" Druid / Pinot架构进行比较，然后讨论Druid与Pinot之间的较小差异。

(本文翻译自Roman Leventov的文章《Comparison of the Open Source OLAP Systems for Big Data: ClickHouse, Druid, and Pinot》，参考：https://medium.com/@leventov/comparison-of-the-open-source-olap-systems-for-big-data-clickhouse-druid-and-pinot-8e042a5ed1c7)

分享到:

閱讀更多 聞數起舞 的文章

關鍵字: 大数据 Yandex Presto

「大数据」（一百四十八）常用算法及数据结构之Stacks

「大数据」（一百三十六）常见算法及数据结构之Bitmap树

大数据：了解Hadoop生态中Hive和HBase兄弟俩的区别

「大数据」（一百二十七）Python基础之字符串：字符串方法

「大数据」（一百二十五）Python基础之元组：tuple函数

「大数据」（一百二十三）Python基础之列表：列表方法

「大数据」（一百二十一）Python基础之序列：成员资格

「大数据」（一百二十）Python基础之序列：乘法

「大数据」（一百一十九）Python基础之序列：序列相加

「大数据」（一百一十七）Python基础之字符串

「大数据」（一百一十六）Python基础之注释

大数据，Hadoop生态详解

「大数据」（一百一十五）Python基础之常用魔法函数

「大数据」（一百一十四）Python基础知识之函数

「大数据」（一百一十三）Python基础知识之获取用户输入

「大数据」（一百一十二）Python基础之数字和表达式

「大数据」（一百零一）常用分区工具

「大数据」（一百）磁盘分区类型及各自作用

「大数据」（九十七）Scala之文件操作

「大数据」（九十二）Scala之辅助构造器

「大数据」（八十八）Scala之数组

「大数据」（八十七）Scala之控制器和函数

「大数据」（八十六）Scala基础

「大数据」（八十五）Spark之MLlib体验

「大数据」（八十三）Spark之Streaming实时流

「大数据」（八十二）Spark之SparkSQL应用案例

「大数据」（八十一）Spark之SparkSQL运行架构

03.08 「大数据」（八十一）Spark之SparkSQL运行架构

「大数据」（八十）Spark之Shuffle机制

「大数据」（七十九）Spark之Lineage机制

「大数据」（七十八）Spark之通信模块

03.03 「大数据」（七十六）Spark之工作机制

02.27 大数据：了解Hive和HBase的区别

02.26 「大数据」（七十）Spark之生态系统

大数据 Hadoop（中）笔记大全收藏加关注

大数据 Linux笔记大全

大数据：Yarn应用程序提交流程

大数据、Hadoop核心框架和MapReduce原理

大数据：清洗流程以及入门实例

大数据：数据清洗的定义以及数据清洗的方法

大数据、云计算系统顶级架构师课程学习路线图

大数据:Hbase的知识大全都在这里

大数据：基于zookeeper协调的分布式日志系统Kafka的文件存储机制

大数据、机器学习和深度学习类命令行工具

大数据，Java丶Python丶Web前端等300G的学习资料无偿分享！

大数据——MapReduce

大数据-hadoop生态系统及版本演化

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

刚刚:刚刚工作的毕业生，一个月只有2000多，是不是太少了？根据你城市消费水平来看啊，还有你从事的工作，假如你在二三线城市做一份事业单位或者是编制类的工作，薪资水平是随着你工作年限逐年增长的，而且在年终也有很多福利补贴待遇等等，算下来收入也是可观的，再举一个例:-毕业生 2000

为什么只有edg赚钱？

电竞行业作为一个新兴产业，这几年发展势头越来越好，IG战队，FPX战队先后夺得了s8-s9世界赛的冠军，据俱乐部知情人士透露，除了国内的几家豪门俱乐部之外，其他俱乐部基本都是亏钱在做的，当然EDG也是:-edg 赚钱:为什么只有edg赚钱？

网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？

20000:网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？天猫旗舰店，或者淘宝旗舰店，或者京东旗舰店肯定包真，质量好，再说可以官方验证啊，不能图那十块五块的便宜，毕竟一个充电宝要用好久呢，一两年没问题的。:-罗马仕马仕毫安

我们买的新商品房还没有拿到房产证，怎么转卖最好？

没有取得房抄产证的房子可以转让。但如果确定无法取得房产证的，房产转让不受法律保袭护。一般情况下，只有取得房产证的房屋才能确定房屋产权人，才具有转让的条件。但如果房屋是合法取得的，以百后可以依法办理度房:-转卖房产证商品房拿到:我们买的新商品房还没有拿到房产证，怎么转卖最好？

为什么突厥人可以成功复国？是大唐的刀不锋利了么？

锋利突厥人你这样说只能说明你对历史非常不了解，我先用一句话概括突厥被大唐雄兵打的有多惨：三次灭国，背井离乡，远赴西亚，打不过，俺躲着你还不行吗？突厥的意思是中间怂起的头盔。其来历已经不可靠，可能有着匈奴、鲜卑或:-复国大唐:为什么突厥人可以成功复国？是大唐的刀不锋利了么？

小高层16层高楼间距60米哪一层比较好？

小高层 60:小高层16层高楼间距60米哪一层比较好？首先需要明白，选择层数居住与楼间距毫无关系，住在哪一层，肉眼看对面楼的距离，是相差不大的。设定楼间距60米，纯粹是混淆视听。其实，一幢楼的楼层总数确定的情况下，到底哪一层最佳？很简单，取总层数乘以黄金:-楼间距层高

金银花盆栽好养吗？怎么养？

金银花可以盆栽，很好养的！金银花，是忍冬科的常绿缠绕灌木，枝条柔韧修长，多攀爬或匍匐生长。金银花生性强健，在我国的很多南方省份野外很多地区都能看到它的身影，叶子常年翠绿，到夏季开花，飘香四溢。所以，有:-金银花盆栽:金银花盆栽好养吗？怎么养？

长城对于抵御古代匈奴和蒙古人起到了多大作用？

长城真的无用吗？在今天许多人认为长城无用，古代国家举国之力建造的长城不过只是文物，就连康熙都曾作诗讽刺，原文如下：万里经营到海涯，纷纷调发逐浮夸。当时用尽生民力，天下何曾属尔家。-康熙但真的如此吗？小:-匈奴抵御长城:长城对于抵御古代匈奴和蒙古人起到了多大作用？蒙古人

什么树可以嫁接腊梅？

腊梅只能嫁接在不同品种的腊梅上，其他的树种不行！腊梅的繁殖可以用播种，压条，嫁接，分株等繁殖方法。播种法因不易保持花卉的原有优良特性，且播种的优点是在于大量繁殖，而腊梅大都只需培植少量几株，故一般都不:-腊梅嫁接:什么树可以嫁接腊梅？

行情堪忧，还有多少教育机构的老师们五一假期有课上的？课时量多不多？

堪忧五一假期:行情堪忧，还有多少教育机构的老师们五一假期有课上的？课时量多不多？事实上，因为教育培训都是预收费用的模式。但凡有一点点规模的培训机构老师。在上半年，带课量是可以得到保证。:-课时量

在农村“立夏节”都有哪些民间习俗？

民间习俗农村:在农村“立夏节”都有哪些民间习俗？在农村“立夏节”都有哪些民间习俗一、农村立夏常见的习俗风俗活动：1、吃鸡蛋“立夏吃蛋”习俗由来已久，俗话说“立夏吃了蛋，夏天不疰夏”。据说立夏开始天气越来越热，村里小孩儿会有身体疲劳四肢无力的感觉，吃:-立夏节

男朋友失望分手，但对我还有感觉，答应我两个月之后可以在一起，我应该怎么做，才能改变之前他对我的看法？

失望分手看法:男朋友失望分手，但对我还有感觉，答应我两个月之后可以在一起，我应该怎么做，才能改变之前他对我的看法？你的这个问题特别的有趣，我觉得你先不要看你要怎么做才让他才能让他对你的印象有所改变，你要去看为什么是两个月之后可以在一起，这两个月他会用来做什么，为什么会有这两个月？例如他的身体碰到了什么样的问题吗？:-答应我

工程分包乙方人员伤残谁承担？

承担:工程分包乙方人员伤残谁承担？分包乙方分包致人伤残责任谁承担？严格来说，需要了解更多伤残原因才能区分的，作为非专业人士，自己发表一点浅见供题主参考：1、如果甲方是央企的话，他们合同中的责任、义务等条款内已经将自己的责任全部撇开了，更会:-乙方伤残

有哪些看起来毫不相关的两个历史人物实际上有过联系？

实际上:有哪些看起来毫不相关的两个历史人物实际上有过联系？历史人物联系这个词貌似太宽泛了，就好像有一个调皮的答案说的，胡亥和溥仪相隔2000多年，牵强的找，也有联系：都是亡国之君不是。我想题主的意思是两个看起来应该风马牛不相及的人物，在历史上居然是熟悉或是一个时代的:-毫不相关

13年雪铁龙世嘉自动挡7万多公里，没有水泡事故，多少钱能买？

法系车不保值，如果准备常开可以入手，性价比高，价格应该在二至三万之间，二手车一车一况，一况一价，居体价格看车况。:-钱能水泡:13年雪铁龙世嘉自动挡7万多公里，没有水泡事故，多少钱能买？世嘉自动挡

22+吃土少女17年就有驾驶证了，今年才开始开车，想买个二手昂克赛拉，或者有什么好建议吗？

17年驾驶证二手:22+吃土少女17年就有驾驶证了，今年才开始开车，想买个二手昂克赛拉，或者有什么好建议吗？建议买日系二手车，开顺了卖了，买新车，昂克赛拉无法再次出手时获得好价格，而且也不省油，开完日系车直接换德系:-昂克赛拉

如何骑车去台湾骑行？

骑车在台湾没有回归内地前，最好不要去台湾，一是国内政策不允许你去台湾，因为已停止了台湾个人游。二是你偷着去台湾旅游，安全没有保障，偷渡客在哪里也没有安全保障的。以后内地政策允许个人去台湾旅游了，建议那时再:-骑行台湾:如何骑车去台湾骑行？

本人预算5万左右，想买一辆二手法系车！求推荐？

预算:本人预算5万左右，想买一辆二手法系车！求推荐？ 5万预算5万元左右，想买一辆二手法系车？推荐东风标致老款308车型。1 5万元可以买标致308车况好的，没大事故呢，年限15年左右，公里数3万左右，手动档车型。2 标致308车型，底盘调教扎实，跑高速稳定:-法系二手

14年进口马自达5PK进口10年道奇酷威买哪个划算？

道奇你好，好高兴回答你的问题！14年进口马自达5和10年月道奇酷威个人感觉马自达5比较划算。新车价马5报价29.99万，酷威19.38万两款车都是原装进口，马5属于日系，酷威属于美系。两款车不属于同类车型:-酷威马自达 14年:14年进口马自达5PK进口10年道奇酷威买哪个划算？

2020年，河南教育行业国务院特殊津贴推荐，河南大学并列第三，大家怎么看？

特殊津贴高校人才就要重视，河南省高校人才更要重视，这个人才不是评出了的，而是推荐出来的，没有推荐，连参评的资格都没有。国务院特殊津贴人员推荐，不推荐是百分百没希望，推荐了希望就非常，那么是什么是国务院特殊津贴:-河南大学并列 2020年:2020年，河南教育行业国务院特殊津贴推荐，河南大学并列第三，大家怎么看？

本田CRV2019款1.5T舒适版油耗高吗？

李老猫说车为你非专业解答各种选车用车问题本田crv定位于一款紧凑级suv产品，主要对飚丰田荣放，日产奇骏，这款车整体市场表现非常突出，2019年全年累计销量为18.44万台，平均月销1.5万以上，其深:-舒适版本田油耗:本田CRV2019款1.5T舒适版油耗高吗？

国外疫情如果没有得到有效控制，世界会发生什么事情？头脑风暴？

1.世界经济遭到重创疫情影响之下，各行各业基本属于停工停产的状态，在世界经济趋于一体化的今天，停工停产势必会造成一系列的连锁反应，最后导致的结果可能会引发金融危机。2.世界格局可能发生改变美国仍是世界:-头脑风暴控制:国外疫情如果没有得到有效控制，世界会发生什么事情？头脑风暴？疫情国外

本田XRV这款车的整体表现怎么样？我想买1.5T自动豪华版，全款多少钱？

如果有15万元的预算，让你选择一台空间和动力都很不错的小型SUV，我觉得很多的读者都会想到本田XRV这款车型。因为本田XRV确实太出色了，和同级别的其他盒子SUV车型相比，这款车在空间和动力上都有优势:-xrv 自动:本田XRV这款车的整体表现怎么样？我想买1.5T自动豪华版，全款多少钱？本田豪华版

现在存款有14万，借了5万还没收回来，该做什么好？

何去何从:现在存款有14万，借了5万还没收回来，该做什么好？续租存款利息率较低，可以投资较高收益的项目，比如投资基金，一般情况下可获得6%一10%的回报。如果行情好可达到50%以上收益，去年不少基金超过这目标。目前受疫情影响，股市在低位震荡，也是基金投资的机会。一:-存款 2300

2070super和5700xt买哪个比较好？

如果是玩游戏毫无疑问选择n卡，也就是2070 suep。如果追求性价比可以选择a卡，也就是5700xt. 为什么游戏选n卡呢？首先游戏厂商针对n卡优化比较多，然后就是功耗小，然后N卡架构执行效率极高，:-:2070super和5700xt买哪个比较好？

生完二胎后，感觉自己有点抑郁，总是想发火，特别烦躁，怎么办？

二胎我是两个孩子的妈妈，曾经的我和你一样，生完宝宝我也抑郁了，我知道抑郁症真的很痛苦，产后的那段日子我整天都不开心，做什么事也没积极性，谁也不想搭理，别人给我说话我就觉得很烦。忍不住冲家人发脾气。每当一个:-生完抑郁:生完二胎后，感觉自己有点抑郁，总是想发火，特别烦躁，怎么办？发火

人这一生遇到的人和事为什么感觉都像是必然的经历？

感觉:人这一生遇到的人和事为什么感觉都像是必然的经历？正所谓有因必有果，所以你今天的因，就会产生明天的果。所以这一切你就会觉得是必然的。生活中大部分是普通人大家的生活规律，生活方式，大致相同。当你看到别人家庭的果，自己家也产生同样的果，你就会觉得这一切是:-人和经历

现在校内校外到底教的是美式英语还是英式英语还是混搭英语？

校内:现在校内校外到底教的是美式英语还是英式英语还是混搭英语？校外英式答案肯定是不唯一的！美式英语现在是主流，少量英式发音也个别存在！但对于孩子来说，肯定是混搭英语，因为孩子肯定不是一直一位老师教下去，肯定会换老师！而老师的发音肯定是既有英式的，也有美式的！就连一些英语:-美式英语

上有老下有小，我们真的跳不出这个人生循环了吗？

上有老魔咒:上有老下有小，我们真的跳不出这个人生循环了吗？的确如此，尽管现在不结婚，晚婚的人很多，但是从人类繁洐生息的历史和大多数人来看，成家立业，生儿育女，家庭仍是主流，一个人的生理，心理和生存需求決定了生存状态，生儿育女，瞻养父母即是义务责任，也是生活动:-下有小

如果外面正在下小雨，你会突然想起了谁？

想起:如果外面正在下小雨，你会突然想起了谁？我最不忘，还是秋日的雨夜，天又凉了几分，已经需要披上一件薄薄的外套了。临窗而望，眼见窗台上的几株小植物，叶片上沾了几滴小雨珠，我总喜欢，用小手电去照它们，这样的小水滴看起来晶莹晶莹的，有一种清清凉凉的:-小雨

初中同学许久未见大学期间突然联系请吃饭，态度还良好，我给推了，会不会让人很烦？

初中同学:初中同学许久未见大学期间突然联系请吃饭，态度还良好，我给推了，会不会让人很烦？吃饭许久未见，意思就是交情不怎么样，无功不受禄，人家凭什么那么热情，难道真的是多年一来忘不了咱们之间的同学情谊，倍感想念了吗，不是请帮忙、做业务、就是借钱，十有八九十借钱。我建议还是不要去的好，大家都很忙:-许久未见

现在我觉得认真对某个人说我喜欢你什么的这种话好恶心，我爱你更说不出口，好恶心，是什么心理？

出口心理:现在我觉得认真对某个人说我喜欢你什么的这种话好恶心，我爱你更说不出口，好恶心，是什么心理？爱你更多的是心里问题，可能对方还没有优秀到你满意的程度，更没有到那种离不开的地步！爱情最终还是要回归生活，而生活离不开两个人的相处，父母终究会老，孩子终究会飞，所以选择自己的伴侣尤为重要，你现在觉得恶心更:-喜欢你

剧版的《何以笙箫默》和《再见王沥川》哪一个更好看呢？

再见王沥川好看:剧版的《何以笙箫默》和《再见王沥川》哪一个更好看呢？《遇见王沥川》吧，高以翔的王沥川太招人稀罕了。长相，身材，家世，人品，才能样样好，简直完美，挑不出任何毛病，实在要说一个缺点的话，那就是太tm完美，天妒英才、才让他饱受病魔折磨。偶像剧、深情帅气的男主:-何以笙箫默

计算机专业本科能够进入字节跳动、华为这些公司做开发吗？是否还需要继续读研？

学历是求职必备条件。有了工作不能停止对知识的探索。更高的学历，可以让你有更专业的技术能力和学习能力，可以让你拓展自己的交际圈，可以让你更知名。总之，活到老，学到老，学习对人总是有好处的，技多不压身嘛！:-字节跳动:计算机专业本科能够进入字节跳动、华为这些公司做开发吗？是否还需要继续读研？读研计算机专业

生完二胎的你们，现在有什么感想？

二胎家庭日常是什么样的？是不是觉得家里多了一个小人儿，温馨多了？不存在的！生二胎根本是妈妈们的渡劫磨砺！以前周末睡到自然醒，现在全年无休，时刻警醒着，能睡一次懒觉跟过年似的，黑眼圈不说，头发呼啦啦地掉:-生完二胎感想:生完二胎的你们，现在有什么感想？

华北适合种植蚕豆吗？

华北适合种植蚕豆，种蚕豆的面积大，在西北，华北，都在种植蚕豆，蚕豆茎秆根部有根瘤菌是种植其它农作物的好茬地，特别是土壤培养和防病虫害起到作用。:-蚕豆种植适合:华北适合种植蚕豆吗？华北

华为手机更新EMUI10.1系统后效果咋样？

大家知道现在智能手机的性能不仅仅跟智能手机的硬件有关，还跟智能手机的系统软件息息相关，在国产智能手机操作系统里，小米的MIUI系统跟华为的EMUI系统都是比较优秀的操作系统。最近小米推出了小米MIUI:-咋样华为华为手机更新:华为手机更新EMUI10.1系统后效果咋样？

大热天蜜蜂老是爬到箱外结群正常吗？

蜜蜂爬到:大热天蜜蜂老是爬到箱外结群正常吗？盗蜂现在正是夏季，很多地方蜜源稀少，蜂群中可能缺蜜，也是胡蜂猖獗的时间，所以蜂群中是非常容易发生盗蜂的。在蜂群中发生盗蜂的时候，蜂群守卫蜂会增多，但是这种情况引发的蜜蜂在蜂箱外一般不会结团，只是蜜蜂来:-大热天

辣椒正是生长最佳期，偏偏有的辣椒苗蔫，不是病虫害是咋回事？

最佳期雾都山客来回答您的问题。最近山客家乡的村民正在进行辣椒移栽，确实有像题主提到的情形，辣椒苗移栽前长势葱葱，嫩绿喜人，但是移栽后几天内就出现萎蔫现象，细心观察也不是被病虫害危害。那究竟是什么原因导致辣椒:-苗蔫辣椒咋回事:辣椒正是生长最佳期，偏偏有的辣椒苗蔫，不是病虫害是咋回事？

手机相机发展的最终形态会是怎样的？

最近这几年手机在电子产品行业里可谓是发展速度非常快，苹果和华为两大公司可以说也是，明争暗斗，产品一次比一次有卖点，前一段时间华为和苹果还都推出了手机新品，两家都在大力宣传强调着拍照功能，像iPhone:-形态相机手机最终:手机相机发展的最终形态会是怎样的？

华为为什么不出一款5寸全面屏手机呢？我想应该会有很多人支持吧？

5寸手机支持:华为为什么不出一款5寸全面屏手机呢？我想应该会有很多人支持吧？很高兴回答你的问题，刷头条刷出来的问题，看到很多人回答，感觉还有一些观点没有写出，所以我来回答一下。首先，华为为什么不出小尺寸全面屏手机？其实并不只有华为一家没有出小屏手机，放眼近期各大手机厂商发布的:-华为

生吃山芋，生吃胡萝卜，还有哪些蔬菜可以生吃呢？

胡萝卜蔬菜:生吃山芋，生吃胡萝卜，还有哪些蔬菜可以生吃呢？第一种，黄瓜。这个瓜，可不是菜市场中堆放满满的青瓜。各位可要睁大眼睛看清楚了，这个黄瓜，青中带黄，品种属以前乡下农户少量种植的，形态上面来看这种瓜矮、短、圆，表面覆盖有比较淡的细毛，经水轻轻冲洗之后整:-山芋

为什么马铃薯不宜过早过迟播种？

不宜:为什么马铃薯不宜过早过迟播种？播种过早为什么马铃薯不宜过早过迟播种？马铃薯的种植主要是由于气候条件的限制，过早出苗后容易遇到低温被冻死，种植晚了容易遇到干旱和高温，影响产量。马铃薯种植时间的早晚必须根据种植地方的气候条件来确定。马铃薯生长:-马铃薯

疫情愈发严重，原油为何反而大涨？

原油愈发:疫情愈发严重，原油为何反而大涨？疫情愈发严重和原油大涨没有必然关系。但是资金总是从高处流向低处，原油价格跌的越多，投资价值越明显，相对于其他产业更有投资价值。举个例子：深圳南山房价均价大约6万左右，宝安均价5万左右，如果南山房价涨到:-疫情

生菜球很好吃，怎么种植才能高产呢？

种植:生菜球很好吃，怎么种植才能高产呢？高产对环境条件的要求、1.温度生菜球为喜冷凉、忌高温作物，种子在4度以上可发芽、以15～20度为发芽适温。幼苗能耐较低温度，日平均温度12度时生长壮健，叶球生长最适温度为13～16度。不过目前有些结球生菜:-生菜

装修高手来帮忙看下144平，套内122平，怎么三房改四房？？

看下这个户型三房改四房，改一个小房间，应该没有问题。△原户型图这个户型改四房，能改的方案比较多，但是修改以后是否好用，是一件值得考虑的事情。一、主卧室变为两个卧室可以将主卧室改为两个卧室，但是这样的改动占:-房改 122:装修高手来帮忙看下144平，套内122平，怎么三房改四房？？ 144

大家帮忙看看这个房子如果要砸墙的话，怎么改比较好？

房子:大家帮忙看看这个房子如果要砸墙的话，怎么改比较好？这个户型砸墙，当然可以砸墙，但是在砸墙之前，要搞清楚为什么要砸墙，砸墙以后有什么优劣。△原户型原户型图上的白色墙体部分不是承重墙，理论上说否可以砸掉。但是外墙和与旁边户型或者是公共区域的共用墙体和图上:-帮忙

意蜂夏季喝什么水降温？

降温意蜂夏季喝什么水降温？气温高，蜂巢温度高的情况下，蜜蜂是通过采水的办法挂在蜂箱的四壁来蒸发带走热量，降低蜂巢温度同时也能帮助蜂群维持正常的湿度。在平常的情况下，蜜蜂是在室外采自然水的。夏季消耗的水量:-意蜂夏季:意蜂夏季喝什么水降温？

黄瓜种子催芽后种植需要打底水吗？

黄瓜种子:黄瓜种子催芽后种植需要打底水吗？你好很高兴回答这个问题。答案：不用。1-2天可出芽。黄瓜种子催芽：选用饱满的种子，用30℃水浸泡4小时后催芽。也可用100倍福尔马林溶液浸泡种子10-20分钟，洗净后清水浸种3-4小时，然后于25-3:-催芽黄瓜打底

书友们展示一下自我感觉发挥较好的作品，一起学习？

自我较好这幅作品是参赛的，色彩的搭配，纸张的拼接都是自己设计完成的，一如既往的清新淡雅感觉。书体用的魏碑中楷书，增加了书写的趣味性。:-书友展示:书友们展示一下自我感觉发挥较好的作品，一起学习？

适用于大数据的开源OLAP系统的比较：ClickHouse，Druid和Pinot

信息来源

在选择大数据OLAP系统时，请不要比较它们在当前用例中的最佳状态。 目前，它们都非常次优。 比较您的组织可以使这些系统朝着使您的用例更优化的方向移动的速度。

系统之间的相似性

耦合数据和计算

与大数据SQL系统的区别：索引和静态数据分发

没有点更新和删除

大数据样式提取

大规模验证

不成熟

性能比较与制度选择

CloudFlare：ClickHouse与Druid

ClickHouse和Druid / Pinot之间的区别

数据管理：Druid和Pinot

数据管理：ClickHouse

数据管理：比较

Druid中的查询处理节点分层

数据复制：Druid和Pinot

数据复制：ClickHouse

数据提取：Druid和Pinot

数据提取：ClickHouse

数据提取：比较

查询执行

ClickHouse与Druid或Pinot：结论

Druid与Pinot的区别

Druid中的细分管理

Pinot的细分市场管理

黑皮诺的"谓词下推"

"可插拔"Druid和自以为是的Pinot

在Pinot中更好地优化了数据格式和查询执行引擎

Druid拥有更智能的细分分配（平衡）算法

Pinot在查询执行路径上更具容错能力

Druid中的查询处理节点分层

摘要

相關文章:

「大数据」（一百四十八）常用算法及数据结构之Stacks

「大数据」（一百三十六）常见算法及数据结构之Bitmap树

大数据：了解Hadoop生态中Hive和HBase兄弟俩的区别

「大数据」（一百二十七）Python基础之字符串：字符串方法

「大数据」（一百二十五）Python基础之元组：tuple函数

「大数据」（一百二十三）Python基础之列表：列表方法

「大数据」（一百二十一）Python基础之序列：成员资格

「大数据」（一百二十）Python基础之序列：乘法

「大数据」（一百一十九）Python基础之序列：序列相加

「大数据」（一百一十七）Python基础之字符串

「大数据」（一百一十六）Python基础之注释

大数据，Hadoop生态详解

「大数据」（一百一十五）Python基础之常用魔法函数

「大数据」（一百一十四）Python基础知识之函数

「大数据」（一百一十三）Python基础知识之获取用户输入

「大数据」（一百一十二）Python基础之数字和表达式

「大数据」（一百零一）常用分区工具

「大数据」（一百）磁盘分区类型及各自作用

「大数据」（九十七）Scala之文件操作

「大数据」（九十二）Scala之辅助构造器

「大数据」（八十八）Scala之数组

「大数据」（八十七）Scala之控制器和函数

「大数据」（八十六）Scala基础

「大数据」（八十五）Spark之MLlib体验

「大数据」（八十三）Spark之Streaming实时流

「大数据」（八十二）Spark之SparkSQL应用案例

「大数据」（八十一）Spark之SparkSQL运行架构

03.08 「大数据」（八十一）Spark之SparkSQL运行架构

「大数据」（八十）Spark之Shuffle机制

「大数据」（七十九）Spark之Lineage机制

「大数据」（七十八）Spark之通信模块

03.03 「大数据」（七十六）Spark之工作机制

02.27 大数据：了解Hive和HBase的区别

02.26 「大数据」（七十）Spark之生态系统

大数据 Hadoop（中） 笔记大全 收藏加关注

大数据 Linux笔记大全

大数据：Yarn应用程序提交流程

大数据、Hadoop核心框架和MapReduce原理

大数据：清洗流程以及入门实例

大数据：数据清洗的定义以及数据清洗的方法

大数据、云计算系统顶级架构师课程学习路线图

大数据:Hbase的知识大全都在这里

大数据：基于zookeeper协调的分布式日志系统Kafka的文件存储机制

大数据、机器学习和深度学习类命令行工具

大数据，Java丶Python丶Web前端等300G的学习资料无偿分享！

在选择大数据OLAP系统时，请不要比较它们在当前用例中的最佳状态。目前，它们都非常次优。比较您的组织可以使这些系统朝着使您的用例更优化的方向移动的速度。

大数据 Hadoop（中）笔记大全收藏加关注

装修高手来帮忙看下144平，套内122平，怎么三房改四房？？