Categories-olap

J.A.R.V.I.S

Life is not just Live

2022

ClickHouse-ReplacingMergeTree

10月 09 · 2 min

ClickHouse-MergeTree引擎

10月 09 · 5 min

ClickHouse-ReplicatedMergeTree

10月 09 · 2 min

ClickHouse安装与配置

10月 09 · 5 min

ClickHouse-SummingMergeTree

10月 09 · 2 min

Clickhouse分布式表引擎

10月 09 · 1 min

2021

ClickHouse(1)-写入过程

前言

这篇文章记录一下ClickHouse的几种原生引擎的数据写入过程

MergeTree

MergeTree是ClickHouse的最基础引擎,其它引擎都是基于这个引擎来进行扩展的,所以先来看一下这个引擎的写入过程。

先看一下要创建这个引擎的DDL语句:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]
(
name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1] [TTL expr1],
name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2] [TTL expr2],
...
INDEX index_name1 expr1 TYPE type1(...) GRANULARITY value1,
INDEX index_name2 expr2 TYPE type2(...) GRANULARITY value2
) ENGINE = MergeTree()
ORDER BY expr
[PARTITION BY expr]
[PRIMARY KEY expr]
[SAMPLE BY expr]
[TTL expr [DELETE|TO DISK 'xxx'|TO VOLUME 'xxx'], ...]
[SETTINGS name=value, ...]

2月 14 · 5 min

2020

大数据分析工具之-kylin

kylin是什么

在进行数据分析时,随着数据量的提升,处理时间基本也是线性增长。kylin是一个预处理框架,它将一些预先定义的复杂分析预先完成并进行存储,预处理完成后,再次进行请求时,kylin可以进行亚秒级别的响应。

它是一个分析型数据仓库(也是OLAP引擎),为Hadoop提供标准SQL支持大部分查询功能

可以接入kafka等实时流处理数据,从而可以在妙极延迟下进行实时数据等多维分析。

处理引擎可以选用MapReduce和Spark。

于BI工具无缝整合,可以接入Tableau,PowerBI/Excel,SuperSet等可视化分析工具。

我总结出来的观点呢就是:当我们的数据量非常大之后,每次查询都需要花费很多时间,这时我们将查询结果缓存起来,后面查询从这个缓存里面查询速度就会非常快。在kylin中,将结果缓存到hbase表中。

这里需要预先设置一些维度和度量,所以说适合一些固定报表等一些维度固定的场景,如果说维度的组合太多或者变化很频繁,可能不是很适用。

7月 19 · 5 min

0 %