如何使用GaussDB(DWS)的本地临时表进行数据处理

本文分享自华为云社区《GaussDB(DWS)临时表系列 - 本地临时表-云社区-华为云》，作者： acydy 。

GaussDB(DWS) 从8.2.1版本后支持三种形式的临时表：本地临时表、Volatile临时表、全局临时表。本文先介绍DWS的本地临时表功能。

本地临时表特点：表定义和数据都是会话相关，其他会话看不到本会话创建的本地临时表。元数据会持久化到系统表，集群节点异常出错可以支持RETRY（SQL语句出错自动重试_数据仓库服务 GaussDB(DWS)_性能调优_SQL执行troubleshooting_华为云）。

语法与使用

CREATE [LOCAL] { TEMPORARY | TEMP } TABLE [ IF NOT EXISTS ] table_name
    ({ column_name data_type [ compress_mode ] [ COLLATE collation ] [ column_constraint [ ... ] ]
        | table_constraint
        | LIKE source_table [ like_option [...] ] }
        [, ... ])
    [ WITH ( {storage_parameter = value} [, ... ] ) ]
    [ ON COMMIT { PRESERVE ROWS | DELETE ROWS } ]

建表时需要指定TEMP或者TEMPORARY，表示创建本地临时表。

ON COMMIT { PRESERVE ROWS | DELETE ROWS }

ON COMMIT选项决定在事务中执行创建临时表操作，当事务提交时，此临时表的后续操作。

PRESERVE ROWS（缺省值）：提交时不对临时表做任何操作，临时表及其表数据保持不变。建议使用此种类型。
DELETE ROWS：提交时删除临时表中数据。

其他部分与普通表相同。

gaussdb=# create temp table tmp1(a int,b int);
NOTICE:  The 'DISTRIBUTE BY' clause is not specified. Using round-robin as the distribution mode by default.
HINT:  Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column.
CREATE TABLE

临时表可以与非临时表同名。如果同名，优先级临时表高于非临时表。

gaussdb=# create temp table tmp1(a int,b int);
NOTICE:  The 'DISTRIBUTE BY' clause is not specified. Using round-robin as the distribution mode by default.
HINT:  Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column.
CREATE TABLE
gaussdb=# insert into tmp1 values(1,1);
INSERT 0 1
gaussdb=# create table tmp1(a int,b int);
NOTICE:  The 'DISTRIBUTE BY' clause is not specified. Using round-robin as the distribution mode by default.
HINT:  Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column.
CREATE TABLE
gaussdb=# select *from tmp1;
 a | b
---+---
 1 | 1
(1 row)

gaussdb=# select *from public.tmp1;
 a | b
---+---
(0 rows)

视图：基于临时表创建的视图是临时视图。

postgres=# create view tmp_v1 as select *from tmp1;
NOTICE:  view "tmp_v1" will be a temporary view
CREATE VIEW

使用场景

复杂业务逻辑使用本地临时表拆分
如果业务SQL语句过于复杂，可以使用本地临时表将执行的中间结果缓存下来，从而将复杂业务逻辑拆分成多个较简单语句。简单语句的统计信息更为准备，且拆分后的业务更易于维护。
支持CN节点出现异常。
GaussDB(DWS) 是一款分布式架构的数据库。有多个Coordinator(CN)，关系对等。客户端可以连接任意一个CN。CN上存有表的元数据信息。在执行DDL时，会在所有DN上进行元数据的同步，保证数据一致性。如果某个CN出现异常，会导致创建表、删除表等操作执行失败，进而导致整个作业执行失败。
在这种场景，可以使用本地临时表。本地临时表只在当前会话可见。执行本地临时表的创建、ALTER、删除等操作时，只会在当前CN进行元数据的修改。这样可以不受其他CN节点异常的影响，保证业务使用连续性。

原理

临时表在元数据上与普通表的区别是临时表由于在其他会话不可见，所以会建在一个只属于当前会话的schema。本会话第一次创建临时表时会同时建立这个会话的schema。每一个会话的临时schema都不同。

会话1：

gaussdb=# create temp table tmp1(a int,b int);
NOTICE:  The 'DISTRIBUTE BY' clause is not specified. Using round-robin as the distribution mode by default.
HINT:  Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column.
CREATE TABLE
gaussdb=# d+ tmp1
       Table "pg_temp_coordinator1_65_3_140257888512760.tmp1"
 Column |  Type   | Modifiers | Storage | Stats target | Description
--------+---------+-----------+---------+--------------+-------------
 a      | integer |           | plain   |              |
 b      | integer |           | plain   |              |
Has OIDs: no
Distribute By: ROUND ROBIN
Location Nodes: ALL DATANODES
Options: orientation=row, compression=no:

会话2，查询不到tmp1表。

gaussdb=# select * from tmp1;
ERROR:  relation "tmp1" does not exist
LINE 1: select * from tmp1;
                      ^

临时schema的命名规则：pg_temp_Coordinator名_timelineID_全局自增ID_threadID

Coordinator名：CN名称，隔离不同CN创建的schema。

timelineID：在节点重启后会增加，用于判断此schema是否已经无效。

全局自增ID：单个CN上自增ID。同一个CN不用会话自增ID不同。

元数据：本地临时表的relpersistence标识是’t’。

gaussdb=# select relname, relpersistence from pg_class where relname = 'tmp1';
 relname | relpersistence
---------+----------------
 tmp1    | t

数据清理：

会话正常退出
会话正常退出时，本地临时表的表定义和数据都会被删除。无法再访问原来的数据。
会话异常退出或者当前CN或者某个DN节点异常时。
出现异常时，节点的元数据和数据不会被立即删除。 GaussDB(DWS)依赖组件gs_clean工具进行本地临时表的自动定期清理。保证数据再一段周期后得到清理，防止空间持续膨胀。

CN Retry

CN Retry功能开启时会为临时表数据记录日志，为保证数据一致性，在使用临时表时不建议切换CN Retry开关状态，保持使用临时表的会话中CN Retry开关始终处于打开状态或者关闭状态。
在打开CN Retry时，DN节点异常重启，临时表的数据可以保证不丢失。DN重启后，仍可以访问之前的会话。
如果希望临时表不记录日志:

set max_query_retry_times = 0;

使用约束

如果上层应用，使用了连接池机制连接GaussDB(DWS)，在使用临时表时，强烈建议将连接归还连接池之前，将临时表主动删除，避免造成连接未断开导致的数据异常。或者使用命令DISCARD TEMP清理会话的临时表信息。
扩容时忽略本地临时表。
不支持gs_dump 本地临时表。

关注#华为云开发者联盟# 点击下方，第一时间了解华为云新鲜技术~

华为云博客_大数据博客_AI博客_云计算博客_开发者中心-华为云

展开阅读全文

页面更新：2024-05-18

标签：华为数据处理节点视图全局语句异常操作业务数据博客

1 2 3 4 5

如何使用GaussDB(DWS)的本地临时表进行数据处理

语法与使用

使用场景

原理

数据清理：

CN Retry

使用约束

微软AutoGen爆火！多个智能体协作编码速度飙升4倍，GitHub10k星

e代驾接入美团打车满足用户多元化出行需求

点亮成都科幻地图

21篇论文连发，史上最大

初到北京，感叹微软中国总部的壮丽！

国产RISC-V再添新军，智创芯微电子打通从芯片到终端的产业生态

深耕荷比卢，华为云推动欧洲数字化转型和可持续发展

珍爱网2023布局反诈系统，让网络相亲更可靠

第三届中国新电商大会举行延边州积极参与收获颇丰

苏州先进技术研究院，入驻纳米城总部大楼！

数字化时代，数据仓库究竟是干什么的？

华为耐用还是vivo耐用

2023年工业互联网100佳出炉中国移动跻身top10

再见！乌兹！又一传奇结束！Uzi官宣第三次退役！

梦幻西游：珍宝阁三雾疯狂改书，打成11红神马力劈出其不意童子

深耕荷比卢，华为云推动欧洲数字化转型和可持续发展

数字化时代，数据仓库究竟是干什么的？

华为耐用还是vivo耐用

华为：为石化化工行业数字化转型保驾护航

数据科学在实践中常见的数据谎言

华为突破的深层意义：中美全球价值链之争，中国如何转守为

对比小米，华为电视型号，海信U8KL液晶电视才是最强MiniLE

株洲市残联召开省重点民生实事项目推进暨全市残联康复

华为支付机构更名引发市场关注，推进鸿蒙元服务的重要一

2023年10月新冠病毒再度来袭，新增重症病例、死亡病例最