hive之生成唯一id-天翼云

hive之生成唯一id

2023-08-04 08:44:32 阅读次数：432

1.针对没有变话的一张表生成id。(表中数据固定不会增加修改)

ROW_NUMBER ()over() 针对所有数据生成自增id，即使所有数据都相同。 hive之生成唯一id

2.针对没有变化的表，根据字段生成自增id 注意cc11 和cc12我故意没按顺序摆放

hive之生成唯一id

这样做的好处是生成的id 和name产生了一点联系

3.针对表中数据经常发生变化可能增加的数据

--原始表

create table test.cc_test_sequece_id(
name string ,
bd_date string
)

--最终结果表
create table test.cc_test_sequece_id(
id string ,
name string ,
bd_date string
)

insert into test.cc_test_sequece_id(name,bd_date)values("cc1","2019"),("cc2","2019"),("cc3","2019")

hive之生成唯一id

第一次赋予自增id 这里用这个。方便理解。

insert overwrite table test.cc_test_sequece_id_result select ROW_NUMBER ()over(),* from test.cc_test_sequece_id

hive之生成唯一id

第二次原始表数据变化了

truncate table test.cc_test_sequece_id

insert into test.cc_test_sequece_id(name,bd_date)values("cc1","2019"),("cc12","2019"),("cc2","2019"),("cc11","2019"),("cc3","2019")
hive之生成唯一id

insert overwrite table test.cc_test_sequece_id_result
select
    ROW_NUMBER ()over( order by id ) id ,name ,bd_date  --然后根据整个表赋值id 
from (
         select * from test.cc_test_sequece_id_result  --上次已经有了id的
         union all
         select null as id ,* from test.cc_test_sequece_id  t  --这次数据新增的，用null作为id
         where not EXISTS (
             select 1 from test.cc_test_sequece_id_result r
             where t.name=r.name
         )
     )t --此时这两个union后有id的会在前面。

hive之生成唯一id

为什么不采用前面的方法直接生成id。那是因为例如cc2在第一次生成主键的时候是2

可是如果数据发生了变化下次他的id就可能是3456这种了。

2021-11-17 今天突然想到这里是有点需要注意。。。

id这个主键字段必须设置为int类型。不要string，不要string，不要string因为string 的排序规则是

1，11，12，13...111,112,113....2,21,22.. 你在order by的时候会打乱顺序的

4.通过hash，仅供参考，按照java说的数据太多的情况下hash值有小部分概率一样，但是可以通过hash多列来避免，例如hash("c1","c2")

hive之生成唯一id

5.通过mask_hash,

hive之生成唯一id

备注:

遇到过一个问题: 就是id 有 1 2 3 4 null null的时候,按照id排序

hive会默认是 null null 1234 和预想不对

这个时候建议加个字段

select

from (

select

id,

if(id is null ,1,0) paixu

from table

order by paixu, id

最后结果就是 1 2 3 4 null null

新增2021-12-06

最后都没有使用上述方法。。。因为发现了hive的另外一个方法md5

直接md5(concat(col1,col2))当作唯一id就行。。

自增暂时不需要

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

hive之生成唯一id

hive之生成唯一id

相关文章

测试oracle主键被激活后，依赖该列的外建需手动重新激活

主键失效对该主键对应列上索引的影响

Oracle 11g系列：约束

elasticsearch删除脏数据(根据指定字段删除数据)

MySQL—多表查询—小结

约束的概述以及分类（基础）

数据库Sql题目 : 不用id,每隔10行取一条数据

【Hive】使用Ambari修改 默认队列

Mybatis-Flex实战

Java实战之管家婆记账系统（3）——数据库表

作者介绍

最新文章

主键失效对该主键对应列上索引的影响

Oracle 11g系列：约束

elasticsearch删除脏数据(根据指定字段删除数据)

MySQL—多表查询—小结

约束的概述以及分类（基础）

数据库Sql题目 : 不用id,每隔10行取一条数据

热门文章

mybatis主键自增长，注解返回主键

数据库的唯一标示符（ID）的选择

小书MybatisPlus第6篇-主键生成策略精讲

hive 搭建数据仓库

hive时间和字符串互转，时间函数

hive运算时类型自动转化问题

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

如何让JOIN跑得更快

hive——创建表不支持新增字段问题

hive如何实现oracle的connect by prior函数

【MySQL】MGR集群相关简介

如何使用StreamSets从MySQL增量更新数据到Hive

Hive | 加载数据后，出现字段显示为 NULL的问题

【Hive】使用Ambari修改默认队列