JDBC getColumnLabel和getColumnName区别及自动解析查询字段-天翼云

JDBC getColumnLabel和getColumnName区别及自动解析查询字段

2023-07-17 07:45:44 阅读次数：71

背景

最近在负责的一款数据产品，其功能之一为数据推送，即把数据从源头数据源同步到目标数据源。

功能大致如下，SQL语句块需要支持多段SQL，以英文逗号;分隔：

JDBC getColumnLabel和getColumnName区别及自动解析查询字段

问题

自测时发现一个问题。对于select 11 as userid或select 22 as user_id这样的查询语句，自动生成字段，没有问题。但如果是select 22 as userId这种驼峰命名的SQL，自动生成字段，会全部变成小写。

这样会有什么问题呢？如果数据是推送到Oracle，Oracle的字段名（以及表名）是全部大写可带下划线，能够兼容数据源头小写。

但是如果数据是推送到MQ时，MQ消费方则需要严格匹配JSON字符串里面的字段名。也就是说，MQ消费方如果能够接受全部小写或者下划线命名的字段，则没有问题。如果希望消费驼峰命名的数据，则此时的自动生成字段派不上用场。

分析

先来看看根据SQL语句获取解析字段的代码片段：

public List<String> getSqlColumn(String sql) throws Exception {
    if (StringUtils.isBlank(sql)) {
        return Collections.emptyList();
    }
    List<String> list = new ArrayList<>();
    Connection con = null;
    Statement ps = null;
    ResultSet rs = null;
    try {
        JSONObject dataSourceJson = JSONObject.parseObject(JSONObject.toJSONString(dataSource));
        // dataSource是一个Map<String, String>,存放username,password,url,driver等信息
        con = JdbcUtil.getConnection(dataSourceJson);
        ps = con.createStatement();
        String[] sqlArr = getAsSubQuery(sql).split(";");
        // 先执行前面若干条准备语句
        for (int y = 0; y < sqlArr.length - 1; y++) {
            String subSql = getAsSubQuery(sqlArr[y]);
            // 前面的执行不需要获取结果集
            ps.execute(subSql);
        }
        // 执行最后一条子SQL获取字段(结果集)
        // 即将废弃
        rs = ps.executeQuery(sqlArr[sqlArr.length - 1]);
        ResultSetMetaData metaData = rs.getMetaData();
        int columnCount = metaData.getColumnCount();
        if (columnCount != 0) {
            list = new ArrayList<>();
            for (int j = 0; j < columnCount; j++) {
                String cname = metaData.getColumnLabel(j + 1);
                list.add(j, cname);
            }
        }
        // 即将废弃
    } catch (Exception e) {
        throw new Exception("getSqlColumn error:" + e);
    } finally {
        if (rs != null) {
            rs.close();
        }
        if (ps != null) {
            ps.close();
        }
        if (con != null) {
            con.close();
        }
    }
    return list;
}

/**
 * 替换多余的空格,回车,换行符,去掉末尾的最后一个分号
 */
private String getAsSubQuery(String rawQueryText) {
    String deletedBlankLine = rawQueryText.replaceAll("(?m)^[\\s\t]*\r?\n", "").trim();
    return deletedBlankLine.endsWith(";") ? deletedBlankLine.substring(0, deletedBlankLine.length() - 1) : deletedBlankLine;
}

private String getDbType(String driver) {
    if (StringUtils.isNotBlank(driver)) {
        return DbDriverTypeEnum.getNameByDbDriverType(driver).equals("impala") ? "hive" : DbDriverTypeEnum.getNameByDbDriverType(driver);
    }
    return "";
}

平平常常的一段代码，从结果集里，获取查询子SQL（最后一条SQL）的字段。

问题就出在这里：metaData.getColumnLabel();，JDBC提供的API，此处拿到的数据就是纯小写，注意索引从1开始。

JDBC getColumnLabel和getColumnName区别及自动解析查询字段

因为metaData.getColumnLabel()拿到的数据有问题，只能去看看API，源码，通过调试一个个尝试。发现都不行。

此处就引出有个疑问。metaData.getColumnLabel()和metaData.getColumnName()有啥区别？为什么JDBC规范需要提供两个API方法？

参考下面给出的stackoverflow问答链接。在有别名的情况下，即，使用as或者AS，当然这个关键词可以去掉，metaData.getColumnLabel()会返回别名字段，metaData.getColumnName()返回原始字段。

只不过，这个只是JDBC官方规范，各个不同的数据源驱动，更涉及到不同版本，其实现并没有严格遵守这个规范。上面的截图说明这个问题。注：使用的hive jdbc驱动版本为：

<dependency>
  <groupId>org.apache.hive</groupId>
  <artifactId>hive-jdbc</artifactId>
  <version>2.1.1-cdh6.2.1</version>
</dependency>

MySQL如下驱动版本，严格实现该JDBC规范，没有转为小写的问题：

<dependency>
    <groupId>mysql</groupId>
    <artifactId>mysql-connector-java</artifactId>
    <version>8.0.22</version>
</dependency>

解决

思路1

既然JDBC这个方式行不通，那就需要自己手写SQL解析器，解析涉及到的数据表，查询字段等等。但这远远不是一个简单的工作量。故而我们需要开源组件。之前关于这个做过简单的调研。

参考SQL解析调研

将上面的代码片段中执行最后一条子SQL的逻辑替换为如下片段：

List<String> columns = SqlUtil.getSelectColumns(sqlArr[sqlArr.length - 1], this.getDbType(dataSource.get("driver")));
for (int j = 0; j < columns.size(); j++) {
    list.add(j, columns.get(j));
}

思路2

推荐使用上面的解决方案。从数据源头就拿到正确的数据。

至于思路2，就目前而且，去向数据源，我们支持几个主流的支持JDBC规范的关系型数据库，如MySQL，SQL Server，Oracle，MongoDB以及ClickHouse，不存在因为驼峰命名自动生成字段，变成小写命名后，导致数据推送到目标数据源失败的情况，至少暂未发现。

但是MQ比较特殊，故而，思路2就是在MQ消费方这一端来解决这个问题。支持手动输入多个字段，多个字段之间使用英文逗号分割：

JDBC getColumnLabel和getColumnName区别及自动解析查询字段

这里注意分号，分号前面几位数据源查询SQL的结果集字段，分号后面为期望的MQ字段，然后代码里面特殊处理一下：

// dataList是一个list of map,即SQL的查询结果
for (Map<String, Object> map : dataList) {
    JSONObject mq = new JSONObject();
    // columnArr是自动生成或者手动输入的字段,也就是希望推到目标数据源的那些字段,是源头数据源查询SQL里面的查询字段的子集.另外,手动添加字段没有限制,但是没有取数来源,故而不会推到目标数据源,或者及时推送也是null或者空
    for (String s : columnArr) {
        // 此处不管有没有分号,都会解析到字段
        String dbKey = s.split(":")[0];
        String mqKey = "";
        if (s.contains(":")) {
            mqKey = s.split(":")[1];
        }
        if (StringUtils.isBlank(mqKey)) {
            mq.put(dbKey, map.get(dbKey));
        } else {
            // 如果有分号,则往分号后面的那个字段落数据
            mq.put(mqKey, map.get(dbKey));
        }
    }
}

参考

getcolumnlabel-vs-getcolumnname

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

JDBC getColumnLabel和getColumnName区别及自动解析查询字段

JDBC getColumnLabel和getColumnName区别及自动解析查询字段

背景

问题

分析

解决

思路1

思路2

参考

相关文章

多并发的高实时的订单查询的性能问题(进程内共享数据)

你应该知道一些其他存储——列式存储

【数据库】期末必知必会-----第八章 数据库安全

解读缓存问题的技术旅程

数据库设计与管理的要点详解

什么是归档日志，日志归档简介

oracle如何开启日志归档

一键转换SQL为RESTful API：全栈技术实践与心得分享

hive执行分区修复语句（MSCK REPAIR TABLE）时报FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.

Redis与数据库同步指南：订阅Binlog实现数据一致性

作者介绍

最新文章

【数据库】期末必知必会-----第八章 数据库安全

数据库数据恢复-ORACLE数据库常见故障有哪些？oracle数据库出现这些故障能恢复数据吗？

数据库数据恢复—Oracle数据库打开报错“system01.dbf需要更多的恢复来保持一致性，数据库无法打开”的数据恢复案例

如何将ABAP透明表的内容导入PostgreSQL数据库

如何找到某个 ABAP structure 某字段的源头来自哪个数据库表

数据库数据恢复—MSSQL Server数据库报错“附加数据库错误823”的数据恢复案例

热门文章

Nacos数据持久化到MySQL

MySQL的间隙锁

​云原生微服务K8s容器编排第七章之ETCD的使用及备份

Demo | 神操作，SqlAlchemy用一行命令还原数据库！

oracle 数据库 中 如何将不带汉字的日期格式转换成带“年月日时分秒”格式的日期

pandas to_sql保存数据到数据库后，添加自增长的主键ID(PRIMARY KEY)

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

怎么给数据库某个字段建立一个前缀索引

北亚案例：oracle数据库误删除数据的恢复方法

【mysql】其他函数

给新手学习MySQL的建议

【数据库数据恢复】MongoDB数据库误操作导致文件损坏，MongoDB服务无法启动的数据恢复案例

oracle之单行函数之子查询

【数据库】期末必知必会-----第八章数据库安全

【数据库】期末必知必会-----第八章数据库安全

云原生微服务K8s容器编排第七章之ETCD的使用及备份

oracle 数据库中如何将不带汉字的日期格式转换成带“年月日时分秒”格式的日期