hive创建udf函数流程-天翼云

hive创建udf函数流程

2023-08-01 08:53:44 阅读次数：331

1.编写udf函数

引入pom文件

<dependencies>
<dependency>


<groupId>org.apache.commons</groupId>
<artifactId>commons-jexl3</artifactId>
<version>3.1</version>
</dependency>
<dependency> 
<groupId>org.apache.hive</groupId>
<artifactId>hive-exec</artifactId>
<version>3.1.2</version>
<scope>provided</scope>
</dependency>
</dependencies>

先确定好你要写什么函数比如我要写一个计算字符串表达式。

hive创建udf函数流程

开始继承hive的udf接口，有很多小伙伴这个时候就喜欢看别人是怎么写的，这个时候就是体现个人差距的时候了，如何不看别人文档自己写呢？比如没网的条件下？

抄别人的为啥不直接抄hive的呢？想想hive什么udf函数最简单，lower/upper。照着抄就行。

public class StringCal extends GenericUDF 实现三个方法

initialize 初始化校验参数的

evaluate 真正执行的方法

getDisplayString: desc function时打印的话


import org.apache.commons.jexl3.JexlBuilder;
import org.apache.commons.jexl3.JexlEngine;
import org.apache.commons.jexl3.JexlExpression;
import org.apache.hadoop.hive.ql.exec.Description;
import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDF;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDFUtils;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.PrimitiveObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorConverter;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.typeinfo.BaseCharTypeInfo;
import org.apache.hadoop.hive.serde2.typeinfo.TypeInfoFactory;
//有时间的这里写下，免得后面自己都不知道是干嘛的了。
@Description(name = "StringCal",
        value = "_FUNC_(str) - Returns str with calculate result",
        extended = "Example:\n"
                + "  > SELECT _FUNC_('1+(-1+2.0-3.0+(4.0-5.0))+3.1-4.1+2*3+1.1*4') FROM src LIMIT 1;\n" + "  '-7.2'")
public class StringCal extends GenericUDF {
    private transient PrimitiveObjectInspector argumentOI;
    private transient PrimitiveObjectInspectorConverter.StringConverter stringConverter;
    private transient PrimitiveObjectInspector.PrimitiveCategory returnType = PrimitiveObjectInspector.PrimitiveCategory.STRING;
    private transient GenericUDFUtils.StringHelper returnHelper;

//这里一大串校验，校验是不是普通类型啥的，校验是字符串还是啥，哪那么多事，反正照着抄就行，不写也没啥你自己定义的函数，别人也不会用。
    @Override
    public ObjectInspector initialize(ObjectInspector[] arguments) throws UDFArgumentException {
        if (arguments.length != 1) {
            throw new UDFArgumentLengthException(
                    "StringCal requires 1 argument, got " + arguments.length);
        }

        if (arguments[0].getCategory() != ObjectInspector.Category.PRIMITIVE) {
            throw new UDFArgumentException(
                    "StringCal only takes primitive types, got " + argumentOI.getTypeName());
        }
        argumentOI = (PrimitiveObjectInspector) arguments[0];

        stringConverter = new PrimitiveObjectInspectorConverter.StringConverter(argumentOI);
        PrimitiveObjectInspector.PrimitiveCategory inputType = argumentOI.getPrimitiveCategory();
        ObjectInspector outputOI = null;
        BaseCharTypeInfo typeInfo;
        switch (inputType) {
            case CHAR:
                // return type should have same length as the input.
                returnType = inputType;
                typeInfo = TypeInfoFactory.getCharTypeInfo(
                        GenericUDFUtils.StringHelper.getFixedStringSizeForType(argumentOI));
                outputOI = PrimitiveObjectInspectorFactory.getPrimitiveWritableObjectInspector(
                        typeInfo);
                break;
            case VARCHAR:
                // return type should have same length as the input.
                returnType = inputType;
                typeInfo = TypeInfoFactory.getVarcharTypeInfo(
                        GenericUDFUtils.StringHelper.getFixedStringSizeForType(argumentOI));
                outputOI = PrimitiveObjectInspectorFactory.getPrimitiveWritableObjectInspector(
                        typeInfo);
                break;
            default:
                returnType = PrimitiveObjectInspector.PrimitiveCategory.STRING;
                outputOI = PrimitiveObjectInspectorFactory.writableStringObjectInspector;
                break;
        }
        returnHelper = new GenericUDFUtils.StringHelper(returnType);
        return outputOI;
    }

    @Override
    public Object evaluate(DeferredObject[] arguments) throws HiveException {
        String val = null;
        if (arguments[0] != null) {
            val = (String) stringConverter.convert(arguments[0].get());
        }
        if (val == null) {
            return null;
        }
//就这里是我自己写的 其他的都是抄的lowerUdf的。
//        String expressionString = "1+(-1+2.0-3.0+(4.0-5.0))+3.1-4.1+2*3+1.1*4";
        JexlEngine jexlEngine = new JexlBuilder().create();
        JexlExpression jexlExpression = jexlEngine.createExpression(val);
        Object evaluate = jexlExpression.evaluate(null);
        return returnHelper.setReturnValue(evaluate.toString());
    }

    @Override
    public String getDisplayString(String[] children) {
        return null;
    }
}

然后打包成一个jar，上传的hdfs

hive创建udf函数流程

我嫌弃打的包不好听就直接改了个名字。

然后创建函数

create function default.stringCal as 'com.chenchi.s2.function.StringCal' using jar 'hdfs:///user/hive/function/stringcalculate.jar';

建议大家用这种方式，这种方式你可以随时替换jar，使得函数都是最新的。

这个是创建函数指定用哪个jar

或者

add jar hdfs:///user/hive/function/dw_ce_analysis.jar;

create function defalut.stringcal as 'com.chenchi.s2.function.StringCal';

这个是先加载jar然后根据jar创建函数。 add jar 后list jar可以看到是在/tmp目录

注意啊这里加上数据库的名字，否则退出会话就没了。

hive创建udf函数流程这里我创建了两次。就是因为没加数据库的名字，反正建议各位加下。

也可以

drop function dwdmdata.stringcal

最后享受下劳动成果。有精度误差，无伤大雅。

hive创建udf函数流程

活动

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

hive创建udf函数流程

hive创建udf函数流程

相关文章

【配置/认证】Authentication for Hadoop（3.3.1） HTTP web-consoles : Hadoop的simple认证 不是银弹

【基础-配置文件】：hadoop配置文件作用概述ing

【002hive基础】hive的库、表与hdfs的组织逻辑

【运维】hive 终端突然不能使用：Hive Schema version does not match metastore‘s schema version

【Hive基础】hive常见操作速查

【Hive 运维】JDBC使用Hive UDF：Hive UDF打通hiveserver2

【Hive】学习路线：架构、运维、Hsql实战、源码分析

漫谈大数据 - Spark on Hive & Hive on Spark

漫谈大数据 - HiveSQL总结（一）库表操作

通过sqoop将mysql数据导入到hive中进行计算示例

作者介绍

最新文章

HDFS常用命令整理

datax-＞hdfsreader-＞orc文件读取出错ArrayIndexOutOfBoundsException: 6

flinkcdc+hudi0.10+hive(自动同步分区+压缩)

java api访问hive操作示例

apache kyuubi + dremio 集成试用

使用msck修复hive分区时报错Unexpected partition key hour found at

热门文章

从hadoop2.2，HBase0.96 mapreduce操作

如何使用Hive合并小文件

SSH免密钥登录 ------Hadoop学习（2）

Apache hdfs日常操作

hive视图操作

hive 默认队列修改

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

hive错误

Hive连接时报错user:hadoop is not allowed to impersonate anonymous

hadoop案例：groupcomparable（分组排序）

hive 默认队列修改

hadoop 2.2 hdfs 操作例子

Centos7安装hadoop

【配置/认证】Authentication for Hadoop（3.3.1） HTTP web-consoles : Hadoop的simple认证不是银弹