searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

Doris-HDFS LOAD常见问题汇总(二)

2024-09-27 09:20:39
26
0

1、HDFS Load导入错误,quality not good enough to cancel,

  • 现象描述:导入显示状态为Canceled,URL错误详情显示:quality not good enough to cancel
  • 可能原因:
      • 1、导入的数据字段长度设置有问题,原始数据超长。
      • 2、导入的数据被异常切分了。字段值中含有换行或者文件解析错误。
      • 3、字段对应错误,字段值字段转换异常。
  • 定位方式:
      1. 查询任务状态show load where label="" from db_name;
      2. show load warnings on "URL" 。日志详情里显示具体错误详情。
  • 解决方案:
      • 1、字段值超长可以修改字段值或者截断原始数据。
      • 2、数据被异常切分,需探查所有数据还是极少数数据,极少数数据可通过设置允许脏数据来自动过滤部分脏数据。
      • 3、字段对应错误或者字段转换异常,对应设置相应的set进行显式转换。

2、HDFS Load数据同步到doris丢失了 ,我检查了一下总数 发现掉了几十万 找个帮忙看看是什么原因吗

  • 现象描述:导入后数据少了很多
  • 可能原因:
      • 1、数据导入任务有大量脏数据,当设置允许脏数据,可能会过滤
      • 2、导入的格式是Parquet格式,但在任务中未指定,默认引擎同步异常
      • 3、原始数据重新生成。
  • 定位方式:
      1. 确认是否设置允许脏数据,如果允许可查看ETLinfo详情里查询具体导入情况。

                                 show load where label="" from db;

                  unselected.rows=0; dpp.abnorm.ALL=18; dpp.norm.ALL=221221

      1. 查询原始数据的文件格式是什么

                        2. 查询原始数据生成时间,是否更新为数据导入任务后,或者有增量数据生成。

  • 解决方案:
      • 1、字段值超长可以修改字段值或者截断原始数据。
      • 2、数据被异常切分,需探查所有数据还是极少数数据,极少数数据可通过设置允许脏数据来自动过滤部分脏数据。
      • 3、字段对应错误或者字段转换异常,对应设置相应的set进行显式转换。

3、HDFS Load导入错误,quality not good enough to cancel,

  • 现象描述:导入显示状态为Canceled,错误详情为

type:ETL_RUN_FAIL; msg:errCode = 2, detailMessage = HDFS list path exception. path=hdfs://user/XXXXXXXXXXX/5G_D/20240418/*, err: errCode = 2, detailMessage = HDFS list path failed. path=hdfs://user/XXXXXXXXXX/5G_D/20240418/*,msg=errors while get file status java.net.UnknownHostException: user

  • 可能原因:
      • 1、host设置异常
  • 定位方式:
      1. 确认配置的HDFS路径是否正确。
  • 解决方案:
      • 修改正确HDFS路径后,重新导入。

4、HDFS Load导入错误, No source file

  • 现象描述:导入显示状态为Canceled,错误详情为

type:ETL_RUN_FAIL; msg:errCode = 2, detailMessage = No source file in this table(o_zXXXXX_d).

  • 可能原因:
      • HDFS路径配置错误,或者HDFS目录下没有相关文件。
  • 定位方式:
      1. 确认配置的HDFS路径是否正确。
      2. 确认原始的数据是否正常生成。
  • 解决方案:
      • 修改正确HDFS路径后或生成原始数据后,重新导入。

5、HDFS Load导入错误,中文字段 the length of input is too long than schema.

  • 现象描述:导入显示状态为Canceled,URL详情为

Reason: column_name[con_bis_type], the length of input is too long than schema. first 32 bytes of input str: [用户姓名] schema length: 10; actual length: 12; . src line [];

  • 可能原因:
      • 中文字段在Doris中单个汉字长度为3.
  • 定位方式:
      1. 查看原始数据的长度
  • 解决方案:
      • 修改表字段的长度,重新导入。

          ALTER TABLE example_db.my_table MODIFY COLUMN val1 VARCHAR(64)

0条评论
0 / 1000
刘****阳
6文章数
0粉丝数
刘****阳
6 文章 | 0 粉丝
原创

Doris-HDFS LOAD常见问题汇总(二)

2024-09-27 09:20:39
26
0

1、HDFS Load导入错误,quality not good enough to cancel,

  • 现象描述:导入显示状态为Canceled,URL错误详情显示:quality not good enough to cancel
  • 可能原因:
      • 1、导入的数据字段长度设置有问题,原始数据超长。
      • 2、导入的数据被异常切分了。字段值中含有换行或者文件解析错误。
      • 3、字段对应错误,字段值字段转换异常。
  • 定位方式:
      1. 查询任务状态show load where label="" from db_name;
      2. show load warnings on "URL" 。日志详情里显示具体错误详情。
  • 解决方案:
      • 1、字段值超长可以修改字段值或者截断原始数据。
      • 2、数据被异常切分,需探查所有数据还是极少数数据,极少数数据可通过设置允许脏数据来自动过滤部分脏数据。
      • 3、字段对应错误或者字段转换异常,对应设置相应的set进行显式转换。

2、HDFS Load数据同步到doris丢失了 ,我检查了一下总数 发现掉了几十万 找个帮忙看看是什么原因吗

  • 现象描述:导入后数据少了很多
  • 可能原因:
      • 1、数据导入任务有大量脏数据,当设置允许脏数据,可能会过滤
      • 2、导入的格式是Parquet格式,但在任务中未指定,默认引擎同步异常
      • 3、原始数据重新生成。
  • 定位方式:
      1. 确认是否设置允许脏数据,如果允许可查看ETLinfo详情里查询具体导入情况。

                                 show load where label="" from db;

                  unselected.rows=0; dpp.abnorm.ALL=18; dpp.norm.ALL=221221

      1. 查询原始数据的文件格式是什么

                        2. 查询原始数据生成时间,是否更新为数据导入任务后,或者有增量数据生成。

  • 解决方案:
      • 1、字段值超长可以修改字段值或者截断原始数据。
      • 2、数据被异常切分,需探查所有数据还是极少数数据,极少数数据可通过设置允许脏数据来自动过滤部分脏数据。
      • 3、字段对应错误或者字段转换异常,对应设置相应的set进行显式转换。

3、HDFS Load导入错误,quality not good enough to cancel,

  • 现象描述:导入显示状态为Canceled,错误详情为

type:ETL_RUN_FAIL; msg:errCode = 2, detailMessage = HDFS list path exception. path=hdfs://user/XXXXXXXXXXX/5G_D/20240418/*, err: errCode = 2, detailMessage = HDFS list path failed. path=hdfs://user/XXXXXXXXXX/5G_D/20240418/*,msg=errors while get file status java.net.UnknownHostException: user

  • 可能原因:
      • 1、host设置异常
  • 定位方式:
      1. 确认配置的HDFS路径是否正确。
  • 解决方案:
      • 修改正确HDFS路径后,重新导入。

4、HDFS Load导入错误, No source file

  • 现象描述:导入显示状态为Canceled,错误详情为

type:ETL_RUN_FAIL; msg:errCode = 2, detailMessage = No source file in this table(o_zXXXXX_d).

  • 可能原因:
      • HDFS路径配置错误,或者HDFS目录下没有相关文件。
  • 定位方式:
      1. 确认配置的HDFS路径是否正确。
      2. 确认原始的数据是否正常生成。
  • 解决方案:
      • 修改正确HDFS路径后或生成原始数据后,重新导入。

5、HDFS Load导入错误,中文字段 the length of input is too long than schema.

  • 现象描述:导入显示状态为Canceled,URL详情为

Reason: column_name[con_bis_type], the length of input is too long than schema. first 32 bytes of input str: [用户姓名] schema length: 10; actual length: 12; . src line [];

  • 可能原因:
      • 中文字段在Doris中单个汉字长度为3.
  • 定位方式:
      1. 查看原始数据的长度
  • 解决方案:
      • 修改表字段的长度,重新导入。

          ALTER TABLE example_db.my_table MODIFY COLUMN val1 VARCHAR(64)

文章来自个人专栏
MPP-Doris应用
4 文章 | 1 订阅
0条评论
0 / 1000
请输入你的评论
0
0