基本概念
ETL
ETL是指将对业务系统的数据进行抽取、清洗、转换、加载的过程,从而整合零散、不标准、不统一的数据。云日志服务支持加载源日志单元数据,将数据转换后输出到目标日志单元。
事件、数据、日志
在数据加工功能中,事件、数据都表示日志,例如事件时间就是日志时间,丢弃事件字段函数e_drop_fields就是用于丢弃特定日志字段的函数。
日志时间
日志时间指事件所发生的时间,也称事件时间。在云日志服务中的保留字段为__time__,一般由日志中的时间信息直接提取生成。数据类型为整数字符串,Unix标准时间格式,单位为秒,表示从1970-1-1 00:00:00 UTC计算起的秒数。
日志标签
日志存在标记,区别于其他字段,在数据加工中,标签字段以__tag__:作为前缀。包括:
- 用户自定义标签:用户通过API PutLogs写入数据时添加的标签。
- 系统标签:云日志服务为用户添加的标签,包括__client_ip__和__receive_time__。
配置相关概念
源日志单元
数据加工中,从中读取数据再进行加工的日志单元是源日志单元。
一个加工任务仅支持一个源日志单元,但可以对一个源日志单元配置多个加工任务。
目标日志单元
数据加工中,数据写入的日志单元是目标日志单元。
一个加工任务可以配置多个目标日志单元,可以是静态配置,也可以是动态配置。具体配置方法,请参见多目标日志单元数据分发。
DSL
DSL(Domain Specific Language)是云日志服务数据加工使用的一种Python兼容的脚本语言。DSL基于Python提供内置一百多个函数,简化常见的数据加工模式。也支持用户自定义的扩展Python脚本。
加工规则
数据加工脚本, DSL编排的逻辑代码的集合。
加工任务
数据加工最小调度单元,由源日志单元、目标日志单元、加工规则、加工时间范围以及其他配置项组成