17 案例：开发shell采集脚本-天翼云

17 案例：开发shell采集脚本

2024-04-25 09:39:52 阅读次数：46

需求分析：

点击流日志每天都10T，在业务应用服务器上，需要准实时上传至数据仓库（Hadoop HDFS）上。一般上传文件都是在凌晨24点操作，由于很多种类的业务数据都要在晚上进行传输，为了减轻服务器的压力，避开高峰期。如果需要伪实时的上传，则采用定时上传的方式。

用到的技术：

HDFS SHELL:

hadoop fs  –put   xxxx.tar  /data

还可以使用 Java API 满足上传一个文件，不能满足定时、周期性传入。

定时调度器：

Linux crontab

crontab -e

*/5 * * * * $home/bin/command.sh   //五分钟执行一次
系统会自动执行脚本，每5分钟一次，执行时判断文件是否符合上传规则，符合则上传

实现流程

1.日志产生程序

日志产生程序将日志生成后，产生一个一个的文件，使用滚动模式创建文件名。

17 案例：开发shell采集脚本

日志生成的逻辑由业务系统决定，比如在log4j配置文件中配置生成规则，如：当xxxx.log 等于10G时，滚动生成新日志。

log4j.logger.msg=info,msg
log4j.appender.msg=cn.maoxiangyi.MyRollingFileAppender
log4j.appender.msg.layout=org.apache.log4j.PatternLayout
log4j.appender.msg.layout.ConversionPattern=%m%n
log4j.appender.msg.datePattern='.'yyyy-MM-dd
log4j.appender.msg.Threshold=info
log4j.appender.msg.append=true
log4j.appender.msg.encoding=UTF-8
log4j.appender.msg.MaxBackupIndex=100
log4j.appender.msg.MaxFileSize=10GB
log4j.appender.msg.File=/home/hadoop/logs/log/access.log

细节：

如果日志文件后缀是1\2\3等数字，该文件满足需求可以上传的话。把该文件移动到准备上传的工作区间。
工作区间有文件之后，可以使用hadoop put命令将文件上传。

阶段问题：

待上传文件的工作区间的文件，在上传完成之后，是否需要删除掉。

2.伪代码

使用ls命令读取指定路径下的所有文件信息，

ls  | while read  line
   //判断line这个文件名称是否符合规则
if   line=access.log.* (
    将文件移动到待上传的工作区间
  )

//批量上传工作区间的文件
hadoop fs  –put   xxx

脚本写完之后，配置linux定时任务，每5分钟运行一次。

代码实现

代码第一版本，实现基本的上传功能和定时调度功能

17 案例：开发shell采集脚本

代码第二版本：增强版V2(基本能用，还是不够健全)

17 案例：开发shell采集脚本

效果展示及操作步骤

1、日志收集文件收集数据，并将数据保存起来，效果如下：

17 案例：开发shell采集脚本

2、上传程序通过crontab定时调度

17 案例：开发shell采集脚本

3、程序运行时产生的临时文件

17 案例：开发shell采集脚本

4、Hadoo hdfs上的效果

17 案例：开发shell采集脚本

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

17 案例：开发shell采集脚本

17 案例：开发shell采集脚本

需求分析：​

​用到的技术：​

定时调度器：

实现流程

代码实现

效果展示及操作步骤

相关文章

部署loki,grafana 以及springcloud用法举例

java应用性能调优之详解System的gc垃圾回收方法

【面试题】MySQL的三大日志（Redo Log、Binlog和Undo Log）各有什么区别

利用自定义注解优化操作日志记录

数据库设计与管理的要点详解

什么是归档日志，日志归档简介

Nginx、Tomcat等项目部署问题及解决方案详解

oracle如何开启日志归档

写在前面【mysql高级】【java提高】

Linux journalctl命令使用教程

作者介绍

最新文章

java应用性能调优之详解System的gc垃圾回收方法

利用自定义注解优化操作日志记录

【C\\C++】程序如何执行shell命令并获取执行结果|popen

shell编程（编写、执行，shell变量、传参、字符串、运算符使用）

基于Shell脚本的Java服务管理与配置初始化自动化方案

前端练习小项目——方向感应名片

热门文章

Linux脚本练习之script011-当执行程序时，让使用者选择 `boy` 或者 `girl`，如果使用者输入 `B` 或者 `b`，则显示 `He is a boy`。

shell脚本控制程序启动停止重启

shell脚本

【Java】日志的概念

Spring 日志输出错误字符 -e[0；39m e[2m[

Linux之shell编程基础

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

SpringBoot日志基本操作

Python删除八天前匹配到的日志

前端练习小项目——方向感应名片

启动springboot项目报错“Java HotSpot(TM) 64-Bit Server VM warning: INFO: os::commit_memory(0x0000000641e00“

宗师级Linux 系统管理员的倾囊相授——《Linux命令行与shell脚本编程大全（第4版）》

shell脚本

需求分析：

用到的技术：