本章节提供从零开始使用安全集群并执行MapReduce程序、Spark程序和Hive程序的操作指导。
本指导的基本内容如下所示:
- 创建集群。
- 创建用户。
- 执行MapReduce程序。
- 执行Spark程序。
- 执行Hive程序。
创建集群
- 创建数据湖或数据服务集群,“Kerberos身份认证”默认开启,且不支持关闭,详见创建集群相关内容。
- 登录翼MR管理控制台页面。
- 单击“我的集群”,单击指定的集群名称,进入集群信息页面。
创建用户
-
登录翼MapReduce管理控制台页面。
-
单击“用户权限”,进入到用户管理页面。
-
单击“添加用户”,输入相关信息,单击“确认”即可。
执行MapReduce程序
本小结提供执行MapReduce程序的操作指导,旨在指导用户在安全集群模式下运行程序。
前提条件
已编译好待运行的程序及对应的数据文件,如mapreduce-examples-1.0.jar、input_data1.txt。
操作步骤
- 采用远程登录软件,通过ssh登录到集群的master节点。
- 登录成功后分别执行如下命令,在/opt/client目录下创建test文件夹。
cd /opt/client
mkdir test
- 执行如下命令配置环境变量并认证已创建的用户,例如test。
cd /opt/client
kinit test
- 执行如下命令将数据导入到HDFS中。
cd test
hdfs dfs -mkdir /tmp/input
hdfs dfs -put intput_data1.txt /tmp/input
- 执行如下命令运行程序。
yarn jar mapreduce-examples-1.0.jar WordCount /tmp/input /tmp/output
其中:
/tmp/output指HDFS文件系统中output的路径,该目录必须不存在,否则会报错。
执行Spark程序
本小结提供执行Spark程序的操作指导,旨在指导用户在安全集群模式下运行程序。
前提条件
已编译好待运行的程序及对应的数据文件,如Collection.jar、input_data1.txt。
操作步骤
- 采用远程登录软件,通过ssh登录到集群的master节点。
- 登录成功后分别执行如下命令,在/opt/client目录下创建test文件夹。
cd /opt/client
mkdir test
- 执行如下命令配置环境变量并认证已创建的用户,例如test:
cd /opt/client
- 执行如下命令将数据导入到HDFS中。
cd test
hdfs dfs -mkdir /tmp/input
hdfs dfs -put intput_data1.txt /tmp/input
- 执行如下命令运行程序。
cd /opt/client/Spark/spark
bin/spark-submit --class com.tyy.Collection --master yarn-client/opt/client/test/Collection-1.0.jar /tmp/input
执行Hive程序
本小结提供执行Hive程序的操作指导,旨在指导用户在安全集群模式下运行程序。
前提条件
已编译好待运行的程序及对应的数据文件,如hive-examples-1.0.jar、input_data1.txt。
操作步骤
- 采用远程登录软件,通过ssh登录到集群的master节点。
- 登录成功后分别执行如下命令,在/opt/client目录下创建test文件夹。
cd /opt/client
mkdir test
- 执行如下命令配置环境变量并认证已创建的用户,例如test。
cd /opt/client
kinit test
- 执行如下命令运行程序。
chmod +x /opt/hive_examples -R
cd /opt/hive_examples
java -cp .:
hive-examples-1.0.jar:/opt/hive_examples/conf:/opt/client/Hive/Beeline/lib/:/opt/client/HDFS/hadoop/lib* com.tyy.hive.example.ExampleMain