华为云MRS(MapReduce Service)与OBS(对象存储服务)的对接,是实现存算分离架构的关键步骤,这种架构允许用户将数据存储在高性能、可扩展的OBS中,而MRS集群则专注于数据处理和计算任务,以下是对华为云MRS对接OBS的详细解析:
一、概述
华为云MRS支持用户将数据存储在OBS服务中,使用MRS集群仅作数据计算处理的存算分离模式,这种模式通过IAM服务的“委托”机制进行简单配置,避免了直接暴露AK/SK的风险,MRS集群中的Hadoop、Hive、Spark、Presto、Flink等组件均支持此功能。
二、配置流程
1、创建具有访问OBS权限的ECS委托
登录IAM控制台,选择“委托”。
设置委托名称,如“mrs_ecs_obs_delegate”。
选择“云服务”,在“弹性云服务器 裸金属服务器”中勾选ECS或BMS,授权调用OBS服务。
如果OBS桶配置了KMS加密,还需勾选“KMS Administrator”策略。
完成配置后,单击“确定”并确认弹窗信息,开始授权。
2、创建存算分离集群
进入购买MRS集群页面,选择“自定义购买”。
配置基础参数、集群配置、网络配置、节点配置等。
在高级配置中,选择或创建具有访问OBS权限的ECS委托。
完成配置后,单击“立即购买”等待集群创建成功。
3、创建OBS文件系统用于存放数据
登录OBS控制台,选择“并行文件系统 > 创建并行文件系统”。
填写文件系统名称和其他必要参数。
创建完成后,在文件系统中新建program、input文件夹,分别用于上传程序包和输入数据。
4、配置生命周期规则
MRS集群内组件默认支持数据防误删策略,删除的文件数据会保存到OBS回收站目录中。
为节省OBS使用空间,需配置定时自动清理回收站目录中的文件数据。
三、具体组件对接示例
HDFS对接OBS:通过配置coresite.xml和hdfssite.xml文件,指定OBS作为HDFS的底层存储。
Hive对接OBS:修改hivesite.xml文件,添加oss相关的配置项,如临时AK/SK、endpoint、bucket name等。
Spark对接OBS:在sparkdefaults.conf文件中添加oss相关配置,如sts.endpoint、sts.accessKeyId、sts.secretKey等。
其他组件:类似地,通过修改各自配置文件或管理控制台,指定OBS作为存储后端。
四、常见问题及解答
Q1: MRS集群如何通过IAM委托访问OBS?
A1: MRS集群通过创建具有访问OBS权限的ECS委托,并在集群配置中绑定该委托,从而获得访问OBS的权限。
Q2: OBS并行文件系统与普通对象桶有何区别?
A2: OBS并行文件系统专为大数据场景设计,提供高吞吐量和低延迟的访问性能,而普通对象桶可能无法满足大数据应用的性能需求。
Q3: 如何确保MRS集群与OBS之间的数据传输安全?
A3: 可以通过配置SSL/TLS加密传输、网络隔离(如VPC)、访问控制(如IAM策略和委托)等措施来确保数据传输安全。
华为云MRS与OBS的对接是一个涉及多个步骤和配置的过程,但通过遵循官方文档和最佳实践,用户可以顺利完成对接并享受存算分离带来的灵活性和成本效益。
原创文章,作者:未希,如若转载,请注明出处:https://www.kdun.com/ask/1237577.html
本网站发布或转载的文章及图片均来自网络,其原创性以及文中表达的观点和判断不代表本网站。如有问题,请联系客服处理。
发表回复