JuiceFS
使用 Fluid 对接 OBS 存储及性能测试
· ☕ 1 分钟
1. Jindo 挂载 OBS 配置环境变量 1 2 3 4 export ENDPOINT=obs.cn-north-4.myhuaweicloud.com export BUCKET= export AK= export SK= 创建凭证 1 2 3 4 5 6 7 8 9 10 kubectl apply -f - <<EOF apiVersion: v1 kind: Secret metadata: name: myobssecret type: Opaque stringData: fs.obs.accessKeyId: ${AK} fs.obs.accessKeySecret: ${SK} EOF 创建 Dataset 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 kubectl apply -f - <<EOF apiVersion: data.fluid.io/v1alpha1 kind: Dataset metadata: name: myobs-jindo spec: mounts: - mountPoint: obs://${BUCKET}/test2/ options: fs.obs.endpoint: ${ENDPOINT} encryptOptions: - name: fs.obs.accessKeyId valueFrom: secretKeyRef: name: myobssecret key: fs.obs.accessKeyId - name: fs.obs.accessKeySecret valueFrom: secretKeyRef: name:

将 JuiceFS 元数据从 Redis 迁移到 PGSQL
· ☕ 2 分钟
1. 为什么将元数据存储从 Redis 迁移到 PGSQL PGSQL 成本低 Redis 使用内存存储元数据,PGSQL 使用磁盘存储元数据,成本差异显而易见。 PGSQL 性能可调节 不同的 PGSQL 提供了不同的性能 IOPS。如果对性能没有持续高的要求,使用 PGSQL 是不错的选择。 PGSQL 存储上限更高 如果按照元数据大小估算

使用 Fluid 对接 OSS 存储及性能测试
· ☕ 4 分钟
1. Jindo 直接加速 OSS 配置环境变量 1 2 3 4 export ENDPOINT=oss-cn-beijing-internal.aliyuncs.com export BUCKET= export AK= export SK= 创建凭证 1 2 3 4 5 6 7 8 9 10 kubectl apply -f - <<EOF apiVersion: v1 kind: Secret metadata: name: myosssecret type: Opaque stringData: fs.oss.accessKeyId: ${AK} fs.oss.accessKeySecret: ${SK} EOF 创建 Dataset 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 kubectl apply -f - <<EOF apiVersion: data.fluid.io/v1alpha1 kind: Dataset metadata: name: myoss-jindo spec: mounts: - mountPoint: oss://${BUCKET}/test2/ options: fs.oss.endpoint: ${ENDPOINT} encryptOptions: - name: fs.oss.accessKeyId valueFrom: secretKeyRef: name: myosssecret key: fs.oss.accessKeyId - name: fs.oss.accessKeySecret valueFrom:

如何预热 Juicefs 数据
· ☕ 1 分钟
1. 关于 JuiceFS 的缓存 在主机上,预热的缓存是直接放在主机上的。 在集群中,分为两级缓存: Worker,提供集群级别共享的缓存 Fuse,提供仅当前节点级别的缓存 2. 使用 JuiceFS 客户端预热数据 指定目录 1 juicefs warmup /mnt/jfs/dataset-1 批量指定目录 1 juicefs warmup -f warm.txt 其中 warm.txt 为预热目录列表,每行一个目

模型研发周期中的数据存储
· ☕ 3 分钟
1. 基于对象存储的数据交付 如上图,在模型研发过程中,主要涉及三个子平台,分别是: 数据平台 数据平台主要负责数据相关的管理,比如: 数据接入、数据处理,最终生成训练所需的数据。 数据平台将原始数据存储到对象存储中,在处理时,从对象存储中获取数据,进行