Skip to content

Commit ce4ead9

Browse files
author
uthermai
committed
dev
1 parent d55eca3 commit ce4ead9

File tree

3 files changed

+85
-0
lines changed

3 files changed

+85
-0
lines changed
Lines changed: 34 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,34 @@
1+
# 模板说明
2+
文件分割
3+
4+
# 模板镜像
5+
6+
`ai.tencentmusic.com/tme-public/ray:gpu-20210601`
7+
8+
# 模板注册
9+
参考上级目录的readme.md,注册时填写以下配置。
10+
11+
1、启动参数:
12+
```
13+
{
14+
"source_file":<str>,
15+
"source_type": <str>,
16+
"csv_delimiter": <str>,
17+
"split_num": <str>,
18+
"tar_path": <str>,
19+
"name_prefix": <str>,
20+
"header": <bool>,
21+
"delete_source": <bool>
22+
}
23+
```
24+
source_file: 必填,源文件,支持通配符
25+
source_type:非必填,源文件类型,目前暂时只支持"csv",默认"csv"。
26+
csv_delimiter:必填,csv文件的列分隔符
27+
split_num:必填,要分割成的文件个数
28+
tar_path:非必填,分割之后的文件存放路径,如果不填,则默认与source_file在同一个目录下
29+
name_prefix:非必填,分割之后文件名前缀,如果设置了,则结果文件名为<name_prefix>-part-<id>.<ext>,如果没有设置,则结果文件名为<source_name>-part-<id>.<ext>,其中<id>是文件编号,从0到split_num,<ext>是源文件的扩展名,<source_name>是源文件的除去路径和扩展名之后的部分。
30+
header:非必填,csv文件是否包含文件头,如果包含文件,分割后的文件也会都包含文件头。默认为true
31+
delete_source:非必填,分割完之后,是否删掉源文件。默认为true
32+
33+
# 使用方法
34+

docs/example/job-template/readme.md

Lines changed: 12 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -43,3 +43,15 @@
4343

4444
### 3.3. 其他注册参数
4545
参照页面上的说明
46+
47+
### 公共魔法变量
48+
49+
为了便于使用,在配置中支持几个公共的魔法变量,类似占位符,在实际运行中会被展开成实际值,魔法变量的格式为${PARAM_NAME}$,目前支持的有如下几个:
50+
51+
__${PACK_PATH}$__:包目录,即用户自己代码数据等所在目录,例如/mnt/lionpeng/ai_radio_v2。这个目录是分布式存储挂载到集群worker docker中的目录,该目录会挂载到pipeline中每一个job对应worker docker中。
52+
53+
__${DATA_PATH}$__: 数据目录,表示pipeline一次运行的目录,这里面会存放本次运行中各job产生的数据,包括用户自己代码所产生的数据都放在这里。每次运行目录是不一样的,便于每次运行之间隔离,另外也是便于同一次运行中上下游job进行数据交互。例如/mnt/lionpeng/ai_radio_v2_runs/20201021-141656.624784。同样该目录也会挂载到pipeline中每一个job对应worker docker中。
54+
55+
__${DATE[(-|+numd|w|h|m|s][:format]}$__: 日期变量,例如${DATE}$表示任务运行时的时间。该变量还支持偏移,偏移单位支持d(天),w(星期),h(小时),m(分钟),s(秒),y(年),M(月)。例如${DATE-1d}$,表示运行日的前一天,例如今天是20201021,则${DATE-1d}$展开后就是20201020,而${DATE+2d}$则表示运行日的后两天,即20201023。另外支持指定日期的格式化格式,默认格式是%Y%m%d,格式化符号与python datetime格式化符号一致,可参考说明。例如当前时间是2020年10月21日早上10点5分35秒,${DATE-1d:%Y-%m-%d %H:%M:%S}$的展开结果就是"2020-10-20 10:05:35"
56+
57+
__${ONLINE_MODEL}$__:线上模型,用于在评估任务方便用户拉取线上模型进行指标对比,关于评估任务见后面详述。
Lines changed: 39 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,39 @@
1+
# 模板说明
2+
3+
运行单机脚本,支持shell,python脚本
4+
5+
# 模板镜像
6+
7+
`ai.tencentmusic.com/tme-public/python_data_transform:20201010`
8+
9+
# 模板注册
10+
参考上级目录的readme.md,注册时填写以下配置。
11+
12+
1、启动参数:
13+
```
14+
{
15+
"script_type": "<str>",
16+
"script_name":"<str>",
17+
"params": [
18+
<str|int|float>,
19+
...
20+
],
21+
"export_files": [
22+
{
23+
"tar_file": "<str>",
24+
"label": "<str>"
25+
},
26+
...
27+
]
28+
}
29+
```
30+
31+
script_type: 必填。脚本类型,目前支持python和shell两种。
32+
script_name:必填。用户脚本文件名,默认在包目录中,支持相对路径。
33+
params:非必填。传递给脚本的参数数组,参数支持使用魔法变量。
34+
export_files:非必填。指定本脚本的输出文件数组,数组每个元素指定一个输出文件。其下字段有:
35+
tar_file:输出文件名字,默认在数据目录中,支持相对路径。
36+
label:用户自定义标签。可不填。
37+
38+
# 使用方法
39+

0 commit comments

Comments
 (0)