华为云AI开发平台ModelArts数据去冗余_云淘科技

AI开发平台ModelArts

1 月 02, 2024

63 0

RRD算子概述

可以依据用户设置的比例去除差异最大的数据。

图1 RRD效果图

表1 高级参数说明
参数名	是否必选	默认值	参数说明
sample_ratio	否	0.9	数据留下的百分比。取值范围为0~1。例如0.9表示保留百分之90的原数据。
n_clusters	auto	auto	数据样本的种类数，默认为auto，即按照目录中图片个数取类别总数，可指定具体类别数，如 4
do_validation	否	True	是否做数据校验，可填True或者False。表示数据去冗余前需要做数据校验，否则只做数据去重。

输入要求

算子输入分为两种，“数据集”或“OBS目录”。

选择“数据集”，请从下拉框中选择ModelArts中管理的数据集及其版本。要求数据集类型与您在本任务中选择的场景类别一致。
选择“OBS目录”，存放结构又分两种情况，“仅包含图片”或“包含图片和标注信息”。

“仅包含图片”：当目录下全是图片时，支持jpg、jpeg、png、bmp格式，嵌套子目录的图片也将全部读入。
“包含图片和标注信息”：根据不同数据类型，结构不同。

图像分类，其目录结构如下所示。如下目录结构，仅支持单标签场景。

input_path/
    --label1/
        ----1.jpg
    --label2/
        ----2.jpg
    --../

物体检测，其目录结构如下所示。支持jpg、jpeg、png、bmp格式的图片，xml为标准的PACAL VOC格式标注文件。

input_path/
    --1.jpg
    --1.xml
    --2.jpg
    --2.xml
    ...

输出说明

图像分类

输出数据的目录结构如下所示。

output_path/
    --Data/
        ----class1/  # 若输入数据有标注信息会一并输出，class1为标注类别
            ------1.jpg
        ----class2/
            ------2.jpg
            ------3.jpg
    --output.manifest

其中manifest文件内容示例如下所示。

{
	"id": "xss", 
	"source": "obs://home/fc8e2688015d4a1784dcbda44d840307_14.jpg",
	"usage": "train", 
	"annotation": [
		{
			"name": "Cat", 
			"type": "modelarts/image_classification"
		}
	]
}

物体检测

输出数据的目录结构如下所示。

output_path/
    --Data/
        ----1.jpg
        ----1.xml  # 若输入数据有标注信息会一并输出，xml为标注文件
        ----2.jpg
        ----3.jpg
    --output.manifest

其中manifest文件内容示例如下所示。

{
	"source":"obs://fake/be462ea9c5abc09f.jpg",
	"annotation":[
		{
			"annotation-loc":"obs://fake/be462ea9c5abc09f.xml",
			"type":"modelarts/object_detection",
			"annotation-format":"PASCAL VOC",
			"annotated-by":"modelarts/hard_example_algo"
			}
	]
}

父主题： 数据选择

同意关联代理商云淘科技，购买华为云产品更优惠（QQ 78315851）

内容没看懂？不太想学习？想快速解决？有偿解决：联系专家

华为云AI开发平台ModelArts数据去冗余_云淘科技

RRD算子概述

输入要求

输出说明

分类

近期文章

近期评论

友情链接

分类目录

RRD算子概述

输入要求

输出说明

相关文章

分类

近期文章

近期评论

友情链接

分类目录