open-mmlab · dazory · Aug 20, 2024 · Aug 20, 2024 · Aug 21, 2024 · Aug 21, 2024
diff --git a/README.md b/README.md
diff --git a/configs/oamix/faster-rcnn_r50_fpn_1x_cityscapes_oamix.py b/configs/oamix/faster-rcnn_r50_fpn_1x_cityscapes_oamix.py
@@ -0,0 +1,64 @@
+_base_ = [
+    '../_base_/models/faster-rcnn_r50_fpn.py',
+    '../_base_/datasets/cityscapes_detection.py',
+    '../_base_/default_runtime.py', '../_base_/schedules/schedule_1x.py'
+]
+
+backend_args = None
+train_pipeline = [
+    dict(type='LoadImageFromFile', backend_args=backend_args),
+    dict(type='LoadAnnotations', with_bbox=True),
+    dict(
+        type='RandomResize',
+        scale=[(2048, 800), (2048, 1024)],
+        keep_ratio=True),
+    dict(type='RandomFlip', prob=0.5),
+    dict(
+        type='OAMix',
+        version='oamix',
+        box_scale=(0.05, 0.3),
+        box_ratio=(3, 0.33),
+        sigma_ratio=0.2,
+        score_thresh=10),
+    dict(type='PackDetInputs')
+]
+train_dataloader = dict(
+    num_workers=8, dataset=dict(dataset=dict(pipeline=train_pipeline)))
+
+# Model
+model = dict(
+    backbone=dict(init_cfg=None),
+    roi_head=dict(
+        bbox_head=dict(
+            num_classes=8,
+            loss_bbox=dict(type='SmoothL1Loss', beta=1.0, loss_weight=1.0))))
+
+# optimizer
+# lr is set for a batch size of 8
+optim_wrapper = dict(optimizer=dict(lr=0.01))
+
+# learning rate
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=0.001, by_epoch=False, begin=0, end=500),
+    dict(
+        type='MultiStepLR',
+        begin=0,
+        end=8,
+        by_epoch=True,
+        # [7] yields higher performance than [6]
+        milestones=[7],
+        gamma=0.1)
+]
+
+# actual epoch = 8 * 8 = 64
+train_cfg = dict(max_epochs=8)
+
+# For better, more stable performance initialize from COCO
+load_from = 'https://download.openmmlab.com/mmdetection/v2.0/faster_rcnn/faster_rcnn_r50_fpn_1x_coco/faster_rcnn_r50_fpn_1x_coco_20200130-047c8118.pth'  # noqa
+
+# NOTE: `auto_scale_lr` is for automatically scaling LR,
+# USER SHOULD NOT CHANGE ITS VALUES.
+# base_batch_size = (8 GPUs) x (1 samples per GPU)
+# TODO: support auto scaling lr
+# auto_scale_lr = dict(base_batch_size=8)
diff --git a/mmdet/datasets/transforms/__init__.py b/mmdet/datasets/transforms/__init__.py
@@ -1,8 +1,8 @@
 # Copyright (c) OpenMMLab. All rights reserved.
 from .augment_wrappers import AutoAugment, RandAugment
 from .colorspace import (AutoContrast, Brightness, Color, ColorTransform,
-                         Contrast, Equalize, Invert, Posterize, Sharpness,
-                         Solarize, SolarizeAdd)
+                         Contrast, Equalize, Invert, Invert4Mix, Posterize,
+                         Sharpness, Solarize, SolarizeAdd)
 from .formatting import (ImageToTensor, PackDetInputs, PackReIDInputs,
                          PackTrackInputs, ToTensor, Transpose)
 from .frame_sampling import BaseFrameSample, UniformRefFrameSample
@@ -13,6 +13,7 @@
                       LoadEmptyAnnotations, LoadImageFromNDArray,
                       LoadMultiChannelImageFromFiles, LoadPanopticAnnotations,
                       LoadProposals, LoadTrackAnnotations)
+from .oa_mix import OAMix
 from .text_transformers import LoadTextAnnotations, RandomSamplingNegPos
 from .transformers_glip import GTBoxSubOne_GLIP, RandomFlip_GLIP
 from .transforms import (Albu, CachedMixUp, CachedMosaic, CopyPaste, CutOut,
@@ -25,21 +26,73 @@
 from .wrappers import MultiBranch, ProposalBroadcaster, RandomOrder
 
 __all__ = [
-    'PackDetInputs', 'ToTensor', 'ImageToTensor', 'Transpose',
-    'LoadImageFromNDArray', 'LoadAnnotations', 'LoadPanopticAnnotations',
-    'LoadMultiChannelImageFromFiles', 'LoadProposals', 'Resize', 'RandomFlip',
-    'RandomCrop', 'SegRescale', 'MinIoURandomCrop', 'Expand',
-    'PhotoMetricDistortion', 'Albu', 'InstaBoost', 'RandomCenterCropPad',
-    'AutoAugment', 'CutOut', 'ShearX', 'ShearY', 'Rotate', 'Color', 'Equalize',
-    'Brightness', 'Contrast', 'TranslateX', 'TranslateY', 'RandomShift',
-    'Mosaic', 'MixUp', 'RandomAffine', 'YOLOXHSVRandomAug', 'CopyPaste',
-    'FilterAnnotations', 'Pad', 'GeomTransform', 'ColorTransform',
-    'RandAugment', 'Sharpness', 'Solarize', 'SolarizeAdd', 'Posterize',
-    'AutoContrast', 'Invert', 'MultiBranch', 'RandomErasing',
-    'LoadEmptyAnnotations', 'RandomOrder', 'CachedMosaic', 'CachedMixUp',
-    'FixShapeResize', 'ProposalBroadcaster', 'InferencerLoader',
-    'LoadTrackAnnotations', 'BaseFrameSample', 'UniformRefFrameSample',
-    'PackTrackInputs', 'PackReIDInputs', 'FixScaleResize',
-    'ResizeShortestEdge', 'GTBoxSubOne_GLIP', 'RandomFlip_GLIP',
-    'RandomSamplingNegPos', 'LoadTextAnnotations'
+    'PackDetInputs',
+    'ToTensor',
+    'ImageToTensor',
+    'Transpose',
+    'LoadImageFromNDArray',
+    'LoadAnnotations',
+    'LoadPanopticAnnotations',
+    'LoadMultiChannelImageFromFiles',
+    'LoadProposals',
+    'Resize',
+    'RandomFlip',
+    'RandomCrop',
+    'SegRescale',
+    'MinIoURandomCrop',
+    'Expand',
+    'PhotoMetricDistortion',
+    'Albu',
+    'InstaBoost',
+    'RandomCenterCropPad',
+    'AutoAugment',
+    'CutOut',
+    'ShearX',
+    'ShearY',
+    'Rotate',
+    'Color',
+    'Equalize',
+    'Brightness',
+    'Contrast',
+    'TranslateX',
+    'TranslateY',
+    'RandomShift',
+    'Mosaic',
+    'MixUp',
+    'RandomAffine',
+    'YOLOXHSVRandomAug',
+    'CopyPaste',
+    'FilterAnnotations',
+    'Pad',
+    'GeomTransform',
+    'ColorTransform',
+    'RandAugment',
+    'Sharpness',
+    'Solarize',
+    'SolarizeAdd',
+    'Posterize',
+    'AutoContrast',
+    'Invert',
+    'Invert4Mix',
+    'MultiBranch',
+    'RandomErasing',
+    'LoadEmptyAnnotations',
+    'RandomOrder',
+    'CachedMosaic',
+    'CachedMixUp',
+    'FixShapeResize',
+    'ProposalBroadcaster',
+    'InferencerLoader',
+    'LoadTrackAnnotations',
+    'BaseFrameSample',
+    'UniformRefFrameSample',
+    'PackTrackInputs',
+    'PackReIDInputs',
+    'FixScaleResize',
+    'ResizeShortestEdge',
+    'GTBoxSubOne_GLIP',
+    'RandomFlip_GLIP',
+    'RandomSamplingNegPos',
+    'LoadTextAnnotations',
+    'OAMix',
 ]
diff --git a/mmdet/datasets/transforms/augment_wrappers.py b/mmdet/datasets/transforms/augment_wrappers.py
@@ -77,9 +77,9 @@ def level_to_mag(level: Optional[int], min_mag: float,
                  max_mag: float) -> float:
     """Map from level to magnitude."""
     if level is None:
-        return round(np.random.rand() * (max_mag - min_mag) + min_mag, 1)
+        return round(np.random.rand() * (max_mag - min_mag) + min_mag, 2)
     else:
-        return round(level / _MAX_LEVEL * (max_mag - min_mag) + min_mag, 1)
+        return round(level / _MAX_LEVEL * (max_mag - min_mag) + min_mag, 2)
 
 
 @TRANSFORMS.register_module()

diff --git a/mmdet/datasets/transforms/colorspace.py b/mmdet/datasets/transforms/colorspace.py
@@ -491,3 +491,33 @@ def _transform_img(self, results: dict, mag: float) -> None:
         """Invert the image."""
         img = results['img']
         results['img'] = mmcv.iminvert(img).astype(img.dtype)
+
+
+@TRANSFORMS.register_module()
+class Invert4Mix(ColorTransform):
+    """Invert and translate images.
+
+    Required Keys:
+
+    - img
+
+    Modified Keys:
+
+    - img
+
+    Args:
+        prob (float): The probability for performing invert therefore should
+             be in range [0, 1]. Defaults to 1.0.
+        level (int, optional): No use for Invert transformation.
+            Defaults to None.
+        min_mag (float): No use for Invert transformation. Defaults to 0.1.
+        max_mag (float): No use for Invert transformation. Defaults to 1.9.
+    """
+
+    def _transform_img(self, results: dict, mag: float) -> None:
+        """Invert the image."""
+        img = results['img']
+        img = mmcv.iminvert(img).astype(img.dtype)
+        img = mmcv.imtranslate(img, 1, 'horizontal')
+        img = mmcv.imtranslate(img, 1, 'vertical')
+        results['img'] = img.astype(img.dtype)