[Fix] Fix some bugs in waymo conversion and dataset parsing (#1892)

JingweiZhang12 · lianqing11 · web-flow · commit ed073a0fe29d · 2022-10-12T21:30:25.000+08:00
* add the code of generating cam_sync_labels in waymo dataset

* fix key error in waymo converation

* fix waymo convert bug and refactor parse_ann_info in WaymoDataset

* add image_path key in waymo sweeps

* polish code

* add sweeps in data_prefix in waymo config

* fix some bugs in waymo

* resolve some comments and fix configs of pointpillars

* add 2 TODOs

* fix lint

Co-authored-by: lianqing &lt;lianqing1997@gmail.com&gt;
diff --git a/configs/_base_/datasets/waymoD5-3d-3class.py b/configs/_base_/datasets/waymoD5-3d-3class.py
@@ -2,13 +2,18 @@
 # D5 in the config name means the whole dataset is divided into 5 folds
 # We only use one fold for efficient experiments
 dataset_type = 'WaymoDataset'
+# data_root = 's3://openmmlab/datasets/detection3d/waymo/kitti_format/'
 data_root = 'data/waymo/kitti_format/'
 file_client_args = dict(backend='disk')
 # Uncomment the following if use ceph or other file clients.
 # See https://mmcv.readthedocs.io/en/latest/api.html#mmcv.fileio.FileClient
 # for more details.
 # file_client_args = dict(
-#     backend='petrel', path_mapping=dict(data='s3://waymo_data/'))
+#     backend='petrel',
+#     path_mapping={
+#         './data/waymo': 's3://openmmlab/datasets/detection3d/waymo',
+#         'data/waymo': 's3://openmmlab/datasets/detection3d/waymo'
+#     })
 
 class_names = ['Car', 'Pedestrian', 'Cyclist']
 metainfo = dict(CLASSES=class_names)
@@ -33,7 +38,7 @@
 train_pipeline = [
     dict(type='LoadPointsFromFile', coord_type='LIDAR', load_dim=6, use_dim=5),
     dict(type='LoadAnnotations3D', with_bbox_3d=True, with_label_3d=True),
-    dict(type='ObjectSample', db_sampler=db_sampler),
+    # dict(type='ObjectSample', db_sampler=db_sampler),
     dict(
         type='RandomFlip3D',
         sync_2d=False,
@@ -51,7 +56,12 @@
         keys=['points', 'gt_bboxes_3d', 'gt_labels_3d'])
 ]
 test_pipeline = [
-    dict(type='LoadPointsFromFile', coord_type='LIDAR', load_dim=6, use_dim=5),
+    dict(
+        type='LoadPointsFromFile',
+        coord_type='LIDAR',
+        load_dim=6,
+        use_dim=5,
+        file_client_args=file_client_args),
     dict(
         type='MultiScaleFlipAug3D',
         img_scale=(1333, 800),
@@ -98,7 +108,8 @@
             # and box_type_3d='Depth' in sunrgbd and scannet dataset.
             box_type_3d='LiDAR',
             # load one frame every five frames
-            load_interval=5)))
+            load_interval=5,
+            file_client_args=file_client_args)))
 val_dataloader = dict(
     batch_size=1,
     num_workers=1,
@@ -114,7 +125,8 @@
         modality=input_modality,
         test_mode=True,
         metainfo=metainfo,
-        box_type_3d='LiDAR'))
+        box_type_3d='LiDAR',
+        file_client_args=file_client_args))
 
 test_dataloader = dict(
     batch_size=1,
@@ -131,13 +143,15 @@
         modality=input_modality,
         test_mode=True,
         metainfo=metainfo,
-        box_type_3d='LiDAR'))
+        box_type_3d='LiDAR',
+        file_client_args=file_client_args))
 
 val_evaluator = dict(
     type='WaymoMetric',
     ann_file='./data/waymo/kitti_format/waymo_infos_val.pkl',
     waymo_bin_file='./data/waymo/waymo_format/gt.bin',
-    data_root='./data/waymo/waymo_format')
+    data_root='./data/waymo/waymo_format',
+    file_client_args=file_client_args)
 test_evaluator = val_evaluator
 
 vis_backends = [dict(type='LocalVisBackend')]
diff --git a/configs/_base_/datasets/waymoD5-3d-car.py b/configs/_base_/datasets/waymoD5-3d-car.py
@@ -86,7 +86,8 @@
             type=dataset_type,
             data_root=data_root,
             ann_file='waymo_infos_train.pkl',
-            data_prefix=dict(pts='training/velodyne'),
+            data_prefix=dict(
+                pts='training/velodyne', sweeps='training/velodyne'),
             pipeline=train_pipeline,
             modality=input_modality,
             test_mode=False,
@@ -105,7 +106,7 @@
     dataset=dict(
         type=dataset_type,
         data_root=data_root,
-        data_prefix=dict(pts='training/velodyne'),
+        data_prefix=dict(pts='training/velodyne', sweeps='training/velodyne'),
         ann_file='waymo_infos_val.pkl',
         pipeline=eval_pipeline,
         modality=input_modality,
@@ -122,7 +123,7 @@
     dataset=dict(
         type=dataset_type,
         data_root=data_root,
-        data_prefix=dict(pts='training/velodyne'),
+        data_prefix=dict(pts='training/velodyne', sweeps='training/velodyne'),
         ann_file='waymo_infos_val.pkl',
         pipeline=eval_pipeline,
         modality=input_modality,
diff --git a/configs/_base_/default_runtime.py b/configs/_base_/default_runtime.py
@@ -4,7 +4,7 @@
     timer=dict(type='IterTimerHook'),
     logger=dict(type='LoggerHook', interval=50),
     param_scheduler=dict(type='ParamSchedulerHook'),
-    checkpoint=dict(type='CheckpointHook', interval=1),
+    checkpoint=dict(type='CheckpointHook', interval=-1),
     sampler_seed=dict(type='DistSamplerSeedHook'),
     visualization=dict(type='Det3DVisualizationHook'))
 
diff --git a/configs/pointpillars/pointpillars_hv_secfpn_sbn-all_16xb2-2x_waymo-3d-3class.py b/configs/pointpillars/pointpillars_hv_secfpn_sbn-all_16xb2-2x_waymo-3d-3class.py
@@ -6,7 +6,7 @@
 ]
 
 # data settings
-data = dict(train=dict(dataset=dict(load_interval=1)))
+train_dataloader = dict(dataset=dict(dataset=dict(load_interval=1)))
 # Default setting for scaling LR automatically
 #   - `enable` means enable scaling LR automatically
 #       or not by default.
diff --git a/configs/pointpillars/pointpillars_hv_secfpn_sbn-all_16xb2-2x_waymo-3d-car.py b/configs/pointpillars/pointpillars_hv_secfpn_sbn-all_16xb2-2x_waymo-3d-car.py
@@ -6,7 +6,7 @@
 ]
 
 # data settings
-data = dict(train=dict(dataset=dict(load_interval=1)))
+train_dataloader = dict(dataset=dict(dataset=dict(load_interval=1)))
 
 # model settings
 model = dict(
diff --git a/mmdet3d/datasets/waymo_dataset.py b/mmdet3d/datasets/waymo_dataset.py
@@ -130,10 +130,9 @@ def parse_ann_info(self, info: dict) -> dict:
         ann_info = Det3DDataset.parse_ann_info(self, info)
         if ann_info is None:
             # empty instance
-            anns_results = {}
-            anns_results['gt_bboxes_3d'] = np.zeros((0, 7), dtype=np.float32)
-            anns_results['gt_labels_3d'] = np.zeros(0, dtype=np.int64)
-            return anns_results
+            ann_info = {}
+            ann_info['gt_bboxes_3d'] = np.zeros((0, 7), dtype=np.float32)
+            ann_info['gt_labels_3d'] = np.zeros(0, dtype=np.int64)
 
         ann_info = self._remove_dontcare(ann_info)
         # in kitti, lidar2cam = R0_rect @ Tr_velo_to_cam
@@ -158,12 +157,14 @@ def parse_ann_info(self, info: dict) -> dict:
                 origin=(0.5, 0.5, 0.5))
 
         else:
+            # in waymo, lidar2cam = R0_rect @ Tr_velo_to_cam
+            # convert gt_bboxes_3d to velodyne coordinates with `lidar2cam`
             lidar2cam = np.array(
                 info['images'][self.default_cam_key]['lidar2cam'])
-
             gt_bboxes_3d = CameraInstance3DBoxes(
                 ann_info['gt_bboxes_3d']).convert_to(self.box_mode_3d,
                                                      np.linalg.inv(lidar2cam))
+        ann_info['gt_bboxes_3d'] = gt_bboxes_3d
 
         anns_results = dict(
             gt_bboxes_3d=gt_bboxes_3d,
@@ -220,7 +221,7 @@ def parse_data_info(self, info: dict) -> dict:
 
                 # TODO check if need to modify the sample id
                 # TODO check when will use it except for evaluation.
-                camera_info['sample_id'] = info['sample_id']
+                camera_info['sample_idx'] = info['sample_idx']
 
                 if not self.test_mode:
                     # used in training
diff --git a/mmdet3d/evaluation/metrics/waymo_metric.py b/mmdet3d/evaluation/metrics/waymo_metric.py
@@ -93,7 +93,7 @@ def compute_metrics(self, results: list) -> Dict[str, float]:
         """Compute the metrics from processed results.
 
         Args:
-            results (list): The processed results of each batch.
+            results (list): The processed results of the whole dataset.
 
         Returns:
             Dict[str, float]: The computed metrics. The keys are the names of
@@ -360,7 +360,7 @@ def merge_multi_view_boxes(self, box_dict_per_frame: List[dict],
             for cam_idx in range(self.num_cams):
                 box_dict[key].append(box_dict_per_frame[cam_idx][key])
         # merge each elements
-        box_dict['sample_id'] = cam0_info['image_id']
+        box_dict['sample_idx'] = cam0_info['image_id']
         for key in ['bbox', 'box3d_lidar', 'scores', 'label_preds']:
             box_dict[key] = np.concatenate(box_dict[key])
 
diff --git a/mmdet3d/models/detectors/imvoxelnet.py b/mmdet3d/models/detectors/imvoxelnet.py
@@ -9,8 +9,6 @@
 from mmdet3d.registry import MODELS, TASK_UTILS
 from mmdet3d.structures.det3d_data_sample import SampleList
 from mmdet3d.utils import ConfigType, OptConfigType, OptInstanceList
-from mmdet.models.detectors import BaseDetector
-
 
 
 @MODELS.register_module()
diff --git a/mmdet3d/structures/bbox_3d/cam_box3d.py b/mmdet3d/structures/bbox_3d/cam_box3d.py
@@ -291,13 +291,15 @@ def convert_to(self, dst, rt_mat=None, correct_yaw=False):
                 The conversion from ``src`` coordinates to ``dst`` coordinates
                 usually comes along the change of sensors, e.g., from camera
                 to LiDAR. This requires a transformation matrix.
-            correct_yaw (bool): If convert the yaw angle to the target
+            correct_yaw (bool): Whether to convert the yaw angle to the target
                 coordinate. Defaults to False.
         Returns:
             :obj:`BaseInstance3DBoxes`:
                 The converted box of the same type in the ``dst`` mode.
         """
         from .box_3d_mode import Box3DMode
+
+        # TODO: always set correct_yaw=True
         return Box3DMode.convert(
             box=self,
             src=Box3DMode.CAM,
diff --git a/tools/create_data.py b/tools/create_data.py
@@ -215,14 +215,14 @@ def waymo_data_prep(root_path,
     info_train_path = osp.join(out_dir, f'{info_prefix}_infos_train.pkl')
     info_val_path = osp.join(out_dir, f'{info_prefix}_infos_val.pkl')
     info_trainval_path = osp.join(out_dir, f'{info_prefix}_infos_trainval.pkl')
-    update_pkl_infos('kitti', out_dir=out_dir, pkl_path=info_train_path)
-    update_pkl_infos('kitti', out_dir=out_dir, pkl_path=info_val_path)
-    update_pkl_infos('kitti', out_dir=out_dir, pkl_path=info_trainval_path)
+    update_pkl_infos('waymo', out_dir=out_dir, pkl_path=info_train_path)
+    update_pkl_infos('waymo', out_dir=out_dir, pkl_path=info_val_path)
+    update_pkl_infos('waymo', out_dir=out_dir, pkl_path=info_trainval_path)
     GTDatabaseCreater(
         'WaymoDataset',
         out_dir,
         info_prefix,
-        f'{out_dir}/{info_prefix}_infos_train.pkl',
+        f'{info_prefix}_infos_train.pkl',
         relative_path=False,
         with_mask=False,
         num_worker=workers).create()
diff --git a/tools/dataset_converters/create_gt_database.py b/tools/dataset_converters/create_gt_database.py
@@ -196,7 +196,8 @@ def create_groundtruth_database(dataset_class_name,
         file_client_args = dict(backend='disk')
         dataset_cfg.update(
             test_mode=False,
-            split='training',
+            data_prefix=dict(
+                pts='training/velodyne', img='', sweeps='training/velodyne'),
             modality=dict(
                 use_lidar=True,
                 use_depth=False,
@@ -407,7 +408,9 @@ def create_single(self, input_dict):
         image_idx = example['sample_idx']
         points = example['points'].tensor.numpy()
         gt_boxes_3d = annos['gt_bboxes_3d'].tensor.numpy()
-        names = annos['gt_names']
+        names = [
+            self.dataset.metainfo['CLASSES'][i] for i in annos['gt_labels_3d']
+        ]
         group_dict = dict()
         if 'group_ids' in annos:
             group_ids = annos['group_ids']
@@ -510,7 +513,8 @@ def create(self):
             file_client_args = dict(backend='disk')
             dataset_cfg.update(
                 test_mode=False,
-                split='training',
+                data_prefix=dict(
+                    pts='training/velodyne_reduced', img='training/image_2'),
                 modality=dict(
                     use_lidar=True,
                     use_depth=False,
@@ -534,6 +538,9 @@ def create(self):
         elif self.dataset_class_name == 'NuScenesDataset':
             dataset_cfg.update(
                 use_valid_flag=True,
+                data_prefix=dict(
+                    pts='samples/LIDAR_TOP', img='',
+                    sweeps='sweeps/LIDAR_TOP'),
                 pipeline=[
                     dict(
                         type='LoadPointsFromFile',
@@ -556,7 +563,10 @@ def create(self):
             file_client_args = dict(backend='disk')
             dataset_cfg.update(
                 test_mode=False,
-                split='training',
+                data_prefix=dict(
+                    pts='training/velodyne',
+                    img='',
+                    sweeps='training/velodyne'),
                 modality=dict(
                     use_lidar=True,
                     use_depth=False,
@@ -577,8 +587,8 @@ def create(self):
                         file_client_args=file_client_args)
                 ])
 
-        dataset = build_dataset(dataset_cfg)
-        self.pipeline = dataset.pipeline
+        self.dataset = build_dataset(dataset_cfg)
+        self.pipeline = self.dataset.pipeline
         if self.database_save_path is None:
             self.database_save_path = osp.join(
                 self.data_path, f'{self.info_prefix}_gt_database')
@@ -595,13 +605,15 @@ def create(self):
                 self.file2id.update({info['file_name']: i})
 
         def loop_dataset(i):
-            input_dict = dataset.get_data_info(i)
-            dataset.pre_pipeline(input_dict)
+            input_dict = self.dataset.get_data_info(i)
+            input_dict['box_type_3d'] = self.dataset.box_type_3d
+            input_dict['box_mode_3d'] = self.dataset.box_mode_3d
             return input_dict
 
         multi_db_infos = mmengine.track_parallel_progress(
             self.create_single,
-            ((loop_dataset(i) for i in range(len(dataset))), len(dataset)),
+            ((loop_dataset(i)
+              for i in range(len(self.dataset))), len(self.dataset)),
             self.num_worker)
         print('Make global unique group id')
         group_counter_offset = 0
diff --git a/tools/dataset_converters/kitti_data_utils.py b/tools/dataset_converters/kitti_data_utils.py
@@ -46,8 +46,9 @@ def get_image_path(idx,
                    relative_path=True,
                    exist_check=True,
                    info_type='image_2',
+                   file_tail='.png',
                    use_prefix_id=False):
-    return get_kitti_info_path(idx, prefix, info_type, '.png', training,
+    return get_kitti_info_path(idx, prefix, info_type, file_tail, training,
                                relative_path, exist_check, use_prefix_id)
 
 
@@ -378,6 +379,7 @@ def gather_single(self, idx):
             self.training,
             self.relative_path,
             info_type='image_0',
+            file_tail='.jpg',
             use_prefix_id=True)
         if self.with_imageshape:
             img_path = image_info['image_path']
@@ -443,6 +445,7 @@ def gather_single(self, idx):
             else:
                 rect_4x4 = R0_rect
 
+            # TODO: naming Tr_velo_to_cam or Tr_velo_to_cam0
             Tr_velo_to_cam = np.array([
                 float(info) for info in lines[6].split(' ')[1:13]
             ]).reshape([3, 4])
@@ -521,6 +524,14 @@ def gather_single(self, idx):
                             relative_path=False,
                             use_prefix_id=True)) as f:
                     prev_info['timestamp'] = np.int64(f.read())
+                prev_info['image_path'] = get_image_path(
+                    prev_idx,
+                    self.path,
+                    self.training,
+                    self.relative_path,
+                    info_type='image_0',
+                    file_tail='.jpg',
+                    use_prefix_id=True)
                 prev_pose_path = get_pose_path(
                     prev_idx,
                     self.path,
diff --git a/tools/dataset_converters/nuscenes_converter.py b/tools/dataset_converters/nuscenes_converter.py
@@ -177,6 +177,7 @@ def _fill_trainval_infos(nusc,
 
         info = {
             'lidar_path': lidar_path,
+            'num_features': 5,
             'token': sample['token'],
             'sweeps': [],
             'cams': dict(),
diff --git a/tools/dataset_converters/update_infos_to_v2.py b/tools/dataset_converters/update_infos_to_v2.py
@@ -285,7 +285,8 @@ def update_nuscenes_infos(pkl_path, out_dir):
         temp_data_info['ego2global'] = convert_quaternion_to_matrix(
             ori_info_dict['ego2global_rotation'],
             ori_info_dict['ego2global_translation'])
-        temp_data_info['lidar_points']['num_pts_feats'] = 5
+        temp_data_info['lidar_points']['num_pts_feats'] = ori_info_dict.get(
+            'num_features', 5)
         temp_data_info['lidar_points']['lidar_path'] = ori_info_dict[
             'lidar_path'].split('/')[-1]
         temp_data_info['lidar_points'][
@@ -515,7 +516,7 @@ def update_s3dis_infos(pkl_path, out_dir):
     converted_list = []
     for i, ori_info_dict in enumerate(mmengine.track_iter_progress(data_list)):
         temp_data_info = get_empty_standard_data_info()
-        temp_data_info['sample_id'] = i
+        temp_data_info['sample_idx'] = i
         temp_data_info['lidar_points']['num_pts_feats'] = ori_info_dict[
             'point_cloud']['num_features']
         temp_data_info['lidar_points']['lidar_path'] = ori_info_dict[
@@ -830,7 +831,7 @@ def update_waymo_infos(pkl_path, out_dir):
 
         if 'plane' in ori_info_dict:
             temp_data_info['plane'] = ori_info_dict['plane']
-        temp_data_info['sample_id'] = ori_info_dict['image']['image_idx']
+        temp_data_info['sample_idx'] = ori_info_dict['image']['image_idx']
 
         # calib matrix
         for cam_idx, cam_key in enumerate(camera_types):
diff --git a/tools/dataset_converters/waymo_converter.py b/tools/dataset_converters/waymo_converter.py

Original file line number	Diff line number	Diff line change
`@@ -6,7 +6,7 @@`
`6`	`6`	`]`
`7`	`7`
`8`	`8`	`# data settings`
`9`		`-data = dict(train=dict(dataset=dict(load_interval=1)))`
	`9`	`+train_dataloader = dict(dataset=dict(dataset=dict(load_interval=1)))`
`10`	`10`	`# Default setting for scaling LR automatically`
`11`	`11`	# - `enable` means enable scaling LR automatically
`12`	`12`	`# or not by default.`