汇总|基于激光雷达的3D目标检测开源项目&数据集
发布日期: 2020-08-13来源: 3D视觉工坊
短评
这一片文章主要介绍目前3D目标检测的一些比较重要的数据集合在github上比较好用的3D目标检测项目。包含了最火最热的KITTI到当前研究前沿的多模态,时序融合等的新数据集。分类方法如下,首先按照场景可以将数据集划分为室内和室外数据集。然后分别介绍目前3D目标检测室内和室外的一些常用数据集;然后介绍一些做研究容易上手的项目,并做一些简单的异同总结。
室内数据集
室内3D目标检测的研究算是一项比较新的研究任务。目前的数据集主要有 ScanNetV2和SUN RGB-D。
ScanNetV2
官方网址:http://www.scan-net.org/
论文链接:https://arxiv.org/abs/1702.04405
Benchmark: http://kaldir.vc.in.tum.de/scannet_benchmark/
ScanNetV2是由斯坦福大学,普林斯顿大学和慕尼黑工大在CVPR18SH提出的室内场景数据集。ScanNet是一个RGB-D视频数据集,可做语义分割和目标检测任务一共1513个采集场景数据(每个场景中点云数量都不一样,如果要用到端到端,可能需要采样(FPS采样),使每一个场景的点都相同),共21个类别的对象,其中,1201个场景用于训练,312个场景用于测试。数据集包含2D和3D数据,2D数据包括每一个场景下的N个帧(为了避免帧之间的重叠信息,一般取的时候隔50取一帧)2D标签和实例数据提供为.png图像文件。彩色图像以8位RGB的形式提供.jpg文件,深度图片为16位 .png文件。每一帧包含的信息为color,depth,instance-label,label,and corresponding pose。3D数据则是一系列ply文件。
SUN RGB-D
官方网址:http://rgbd.cs.princeton.edu/
论文链接:http://rgbd.cs.princeton.edu/paper.pdf
由普林斯顿大学提出的室内数据集,可分割和检测任务。该数据集包含10335个rgb-d图像,其规模与pascal voc相似。整个数据集都有密集的注释,包括146617个二维多边形注释和64595个具有精确对象方向的三维边界框,以及每个图像的三维房间布局和场景类别。该数据集是NYU depth v2 , Berkeley B3DO , and SUN3D ,三个数据集的并集。
室外数据集
KITTI
3D目标检测官网链接:http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=3d
论文链接:http://www.cvlibs.net/publications/Geiger2012CVPR.pdf
KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo),光流(optical flow),视觉测距(visual odometry),3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断。整个数据集由389对立体图像和光流图,39.2 km视觉测距序列以及超过200k 3D标注物体的图像组成 ,以10Hz的频率采样及同步。总体上看,原始数据集被分类为’Road’, ’City’, ’Residential’, ’Campus’ 和 ’Person’。对于3D物体检测,label细分为car, van, truck, pedestrian, pedestrian(sitting), cyclist, tram以及misc组成。
Nuscence
论文链接:https://arxiv.org/abs/1903.11027
Nuscence数据集由1000个场景组成,每个scenes长度为20秒,包含了各种各样的情景。在每一个scenes中,有40个关键帧(key frames),也就是每秒钟有2个关键帧,其他的帧为sweeps。关键帧经过手工的标注,每一帧中都有了若干个annotation,标注的形式为bounding box。不仅标注了大小、范围、还有类别、可见程度等等。这个数据集不久前发布了一个teaser版本(包含100个scenes),正式版(1000个scenes)于2019年发布。2020年会发布第二个版本。
Waymo
官网链接:
https://waymo.com/open
官网下载地址:https://waymo.com/open/download/
官方数据格式解析:https://waymo.com/open/data/
代码地址:
https://gitee.com/cmfighting/waymo_read
谷歌母公司Alphabet旗下的自动驾驶公司Waymo于2019年8月21日在其博客公布了数据开放项目(Waymo Open Dataset),该项目和前面的学术benchmark相比,是带有奖金的benchmark。就数据而言,waymo包含3000段驾驶记录、时长共16.7小时、平均每段长度约为20秒;60万帧、共有大约2500万3D边界框、2200万2D边界框,以及多样化的自动驾驶场景。