searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

ByteTrack:MOT领域的新SOTA

2023-05-16 09:01:18
87
0
  1. 什么是MOT:

    MOT(multi-object tracking)多目标追踪是当前视频领域的一大研究方向,任务是追踪视频种每一个人的轨迹(track),然后与gt比较得到各项效果指标。

    MOT领域评价时用到关键指标:

    • FN:False Negative(漏报),整个视频漏报数量之和
    • FP:False Positve(误报),整个视频误报数量之和
    • IDSW:ID Switch(ID 切换总数,误配)
    • MOTA:多目标跟踪准确度 (Multiple Object Tracking Accuracy),track level

    • IDF1:识别 F1 值 (Identification F1-Score) 是指每个行人框中行人 ID 识别的 F1 值,frame level
  2. MOT的基本套路:

    MOT = detection(re-ID)+track Associating,在track Associating方法中,一般利用Motion IOU(运动目标重叠程度)、appearance similarity(表观相似度)两个指标,来计算两个目标框的整体相似性。Motion IOU主要为了保证运动的连续性,appearance similarity则是为了保证视觉特征的连续性。

    相对应的,前面的检测网络就包含了detection、re-ID两个部分来分别得到对应的bbox和appearance feature。这里就又涉及到一个级联与同步的问题:

    级联:先进行detection得到bbox,再对bbox区域进行crop,送入re-ID网络得到appearance feature。再这种情况下,re-ID是受detection网络支配的,二者不平等,导致效果较差。

    同步:在backbone之后,并行链接bbox regression head和re-ID head,二者同步训练与推理,能有效提高模型精度。

     

  3. Byte这个track Associating方法的创新:

    之前的track Associating方法,都是利用了score较高的bbox来更新track,而对于score较低的bbox,考虑到利用它们会带来FP(误报数)的大幅提升,所以都是直接抛弃的。

    Byte算法的创新点,就在与设计了2阶段的匹配流程,来利用高分段的bbox和低分段的bbox,提升整体的匹配效果。(Byte并未使用appearance similarity)

    在整个流程中,有几个关键的超参数:Shigh高分bbox阈值(0.6),Slow低分bbox阈值(0.1),ε新track创建得分阈值(0.7),IOUfirst第一轮匹配IOU阈值(0.2),IOUsecond第二轮匹配(0.5)。每一帧的具体更新流程如下:

    • 检测得到当前帧的bbox,根据阈值划分为Dhigh和Dlow
    • 第一阶段匹配,利用现有的track pool(活跃的track +丢失的track)与Dhigh进行匹配,计算相互的IOU值,并选取IOU>IOUfirst的连接为有效连接,利用匈牙利算法,得到匹配的track、track_remain(未匹配的track)、D_remain(未匹配的高分bbox),对于匹配的track,这一步就对track进行更新。
    • 利用track_remain(未匹配的track)和Dlow进行匹配,计算相互的IOU值,并选取IOU>IOUsecond的连接为有效连接,同样利用匈牙利算法,得到匹配的track、track_remain_scond(二阶段未匹配的track),此阶段未匹配的低分bbox则直接丢弃。同样对于匹配的track,进行更新。
    • 对于track_remain_scond(二阶段未匹配的track),标记为lost状态。
    • 对于lost状态超过30帧的track,进行删除。
    • 对于D_remain(未匹配的高分bbox)中的bbox,如果其socre>ε,则将其初始化为一个新的track,加入活跃track集合,以进行下一帧的更新

     

  4. Byte与之前的MOT算法的结合:

    针对每一个MOT算法,作者都设计了两种Byte的结合方式:

    (1)原始的track Associating方法与Byte结合(第二行)。这里面也分两种情况,一种是利用了ReID特征的,则只有第一阶段Dhigh的匹配时利用ReID特征,第二阶段Dlow的匹配考虑到低分bbox的ReID特征不可靠,就只使用Motion IOU来匹配。对于未使用ReID特征的,则直接套用Byte思路。

    (2)抛弃原始track Associating方法,直接利用detetion得到的结果+Byte算法(第三行)。

     

  5. ByteTrack的论文与github地址:

    论文地址:https://arxiv.org/pdf/2110.06864.pdf

    github地址:https://github.com/ifzhang/ByteTrack

0条评论
0 / 1000
钱****翔
5文章数
0粉丝数
钱****翔
5 文章 | 0 粉丝
原创

ByteTrack:MOT领域的新SOTA

2023-05-16 09:01:18
87
0
  1. 什么是MOT:

    MOT(multi-object tracking)多目标追踪是当前视频领域的一大研究方向,任务是追踪视频种每一个人的轨迹(track),然后与gt比较得到各项效果指标。

    MOT领域评价时用到关键指标:

    • FN:False Negative(漏报),整个视频漏报数量之和
    • FP:False Positve(误报),整个视频误报数量之和
    • IDSW:ID Switch(ID 切换总数,误配)
    • MOTA:多目标跟踪准确度 (Multiple Object Tracking Accuracy),track level

    • IDF1:识别 F1 值 (Identification F1-Score) 是指每个行人框中行人 ID 识别的 F1 值,frame level
  2. MOT的基本套路:

    MOT = detection(re-ID)+track Associating,在track Associating方法中,一般利用Motion IOU(运动目标重叠程度)、appearance similarity(表观相似度)两个指标,来计算两个目标框的整体相似性。Motion IOU主要为了保证运动的连续性,appearance similarity则是为了保证视觉特征的连续性。

    相对应的,前面的检测网络就包含了detection、re-ID两个部分来分别得到对应的bbox和appearance feature。这里就又涉及到一个级联与同步的问题:

    级联:先进行detection得到bbox,再对bbox区域进行crop,送入re-ID网络得到appearance feature。再这种情况下,re-ID是受detection网络支配的,二者不平等,导致效果较差。

    同步:在backbone之后,并行链接bbox regression head和re-ID head,二者同步训练与推理,能有效提高模型精度。

     

  3. Byte这个track Associating方法的创新:

    之前的track Associating方法,都是利用了score较高的bbox来更新track,而对于score较低的bbox,考虑到利用它们会带来FP(误报数)的大幅提升,所以都是直接抛弃的。

    Byte算法的创新点,就在与设计了2阶段的匹配流程,来利用高分段的bbox和低分段的bbox,提升整体的匹配效果。(Byte并未使用appearance similarity)

    在整个流程中,有几个关键的超参数:Shigh高分bbox阈值(0.6),Slow低分bbox阈值(0.1),ε新track创建得分阈值(0.7),IOUfirst第一轮匹配IOU阈值(0.2),IOUsecond第二轮匹配(0.5)。每一帧的具体更新流程如下:

    • 检测得到当前帧的bbox,根据阈值划分为Dhigh和Dlow
    • 第一阶段匹配,利用现有的track pool(活跃的track +丢失的track)与Dhigh进行匹配,计算相互的IOU值,并选取IOU>IOUfirst的连接为有效连接,利用匈牙利算法,得到匹配的track、track_remain(未匹配的track)、D_remain(未匹配的高分bbox),对于匹配的track,这一步就对track进行更新。
    • 利用track_remain(未匹配的track)和Dlow进行匹配,计算相互的IOU值,并选取IOU>IOUsecond的连接为有效连接,同样利用匈牙利算法,得到匹配的track、track_remain_scond(二阶段未匹配的track),此阶段未匹配的低分bbox则直接丢弃。同样对于匹配的track,进行更新。
    • 对于track_remain_scond(二阶段未匹配的track),标记为lost状态。
    • 对于lost状态超过30帧的track,进行删除。
    • 对于D_remain(未匹配的高分bbox)中的bbox,如果其socre>ε,则将其初始化为一个新的track,加入活跃track集合,以进行下一帧的更新

     

  4. Byte与之前的MOT算法的结合:

    针对每一个MOT算法,作者都设计了两种Byte的结合方式:

    (1)原始的track Associating方法与Byte结合(第二行)。这里面也分两种情况,一种是利用了ReID特征的,则只有第一阶段Dhigh的匹配时利用ReID特征,第二阶段Dlow的匹配考虑到低分bbox的ReID特征不可靠,就只使用Motion IOU来匹配。对于未使用ReID特征的,则直接套用Byte思路。

    (2)抛弃原始track Associating方法,直接利用detetion得到的结果+Byte算法(第三行)。

     

  5. ByteTrack的论文与github地址:

    论文地址:https://arxiv.org/pdf/2110.06864.pdf

    github地址:https://github.com/ifzhang/ByteTrack

文章来自个人专栏
计算机视觉
5 文章 | 1 订阅
0条评论
0 / 1000
请输入你的评论
0
0