关于一个视频任务的分类和解决问题探讨-SofaSofa

大家好，第一次发帖。真诚求教。

我一直是做深度学习与医疗图像处理的。一直做的是静态图片。没有做过视频。现在面对一个超声视频任务。浏览了目前自然图像视频任务中对比了一下我的任务，有点困惑如何解决。

任务描述：我要自动在一个超声视频中找到我要的一个关键帧。等于是一个sequence，得到一个frame的任务。那一个frame有清晰的特征，因为是腹部超声图像，那一帧是因为膀胱注水后有一个清晰的尿道口。所以，那一帧的特征还是很好找的。

超声视频是实时的，随着超声探头的移动，一直在不同的位置成像的。现在我有几个思路。

1.帧分类。把一个视频的每一帧分成两类:0,1。目标帧被标记为1，其余的被标记为0。可能的问题是正负样本极度不平衡。

2.两个阶段的策略。首先，我设计一个深度网络来检测关键帧（多个），这也可以看作是一个候选帧的选择的步骤。然后加入判断网络，对其是否为目标关键帧进行分类。

3.END-TO-END的结构。输入一个video，直接得到输出的那一帧。（many-to-one)。看了一下网上这种任务似乎大多是NLP中用RNN来处理。因为我感觉我的任务中，视频图像的每一帧之间的关系可能存在不连续的情况。（医生一下子把探头从最左刷的到最右边）。我也不太清楚。

总之，我在想大家对这个任务有什么看法，如何定义这个任务呢，可否分析一下。谢谢。

下面是我要的关键帧的一个形态。红色的圈里面的包含的就是一个明显的特征。黑色的区域是膀胱。我要做的就是在一个实时超声序列中找到我要的这一关键（目标）帧。

补充：我想到这个问题的应用场景是实时视频。所以应当是把实时视频图像传到网络中进行判别此刻是不是要的关键帧，所以可能本质还是一个图像处理问题？

byzdc 2020-04-08 14:45

关于一个视频任务的分类和解决问题探讨