关于一个视频任务的分类和解决问题探讨

  统计/机器学习 自然语言处理 时间序列 计算机视觉 应用场景    浏览次数:868        分享
1

大家好,第一次发帖。真诚求教。

我一直是做深度学习与医疗图像处理的。一直做的是静态图片。没有做过视频。现在面对一个超声视频任务。浏览了目前自然图像视频任务中对比了一下我的任务,有点困惑如何解决。

任务描述:我要自动在一个超声视频中找到我要的一个关键帧。等于是一个sequence,得到一个frame的任务。那一个frame有清晰的特征,因为是腹部超声图像,那一帧是因为膀胱注水后有一个清晰的尿道口。所以,那一帧的特征还是很好找的。

超声视频是实时的,随着超声探头的移动,一直在不同的位置成像的。现在我有几个思路。

1.帧分类。把一个视频的每一帧分成两类:0,1。目标帧被标记为1,其余的被标记为0。可能的问题是正负样本极度不平衡。

2.两个阶段的策略。首先,我设计一个深度网络来检测关键帧(多个),这也可以看作是一个候选帧的选择的步骤。然后加入判断网络,对其是否为目标关键帧进行分类。

3.END-TO-END的结构。输入一个video,直接得到输出的那一帧。(many-to-one)。看了一下网上这种任务似乎大多是NLP中用RNN来处理。因为我感觉我的任务中,视频图像的每一帧之间的关系可能存在不连续的情况。(医生一下子把探头从最左刷的到最右边)。我也不太清楚。

总之,我在想大家对这个任务有什么看法,如何定义这个任务呢,可否分析一下。谢谢。

下面是我要的关键帧的一个形态。红色的圈里面的包含的就是一个明显的特征。黑色的区域是膀胱。我要做的就是在一个实时超声序列中找到我要的这一关键(目标)帧。

补充:我想到这个问题的应用场景是实时视频。所以应当是把实时视频图像传到网络中进行判别此刻是不是要的关键帧,所以可能本质还是一个图像处理问题?

 

byzdc   2020-04-08 14:45



    还没有回答。我来答!  


  相关讨论

有没有拍商品各个角度(7-10张),就可以无限生成这个商品各个角度的数据集

lstm可以用来做产量销量预测吗

有没有能够判断文本中情绪的python package?

做语言生成的大神来评鉴下这个自动生成的足球新闻?

如何处理片段式停车数据

cvr和ctr的区别是什么?

想请教机器学习能不能解决一个问题

火车站晚点预测

商业数据模型中lead score是什么意思?

fatigue model是什么模型?

  随便看看

为什么图的拉普拉斯矩阵的最小特征值一定是0?

tsne被忽视?tsne有什么缺点?

'str' object has no attribute 'decode' 代码运行时有错误呢?请高手帮忙解决

pandas同时返回一个dataframe的前几行(head)和后几行(tail)

医学统计里的c-index或者c-statistic是什么意思?