例如在一个实际的问题当中(如交通场景),使用的数据源是由传感器收集到的数据,由于传感器的误差,难免会导致数据集中的一些数据是有问题的,与大部分的样本不一样,但同时,也有些样本可能就是现实中确实真实存在的异常样本(例如某些交通异常情况)。我理解的正确做法应该是,把第一种数据给处理掉,第二种数据给保留,但是如果使用一般的异常检测算法,或者根据分布筛选数据,那么两种异常情况下的样本是不是都被干掉了?这样数据肯定相对规整,预测精度能带来有效提升,但是这不是把现实生活中某些真实的异常样本给去除了吗?
数据集中的样本我们能操控,如果将来将模型部署到真实生活中,那对于那些异常样本的预测效果不就会是很差的了吗?
叙述的有点绕,希望大家能耐心看下我的问题,谢谢!
2个回答
看你需求吧,因为你用大数据本质上就是来通过重复学习大数上的分布得到大概率的pattern,来预测一个新的instance的结果。那么这种情况下本来异常(小概率事件也好,误差也好)本来就应该被预先排除,才能防止你的算法学到噪音啊。如果你的任务本身是关注异常的,那你需要先定义ground truth,啥叫异常。。。或者给出描述异常的公式。。。相似度啊啥的定义。。。(也就是说你需要预先知道什么叫做异常),在这种情况下你需要有另外一个方式来描述误差。。。才能帮你在set up中把两种异常区分开。。。所以你这个问题本身就蛮矛盾的。。。
SofaSofa数据科学社区DS面试题库 DS面经我觉得你说的这两种异常可能也不太一样,所以多少也许是有办法区分的
比如交通异常下的异常数据应该是在时间上具有一定的连续性、平滑性
仪器误差可能是突发性的,也许前一秒就没有仪器异常,后一面就发生了,这样的话,这个时间序列就不是平滑的或者连续的,是间断跳跃式的
SofaSofa数据科学社区DS面试题库 DS面经