苦逼的数据工作,在里面沉陷,
试着做了一个小小的雏形工具:
1、导入杂乱信息的文档
2、把线头理出来
3、批量提取:
企业机关事业单位
地址
联系方式
。。。。。。
以后我们还可以延伸到提取标准,规范的名称,编号等。
但是,做着做着,就不知道怎么往下走了,
我们经验不够,所以希望高手能提点一下:
1.这个产品,应该朝哪个方向走?
2.哪些地方,会用的到这个产品?
3.做大数据助手,要增加些什么?
4个回答
导入的文档是文本还是图片?
我也看不出你这个有什么用,因为如果是我的话,需要查事业单位的地址,我都是用百度的。这个产品是独立的,还是服务于公司内部其他产品的?
之前有个app是把别人的名片(图片)导入手机里,变成姓名、电话、邮箱、单位,等文本信息的。
SofaSofa数据科学社区DS面试题库 DS面经一般不是先有应用场景和需求,再有产品么?感觉题主是先有产品,再找场景。
大数据助手嘛,感觉可以提供每个单位的开门时间(忙或者闲的时段)、停车信息什么的
SofaSofa数据科学社区DS面试题库 DS面经产品定位是什么,用户群体是什么,功能是是什么,数据助手,那么数据来源是什么,获利手段是什么‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’
SofaSofa数据科学社区DS面试题库 DS面经你这还只是数据录入的阶段,还没到数据处理和分析。流程应该是
1.preprocessing(比如降维,normalization),
2. data mining,有目标时做(regression,classification),没目标时可以尝试clustering。先看下各个输入的histogram,大概能分几类,在做clustering,最后调参。
3.postprocessing,做结果的可视化,cluster evaluation(这也是个大话题,分为有/无target label)。
4.重复1-3
有目标的任务会简单点,如果没有目标,而且对数据理解又不深,那结果就很难说了。
SofaSofa数据科学社区DS面试题库 DS面经