DS Case Study 面经-SofaSofa

18. 订单数量暴跌的异常检测 / Anomaly detection of sudden drop of the number of orders
【Shopify】

展开问题

Shopify为很多电商商家提供系统和数据服务。及时发现订单量的异常下降，是很多电商的需求。
你如何来设计一个订单量异常下降的检测系统，设计流程是什么？

参考思路：卷75：机器学习

17. 数据权限的智能审批 / Smart approval of database access
【Facebook】

展开问题

每个部门或者组有很多的数据库和表，员工在申请使用的过程中，需要向自己的主管和数据源的管理员申请权限，整个流程费时，而且在没有额外信息的情况下，数据管理员也很难判断申请的合理性。
如果让你来设计一个智能系统来加速数据权限的审批效率，你会需要利用哪些信息、如何设计这个智能系统？

参考思路：卷75：机器学习

16. 非平衡分类任务的交叉验证 / Cross-validation of imbalanced binary classification task
【Square/阿里巴巴/华为】

展开问题

对于二元分类任务，我们经常用交叉验证(cross-validation)来验证模型的效果。例如对于数据量可能不是很大，但是数据倾斜(data imbalance)很严重的情况下，我们直接使用交叉验证会遇到什么问题？如何解决？

参考思路：卷75：机器学习

15. 对快递的满意度预测 / Prediction of satisfaction of deliveries
【JD京东】

展开问题

我们想要在一个商品在发货后到货前预测客人对本次快递速度的满意程度。
假设在过去的历史数据中，你知道所有快递最终客户是否满意；也就是说这是一个监督式二元分类学习。
如果你能使用过去的任何数据，你该如何构造特征建立什么样的模型？

参考思路：卷71：机器学习

14. 远程医疗数据建模 / Training models using datasets from remote hospitals
【阿里巴巴】

展开问题

多个医院委托X公司建立二元预测模型。
由于医患数据隐私，每个医院不会把数据集发送到X公司，所以X公司无法将所有医院的数据集进行合并；但是所有的医院希望X公司模型是在所有医院的数据集上统一训练的。这种情况下你该如何训练模型？

参考思路：卷71：机器学习

13. 估算售罄图书的销量 / Forecast sales of best sellers
【Amazon亚马逊】

展开问题

亚马逊上的一些热销书在上架后，一段时间后会售罄。
如果这些书的库存是无限大，那么它能达到的最大销量是多少？假设你可以使用亚马逊后台的任何数据，那该如何来建立模型。

参考思路：卷71：机器学习

12. 判断两人是否为亲密好友 / Detect best friends on FB
【Facebook脸书】

展开问题

假如你有Facebook上用户的所有数据，你如何判断互为好友的两个用户为密友(best friend)？你会设计哪些指标或者变量来帮助你判断？
从产品角度分析，这个功能有哪些应用场景？

参考思路：卷55：机器学习

11. 超售机票的航班 / Over-booked flights
【Google谷歌】

展开问题

各航空都有超售机票的习惯，也就是航班卖出的机票数超过座位数。比方说纽约到芝加哥的某航班，能容纳200名旅客，但是实际上一共卖出了220张票。这个就是超售现象。
当乘客持票到达机场，却被告知因“超售”无法搭乘时，航空则会给予一定数额的现金补偿。
假设从A市到B市的航班，共有N个座位，航空公司每卖出一张票得m元，支付给每位因“超售”无法登机的乘客q元。

那么航空公司卖出多少张机票，可以使收益最大化？
为了上述计算，你还需要估计哪些变量？如何估计？

参考思路：卷55：机器学习

10. 判断用户性别
【阿里巴巴】

展开问题

假设你有每个用户在淘宝上的真实姓名，以及一部分已知性别的用户。
请问你如何判断剩余用户的性别？

参考思路：卷55：机器学习

9. 预测每个新房源的终生价值(LTV) / Predict lifetime value(LTV) of new listings at AirBnB
【AirBnB爱彼迎】

展开问题

AirBnB想要预测一个新房源总共能够给网站带来多少收益，也就是一个新房源的终生价值(LTV)。
假如你有新房源的所有信息资料，但是新房源还没有正式上线，所以并没有订单信息或者住户评价。
你怎么利用历史数据来预测新房源的LTV呢？

参考思路：卷49：机器学习

8. 判断注册邮箱是否为个人邮箱 / Determine whether email accounts are personal
【LinkedIn领英】

展开问题

领英上有的用户使用公司邮箱注册（比如@fb.com，@google.com），有的用户则使用个人邮箱注册（比如@qq.com, @gmail.com, @foxmail.com）。
邮箱的域名已经数以百万，我们需要判断这些邮箱域名，如@xxx.com是否为个人邮箱还是公司域名的邮箱。

假设你可以利用LinkedIn上所有的数据，你会使用哪些数据，如何建立模型？
假如这个模型可以准确地判断用户账号是用公司邮箱注册还是个人邮箱注册的，那么这个模型在领英的实际商业中有什么意义？

参考思路：卷49：机器学习

7. 检测网上问卷是否是乱填的 / Detect fradulent/invalid online surveys
【Google谷歌】

展开问题

当我们收集网络问卷的回答时，经常出现填写者乱填导致问卷无效的情况。在进行分析问卷调查的结果前，我们希望排除掉这些质量低的问卷。
假设问卷并没有标准答案，假设问卷调查只包含选择题，你可以收集你所需要的数据，那么该如何进行检测，剔除质量低的问卷呢？

参考思路：卷49：机器学习

6. LinkedIn智能信息回复 / LinkedIn's smart reply
【LinkedIn领英】

展开问题

LinkedIn现在提供了智能回复消息的功能。目前有两个版本的智能回复系统，你如何判断哪种更好？
如果在电脑上用户使用智能回复的频率小于手机上使用智能回复的频率，但是系统提供的智能回复的内容不受设备影响，你该如何解读这一现象？

参考思路：卷46：AB Test

5. 新用户提问激励 / New askers' "feed boost"
【Quora】

展开问题

Quora是美国最大的问答社区，为了改善提问者的用户体验，Quora决定进行所谓"feed boost"的实验。
在这项实验中，所有3个月内注册的新用户将被等概率分成实验组(test)与对照组(control)，各50%。被分到实验组的新用户的问题将有更大的几率出现在别人的首页中，通过提高问题的曝光量来使得新用户的问题更有可能被快速解答；对照组的新用户则没有此项特殊照顾。实验将进行3周。

参考思路：卷46：AB Test

4. 如何激励司机多开车 / Test incentive plans to encourage drivers
【Uber优步】

展开问题

Uber计划给司机额外的现金奖励(10美元），希望他们能在下午4点到晚上8点的时间段多开车。如果司机能在当天的高峰时段内完成5次载客，他们就可以获得现金奖励。
你想用哪些指标(metrics)来判断这次激励计划是否成功？
你将如何进行实验？

参考思路：卷46：AB Test

3. 预测沃尔玛门店的某种商品销量 / Forecast sales of a product at Wal-mart stores
【Walmart沃尔玛】

展开问题

准确预测产品的效率有助于仓储、物流的调控。如果你有过去该商品在各个门店每周的销量，你如何建立模型预测未来的销量？
除了销量信息，你还想获取哪些有助于模型的信息？
如何评判模型的准确度？

参考思路：卷43：机器学习

2. 检测Twitter上的假账号 / Identify fake accounts on Twitter
【Twitter推特】

展开问题

Twitter上有很多假账号，他们影响到很多用户的正常使用。
如果你有Twitter上所有用户的信息，以及一些被标记出来的假账号，你怎么利用这些信息来检测出Twitter上的假账号？
如果你有Twitter上所有用户的信息，但是这些用户都没有被标记，那么你怎么利用这些信息来检测出Twitter上的假账号？

参考思路：卷43：机器学习

1. 预测Linkedin用户是否准备跳槽 / Predict whether a person is going to change job
【LinkedIn领英】

展开问题

假设你现在有LinkedIn上所有用户的各项数据，你如何预测某个用户这三个月内是否跳槽？
你准备使用哪些数据？使用什么模型？

参考思路：卷43：机器学习

机器学习数据科学案例分析场景应用面经 DS case study AB testing 一亩三分地牛客 1point3acres nowcoder Data Science 北美 BAT facebook google airbnb expedia uber 滴滴美团 bittiger data analytics linkedin snapchat adobe amazon microsift

案列分析
Case Study

data science case study

不用慌、不用怕！先来详细了解下什么是Case Study。

Data Science面试中越来越流行考case study，也就是我们通常说的案例分析或者场景应用题。

这部分是考察求职的综合能力，从商业思维到数据敏感度，再到概率统计，以及机器学习的常用方法。概括来说，就是考察求职者如何熟练地运用机器学习、统计分析的知识来解决实际的商业问题。

这类的面试题对于没有工作经验或者实习经验的应届生来说往往非常棘手。但是一旦掌握了这类面试题的规律和套路，也很容易在面试中顺利过关，甚至答出亮点。

一些大公司的经典面试题已经在本页面中整理出来。

这类问题的答案并未唯一，通常自圆其说即可，“答题思路”仅供参考。

案列分析Case Study

案列分析
Case Study