我现在有停车场的停车数据,大体的数据如下:
df <- data.frame("carpark_No" = c("A1", "A2", "B3", "C9", "A1", "B3"),
"entry_date" = c("1/6/2019", "1/6/2019", "1/6/2019", "1/6/2019", "1/6/2019", "1/6/2019"),
"entry_time" = c("8:30am", "9:00am", "10:35am", "9:33am", "7:50pm", "8:01am"),
"exit_date" = c("2/6/2019", "1/6/2019", "3/6/2019", "1/6/2019", "2/6/2019", "1/6/2019"),
"exit_time" = c("5:30pm", "9:00pm", "4:35am", "6:00pm", "9:00am", "1:00pm"))
注释:
carpark_No: 停车场号码,区分不同的停车场
entry_date: 每辆车进入停车场的日期
entry_time: 每辆车进入停车场的时间
exit_date: 每辆车出停车场的日期
exit_time: 每辆车出停车场的时间
总的数据非常多,每一行代表一辆车进出停车场,目前我想先从停车位的占有率来入手,占有率 = 真实占有车位/总车位数, 对于真实占有车位的话,只能按时间段来算(对“点时间”和“进入时间”和“出去时间”进行对比),但是我现在有的数据是5年的,所以非常多,把时间段定的太小不太现实,希望大神能指点下,如何进行分析,除了占有率以外,其他的应用也可以,希望大家给出意见,非常感谢!
3个回答
这个数据集感觉挺有意思的。占用率可以从两个方向看:
1)每个停车场每年的占用率,每个停车场可以得到5个数据点
2)每个停车场每个小时的占用率,然后每个停车场可以得到24个数据点
除了占用率,还有进入停车场时间点,和出停车场时间点。可以做个直方图,横坐标是24个小时,从0到23,纵坐标是比重。
还有,你可以做平均停车时长的计算,就是两个时间相减,同样也可以做直方图。
SofaSofa数据科学社区DS面试题库 DS面经我觉得你可以用采样的方法来估计占有率。
比如你想估计停车场A1在2019年1月5日上午9点到10点的占用率,你可以采样3个时间点
t1 = 2019-01-05 09:15am, t2 = 2019-01-05 09:30am, t3 = 2019-01-05 09:45am
然后你再计算entry_date_entry_time <= t1 <= exit_date_exit_time的行数,这个行数就是t1时刻在A1停车场内的车辆的数量。同理,你也可以计算t2,t3时刻的占用率。
t1,t2,t3三个点的均值可以作为整个9点到10点时间段的估计值。
这样计算量会小很多。
SofaSofa数据科学社区DS面试题库 DS面经相关讨论
随便看看