由于本人比较菜,是三个人里面划水的那个,所以只能简单讲讲遇到的困难。
拿到题目直接选C没什么好说的,因为队友平时练习C都比较多。
C题的大意就是银行要给123家和302家公司贷款,然后给了你一堆数据,让你分析公司的实力,判断能否给公司贷款,然后分析了年利率应该给多少,达到最合适的分配。
大概拿到题目的时候都觉得2020年的C比2019年要简单,因为2019的数据是出租车停车时间,是需要自己爬取数据的,但是自从打开2020年数据的那一刻,一切都变了。
2020年的C有三个附件,其中两个附件是123家公司和302公司流水的数据,一个是160000条数据,一个是330000条数据,Excel文档处理效率没有python高,但是python处理不了这么复杂的程序,而且写代码也要花时间,所以直接用Excel处理,Excel最多只能开8个线程,但就是8个线程都直接跑满了cpu,处理了一整个下午的数据。下面是遇到的问题。
1.模型一预测效果差,开始以为是变量不够,后来发现是样本不平衡,因为我们队主要的思路是建立一个模型,然后同时解决一二两问,后来发现实在不行,因为这个样本不平衡,代码调了整整一天半才搞定,然后导致后来写论文和第三问时间不够,最后第一问还是删除了部分样本才达到了80+的预测率,但是第一问的思路还是有一点偏。
2.模型二预测率60%,这个虽然看起来低,但是还是可以的,最后没时间了也是拿60+的数据做的。
3.第三问疫情对产业的影响,这个很难找到有效数据,最后大概就是按照第一产业,第二产业,第三产业,建筑业,信息类,来进行的大概分类,也是因为时间不够才这样的。所以总体来说是缺乏了一点经验。




Categories:

Tags:

No responses yet

发表评论

邮箱地址不会被公开。 必填项已用*标注