本帖最后由 数据城堡 于 2024-4-7 15:12 编辑
报名有礼、欢迎开源爱好者参与本次"房屋租金预测学习赛”~
亮点:参与门槛低、荣誉证书、实物奖励丰富、内推资格、实习机会、优先录取。
报名链接:https://competition.atomgit.com/competitionInfo?id=85d54b1d5d61be809e3e9a7ed99c51b3
赛题简介
房屋租赁市场是房地产市场的重要组成部分。中国城市化进程的加剧,导致一二线城市房价不断攀升,越来越多的人选择以房屋租赁的方式来满足住房的需求。价格是反映一定时期内房屋租赁价格水平变动趋势和变动程度,分析预测房屋租赁价格,对于发展完善房屋租赁市场有着重要的意义。
据统计,中国有近2亿租房人口,租户偏好千变万化,房源种类各不相同。如何高效且合理的解决房屋价值预估,成为各大平台关注的问题。某租房平台将部分房屋信息数据开放,诚邀大家帮助他们建立价格预测模型来预测房屋租赁价格(敏感信息已脱敏)。
给定某租房平台实际业务中的相关租房信息,包含31个与房屋相关的字段,其中“房屋租金”字段为房屋信息的真实基本租金,即不包含服务费、电费、水费和燃气费等。任务目标是通过训练集训练模型,来预测测试集中“房屋租金”字段的具体值,以此为依据,提高房屋价值预估准确率。
模型及特征工程
本赛题是经典的预测房价任务,不太适合深度学习模型,我们采取的是回归树树模型预测。如果想要尝试深度学习算法,可以尝试DeepFM类的推荐系统模型。
对于本赛数据集来说,目标编码、分位数特征以及一些强特的交叉都可以带来很好的提升。在刚开始打比赛的时候,因为树模型可以自动筛选特征,我一度以为特征可以随便增加,其实这是不对的。这次比赛我们做了许多特征都不能有效提分,最后都舍弃掉了,因为糟特征等于噪音,会给模型带来负优化。
上分trick
本次的任务目标是回归预测房屋租赁价格。由于LABEL为显著长尾分布,数值存在数量级差异,模型难以拟合,所以我们对标签进行log1p操作,直接对对数进行回归,降低任务难度。
通过EDA可以发现训练集中的LABEL和面积均存在异常值,对异常样本进行了剔除
df_train = df_train[(df_train[LABEL] < 150000) & (df_train[LABEL] > 20)].reset_index(drop=True)
df_train = df_train[df_train['居住面积']>=5].reset_index(drop=True)
-----------------------------------
|