腾讯社交广告高校算法大赛 baseline1 腾讯社交广告高校算法

官方给出的baseline1是基于平均分组转化。接下来根据数据分析，数据清洗，特征工程，模型训练和验证等四个大的模块来进行分析。
1、数据分析
【腾讯社交广告高校算法大赛 baseline1】2、数据清洗
2.1 数据的拼接：将训练数据集(train.csv)和广告特征文件(ad.csv)进行拼接，将训测试数据集(test.csv)和广告特征文件(ad.csv)进行拼接。
3、特征工程

# -*- coding: utf-8 -*- """ baseline 1: history pCVR of creativeID/adID/camgaignID/advertiserID/appID/appPlatform """import zipfile import numpy as np import pandas as pd# load data data_root = "." dfTrain = pd.read_csv("%s/train.csv"%data_root) dfTest = pd.read_csv("%s/test.csv"%data_root) dfAd = pd.read_csv("%s/ad.csv"%data_root)# process data dfTrain = pd.merge(dfTrain, dfAd, on="creativeID") dfTest = pd.merge(dfTest, dfAd, on="creativeID") y_train = dfTrain["label"].values# model building key = "appID" dfCvr = dfTrain.groupby(key).apply(lambda df: np.mean(df["label"])).reset_index() dfCvr.columns = [key, "avg_cvr"] dfTest = pd.merge(dfTest, dfCvr, how="left", on=key) dfTest["avg_cvr"].fillna(np.mean(dfTrain["label"]), inplace=True) proba_test = dfTest["avg_cvr"].values# submission df = pd.DataFrame({"instanceID": dfTest["instanceID"].values, "proba": proba_test}) df.sort_values("instanceID", inplace=True) df.to_csv("submission.csv", index=False) with zipfile.ZipFile("submission.zip", "w") as fout: fout.write("submission.csv", compress_type=zipfile.ZIP_DEFLATED)

腾讯社交广告高校算法大赛 baseline1

推荐阅读

飞亚达手表回收飞亚达机械手表价格

知心爱人付笛声任静歌词知心爱人歌曲任静,付笛声简谱

识别情绪，控制和养成情绪

脊髓再生成功高位截瘫吧

广州积分入学小学积分后初中还要积分吗

耳朵疼是怎么回事

mysql模糊查询匹配最优 mysql多条件模糊查找

凝聚的近义词是什么词？凝聚的近义词是什么?

秦国是如何从弱小走向霸主的呢？

车辆保养多久做一次?汽车保养明细表大全车辆保养多久做一次

浅谈《伤寒论》的辨证思维方式

描能组什么词语

医生|50岁的阿姨抽出“猪油血”，医生提醒：春节饮食要注意

爱普生打印机固件刷机

对于非法出售增值税专用发票案公安追诉标准是多少

绘本讲师训练营【31期】20/21实践原创《鳄鱼怕怕，牙医怕怕》

快速调出照片的梦幻紫色调

吃啥降低胆固醇最快吃什么降低胆固醇最快

系统安全性分析

酸梅汤的功效与作用夏季喝酸梅汤有啥好处