Skip to content

ShusenTang/BDC2019

Repository files navigation

background

2019中国高校计算机大赛——大数据挑战赛

鸡你太美(初赛复赛均第三名)解决方案,包含全部代码、文档及答辩PPT

赛题描述:

搜索中一个重要的任务是根据query和title预测query下doc点击率,本次大赛参赛队伍需要根据脱敏后的数据预测指定doc的点击率,结果按照指定的评价指标使用在线评测数据进行评测和排名,得分最优者获胜。

任务分类:

  • 短文本匹配
  • 点击率预估

数据说明:

train_data.sample是官方给的训练样本示例,数据按列分割,分隔符为”,",为不带表头的CSV数据格式。数据格式如下:

列名 类型 示例
query_id int 3
query hash string,term空格分割 1 9 117
query_title_id title在query下的唯一标识 2
title hash string,term空格分割 3 9 120
label int, 取值{0, 1} 0

注意:提供的样本示例train_data.sample仅为帮助理解赛题以及调通代码,由于样本示例仅为两万行,因此构造的出来的特征意义不大(数据严重泄露)。

其他方案


感兴趣就给个star吧:-D

最后感谢两位队友@Han和@hcccccccc