• 问题描述
    从股票市场的数据中, 抽取63个个股feature, 对每只股票每天取样,来预测未来日频率的个股回报。
  • 样本内数据
    2009年4月至2014年底。每天的数据存储在insample/yyyy/mm/dd/data.csv.gz。63个feature分别被标记为x_0~x_62。其中x_0~x_49代表每个股票过去一段时间的回报;x_50~x_59代表股票的一些基本特性,被正态化处理且变化较慢;x_60是股票的分类属性,为整数;x_61和x_62是股票的价格变化特性,未做正态化处理。样本内的个股未来回报被标记为y, 样本点的权重标记为w。每个股票都有自己单独的id来标记。每个样本点的feature有可能缺失。
  • 样本外(测试组)数据
    2015年1月至2017年3月。每天的数据存储在outsample/yyyy/mm/dd/data.csv.gz。测试组数据仅给出feature值和w值。
  • 答案形式
    对测试组数据,生成按照outsample/yyyy/mm/dd/pred.csv.gz格式的预测值。股票次序请按照测试组文件排列,对不预测或没有预测的股票请给0值。如下为pred.csv.gz的提交文件格式:
    id,y_pred
    1000001,0.00012
    1000002,-0.0003

    推荐使用程序语言 python c++/c java,提交答案时需递交程序源代码
  • 文件提取方式
    报名表、insample 链接: http://pan.baidu.com/s/1dE7a7uD 密码: gfzc
    outsample 链接: http://pan.baidu.com/s/1gf7ScON 密码: j8su