3 Avatar的开幕式
“这个case不是为了证明第三方数据有多牛,是表演一下投研对数据的安全建模方案”。
研究标的:2019年8月5日-2020年8月4日创业板中所有股票
研究目标:该策略目标为利用历史数据,预测每只股票当天是否涨幅超8%,即样本集中日股票涨幅超8%,y值为1,否则y值为0。
研究变量
联邦学习中节点A数据:通过股票历史数据(公开数据),构建了当日星期、近三天平均收益率、近七天平均收益率、近三天绝对收益率、近七天绝对收益率、近三天标准差、近七天标准差、近三天平均换手率、近七天平均换手率、近三天平均成交量、近七天平均成交量、近三天上涨天数、近七天上涨天数、近三天涨幅大于5%次数、近七天涨幅大于5%次数、近三天跌幅大于5%次数、近七天跌幅大于5%次数,共17个指标。
联邦学习中节点B数据:通过百度搜索中关键词为“创业板”的搜索次数,构建了当日创业板搜索指数、近一天创业板搜索指数、近三天创业板搜索指数、近七天创业板搜索指数、近三天创业板指数上升天数、近七天创业板指数上升天数、创业板搜素指数涨幅,共7个指标,模拟外部非公开的数据源。
综上,该策略通过上述24个指标的构建,结合动量策略和反转策略原理,并通过百度搜索次数作为外部数据,作为反应市场情绪的变量,之后根据IV等指标筛选入参变量,构建逻辑回归模型,预测当日股票是否上涨超过8%。为验证百度指数作用,策略制定了四个模型作为对照,具体如下:
样本集为全部股票,未用到百度指数构建模型
样本集为全部股票,用到了百度指数构建模型(其他入参变量与对照组1一致)
样本集为华兴源创,未用到百度指数构建模型
样本集为华兴源创,用到百度指数构建模型
(备注,因为百度搜索数据进行了反爬虫的保护,无法爬取全部信息,故全量股票数据建模过程中,只用到了搜索“创业板”的搜索次数,未用到每只股票对应的股票名称搜索次数;仅在样本集为华兴源创的案例中,用到了华兴源创作为关键词的搜索次数。)
模型结论
1)通过IV值可推断百度指数数据对于预测y值有较为重要的作用,其中创业板搜索涨跌幅和近三天创业板搜索平均值效果较为显著,通过模型系数可知创业板搜索涨跌幅和近三天创业板搜索平均值和y值具有正相关关系,即数值越高,越容易涨幅超过8%。(具体信息见下图)
2)样本集为全部股票,用到百度指数构建模型,AUC为0.76,未用到百度指数构建模型(其他入参变量与对照组1一致),AUC为0.72,说明百度指数对应预测有明显提升效果。(具体信息见下图)