因子挖掘是量化交易的基础。随着历史交易数据日益增多,交易市场量化竞赛的不断升级和进化,量化投研团队开始面对数据频率高、因子数量多的场景,以10分钟线10000个因子5000个股票为例,一年的因子数据约为2.3T左右,1分钟线的数据量达到23T,3秒线的数据量将达到460T。如此量级的数据就对因子存储方案提出了很高的要求。
那么,我们要如何解决中高频多因子数据的存储问题呢?目前行业有哪些核心挑战?
因子库存储有哪些挑战?
庞大的数据量
因子计算通常有3个维度,股票、因子和时间。我们做一个简单的计算,国内股票总个数按5000来算;因子个数一般机构大约为1000起,多的甚至有10000;时间频率高的是每3秒生成一次数据,频率低的也有10分钟一次——也就是说,一只股票一个因子一天会生成24到4800个tick。面对如此庞大的数据量,如何保证高效的数据写入是因子库存储的一大挑战。
动态变化的因子库
因子库经常会发生变化,往往需要新增因子、修改因子定义,或加入新的股票等。面对T级的因子数据,单个因子的新增、修改、删除耗时应该保证在秒级才能确保整体量化投研的效率。
最适合金融计算的输出方式
量化金融的多因子建模通常需要以面板数据进行截面因子分析。用户需要从海量的因子数据中尽可能高速并精准的读取数据,对齐多个因子后以面板的方式输出。这对数据库的性能提出了极大的挑战。

直播预告
2022年12月1日晚7点半,DolphinDB 创始人周小华博士,和 DolphinDB 数据分析负责人毛忻玥,将与大家共聚直播间,围绕「高频多因子存储的最佳实践」与大家展开探讨。点击海报并长按,扫描二维码报名吧!
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
关键词:
凡注有"实况网-重新发现生活"或电头为"实况网-重新发现生活"的稿件,均为实况网-重新发现生活独家版权所有,未经许可不得转载或镜像;授权转载必须注明来源为"实况网-重新发现生活",并保留"实况网-重新发现生活"的电头。
热点
- 作为新型零售业态之一 即时零售近年来正成为撬动消费增长不可忽视的新动能
- 更具有沉浸性和体验性 农业旅游已经不再是“传统”意义上的农家乐
- 脱发年轻化带来了市场扩增 各大厂商通过不同形式入局期望分得一杯羹
- 上半年投诉数量呈上升趋势 预制菜是花高价吃料理包吗?
- 在国民支出中占比将达46% 服务型消费快速地迭代发展持续焕发生命力
- 成了资本眼中的“好生意” 不少知名企业都在积极跨界布局咖啡赛道
- 新增超千家成为投资者关注的焦点 国庆期间预制菜整体销量较去年大为增加
- 值得借鉴和共享 上海、重庆出境游业务有助于国内旅游业进一步走向世界
- 假日经济按捺不住的“火” 今年“十一”消费有了新特色和新亮点
- 前八月亏数千万九月扭亏为盈 车市的“金九银十”要来了吗?
头条
- 进博会各展台上各种直播设备林立 直播成为越来越多外商的选择
- 在整体上保持了政策的延续性和稳定性 全国碳排放权交易继续实行配额免费分配
- 改变人类生产生活方式 虚拟现实产业正迈入以产品升级和融合应用为主线的战略窗口期
- 很多具体制度安排含金量高短期可见成效 有利于解决个体工商户“急难愁盼”问题
- 具有权威性和规范性 社会公众可以通过互联网访问市场监管法律法规规章数据库
- 巩固成果守底线为保民生防通胀 前三季度农业收成为稳定经济大盘提供了坚实支撑
- 流动性优化定价效率进一步得到提升 科创板做市望迎来增量资金持续入场
- 一般贸易进出口比重提升7.5个百分点 前三季度陕西外贸结构明显优化
- 有力有序有效推进各项重点工作 中国碳达峰碳中和取得显著成效
- 增速较前8个月略降 我国进出口仍有信心克服国外市场压力安全承受能力不会脱离
