最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

2015数据分析师峰会之 李洋:MATLAB处理金融大数据

[复制链接]
跳转到指定楼层
楼主
发表于 2015-9-13 14:57:28 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 168主编 于 2015-9-13 15:02 编辑

李洋

中国量化投资学会专家委员


   大家好,非常有幸受邀来中国数据分析师行业峰会发言。我跟郑志勇大概07年认识,他现在出来创业。我叫李洋,在国内经常偏买方工作,现在在一家公司做投资的事情。自己能出来创业都是牛人,在公募或者私募可能对自己不自信的人,所以对他们非常敬佩的。
        回到我今天演讲题目“量化投资大数据处理——基于MATLAB实践”,当然题目比较大的,在这么短时间难以承载这个题目,仅就我们团队或者自己在平时量化投资处理数据心得跟大家分享。我的身份以MATLAB论坛创始人身份跟大家交流。
        说到量化投资过程中好多人问?MATLAB好还是什么?这里我想说MATLAB也好、其他工具也好,仅仅只是工具,包括等会儿张丹分析R工具,我这里想跟大家说,工具仅仅是工具,工具没有好坏或者差别之分,主要把工具用精用透完成目的,这是最重要的。实际我们自己有团队,实际多语言、多平台混合使用。我们目的快速研发,缩短金融分析周期,在市场分一杯羹、赚取我们想赚取的钱。
        今天更多分享MATLAB东西,仅仅我个人用MATLAB比较久,在这方面有一些心得,并不倾向哪个东西好坏。今天大概目录是在这里边,首先是简介,不知道在座诸位真正做量化投资人多广,所以有量化投资基础的简介,后面是我本人或者团队进行大数据处理的时候一些具体细节东西跟大家分享。
        这边是相关的基础简介。我简要介绍一下量化投资的概念和简介,别人学数学出身,做相关的研究希望做一个定义,有定义之后这个东西在心目中不会太抽象化,当然量化投资无论在国内还是国外,或者学术圈并没有业界认可的定义,当下这个定义结合一些文献以及网络资源给出的定义。
        量化投资是将人们总结出的投资思想,利用统计学、数学的方法,形成数学模型,借助计算机在海量历史数据中对模型进行验证,寻找能够带来超额收益的多种“大概率”模型,严格按照这些策略所见的量化模型运算结果来指导投资。这里边“大概率”实际投资中并不是概率大于50%就赚钱,有的仅仅30—40%左右,也赚钱,它赚取尾部的利润。   
        量化投资是方法论,有的时候对基本面分析,把基本面因子和数据融入分析中,下面整体量化简要的过程,首先有基础理论研究,无论研究国内外研图,或者相关计量模型,以及卖方提出的模型,在分析基础上进行数据模型研究,接下来构建相关组合,进而周期深化的过程。量化投资大概五大优势,这边粗略总结,大概会有纪律性、系统性、纪实性、准确性、分散化。下面图是在微信截取的图,首先有思想提出,之后测试,进而达到实战的过程。
        好多朋友或者圈里人问,量化投资到底在做什么?这个PPT是我写出来,告诉我们每天都在做什么?或者过去三到五年大概做的事情,八点半上班,八点四十有晨会,对以前市场讨论,以及全球看法,八点五十五到九点看服务器运行情况,九点到十点半上午交易监控,下午国内一点到三点十五全市场监控的情况。盘根并不时时刻刻看,盘后工作可能我们跟会做的,三点到四点把模型分析情况,包括当天的盈亏,当然这些是自动,我们会倒数据库看情况,包括相关每一个子模型冲击成本的情况,实际量化投资中,可能仿真策略在、模拟非常好,一实盘不是那么一回事,比如A价位拿到单子,在实际并不一定这个价格拿到,这样对你影响非常大的。
        由于2013年下半年国内期货有夜盘,八点五十五检查交易的数据,接下来九点到两点半交易时段,大概看一下服务器也可以睡觉。这是体现程序化量化优势,夜盘出来很多人抱怨,本来主观交易压力大,现在出来夜盘压力蛮大,量化无所谓,毕竟让程序自己跑,有时候也会亏钱,晚上也睡的很好。
        这边是粗略的展示,核心的东西会看国内外研报和研读,每个策略不是不变,我也希望有这样的事情。每个策略都有生命周期,所以每天进行新策略的开发,找到稳定的方法。原来每周五有团队内部的头脑风暴,包括整体进程的梳理,如果没有实质的东西,可以满无目的讨论,还可以参加外部的会议。这个在国内做量化应该做的事情。
       说到量化,肯定大家都会问,跟主观、跟传统投资有什么区别呢?相同点本质是一样,都是想从市场赚钱,只不过大家体系、价值理念不同,用的工具和思考方式不一样。不同点就是传统投资公司调研和个人经验和主观判断,量化投资依赖数据模型实现投资理念。做量化不会做实体公司事情。传统公司就会提到巴菲特、索罗斯,量化投资会提到詹姆斯。大家价值观不同,不同前提假设做自己相关的东西,都葛优利弊,没有谁一定好。
        这边给出巴菲特相关投资收益回报,这边是巴菲特网站,管理费、托管费、业绩回报给投资人的情况,当然他的公司已经不接受对外资金,已经自己运作。下面是他的网站,公司网页非常简单。以前新公司不对外招聘,但是前两天看也有招聘信息,如果足够自信可以给他们简历。
        接下来是一个对比,比如业绩可重复性这一块,主动的投资,也有自己平常分析体系,相对量化员大概可以重复,A模型今天跑是这个样子,明天跑整体也是这个样子,整体量化东西可以重复的。纪律性不言而喻,有人的地方就有人性贪婪、不是纪律性表现难以克服,但是量化不一样,到点就平仓,我不会幻想市场还会起来,到点就会把仓位砍掉。还有系统的影响,主观这端交易就好了,量化不一样,需要交易平台、数据平台支撑,如果数据平台没有搭建好、数据质量还有问题,后面决策你自己都不会相信。
   
      这边是量化中我们团队研发的策略分类,主要三大块:阿尔法,时间驱动策略,比如一个股票公司发布递增等好的事件,基于事件可能有一些分析。投机这一段就是CNN策略,我了解很多朋友,多因子一端资金融的有限制,好多做CPN策略,CPN主要趋势反转策略。接下来套利,期限套利、跨期套利等等。
        下面给出一个数据就是我实际工作中或者团队中遇到的数据,具体数据大小的概念,现在处理数据大小跟07、08年不可同日而语,这里给出具体数量概念。首先看一下行情数据包括股票、期货、期权,日线数据兆级类,全世界A股2700多股,日线数据给出192兆,不同数据文献大小不一样,大概这个数量级别。分钟大概G级别的数据量级,ick数据大小GB级别,A股2005年到表外6.8GB。财务指标数据是GB级别,大小4.75GB,还有三张三表,全市场股票三张数据8.27GB。接下来舆情数据更大,包括百度PC和移动端搜索数据,当然跟期货相关的数据,还有新浪网易等相关的数据,量级更大了。
        面对这样剧增的数据,原始的初级分析工具肯定难以适用的,你需要依托大的处理软件平台,帮你完成数据测试工作。下面就是具体我们团队或者我这边用MATLAB处理大数据的经验。在程序本身可以做微调包括项目化处理,我说的策略、代码层面优化。面对量化投资大数据,MATLAB提高效率的方法,大概三类:
        1、并行计算,一个Parfor,还有SPMD,具体细节不说,如果感兴趣百度一下就有具体的方法。
        2、mathile类
        3、GPU加速
       并行计算非常提高你的效率,当然其他方法也是有并行解决方案。matfile较新版本有matfile类,什么意思?如果想一个数据非常大,基本不行,电脑内存不是很大会很困难,这个工具非常好解决方法,感兴趣可以了解。
        并行是经常用,还有matfile处理数据量比较大的时候会做这个处理。接下来是GPU加速,孤岛可以使用,加速效率比较好,但是稍微复杂一点。这个大概面对实际大数据,我带工作中提高效率的几种方法。
        
        看模型参数优化的步骤,这一块会用到并行东西挺多的,首先看右边图,这是量化投资大数据框架,原始数据给大家说一下,如果里做量化投资千万不要用PSO启发式,在参数优化过程中,可以用并行计算的方式,更加节约时间,并行有两种方式,MATLAB中打开matlobpool,下面是常见的参数选择,可能大多数做量化投资都有下铺比率、收益风险比、胜率等做参考,比如交易十次太小,会把交易手术、最大市场活跃权重等做一些转化,制定自己复合参数的寻找。
        这边是一个具体的代码展示,这边一端可以打开运行模块,这边就会把并行打开,现在鼠标所在位置就是并行模块,负循环有的时候可以变量,比如1恩—8,电脑八核,等于并行运算,时间节省很多时间。这边是整体未来参数图形展示的代码。这边就是参数分布的情况,这个是我2012年我做套利模型的参数分布,是非常精细的参数分布,当时还没有用并行,这个跑了一周。
        当然参数分布东西可以用半天时间讲。今天我的报告就到这里,非常感谢大家,有任何问题非常欢迎大家找我来交流!




楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-20 03:46

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表