最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

2015数据分析师峰会之 圆桌讨论

[复制链接]
跳转到指定楼层
楼主
发表于 2015-9-13 15:00:35 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
主持人 王安:我们圆桌安排,刚才我们收到一些问题,有一个问题我有点疑惑,在数据分析过程中,我们说没有数据,这个事情在所有数据人心中都有想法,包括征信,政府数据没有?看看各位嘉宾有什么想法?
   
       薛昆:其实这个是非常好的问题,这个是关联数据解决的痛点,我们已经做了数据开放平台,作为开发者上来直接用实时数据,包括基本面的数据,这些都可以免费用。其实在数据开放做的比较好我们有,也希望跟更多致力于数据开放的同行把这个事情做好。
   
       郑志勇:我觉得大家缺数据,还是搞数据是综合能力的事情,基本上通过各种各样方法搜集到一些数据,你的竞争优势别人没有的你有,金融机构就是给钱就可以买到,但是有两种:公开数据、内部数据,内部数据买不到,对于学生的话,李洋开发一个接口,给学生提供免费的金融数据。具体他解说。
   
       李洋:数据这一块,我们买方比较多,通联这一边有数据平台也整合一些,他们有一些比较另类的数据。同时郑志勇我也认识,他开发的不错,我们也自己开发过,从互联网抓取数据。关于免费数据、付费数据这么看,针对不同的人,在校学生买数据不可能,基于业务开放平台够当下研究,当然你进了机构肯定花钱买的,数据质量第三方会给你保证,数据针对不同群体可能大家需求有一些差别。
   
       刘时斌:数据这个事其实所有从业人员都考虑,我们况客最早也面临数据的问题,况客也在做数据平台,希望达到可以发布出去,目前这些数据有版权有一些问题,不能直接发布对于况客更可以提供二次加工的数据,经过处理市场独特的数据,你可以互联网搜开放的数据,况客提供不一样的数据,比如构建某个指标,或者某一类数据,并且这类数据允许用户下载再点播、再处理,况客更多做这个事情。
   
       王吉培:这个话题比较大,有三个层次:数据共享、数据公开、数据开放层次不一样,现在9月5号国务院发文,到2018年建立数据公开,确实有很多路要做。
       第一数据共享能不能做到?三年前参加一个会,当地提出方案把当地信息共享,当地副市长非常支持这个想法,开会过程中工商局长明确表示不会提供,就是部委之间利益取舍,造成信息孤岛。第一步信息共享,我这个数据对特定人有问题。
       做到共享要公开,有些可以叫数据公开,所有人都能看到,但是要使用它要使用要付费。
   
       张丹:因为我们征信公司没有数据,我们是数据分析能力,跟各家分析机构合作,各家分析机构面临比较大的痛点就是反欺诈,有人同时在各家机构申请贷款,不还钱。就有黑名单共享的问题,各家形成有效机制拿出来,形成共有数据源,至少在反欺诈方面起到很大的作用。
       现在其实各家机构也好、各个部门有利益纠葛在里边,他不愿意拿出来,放出来有顾虑,大家有协调机制、利益共享利用做起来,对大家都有利。
   
       主持人 王安:或者真正对数据定价,能够交易起来。还有今天各位专家都说到自己在领域里数据作用,数据发挥深刻的理想,我想听听大家,在自己行业数据跟金融结合难点或者提高的地方?也是让大家了解另外的侧面,这些都是未来的机会,大家可以做事的切入契机。
   
       薛昆:非结构化数据挖掘是机会,用准确率非常高的模型变成结构化数据,实时性要高。对于交融交易来说实时性要求非常高,一条新闻出来等半个小时挖掘出来,交易时机已经过了。你需要非常快的时间、非常高效的算法做出来,可能一分钟之内能够把这个东西做出来提供给客户。目前看到我们团队正在做的事情。
   
       郑志勇:从我个人而言,我基本上做过证券、基金、公司也给人放过贷,一旦规则明确就可以合作。粉饰和评级永远同时进行,我接触很多给地产公司放贷,你会发现这种方式不多,我们所用数据往往针对个人十万以下,而非用于大额,或者债券交易也是用大额,大额人的经验比数据纯很多,因为数据规则是死的,人根据规则可以逆规则而上满足它。比如以前地产公司,我需要印发贷,但是需要三证,没有这些东西,先把钱拿下来再向银行贷款,由于成本比较高,在P2P行业,成本不可覆盖的企业,我们可能要数据公开,但是要明白一个问题,竞争永远是相对的,数据大家都有。
       但是有些数据没有,就会基于数据查你。从分析角度来讲可以评级,我可以反评级,这是互相竞争的行业,这也是数据发展一个过程。
   
       李洋:现在主要难点对非结构化数据使用,包括数据抓取、清洗,没有对新闻转化量化使用的提供商。国外一个新闻提供商一次推送不单单文字版,还对应文字版对应数据流,国外对舆情数据非标准化结构做一些,国内还是刚刚起步,对非标准化数据分层提取需要我们内部做,非结构化数据舆情这一块还是有一些空间。
   
       刘时斌:如果我们从数据入手跟行业结合的话,有可以很多说。我原来做过互联网、电商、社交网络,他们大量产生行为数据,产生各种数据,对于金融也会产生各类数据。你要区分,纯粹大数据解决什么问题?还有累计很长时间才能解决,或者用户鼠标痕迹可以解决什么问题,日间交易数据解决什么问题?有哪些数据最热?可能一分钟之内最有效,过一分钟就不有效,需要大量积累,这些在金融行业都没有做到特别完善的定义,我们在逐步摸索,会把不同的数据按照我们理解分类,比如哪些是碎的数据、哪些是高频数据,碎的数据可能半小时之内,数据的热度比如放到类型数据库、分布化数据库,美中数据都有不同的关系。如果每个人有一些IT概念的人,会把数据进行规范的定义,真正找到数据到底遵守什么规则?这里边有很大的机会。
   
       王吉培:这一块也有一些难点,就是大数据征信这一块应用,Zestfinace在国外基于全网做评分,并且得到很好的应用,在短时间内是成功的案例。但是对于我们国家,我个人觉得短时间内三年之内,在中国要做大数据评分不太现实,两种原因,京东会把自己数据给淘宝吗?不会,只能各自平台上做,这是面会下载。另外没有积累很长的数据,我们做模型只要有数据都可以做,但是有没有实测?国外做评分有很长时间。
   
       张丹:说一下我个人的看法,这么多年一直从事这个工作,这一两年到一线干,有一点自己体会。我至少面临一个很大的挑战,跟各个不同层级人、不同行业人灌输数据分析是干什么?在咱们国家来讲,发展是刚起步,无论数据分析,从事这个行业人要达到什么目的?一定让数据分析和数据模型,提升每个行业量化决策管理水平,优化决策事情。
      即使在行业里边人跟他交流,也感觉大家不是站在同一理解水平上做,基本对这个事情认识的问题。我在做P2P模型经常面临一个问题,就一个简单的逻辑回归,也没有复杂的深耕网络,我也没有办法,甚至我们公司自己做市场的人也说,你得弄一个算法。我感到很无奈,我们做数据分析也好、做模型也好,面临一个问题,有什么数据做什么样东西?把这个东西做好就已经很不错了,有什么材料做什么菜,把已有数据、已有模型结合业务当中提高就是一个起步,慢慢可以尝试更多的数据,用更多的方法做不断的尝试,即使我们先阶段没有更多历史数据积累,但是从现在开始做也是很有意义。
   
       主持人 王安:我也有感触,在互联网公司三年很大工作要和公司不同人说数据作用,真正把数据落到实处有很大的难处,把这个作为指导工作的思维方式,我在公司也讲过课,参加听过课人才有改善,改变人的观点非常难的。我们在场有很多刚入行的朋友,我在金融数据行列能不能赚钱?给我们一点忠告或者提建议?
   
       张丹:现在从整个国家宏观经济上可以看到方方面面消息,GDP放缓,很多企业倒闭,金融也很困难。其实我们现在从事互联网金融行业还有征信行业是重要的产业,有风险投资公司愿意在这方面投入更多的资本,本身就能说明这些问题。如果愿意到我们公司来,我们很愿意。我们待遇不低,有股权、有期权。
   
       主持人 王安:对他们建议?
   
       张丹:这个要看很多人背景是什么样?我在计算机软件做过,学过风险管理,现在机缘巧合从事这个工作,数学统计能力必须有,有一定的编程能力,还有他们没有说到一点,你对金市场和金融知识理解,有这些东西就比较合适了,否则真是相对复合的东西,不是单独抽出来。
   
       王吉培:首先非常认同大数据都是向上、积极的走势过程中,从招聘大家也看到,包括前一段阿里、包括在座企业,数据工程师前途非常不错,大家做这个行业也是非常好的机会,包括刘老师也讲,大数据跟征信结合的企业受到风险投资天使投资人的青睐。
        P2P转型做征信,以后征信估值会升很多。行业结合是没有问题的,大家也是赶到好时候,给大家建议是什么?多出去、多交流、多了解这个行业发展当中新兴业态,第二做好技术,第三结合状态出来可以搞创业
   
        刘时斌:我介绍一下我这边如何从IT转向金融过程,我跟很多IT人都聊过,比如以我为例,前七年主要Java+为主,突然有一天学了PAP,又学R,我转型过程先一个东西学好,有一个机会,你有一个业务需要出力的时候,你用Java+处理数据的时候,老想能不能把程序写的更高?并不是程序出发,慢慢会转向R,R结合电商数据,R可以面向其他类型的数据,我把R用熟以后,同时也是掌握数据挖掘方法,慢慢转向金融,这种转型过程中并不是带着强烈的程序员色彩,跨学科需要带原来背景,同时学新的领域知识是什么,把原来和新的知识结合起来才能做好。这条路是很长的路,特别是金融,或者我们做量化,需要资本金、统计学、数学等多学科结合,不是简单的结合,需要更深层次,你需要站在四个学科角度一起思考,把你所掌握的知识拼在一起才能获得很大的价值,这条路没有捷径。
   
       李洋:我这边意见在北师大学了七年数学,大概2010年4月16号去一家私募实习,那时候做跨期套利研发,学数学,真正用数学工具赚钱,慢慢精力转化金融这一块,后来跟一些师兄聊,当时学的专业人工智能,他们建议博士出来面太窄,后来一直在金融做。
        给在校生建议,本科专业还要学好,相关的不同学科也会对你的思维方式有训练。第二点建议金融这一块蛮看重背景和实习,如果你想量化东西,可以在校寒暑假可以去一些公司实习一下,一则看一下你到底喜欢做的事情,第二积累相关的经验。
   
       郑志勇:我们在座三个学数学,两个学统计,我学物理的。我觉得这个东西我道路比较曲折,经验比较丰富,作为屌丝唯有勤奋多看书。我刚开始学数学学算法的,当时做的非常好,当时去IBM、微软,我毕业之前没有想过会是现在这个样子,没有想过自己干金融行业,毕业之前数学能力非常好,找工作想做赚到钱。我去IBM、微软核心算法不是中国开发的,我比较郁闷。
        可能去大的金融企业就模拟,就去小的做金融软件的公司,去那里直接做架构,基本把原来的程序需要一周时间,改掉需要一小时、几分钟就可以了。给甲方做项目,发现甲方比我懂的多,我还去过证券公司,后来发现做做,我学数学、计算机是自学、金融汇算业务都会干了。
        对大家建议,唯有勤奋、唯有勤奋,竞争永远是相对的,我招人原则不看重你学什么行业,也不看重什么背景,只要学习能力强就是最优,其他都不在乎。
   
       薛昆:我是06年进入对冲基金行业,我是机缘巧合,重要事情讲三遍,实习再实习,当时在中信实习,也是机缘巧合勤奋再勤奋进去的,我给现在学生建议,尽量找有使劲机会的,比如说最近优矿发生一个例子,前一段时间做大学生比赛,有一个哥们不是排前面几个,排第五名被胡志刚投资人招聘去了,他甚至没有直接比赛就直接招聘。因为当时在宣讲会上,那个哥们特勤奋,虽然排名不高,排第五名,一直围着胡志刚导师问这问那,这是非常好的例子。大家都会说运气,运气来自于什么?还是三个重要的,勤奋、勤奋再勤奋。这个行业三个东西数学、金融、计算机,逮住一个或者两个都有很大的概率进来,但是你自己逮住一个东西必须做好,像各位讲的,必须有一个你擅长的东西,然后你再少合适的机会就可以到这个行业里边来,一旦你进到行业里边看到的机会又不一样。你进到行业里边,你就会发现机会非常多,不一定做量化交易,量化其实是很广的行业,做结构化产品。
        我觉得关键自己先有一些东西,最后打一个广告,大家如果参加优矿比赛,后面对接非常多的私募。




楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-7 13:06

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表