最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

量化自身:借助云计算平台,人类解读基因的成本正在急速降低

[复制链接]
跳转到指定楼层
楼主
发表于 2014-10-22 20:24:01 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
编者按:2014 年初,美国Illumina公司发布 HiSeq X Ten 高通量基因测序平台,标志着人类进入 1000 美元一个基因组的时代,人人都有条件对自己的基因进行解读,人人都可以更加全面了解自己的 DNA,同时也意味着产生海量的基因数据。Illumina 的员工郝向稳辞职之后,于今年 7 月创立基云惠康Genekang,其团队立志通过对海量人基因组数据的分析为人类的生活和健康服务。
现在越来越多的基因界数据分析公司都在开发基于云计算的数据分析平台,利用云计算平台的高吞吐能力降低海量基因、健康数据分析的成本。
2014.1.4,Google Ventures 投资公司宣布参与 DNAnexus 公司的第三轮融资,投入 1500 万美元开发新型云计算平台以支持生物医药研发研究。DNAnexus 提供的云计算分析主要在 DNA 序列数据应用分析上。
2014.9.28,Seven Bridge Genomics(SBG)获得美国国家癌症研究所的基因组数据分析项目,分享其中的 590 万美元。SBG 主要提供的是基于亚马逊云计算平台的基因数据分析业务。
2014.10.3,基因界的“英特尔”Illumina 公司下属的云计算平台 BaseSpace 与 AB SCIEX 合作,在基因数据分析之外,开始集成蛋白数据的分析。
而在 2013.10.28,Illumina 刚刚收购了偏向于临床医疗数据分析的公司 NextBio。
人的基因信息有多大?首先一个普通成年人的身体由 3.72 × 1013 个不同种类的细胞组成。绝大部分的细胞都是双倍体基因组的。除精子和卵子这些性细胞外,在每个细胞核中包括 23 对染色体,所谓双倍体,就是指 23 对染色体中各有一半分别来自父亲和母亲。人所有的基因都包含在这 23 条染色体上,总的基因序列是大约 30 亿个碱基(3Gb)。
目前,利用 Illumina 等公司的新一代基因测序技术,要得到比较准确的信息,一般认为 30X 的基因测序深度是必须的,所以一个人的基因组检测大约需要产生 90Gb 的数据。如此大的数据,在一般的电脑或小型服务器上运行起来非常困难。所以,像基云惠康这样的生物信息分析创业公司开始开发基于云计算的技术平台和工具,利用云计算的优势降低成本,提高数据分析的速度。
人的基因有多少?在人的 30 亿个碱基序列中包括了 21000 多个编码蛋白质的基因,每个基因的功能都不太一样,有控制发育的,有控制运动的,有帮我们抵抗传染病的。当然,也有能导致肿瘤、白血病的。同时,很多基因不止一个功能,同一个基因在很多功能中起着不同的作用。我们人类这 21000 多个基因大部分每个人都有,但同一个基因的序列在不同的人身上会有差异,这个差异就导致了千人千面。比如 BRCA1 基因在每个人的基因组上都存在,但像安吉丽娜朱莉的 BRCA1 基因序列与其他人就不太一样,她带的这个基因更容易导致乳腺癌和卵巢癌。所以,她提前动手,切除了乳腺,摘掉了卵巢,以免自己的孩子将来遭受丧母之痛,大爱。
基因的研究在不断的进行中,很多基因的功能还未知,已知功能的基因不断发现有新功能,目前的研究基本上就是收集一定量样本,把表型数据与基因型数据进行关联分析,从而发现与表型有关的基因及其功能。但在大数据时代,科研的模式会逐渐发生变化。
回到 Illumina 收购 NextBio 公司。NextBio 的平台让客户能够利用独特的关联引擎来比较实验数据和现有的数据集,从而发现新的关联。它使用高度扩展的软件即服务(SaaS)企业技术,能够分析 PB 级的数据。Illumina 的 CEO Jay Flatley 表示:“NextBio 实现了单一环境下表型和临床数据的分类和汇总,以前所未有的速度和规模进行数据分析。Illumina BaseSpace 云计算环境与 NextBio 平台的融合,将让我们能够提供解决方案,无缝整合从样品到结果的整个流程”。
这也解释了我上次见到 Jay Flatley 时问他的那个问题:为什么 Illumina 收购了 NextBio,而没有收购 DNAnexus?因为 Illumina 需要表型数据。
表型数据多种多样,如发型颜色,头发弯曲还是直的,眼皮单双,身高、体重、血压、心率、血糖、皮肤特点、眼球颜色、指纹、鼻梁、嘴型、呼吸、眉毛等等,这些是比较容易看见或容易测量的特征。人体并不是一个固定不变的生命体,每个细胞内是不同的,各种组织器官基因变化的数据是一个不断变化的过程,形成了多种多样的表达谱。
《失控》的作者 KK(凯文·凯利)是全球“量化自身”(Quantified Self – QS)运动的发起者。如今,全球已有 500 多个量化自身运动的 Group 在不定期交流。量化自身产生了各种各样的数据,特别是可穿戴设备最近如火如荼。它对人体表型数据的获取从原来去医院、体检中心的单点、间断检测模式变成了 24 小时的连续检测模式,数据的完整性提高,更加客观反映生命的体征,同时也意味着数据量更加庞大。
大数据是生命的基本特征,对于生命体征的量化,基因组是最基础、最核心的数据。对于基因数据、众多体征数据的整合、挖掘、利用将会是未来健康大数据的一个努力方向,从而让预防和大数据在大健康领域发挥巨大作用。


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-4 11:16

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表