最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

道客巴巴CTO刘斌:10亿文档的数据挖掘与应用

[复制链接]
跳转到指定楼层
楼主
发表于 2016-9-9 12:53:49 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
2016年8月26-27日,WOT2016移动互联网技术峰会在北京粤财JW万豪酒店隆重召开。自2012年以来,WOT品牌大会秉承专注技术、服务技术人员的理念已经成功举办十一届,不仅积累了大量的专家资源,更获得广大IT从业者和技术爱好者的认可和好评,并成为业界重要的技术分享及人脉拓展平台。
道客巴巴CTO刘斌
会议现场,道客巴巴CTO刘斌接受了记者采访,结合道客巴巴文档分享平台实际发展情况及现有技术架构,深入解析了道客巴巴对亿级文档的概念理解以及对亿级文档的数据挖掘与应用。
道客巴巴CTO刘斌介绍亿级文档的数据挖掘与应用
道客巴巴:亿级文档分享平台
作为在线文档分享平台,道客巴巴致力于为数亿互联网用户打造自由交流与平等学习的开放式互动平台,让更多用户在分享知识中提升自我。经过多年发展,用户分享至道客巴巴的文档数量已经超过了10亿,文档内容涵盖了考试资料、教学课件、学术论文、应用文书、企业文案、行业研究资料等几十个领域。
记者了解到,在文档分享领域,道客巴巴注重文档以质为本,服务以人为本,技术以新为本。
作为国内首家提供免费全文阅读的文档分享平台,道客巴巴实现了从连接人与信息向连接人与服务转换的飞跃。道客巴巴现有的文档分享平台、任务互助平台、企业文库等产品既能给用户提供价值,同时用户也能给产品提供价值,进而用户与用户之间实现价值的交换与满足。
道客巴巴CTO刘斌介绍亿级文档的数据挖掘与应用
安全存储:10亿文档的首要挑战
目前,道客巴巴的文档数量已经达到10亿,如此海量的文档内容,给数据存储技术带来了哪些挑战?
刘斌表示,网站建设初期,道客巴巴采用原始的存储方式,虽然采用了Raid5架构,避免了单个硬盘故障导致的数据丢失,但如果计算机其他硬件出现故障,可能导致该计算机上的数据短时间内无法正常服务。为了改善这一情况,道客巴巴结合开源软件hadoop的分布式架构,并对小的文档文件进行自定义索引合并,生成适合Hadoop存储的大文件,避免了Hadoop小文件过多导致的性能问题。同时,道客巴巴通过多副本的形式进行存储,以保证单台计算机出现故障时,其他计算机可以将故障的数据备份,从而保证数据的安全存储。
文档去重:十亿文档的冗余问题
目前,道客巴巴用户数已达7000万,每天上传大量文档,其中难免会有重复文档,如何避免相同或相似的文档被重复上传并发布?对此,道客巴巴特别建立了文档验重去重技术体系:积累了百亿级的验重基础数据元,采用了分布式的并行计算方式,高效的检测出文档是否重复并得到文档内容的重复率,对于相同或相似的文档进行了有效过滤,保证了文档内容的唯一性和优质性。
数据挖掘:全文检索及智能分类
在应对存储和去重挑战的同时,为了给用户提供更高质量的服务,道客巴巴对数亿优质文档进行了更深入的数据挖掘,让用户在数亿文档中快速、精确的检索到自己需要的内容,同时,网站可以根据用户的阅读行为,主动为用户推荐更加符合用户需求的文档。
道客巴巴采用了全文检索技术,对数亿文档内容进行了分词索引,采用了上百台高性能服务器进行分布式并行全文检索,将检索结果汇总到主服务器并进行文档排序,将优质文档毫秒级展示给用户。
由于道客巴巴用户的分散性,导致上传的部分文档未能精确匹配已有分类。为了提高文档分类的准确性,道客巴巴特别采用了智能分类技术解决方案。经过多年的积累,每个分类下汇集了大量精确文档作为计算机学习样本,通过智能分类算法,对未知文档进行有效分类。
挑战与机遇:文档服务的未来
目前,大部分文档阅读平台基本都采用Flash阅读方案,随着HTML5技术的发展,Flash逐渐被替代,文档的在线阅读方案也将面临技术改革,陆续过渡到HTML5的阅读方式,但由于HTML5在文档的内容保护方面尚存欠缺,如何保证文档内容的安全性,成为此次技术改革的难点。针对此次难点,道客巴巴研发团队综合了国内外多方面经验,为下一步技术过渡打好基础。另外,在搜索和验重方面,业内所采用的方法很难实现语义上的识别,道客巴巴已经突破了同义词的重复识别,但是在语义分析上同样面临着巨大挑战,解决这一技术难题,是道客巴巴提升文档服务的努力方向与重要目标。
来源:赛迪网


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-29 22:21

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表