168大数据

标题: 道客巴巴CTO刘斌:10亿文档的数据挖掘与应用 [打印本页]

作者: 168主编    时间: 2016-9-9 12:53
标题: 道客巴巴CTO刘斌:10亿文档的数据挖掘与应用
2016年8月26-27日,WOT2016移动互联网技术峰会在北京粤财JW万豪酒店隆重召开。自2012年以来,WOT品牌大会秉承专注技术、服务技术人员的理念已经成功举办十一届,不仅积累了大量的专家资源,更获得广大IT从业者和技术爱好者的认可和好评,并成为业界重要的技术分享及人脉拓展平台。
道客巴巴CTO刘斌
会议现场,道客巴巴CTO刘斌接受了记者采访,结合道客巴巴文档分享平台实际发展情况及现有技术架构,深入解析了道客巴巴对亿级文档的概念理解以及对亿级文档的数据挖掘与应用。
道客巴巴CTO刘斌介绍亿级文档的数据挖掘与应用
道客巴巴:亿级文档分享平台
作为在线文档分享平台,道客巴巴致力于为数亿互联网用户打造自由交流与平等学习的开放式互动平台,让更多用户在分享知识中提升自我。经过多年发展,用户分享至道客巴巴的文档数量已经超过了10亿,文档内容涵盖了考试资料、教学课件、学术论文、应用文书、企业文案、行业研究资料等几十个领域。
记者了解到,在文档分享领域,道客巴巴注重文档以质为本,服务以人为本,技术以新为本。
作为国内首家提供免费全文阅读的文档分享平台,道客巴巴实现了从连接人与信息向连接人与服务转换的飞跃。道客巴巴现有的文档分享平台、任务互助平台、企业文库等产品既能给用户提供价值,同时用户也能给产品提供价值,进而用户与用户之间实现价值的交换与满足。
道客巴巴CTO刘斌介绍亿级文档的数据挖掘与应用
安全存储:10亿文档的首要挑战
目前,道客巴巴的文档数量已经达到10亿,如此海量的文档内容,给数据存储技术带来了哪些挑战?
刘斌表示,网站建设初期,道客巴巴采用原始的存储方式,虽然采用了Raid5架构,避免了单个硬盘故障导致的数据丢失,但如果计算机其他硬件出现故障,可能导致该计算机上的数据短时间内无法正常服务。为了改善这一情况,道客巴巴结合开源软件hadoop的分布式架构,并对小的文档文件进行自定义索引合并,生成适合Hadoop存储的大文件,避免了Hadoop小文件过多导致的性能问题。同时,道客巴巴通过多副本的形式进行存储,以保证单台计算机出现故障时,其他计算机可以将故障的数据备份,从而保证数据的安全存储。
文档去重:十亿文档的冗余问题
目前,道客巴巴用户数已达7000万,每天上传大量文档,其中难免会有重复文档,如何避免相同或相似的文档被重复上传并发布?对此,道客巴巴特别建立了文档验重去重技术体系:积累了百亿级的验重基础数据元,采用了分布式的并行计算方式,高效的检测出文档是否重复并得到文档内容的重复率,对于相同或相似的文档进行了有效过滤,保证了文档内容的唯一性和优质性。
数据挖掘:全文检索及智能分类
在应对存储和去重挑战的同时,为了给用户提供更高质量的服务,道客巴巴对数亿优质文档进行了更深入的数据挖掘,让用户在数亿文档中快速、精确的检索到自己需要的内容,同时,网站可以根据用户的阅读行为,主动为用户推荐更加符合用户需求的文档。
道客巴巴采用了全文检索技术,对数亿文档内容进行了分词索引,采用了上百台高性能服务器进行分布式并行全文检索,将检索结果汇总到主服务器并进行文档排序,将优质文档毫秒级展示给用户。
由于道客巴巴用户的分散性,导致上传的部分文档未能精确匹配已有分类。为了提高文档分类的准确性,道客巴巴特别采用了智能分类技术解决方案。经过多年的积累,每个分类下汇集了大量精确文档作为计算机学习样本,通过智能分类算法,对未知文档进行有效分类。
挑战与机遇:文档服务的未来
目前,大部分文档阅读平台基本都采用Flash阅读方案,随着HTML5技术的发展,Flash逐渐被替代,文档的在线阅读方案也将面临技术改革,陆续过渡到HTML5的阅读方式,但由于HTML5在文档的内容保护方面尚存欠缺,如何保证文档内容的安全性,成为此次技术改革的难点。针对此次难点,道客巴巴研发团队综合了国内外多方面经验,为下一步技术过渡打好基础。另外,在搜索和验重方面,业内所采用的方法很难实现语义上的识别,道客巴巴已经突破了同义词的重复识别,但是在语义分析上同样面临着巨大挑战,解决这一技术难题,是道客巴巴提升文档服务的努力方向与重要目标。
来源:赛迪网
链接:http://www.ccidnet.com/2016/0907/10180692.shtml







欢迎光临 168大数据 (http://www.bi168.cn/) Powered by Discuz! X3.2