168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

1 2 3 4 5
开启左侧

[原创] 九眼智能文本识别过滤敏感信息

[复制链接]
发表于 7 天前 | 显示全部楼层 |阅读模式
  互联网时代,无论是吃、穿,还是住、行,人们都面临身份信息泄露的风险。数据显示,全国每年身份信息泄漏多达千万条,身份证遗失也上百万级,如何保障个人身份信息安全成了互联网消费的共同挑战。
  截至今年6月,中国的互联网用户规模已达7.51亿人,互联网普及率达到了54.3%。然而,当互联网遍及日常生活的方方面面,网络安全威胁和风险也日益突出,我们不得不提防。
  进入大数据时代,信息的传播变得丰富多彩,人们从互联网中同时接受图像、视频、文本等不同模态的信息。“管不住”和“用不好”两大问题也日益突出。“管不住”是指多模态大数据中隐藏着大量不文明、不健康等有害信息,极大地危害着国家安全和生活稳定,目前还缺乏自动的分析与识别技术。“用不好”是指现有技术一般是单模态分析与识别,仅针对信息有限的单模态数据,难以对多模态数据进行有效利用。如何让计算机看懂世界,实现对互联网多模态大数据的有效监管与利用,是目前急需解决的重大问题。
  依托大数据技术,提升信息挖掘的自动化水平和效率。
  大数据的发展带来了三方面积极影响,一是提高了“数据意识”,二是解决现有数据管理与分析系统不能应对急剧增长、种类繁多的数据这一挑战性问题,三是推动hadoopSpark等大数据处理架构更广泛地应用,实现从传统的数据处理向大数据处理的过渡。
  第一,大数据环境下,机器学习、人工智能、数据挖掘与分析等领域取得了长足的进步,将为大数据组织提供有力的技术支撑。
  第二,大数据处理需求催生的新型计算模式,有利于数据的整合,比如查询分析计算模式可用于结构化数据的整合,图计算模式可应用于社交媒体中的知识整合,等等。
  第三,大数据挖掘技术进一步丰富了信息处理的表达和展示方式。长期以来,可视化是信息挖掘成果展示的重要渠道和方式,大数据环境使人们对可视化的需求呈现爆发式增长,催生了一系列新的可视化工具、技术和方法,其中的一些工具、技术和方法也同样适用于展示信息组织的成果。
  九眼智能过滤系统就是充分融合了自然语言理解、人工智能、大数据分析等领域尖端技术,具有智能化、语义化、实时性三大特点的信息挖掘、处理的智能系统。它开创信息过滤新技术,将自然语言和人工智能紧密结合,打破传统技术局限,变被动为主动,实现了信息过滤的智能化、语义化、快速化,探索出了信息过滤的新可能。
  九眼智能过滤三大技术核心:智能变种、语义排歧、快速实时
  1、智能变种识别:九眼智能过滤利用美双数组TRIE树词典管理与检索方法,系统自动识别形变词、音变词、拆字、噪音、繁简体、全角半角、中间加各类干扰噪音等变体; 同时,系统支持自定义词库,增量添加百万量级词库。
  2、语义排歧:九眼智能过滤利用NLPIR语义精准分词系统与情感分析系统,精准识别与过滤,排除正面无害的信息,极大降低了误判率。
  3、快速实时:九眼智能过滤使用专利算法,快速扫描,单机速度30MB/s;支持单机多线程、多机并行、Hadoop云服务模式,对PB级信息内容实现并行高效在线核查。
楼主热帖
168大数据(www.bi168.cn)是国内首家系统性关注大数据与数据科学的社区媒体与产业服务平台!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2017-10-19 11:26 , Processed in 0.052283 second(s), 19 queries , Xcache On.

Powered by BI168社区

© 2012-2014 海鸥科技

快速回复 返回顶部 返回列表