最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

Nlpir Parser大数据智能平台敏感信息过滤

[复制链接]
跳转到指定楼层
楼主
发表于 2017-5-8 17:44:01 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
  当今时代是互联网时代,互联网作为这个时代的主题使得这个时代具有资源共享性和信息传播性的特点,给人们的生活带来了便利。网络在为人们认识世界带来便利的同时也为有害信息的广泛传播提供了便捷且广泛的途径。人们在享受互联网带来的便利的同时,也常常会受到非法信息的滋扰。因此信息安全问题对于维护网络环境的健康有着十分重要的意义。
  由于敏感信息过滤必须建立在敏感信息的高效识别基础上,因此本文将从三个方面入手来解决该问题:一是互联网敏感文本的理解识别;二是融合文本进互联网敏感网页进行识别;三是实际过滤系统的设计与构造。
  Nlpir Parser大数据智能平台敏感信息过滤系统是灵玖软件研制,针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,可以导入大批量用户业务敏感的关键词列表,实现对内存与文件的实时智能扫描,生成命中的敏感关键词、敏感类别与权重等信息。
  Nlpir Parser大数据智能平台敏感信息过滤系统具备四大特色:
  1、基于PDAT专利的多关键词实时扫描算法       
  我们采用了北京理工大学的PDAT专利算法,可以针对百万量级关键词列表实现单机20MB/s的实时扫描速度;
  2、关键词的多模式智能匹配
  用户设定关键词后,系统可以自动识别扫描不同编码、繁简体、全角半角、中间加各类干扰噪音等变体,及繁体形式。
  3、内置了丰富的敏感知识库
  目前已经自动内置了十大类型的敏感关键词词典。这些词典几乎囊括了所有行业里面的敏感关键词,从而为净化互联网空间提供知识储备。
  4、支持用户增量添加百万量级业务敏感词库
  支持客户自定义导入用户词典,自定义敏感类别与权重。可以支持能够提供不同行业的敏感扫描结果。
  Nlpir Parser大数据智能平台敏感信息过滤系统工作流程:
  第一步:业务单位准备敏感词列表(可选,如不设置则默认为系统内置敏感词)
  由监管部门整理出敏感词文本文件,每行设置一个关键词信息,具体格式如下:词 类别 权重。
  说明如下:
  1.关键词与类别完全由自己设置,不限制长度、格式与编码;
  2.当前系统支持最大类别数为255个;
  3. 权重标准建议为1-10。10表示最大,1表示最小。
  4. 同一个词可以设置为不同的类别。
  第二步:导入自定义的敏感词文件(可选,如不设置则默认为系统内置敏感词)
  通过上述界面的导入关键词即可,也可以使用批处理命令ImportUserDict.bat实现。
  1000个关键词可以实现1分钟内导入,1万关键词5分钟以内,10万关键词约需30分钟,百万级别关键词的时间略长,预计需要半天的时间。导入的词表会以特定的格式加密存储。不会泄露用户的业务机密。
  第三步:扫描内存或者文件
  通过图1界面可以选择待扫描文件夹,即可实现数据的快速实时扫描。适合于小规模数据的测试。
  大规模数据建议采用批处理命令KeyScanner.bat配置实现。待扫描文件的格式目前只支持文本文件。
  批量扫描的结果输出到指定的结果文件,输出敏感的行号,并给出敏感的内容。
    互联网是当今最大的信息资源库之一,其信息发布的及时性与全球互联性使得其对整个社会的发展起着巨大的影响。由于互联网相关技术飞速发展,它已经影响到了日常生活的方方面面,对整个社会起着革命性的影响。敏感关键词的处理对互联网的净化有着非常重要的作用。
楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-30 15:03

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表