最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

SAP HANA中文文本处理(二):SAP HANA中文分词

[复制链接]
跳转到指定楼层
楼主
发表于 2014-9-30 10:32:12 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
介绍下如何使用SAP HANA实现中文分词。
    1.  SAP HANA中文分词简单介绍
SAP HANA分词属于SAP HANA文本分析的一部分。我们可以通过创建全文索引的方式来实现SAP HANA分词功能。SAP HANA文本分析支持以下7种数据类型:TEXT, BINTEXT, NVARCHAR, VARCHAR, NCLOB, CLOB,and BLOB。你可以根据不同的应用需求选择不同的数据类型。
为了使用SAP HANA 实现中文分词,我们首先确认你安装的SAP HANA中是否有支持中文。如下图所示,看到有支持简体中文的一项则确认没有问题。
     1. 测试
我们先创建一个用来测试的数据库表。


  • CREATE COLUMN TABLE SEGMENTATION_TEST(  
  •   URL VARCHAR(200) PRIMARY KEY,  
  •   CONTENT NCLOB,  
  •   LANGU VARCHAR(10)  
  • );  

    其中CONTENT列是存储需要分词的文本。而LANGU列则指定了分词所使用的语言集,默认为EN,我们这里需要设置为ZH。
然后我们在刚创建的表SEGMENTATION_TEST的CONTENT列上建立全文索引,如下所示:


  • CREATE FULLTEXT INDEX FT_INDEX  
  • ON SEGMENTATION_TEST(CONTENT) TEXT ANALYSIS  
  • ON CONFIGURATION 'LINGANALYSIS_FULL'  
  • LANGUAGE COLUMN "LANGU";  

    注意需要创建全文索引的表必须含有主键,否则会报错,如下图所示:
创建全文索引后,SAP HANA会自动生成一张以$TA_<index_name>为名称的表。
我们向表SEGMENTATION_TEST插入一条数据:


  • INSERT INTO SEGMENTATION_TEST(URL,CONTENT,LANGU)  
  • VALUES('http://xxx.xxx.xxx','想获取更多SAP HANA学习资料或有任何疑问,请关注新浪微博@HANAGeek!我们欢迎你的加入!','ZH');  

   然后就可以查看到分词的结果了:

分词表不仅将中文文章分解成一个个单词,并且还为每个单词标识了词性。例如“获取”标识了动词,HANA为未知词性,标识了未知。当然对于HANA和SAP这种系统词典没有的词,我们可以通过自定义词典的方式进行标注。分词表的每个列的具体含义请见              
   SAP HANA提供了多重配置方式:LINGANALYSIS_BASIC,LINGANALYSIS_BASIC,LINGANALYSIS_BASIC,EXTRACTION_CORE,EXTRACTION_CORE。
LINGANALYSIS_BASIC:只提供分词功能,没有对单词的词性标注。
LINGANALYSIS_STEMS:提供了分词和词干识别功能。
LINGANALYSIS_FULL:提供了分词、词干识别以及词性标注功能。
EXTRACTION_CORE:该配置负责抽取文本中的感兴趣实体部分,例如组织,场所等。
EXTRACTION_CORE_VOICEOFCUSTOMER:你可以使用它获取关于用户需求和理念的特殊信息,例如可以做文本情感分析。该配置项包括,复杂的语言分析和模式处理,包括拼写、句法模式、否定等处理。
我们可以根据不同的需求选取不同的配置项,本文选用的是LINGANALYSIS_FULL。
为了能够在删除原表数据的同时删除分词表,我们需要将两张表的主键关联起来。可以使用下面的SQL语句 :



  • ALTER TABLE TEST."$TA_FT_INDEX" ADD CONSTRAINT R_KEY FOREIGN  
  • KEY(URL) REFERENCES TEST.SEGMENTATION_TEST(URL) ON DELETE CASCADE;  

本文的测试案例所使用的SAP HANA版本为SAP HANA SP07 Revision 70.00。


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-16 04:03

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表