京东郑志彤：如何利用机器学习优化数亿条商品数据

发表于 2017-9-7 17:15:59

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

作者：谢海平

2017年7月21日-22日，由51CTO主办的以人工智能为主题的WOTI2017全球创新技术峰会在北京富力万丽酒店隆重举行。峰会期间，30+AI明星，数十场围绕人工智能主题的精彩演讲与圆桌论坛缓缓揭开面纱。会后，记者采访了京东商城基础平台部首席研究员郑志彤，他为大家介绍机器学习在电商领域的场景化应用。

京东的数据问题

京东拥有大量商品数据，包括图像、文本、视频和语音。这些数据不仅是多模态的，而且是非结构化的。目前，京东数据主要存在以下两点不足：

商品数据质量参差不齐。电商商品数据是多模态的，噪音多；其次，商家为了提高商品搜索率会使用大量词汇描绘商品，容易造成词语堆砌的现象，致使商品数据的录入难以管理。
用户反馈数据没有得到有效利用。用户在评价商品时，文字评论是负面评价，但是，星级评分却是五分好评。在这种情况下，机器很难理解商品的真实好坏，因此就会接收不准确的信息。如果不对评论区的信息进行清洗，用户对商品的实际评价就难以被机器理解，也不利于后续商品的推荐。

机器学习在京东的应用

为了构建良好的商城生态，京东利用机器学习技术从信息合规、商品基本属性优化、电商短文本理解、商品类目的自动识别、多场景信息获取五个方面来逐步优化并解决现阶段存在的问题。

一、电商数据的信息合规

很多信息如果输入不正确，就会违反广告法或者价格法。例如，上图中的“最高质量标准”是违反广告法的，下面的“第一步”虽然没有违反，但”销量第一“的用词是违反的。从这个案例中，郑志彤意识到，信息合规不仅仅要借助关键词，还需考虑上下文的关系。于是，京东商城就做了上下文的文本分类，这使得无效审核下降73%。

价格合规方面，详情页里有价格信息，上图的Banner中还有一个价格，两个价格如果不一致就属于不合规。为了提高审核效率，京东商城借助OCR(Optical Character Recognition）识别技术来实现价格合规。

京东端到端的通用字符串识别系统

如图所示，通过CNN model获得图片的特征与基于大规模语料数据训练循环神经网络（LSTM）的通用语言模型相结合，再通过基于时序分类（CTC）输出。端到端的文本检测与识别算法克服了传统OCR鲁棒性不足的问题，即使对于京东网站上各种压缩失真和版面复杂的图片，也能有很好的文字识别效果。

目前， OCR识别系统每天可以自动识别出数千个价格不一致的信息。同时，图片文字识别出的语句通过文本合规后，能自动发现包含违禁语义的图片。

第二、图文不一致体验

属性间的不一致对上层系统影响巨大，搜索、推荐调用错误数据，结果也会随之错误。例如，一张图片中女Model提着红色手包，穿着白色上衣，蓝色裤子，这种图片直接识别不能分别得到三个主体的颜色分类。

而京东商城则是选用了一些成熟模型，在获取一张图片的属性后，例如颜色、袖长、裙长、图案，通过设定优先识别规则，比如颜色，以此类推，逐渐识别商品的所有颜色分类。郑志彤表示，“我们从图片上抽取商品属性主要覆盖了四个一级品类，准确率能到95%左右，规模大概是累计了两亿条以上的商品属性和一亿多条的SKU（Stock Keeping Unit）。”

第三、电商的短文本理解

京东的商家为了提高商品销量，在商品命名时往往会使用大量无关词语，这不利于商品数据的录入与管理。因此，京东商城必须对商品的标题进行分词和重组。为了从源头上解决词汇堆积问题，据郑志彤介绍，他们主要采用了如标题分词、实体命名识别、短文本理解、标题重组等一系列的机器学习技术。

第四、类目自动识别

商品数量达数亿条，又有近4000多条的三级类目分类，这使京东在早期录入数据时耗费了大量人力。目前，京东商城主要采用了文本分类的方法，即文本被分到一个树状的类别图里。早期，京东商城尝试过基于字母级别的深度卷积神经网络(DCNN)分类，然后又试过Word2vec,即Google开源的一款用于词向量计算的工具、长短期记忆网络（LSTM），通过大量的对比实验，发现效果基本相当。最后，京东商城自己编写了最优文本分类算法（BTC），实现了快速分类的效果，准确率高达99%。

第五、多场景信息获取

为了构建完善的知识图谱，用于搜索、商品控制、列表页推荐、商家管理和对话系统等场景，在实现价格合规、图文属性的校验，电商的短文本识别与类目自动识别后，还需要对多场景信息进行抽取，包括详情页OCR、客服聊天、用户评论等信息。

详情页OCR。”我们在OCR里面做了很多探索，最初是用了CER(Contrasting Extremal Region)的方法，最近可能要使用物体检测算法，结合CTC模型来分割识别。”郑志彤说.
客服聊天。最初京东是做了一个Logistic回归（LR）的分类，后来做了一些降维处理，再通过数据通信网络(DCN)进行分类，降低了30%的错误率。
用户评论。在京东商城中，有一些评论属于无效信息，要进行清洗。还有一些星级评论评了一星，文本写的是五星，所以星级评价是不准确的。因此，京东商城通过语言模型，对评论进行关键词的抽取与聚类，获取频次最高的短语以及评论内容，同时，将意义不大的评论折叠在评论最后，使得用户在购物时能看到真实有效的评论。

帐号		自动登录	找回密码
密码			立即注册

京东郑志彤：如何利用机器学习优化数亿条商品数据

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

浏览过的版块

站长推荐 /1