所谓“组词”,就是把一些具有“共同部分”的词组合到一起,如App的关键词包含“腾讯新闻”和“网易新闻”这两个词,就可以组合成“腾讯网易新闻”,而用户搜索时,搜索“腾讯新闻”或“网易新闻”也还是能搜到该App的。
之所有“组词”的需求,主要是由于Appstore对填写的关键词长度有限制(不得大于100个字符),而我们需要填写的关键词串经常大于100字符,因此需要对填写的一堆词进行组词,对可以合并的词尽可能地进行合并,从而能在100字符内尽可能多地展示我们的app信息,增加app被搜索词命中的概率。
组词看似简单,但涉及搜索引擎的分词和检索的基础知识,如果对这些不清楚,就经常会产生如“支付宝”和“宝贝”能否组合成“支付宝贝”这样的疑惑。因此,本文就首先简要介绍下分词和搜索的基本知识,然后再讲下appbk的自动组词方法。
分词技术
现代搜索引擎,都是以“词”为基础单位进行设计的。词是最小的有意义的语言成分。英语等字母语言,其单词天然按照空格隔开,但中文等东亚语种,其词之间并没有明显的分隔符,因此就产生了“分词”的需求。“分词”就是把一个汉语字符串分成一个个词的过程。
分词的例子如“腾讯新闻”的分词为:“腾讯 | 新闻”,“网易新闻” 的为“网易 | 新闻”。
由于中文分词经常会有“歧义”现象,如“兵乓球拍卖完了”可切分为“乒乓球 | 拍卖 |完了”又可以切分为“乒乓球拍| 卖 | 完了”,针对这种情况,搜索系统一般会把两种分词形式都记录下来,以供搜索时使用。
搜索的基础:词袋模型(word of bag)
“词袋模型”是搜索引擎中的一种简单假设,其不考虑词的“顺序”,认为一个文本就是
是一堆词的“集合”。也就是如两个文本“腾讯新闻”、“新闻腾讯”,对搜索引擎而言,是完全一样的。这种假设也是我们能够进行组词的基础。
我们还是以“腾讯新闻”和“新闻腾讯”,以及其组词“腾讯网易新闻”为例,其“词袋”模型如下图所示:
图1 “腾讯新闻”和“新闻腾讯”,及其组词“腾讯网易新闻”的词袋模型
由于“词袋”模型是一个“集合”模型,可以不考虑重复元素,因此上面袋子中的两个“新闻”可以视为一个。从上图中可以看到,“腾讯新闻”+“新闻腾讯”,和“腾讯网易新闻”的词袋模型是完全等价的,也就是说对搜索引擎而言,他们是完全一样的。
然后,我们还可以利用上述模型,简单描述用户搜索的过程。搜索的时候,搜索系统首先会在对用户输入的搜索词进行分词,然后在关键词的“袋子”里面依次查找搜索词的分词。还是上面的例子,如用户搜索“腾讯新闻”时,流程如下图所示:
图2 基于“词袋”模型的查找流程,搜索系统在“词袋”中分别查找“腾讯”和“新闻”这两个搜索词的分词
然后我们再看下“支付宝”和“宝贝”的例子 ,说明为啥他们不能组词。我们把“支付宝”和“宝贝”组成“支付宝贝”,但其分词的时候,可能会分成“支付 | 宝贝”,这种分词歧义就可能造成搜索“支付宝”的时候,搜不到该App,具体如下图所示:
图3 关键词“支付宝”和“宝贝”组成“支付宝贝”后,由于可能的分词歧义,用户搜索“支付宝”时,可能会搜索不到该App。
组词方法
因为搜索系统是以“词”为基础单位进行检索的,因此,首先需要对关键词进行“分词”。然后就是具体的“组词”过程了。
“组词”就是一个分组的过程,我们利用的是机器学习中的“在线聚类”技术,其实就是把字符串中有相同子串的词组合在一起,然后不断循环,直到没有重合的词出现。组词过程中,我们考虑到苹果的规则,一个“词”不能过长,否则可能会被认为是关键词堆砌,因此,我们限制了组词的最大个数,就是最多组合5个词。
在appbk上有一个“组词工具”服务,具体见appbk.com网站的菜单导航栏。它的“推荐组词”结果设置了最大组词个数限制,以‘美女直播,yy视频,交友网站,明星直播’为例,其在上面的组词结果如下图所示:
图4 appbk的组词服务
其中,‘美女直播’和明星直播两个词组合在了一起,省了两个字符和一个逗号的空间。
当然,这个组词工具还给出了不考虑组词长度的结果,就是“最大限度组词”的结果。
逗号问题
“最大限度组词”,其实已经把所有可能组合的词,都组到了一起,但还有用户经常会问,这样的组词还是有“逗号”存在,能不能干脆把全部的逗号都干掉,这样不是能加更多的词吗?
根据上述的“词袋”模型,即使把所有的逗号都干掉,其关键词的“词袋”是没有变化的,因此对搜索的影响不是很大。但考虑到下面的因素,并不建议这样做:
1、苹果规则限制。在2015年之前,很多ASO服务商给出的关键词建议都是没有任何逗号的,但这种情况多了后,苹果的关键词审核就会更严格,这样的形式会被认为是“关键词堆砌”,审核就不通过,因此,组词需要“适度”。
2、权重影响。根据“词袋”模型,用户搜索“腾讯新闻”时,关键词填写“腾讯新闻”或者“腾讯网易新闻”,是都能搜到的,这个是没有问题的。但是,关键词“腾讯新闻”与用户搜索词是完全一致的,这种情况,搜索引擎一般都会有少量的加分。
综合我们的一些实践经验,给出以下建议:
1、组词不宜过长,以不超过5个为宜。
2、对下载量较少的App,不需要刻意的组词,因为你的App基本处在长尾位置,一点点的加分,就可能让你的搜索排名有大幅提升。
3、对应需要“刷”的词,还有核心带量的关键词,建议都用逗号隔开,不进行组词。
本文系作者appbk@刘新鸣原创投稿发布,转载请注明作者信息及出处。
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。