聪明文档网

聪明文档网

最新最全的文档下载
当前位置: 首页> (2010)电子商务搜索引擎技术综述

(2010)电子商务搜索引擎技术综述

时间:    下载该word文档
2010年电子商务搜索引擎技术综述
By冲出宇宙
说到搜索,大家的印象大部分还集中在百度、googlesoso等大搜索引擎124567
(即全网搜索引擎,或者第二代搜索引擎)google算得上一个典型的大搜索,而百度只能算小半个大搜索(因为它只有中文和日文数据,故国内至少有20%的市场份额(英文等其他语言检索)永远属于google。除了大搜索,垂直搜索现在是越来越流行(信息大爆炸,人们从海量大信息里面获得感兴趣的信息越来越困难)。垂直搜索专注于一个领域(方面)常见的如新闻搜索、图片搜索、视频搜索、医药搜索、比价搜索等等,它能够充分的考虑领域的固有特点,做到大搜索所不能的贴心体验。电子商务搜索引擎也属于垂直搜索的一种。
电子商务搜索引擎常常有好几种模式:1)仅搜索外网数据;2)仅搜索站内数据;3外网和内网结合。比价搜索一般采用第一种模式,而大型电子商务网站采用第二种模式,三种模式是目前发展的一个方向。
搜索发展到现在,就应用技术来说,几乎到达了顶点。现在搜索引擎用的技术,几乎都108年前的咚咚。搜索引擎的发展方向,变得扑朔迷离。

1电子商务搜索和大搜索的对比1.1规模
从定义上来说,电子商务搜索属于垂直搜索引擎的一种,它显然比处理整个互联网的大
搜索规模小很多。流行的观点认为,大搜索的网页存储规模在50亿-1000亿之间(国内大搜索引擎大部分在100亿以下,google据说超过1000亿)而较大型电子商务搜索目前的存储规模在1亿-10亿之间。除了数据规模外,每日pv也有较大差距,根据10月份的数据,google美国每天的有效搜索pv(全部搜索pv应该是这个的好几倍)在3.6亿左右,而国内最大的电子商务引擎淘宝每天的全部搜索pv1亿上下。
1.2时效性
电子商务直接面向付款用户,必须快速的告诉用户最新最好的商品,时效性很重要,别是短期的打折卖场。国内电子商务引擎一般在5-30分钟内能够把最新的数据展现给用户,而国外的ebay则能够在1分钟内展示给用户。对比起来,大搜索引擎从理论上就无法解决新数据展示的问题,因为对于上亿的网站来说,大搜索蜘蛛爬行到某个特定网站需要一定的时间。大搜索引擎最多可以快速展示最近爬到的数据,但这个数据可能是上周更新的。
1.3蜘蛛系统
目前的淘宝和拍拍都没有正式公开的爬行商品数据的蜘蛛。但在大搜索引擎中,蜘蛛具

有极其重要的地位,因为上10万亿的url(还有更多的深网络url,如何爬行如何更新是一个很难的工程(百度只索引了sina的一部分数据,因为sina自己有上亿的页面)
淘宝和拍拍没有公开的爬行数据,一个主要的原因在于商品信息更新太快,30分钟内爬不到数据,数据就可能过期,这种情况在残酷的电子产品领域(3c类目)特别明显。
1.4搜索后台构架
搜索构架从20世纪90年代开始就几乎没有改变过。如果不考虑基础支撑结构(如物理结构,big-table等),仅从逻辑结构上面讲,无论是大搜索还是垂直搜索,大家采用的基本技术,基本构架都是完全一样的。
通用的搜索系统(本构架仅包含主要部分)
查询短语及条件
合并服务器文档系统
检索服务器检索服务器
索引系统
传统模式的实时系统(delta模式)
查询短语及条件
合并服务器
搜索系统A搜索系统B
同步
全量数据
最近几分钟数据

1.5功能性
大家经常为了解决一个问题,google上面搜寻好几天,N多的邮件组发求教邮件。但你在买东西的时候,不会去搜索好几天,如果找不到,你会换一家去找。毕竟无论是淘宝、拍拍还是京东、当当亦或是苏宁、国美、联想都是不错的选择。
大搜索提供的功能一般是短语搜索,外加一点简单的布尔搜索(如javaORc++ANDc#。在大搜索的高级功能里面,还会提供简单的过滤功能,如按照时间、数据类型、域等等。因为大搜索提供的功能太少,故人们经常会找不到想要的东西,如何搜索信息是一门很深的学问(小白用户能有10%的几率找到自己想要的东西就不错了!,君不见铺天盖地的都是教你如何查询信息的文章么?
电子商务搜索需要提供更加精确、更加舒适的服务。这类搜索努力的让用户在1次搜索+几次鼠标点击后,就能找到最适合的商品,并且下单付款。专业点说,就是缩短用户付款路径。无论是热门类目(即根据用户行为来判断词语和类目的亲和度),还是价格区间推荐(根据用户行为来划分同类商品),都是为这个目标服务。
2电子商务搜索技术2.1排序
排序分为很多种,典型的包括:综合分排序、销量排序、价格排序、信用排序、时间排序、人气排序等。其中,综合分的计算是一个很复杂的公式(类似大搜索的分数),包括几十个变量,如信用、销量、好评率、时间等。其他排序都是一个单维度排序。
对于国内用户来说,他们比较喜欢在买东西前和店主聊聊,故排序的时候,默认还会把在线的卖家排前。
大部分用户60%还是喜欢搜索引擎默认的排序,另外一部分更加成熟的用户20%会使用价格排序和信用排序。

2.2过滤
过滤技术和大搜索的过滤技术一样,都是把不满足要求的数据从结果里面剔除掉,只是电子商务搜索的过滤逻辑更加复杂一些。
2.3类目聚类、属性聚类
每个商品归属于一个分类,分类是一棵树状结构。在搜索的时候,把同类商品聚合起来,方便用户选择过滤。属性和分类逻辑上一样。
大搜索并没有提供聚类功能。
2.4类目优先

举例来说,用户在搜索“篮球”时,他希望买篮球,而不是篮球鞋,篮球框。独立理解用户意图很难,作为一种变通,我们采取群体智慧的策略。类目优先是通过分析大量用户行为,来确定短语和各个类目(分类)之间的关联度,接着在返回结果的时候,把关联度高的类目商品往前排。
2.5价格区间推荐
我们一直在谈论理解用户意图,但我们都知道理解用户意图很难很难,所以我们做的一切都是想用简单的策略来猜测用户意图。
和现实中一样,网上的商品也会因为适合人群不同而价格不同。价格区间推荐的主要目的就是想将商品划分成低端、中端和高端这3种类型,方便不同的用户进行选择。价格区间推荐的另外一个目标是过滤配件。这是因为配件比主件便宜,它一般会被划分在低端的价格段内。用户可以方便选择是想买配件还是主件。
2.6推荐搜索
推荐搜索有2个目的:帮用户选择短语以及修正用户的错误输入。推荐搜索不会苛刻要求用户,容忍用户有少量错误。

2.7图片打散
时尚人士在挑选服装的时候,主要关注的是样式,她们可不希望看到满页都是同一个流行款式。图片打散应运而生,它把看起来差不多的款式进行打散,避免搜索结果里面出现同一个款式。
3电子商务搜索发展方向
随着零售业巨头和各大生产厂商进入电子商务市场,这个领域的未来变得难以预测。
2
近的报告显示,沃尔玛在美国已经开始慢慢超越曾经的老大亚马逊。而亚马逊则是在几年前才超过了当时的老大ebay。就国内来说,亚马逊糟糕的域名和极低的知名度(就算收购了卓越也一样)导致它目前处在一个很尴尬的地位。沃尔玛也会和亚马逊一样在中国陷入泥潭,因为它的实体店没有特别广泛的分布在各个城市,并且域名又很不好拼写,不符合国人习惯。(域名的重要性路人皆知,比如凡客,奇怪的域名使得很多用户不得不去百度检索它的网址,部分有心人士还通过百度广告胁持它的网址)

在搜索方面,大搜索引擎当前的趋势仍然是内容理解311。今年Google收购了拥有领先图片分析技术的like.comGoogle已经从页面中提取了文章发表时间以及页面的图片快照等信息展示在搜索结果中。Bing很早就整合了powerset的语义理解技术,号称基于理解的搜索。Yahoo则是选择和bing合作,放弃自己的搜索核心技术(搞笑的是yahoo日本却和

google合作)电子商务搜索领域早就进化到理解图片的地步,包括基于图片的商品搜索101124
和基于图片特征的商品聚类/打散。
3.1容错性
随着电子商务深入大家的日常生活,更多的人倾向于网上购物,他们包括大量的老人和小孩。老人和小孩因为种种原因,在查询的时候,容易输入错误的短语,有时甚至明知自己输入错误,也没有办法更正。搜索引擎需要提供更加方便,更加专业的容错处理。

ebay错拼搜索系统17
3.2语义搜
最简单的一种搜索场景是这样的:对面一台电脑,你问他一个问题,他告诉你正确答案。理想的搜索引擎应该是根据用户输入的一串问句,给他想要的结果。这也就是常说的理解用户。然而实际上的搜索引擎并不是这样做的。普通搜索引擎会把用户的句子变成一个个孤立

的词语,去除毫无意义的词语(即stop词,如is/a,然后用这些词语去搜索系统的索引里面查找对应的数据,再根据词语的某些特性(如出现频率,如经典的df*idf,如pagerank和数据本身的特性计算数据和词语的相关度(即分值),最后根据相关度输出一个结果。这个处理过程本身并没有考虑用户的实际意图,仅仅是根据统计信息,给了用户一堆结果,用户自己不断的去尝试寻找想要的信息。

自然语言理解技术能够理解用户用文本描述的问题1819202122英文句式简单规范,基于语法树的句式分析已经比较成熟,结合基于领域的本体语义规则,可以做到一定程度的自然语言理解。中文则因为句式复杂,语素语义多义,导致针对它的自然语言理解发展缓慢。好在搜索引擎的用户有一定搜索习惯,并且电子商务也是一个很专业的领域,基于本体论的语义理解能够解决大部分用户的问题。
语义搜索的另外一个挑战是一词多义,人们必须通过上下文才能够理解词语意思。在电子商务领域,这个或许可以通过对用户的历史行为分析解决。
ebay早就推出了语义搜索的雏形。比如,搜索red24shoes时,能够被理解为:颜色是红色,长度是24寸的鞋子。
3.2图搜
最近淘宝收购了一家基于图片搜索的电子商务引擎(据说因为技术超过了百度,导致百度长年累积的技术老大的形象受到严重影响,百度也赶紧出来了一个“识图”,但只是个内测版本,现在已经公测了,网址:shitu.baidu.com,名字叫淘淘搜。它基于图片里面商品的轮廓、色彩等特征进行检索。在国际上,Like.com是的图片电子商务搜索的先行者,采用强大的图片分析技术,构建了好几个商品搜索引擎。
技术方面,国内对图片的研究仍然集中在积分变换领域,常见的是傅里叶变换和小波变换。对于炒的很火的分形分析,据说都是数学家的活,笔者没有胆量去看。淘宝和拍拍已经在使用图片分析的部分技术,包括看图购和图片打散。
3.3比价搜
比价搜索通过对成百上千电子商务网站进行爬行,给用户呈现同样商品在不同网站的价

格。在国外,比价搜索还算流行1314,就连googlebing都有自己的比价搜索。随着国内市场的成熟,越来越多的企业进入这个市场,比价搜索的前景更加乐观。
比价搜索有2个技术问题,一个是数据有效性和实时性,一个是统一支付。目前国内的很多b2c网站都太小,安全度不高,可信度不高,用户认可度很低。比价搜索在国内应该算刚刚起步。

3.4对老人、小孩、残疾人等的支持
随着中国逐步进入老年化国家,老人对网络的需求也会越来越大。老人因为年纪大,理功能退化,与这个社会发展脱节。他们心地善良,不计较得失。无论在美国,还是在中国,

都已经有了专门为老人设计的搜索引擎1516。在电子商务领域,我们也需要根据老人的特点,给他们提供更加简洁明了,最值得信任的结果。
现在的小孩都很早熟,他们很容易接受新思想新功能。他们对网上购物的便利很感兴趣。

但我们到目前为止,还没有一个专门针对小孩设计的电子商务搜索系统17。在电子商务网站上搜索某些词语的时候,仍然能够看到大量成人用品和明显假货/仿货充斥页面。小孩忠诚度很高(想想你的初恋,想想《仙剑》,谁能够给小孩提供更好的服务,谁可能就是将来的成功者。
另外,中国近1亿的残疾人显然不应该被排除在电子商务的浪潮之外。虽然在电子商务领域,还没有提供基于语音的全程体验,但已经有人开始研究这类技术了。
当前在技术上面的门槛仍然是支付问题,因为小孩老人残疾人等一般都很少有网上银行。
3.5个性化
根据用户的已有行为,对搜索结果进行重排,即为个性化搜索。现有的关联推荐(搜索一个词语,推荐另外一个;点击一个商品,推荐另外一个;首页推荐新商品等)是一种典型的个性化技术。在电子商务领域,个性化搜索的主要难点在于数据的收集。只有收集了足够的用户信息(如当下流行的社会化网络数据)才能提供更精确的个性化结果。当下,用户的购买行为过于稀疏(不够紧密),用户的社会化行为也很难获得。
将来的电子商务搜索,会针对不同的人返回不同的排序结果。如商务人士,看到的都是价格高品质好的商品;如学生,看到的都是物美价廉的商品;如佛教人士,看到的就没有成人类目的数据。
3.6移动设备支持
1999年开始,经常能够在各种场合看到人们议论说“明年是移动互联网年”只是在
12
最近的2年,随着智能手持设备的流行,移动互联网距离我们才越来越近。虽然移动设备还有最基础的问题没有解决(即电池),但从现在就开始考虑对移动互联网的支持,绝对明智。
在日韩等国家,基于手机的移动互联网(包括常见的大搜索、电子商务、gps定位)已经相当发达(虽然他们是基于sk等电信供应商一家独大的基础上)在中国的移动电子商务

领域,淘宝走在了前面,拍拍等网站正在奋起直追。国内的移动互联网本身还存在不少问题,比如网络费用太贵(导致的智能手机网费特别多)、手机上网用户低端化、需求单一化(主要是看小说),这些注定了国内的移动互联网还有很长一段路才能成熟。
参考:
1】大搜索引擎排行:
http://www.comscore.com/Press_Events/Press_Releases/2010/11/comScore_Releases_October_2010_U.S._Search_Engine_Rankings22010年搜索排行:
http://searchenginewatch.com/3641604
3】搜索会怎么发展,系列对话文章(employeefromyahoo,google,binghttp://searchengineland.com/author/gord-hotchkiss/
4】印度搜索引擎市场报告:
http://www.reformdigital.com/blog/search-engine-marketing-in-india5】韩国搜索引擎市场报告:
http://www.reformdigital.com/blog/korea-search-marketing
6】俄罗斯搜索引擎市场报告:
http://www.reformdigital.com/blog/search-engine-market-review-issue-2-russia7】所有搜索引擎:
http://en.wikipedia.org/wiki/List_of_search_engines
87个最好的语义搜索引擎:
http://www.makeuseof.com/tag/top-7-semantic-search-engines-alternative-google-search/9Ebay错拼搜索:
http://www.bargainchecker.com/
10】基于人脸的搜索引擎:
http://www.makeuseof.com/tag/3-fascinating-search-engines-search-faces/11】最早的电子商务图片搜索(like.comhttp://www.like.com/12】手机电子商务:http://www.slifter.com/pc/

13】比价搜索网站集合:
http://searchenginewatch.com/2156331#articles14】国外比价搜索:
http://www.superstoresearch.comhttp://www.bizrate.com
http://www.google.com/productshttp://cn.bing.com/shoppinghttp://www.dealtime.com/http://www.kelkoo.co.uk/
15】百度老年搜索:
http://www.baidu.com/search/laonian/help.html16】第一个老人搜索:http://www.cranky.com17】小孩搜索引擎:http://www.askkids.com
18Wordnethttp://wordnet.princeton.edu/19】知网:http://www.keenage.com/20Hnchttp://www.hncnlp.com/
21】中科院开放平台:http://www.nlp.org.cn/docs/doclist.php22】北大中文论坛:http://www.pkucn.com/23】拍拍电子商务网站:拍拍主站:www.paipai.com商城:shop.qq.com
24】淘宝电子商务网站:淘宝主站:www.taobao.com手机站点:wap.taobao.com淘宝商城:www.tmall.com淘日本:www.taojapan.com一淘大搜索:www.etao.com嗨淘:www.hitao.com淘淘搜(图片搜索)www.taotaosou.com

免费下载 Word文档免费下载: (2010)电子商务搜索引擎技术综述

  • 29.8

    ¥45 每天只需1.0元
    1个月 推荐
  • 9.9

    ¥15
    1天
  • 59.8

    ¥90
    3个月

选择支付方式

  • 微信付款
郑重提醒:支付后,系统自动为您完成注册

请使用微信扫码支付(元)

订单号:
支付后,系统自动为您完成注册
遇到问题请联系 在线客服

常用手机号:
用于找回密码
图片验证码:
看不清?点击更换
短信验证码:
新密码:
 
绑定后可用手机号登录
请不要关闭本页面,支付完成后请点击【支付完成】按钮
遇到问题请联系 在线客服