搜狗搜索日志分析

栏目:游戏资讯  时间:2023-08-15
手机版

  本文利用搜狗搜索日志的500w条数据,对搜索日志进行了一系列的分析。主要分为两个阶段,第一阶段是数据准备、数据预处理和数据加载阶段,第二阶段为分析阶段。

  第一阶段首先下载数据,并在自己电脑上安装好实验所需的环境,然后通过数据扩展和数据过滤对原数据进行预处理,得到含有单独年、月、日、小时等字段且关键词和UID不为空的数据,最后将数据加载到HDFS上,并在Hive上创建数据库和数据表,将过滤后的数据灌入Hive中对应的表中,因而后续便可以通过在Hive中执行SQL语句对日志数据进行查询分析。

  第二阶段为分析阶段,也分为两部分,一部分是单维度的数据描述性分析,另一部分时多维度的用户行为分析。在单维度的数据描述行分析中,分别针对总的条数、时间、关键词、UID、URL、RANK等单个的字段进行描述统计,例如对每个时间段的查询条数、关键词搜索排行榜、UID搜索排行榜、URL搜索排行榜等进行了查询统计,从而对数据有了一个大概的全局的把握;在多维度的用户行为分析中,以查询最多的用户、点击最多的网址、指定的关键词等为切入点进行深入的用户行为分析,例如在对查询最多的用户的用户行为分析中,通过其搜索的关键词及其频次,得到其目前的兴趣点等,通过其在每个时段的搜索次数,得到其大致的时间行为规律,这对于理解用户行为,描述用户画像,从而定向地针对性地进行广告推荐都是有一定的意义的。

  Cloudera QuickStart VM将包含所需的所有内容,例如CDH,Cloudera Manager,Cloudera Impala和Cloudera Search等,还包括教程,示例数据和入门脚本。Cloudera QuickStart虚拟机(单节点集群)可以轻松快速地进行CDH实验,以便进行测试,演示和自学,并包括Cloudera Manager以管理您的集群。

  本文的使用的Cloudera QuickStart VM的版本是:

  Cloudera-quickstart-vm-5.5.0-0-virtualbox

  操作系统:Red Hat (64 bit)

  内存大小:4096MB

  处理器:2

  所使用的virtualbox的版本是:VirtualBox-4.3.12-93733-Win

  Cloudera QuickStart VM开启后的截图如下:

   

  Hive查询操作页面截图如下:

  

  本文选取搜狗实验室提供的搜狗搜索日志数据,共计五百万条,每一行为一条记录,每条记录基本上含有ts、uid、rank、order、url等字段,字段的具体意义如表1所示。

  表1 搜索日志中的内容

  名称

  内容

  ts

  用户点击发生时的日期时间

  uid

  由系统自动分配的用户识别号

  rank

  该URL在返回结果中的排名

  order

  用户点击的顺序号

  url

  用户点击的URL

  其中,UID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户识别号。

  将原数据中包含时间的字段拆分并拼接,添加年、月、日、小时字段,以便后续在HDFS中进行分块存储。分割时间字段的shell脚本sogou-log-extend.sh的具体代码如下:

  #!/bin/bash

  infile=$1

  outfile=$2

  awk -F ' ' '{print $0" "substr($1,0,4)" "substr($1,4,2)" "

  substr($1,6,2)" "substr($1,8,2)}' $infile > $outfile

  在终端执行此shell脚本:

  [cloudera@quickstart ~]$ bash /home/cloudera/sogou-log-extend.sh /home

  /cloudera/500w/sogou.500w.utf8 /home/cloudera/500w/sogou.500w.utf8.ext

  则sogou.500w.utf8.ext文件即为在原数据的基础上添加年、月、日、小时字段的文件。

  完成数据扩展后,然后过滤UID和keyword字段为空的记录。数据过滤的shell脚本sogou-log-filter.sh的具体代码如下:

  #!/bin/bash

  infile=$1

  outfile=$2

  awk -F " " '{if($2 != "" && $3 != "" && $2 != " " && $3 != " ") print $0}' $infile > $outfile

  在终端执行此shell脚本:

  [cloudera@quickstart ~]$ bash /home/cloudera/sogou-log-filter.sh /home

  /cloudera/500w/sogou.500w.utf8.ext /home/cloudera/500w/sogou.500w.utf8.

  flt

  则sogou.500w.utf8.flt即为过滤后的数据文件。

  将原数据文件sogou.500w.utf8和过滤后的数据文件sogou.500w.utf8.flt加载到HDFS上。在系统终端执行如下代码:

  hadoop fs -mkdir -p /sogou/20111230

  hadoop fs -put http://t.zoukankan.com/sogou.500w.utf8 /sogou/20111230

  hadoop fs -mkdir -p /sogou_ext/20111230

  hadoop fs -put http://t.zoukankan.com/sogou.500w.utf8.flt /sogou_ext/20111230

  由此,已将数据加载到HDFS系统中,然后在Hive上创建日志数据的数据表。

  首先在终端启动hive,在hive环境下创建数据库sogou:

  hive> create database sogou;

  hive> use sogou;

  然后,创建扩展4个字段(year, month, day, hour)数据的外部表:

  hive> CREATE EXTERNAL TABLE sogou.sogou_ext_20111230(

  > ts STRING,

  > uid STRING,

  > keyword STRING,

  > rank INT,

  > order INT,

  > url STRING,

  > year INT,

  > month INT,

  > day INT,

  > hour INT

  > )

  > COMMENT 'This is the sogou search data of extend data'

  > ROW FORMAT DELIMITED

  > FIELDS TERMINATED BY ' '

  > STORED AS TEXTFILE

  > LOCATION '/sogou_ext/20111230';

  创建带分区的表:

  hive> CREATE EXTERNAL TABLE sogou.sogou_partition(

  > ts STRING,

  > uid STRING,

  > keyword STRING,

  > rank INT,

  > order INT,

  > url STRING

  > )

  > COMMENT 'This is the sogou search data by partition'

  > partitioned by (

  > year INT,

  > month INT,

  > day INT,

  > hour INT

  > )

  > ROW FORMAT DELIMITED

  > FIELDS TERMINATED BY ' '

  > STORED AS TEXTFILE;

  最后,把HDFS中的数据灌入到刚刚创建的表中:

  hive> set hive.exec.dynamic.partition.mode=nonstrict;

  hive> INSERT OVERWRITE TABLE sogou.sogou_partition PARTITION(year,month,

  day,hour) select * from sogou.sogou_ext_20111230;

  到现在为止,已把经过预处理的数据加载到hive中,后续便可以在hive中执行SQL语句进行查询分析。

  查看前10条数据:

  hive> select * from sogou.sogou_ext_20111230 limit 10;

   

  前10条数据的具体信息如下:

  

  查询数据的总条数:

  hive> select count(*) from sogou.sogou_ext_20111230;

  查询非空查询条数:

  hive> select count(*) from sogou.sogou_ext_20111230 where keyword is not null and keyword !="';

   

  查询无重复总条数(根据ts、uid、keyword、url)

  hive> select count(*) from (select ts,uid,keyword,url,count(*) as cnt from sogou.sogou_ext_20111230 group by ts,uid,keyword,url) a where a.cnt==1;

   

  查询UID唯一的条数:

  hive> select count(distinct(uid)) from sogou.sogou_ext_20111230;

   

  可知,(a) 本数据文件中共包含500万条数据;

  (b) 非空查询条数为5000000条,即所有的数据的keyword都不为空;

  (c) 以ts、uid、keyword、url字段作为判断记录是否重复的标准,得到的无重复总条数为4998321条;

  (d) UID唯一的条数共有1352664条,即在此段时间内共有1352664个用户进行来搜狗搜索。

  查询每个时间段查询的条数:

  hive> select year,month,day,hour,count(*) as cnt from

   sogou.sogou_ext_20111230 group by year,month,day,hour order by

   year,month,day,hour;

  得到的结果如下:

  time

  cnt

  time

  cnt

  2011123000

  90752

  2011123017

  289648

  2011123001

  65702

  2011123018

  295207

  2011123002

  45880

  2011123019

  340115

  2011123003

  34242

  2011123020

  353099

  2011123004

  27922

  2011123021

  328949

  2011123005

  28213

  2011123022

  270842

  2011123006

  32988

  2011123023

  194554

  2011123007

  52832

  2011123100

  64

  2011123008

  165616

  2011123101

  5

  2011123009

  279104

  2011123102

  1

  2011123010

  315973

  2011123103

  2

  2011123011

  276103

  2011123104

  2

  2011123012

  274234

  2011123106

  3

  2011123013

  295936

  2011123109

  1

  2011123014

  306242

  2011123116

  2

  2011123015

  318645

  2011123120

  2

  2011123016

  317120    

  根据上面的得到的数据,绘制2011年12月30日这一天各时间段的查询条数的条形图如下:

  

  可知,(a) 2011年12月30日这一天中共有4999918条,而2011年12月31日仅有82条,可能本数据集中采集的12月31日的数据不全;

  (b) 在2011年12月30日这一天中,0-4时的的查询次数逐渐减少,到4时达到最低,然后慢慢上升,特别在7-9时的增加特别显著,到9-10时逐渐趋于稳定,每个小时大概有300000次查询,到21时后查询次数开始减少。基本符合人们的作息时间;

  (c) 在查询次数稳定的时间段内,即9-21时,中间有两次低谷,分别在11-12、17-18,这可能是因为此时间段是人们的中饭、晚饭时间,所以表现出查询次数的略微减少。

  查询关键词的长度指的是用户提交的查询中包含几个词语或字(用空格隔开的)。

  查询关键词的平均长度:

  hive> select avg(a.cnt) from (select size(split(keyword,"s+')) as cnt from sogou. sogou_ext_20111230) a;

  可知查询关键词的平均长度为1.0869984,这说明用户输入的查询通常比较短,这也意味着中文搜索引擎得到的用户需求信息更少,需要对用户需求有更多的分析和经验,才能更加准确地返回用户需求的信息。

  查询关键词各长度的条数:

  hive> select a.cnt,count(*) as total from( select uid,size(split(keyword,

  's+')) as cnt from sogou.sogou_ext_20111230) a group by a.cnt order by a.cnt;

  得到的结果如下:

  a.cnt

  total

  a.cnt

  total

  a.cnt

  total

  1

  4672047

  11

  175

  21

  10

  2

  260746

  12

  125

  22

  6

  3

  48424

  13

  82

  23

  11

  4

  11359

  14

  50

  26

  14

  5

  3288

  15

  38

  27

  3

  6

  1522

  16

  33

  31

  6

  7

  859

  17

  24

  32

  3

  8

  506

  18

  41

  36

  1

  9

  328

  19

  8

  45

  1

  10

  263

  20

  27

   

   

  图表表示如下:

  

  可知,(a) 查询关键词的长度最短为1个词,最长为45个词;

  (b) 关键词长度为1的条数为4672047条,关键词长度为2的条数为260746,关键词长度为3的条数为48424,关键词长度为4的条数为11359条,关键词长度为5的条数为3288,关键词长度为6的条数为1522,而关键词长度大于6的条数低于1000条,关键词长度大于12的条数低于100条,关键词长度为36、45的条数仅为1条;

  (c) 查询关键词长度为1的条数占总查询条数的93.44%,查询关键词长度为2的条数占5.21%,即查询关键词的长度小于等于2的条数为98.65%,几乎占据了所有的查询条数,这也再次说明了用户的查询关键词长度一般为1-2个词,与上面得到的查询关键词平均长度为1.087相符;

  (d) 从图中也可以看出,关键词长度为1的条数远大于关键词长度为2的条数,可知,大多数查询还是只用一个关键词。

  查询查询频度最高的前1000词:

  hive> select keyword,count(*) as cnt from sogou.sogou_ext_20111230 group by keyword order by cnt desc limit 1000;

  得到的部分结果如下(截取前50):

  keyword

  cnt

  keyword

  cnt

  百度

  38441

  龙门飞甲

  3917

  baidu

  18312

  qq个性签名

  3880

  人体艺术

  14475

  张去死

  3848

  4399小游戏

  11438

  cf官网

  3729

  qq空间

  10317

  凰图腾

  3632

  优酷

  10158

  快播

  3423

  新亮剑

  9654

  金陵十三钗

  3349

  馆陶县县长闫宁的父亲

  9127

  吞噬星空

  3330

  公安卖萌

  8192

  dnf官网

  3303

  百度一下 你就知道

  7505

  武动乾坤

  3232

  百度一下

  7104

  新亮剑全集

  3210

  4399

  7041

  电影

  3155

  魏特琳

  6665

  优酷网

  3115

  qq网名

  6149

  两次才处决美女罪犯

  3106

  7k7k小游戏

  5985

  电影天堂

  3028

  黑狐

  5610

  土豆网

  2969

  儿子与母亲不正当关系

  5496

  qq分组

  2940

  新浪微博

  5369

  全国各省最低工资标准

  2872

  李宇春体

  5310

  清代姚明

  2784

  新疆暴徒被击毙图片

  4997

  youku

  2783

  hao123

  4834

  争产案

  2755

  123

  4829

  dnf

  2686

  4399洛克王国

  4112

  12306

  2682

  qq头像

  4085

  身份证号码大全

  2680

  nba

  4027

  火影忍者

  2604

  将查询频度最高的前1000词用词云可视化如下:

  

  可知,(a) 用户搜索百度时最常用的关键词时“百度”,共有38441条,其他的还有“baidu”、“百度一下”、“百度一下 你就知道”也比较常用,其中“百度一下”和“百度一下 你就知道”用作关键词的频次差不多。这几种关键词加起来共有71362条,说明百度时人们搜索东西时的首选的搜索引擎;

  (b) 从关键词前50来看,4399游戏分别以“4399小游戏”关键词出现了11438条、“4399” 关键词出现了7041条、“4399 洛克王国” 关键词出现了4112条,可见,目前4399是比较受欢迎的小游戏网站,特别是“洛克王国”这个小游戏更是受欢迎;

  (c) 从关键词前50来看,优酷网站分别以“优酷”关键词出现了10158条,“优酷网”关键词出现了3115次,“youku”关键词出现了2783次,可见,目前优酷时比较受欢迎的视频网站;

  (d) 从关键词前50来看,目前大众比较关注的新闻热点时“馆陶县县长闫宁的父亲”、“新疆暴徒被击毙图片”等;

  (e) 从关键词前50来看,目前大众比较关注的电视剧或电影是“新亮剑”、“龙门飞甲”、“凰图腾”、“金陵十三钗”等。

  UID平均查询次数:

  hive> select sum(a.cnt)/count(a.uid) from (select uid,count(*) as cnt from sogou.sogou_ext_20111230 group by uid) a;

   

  可知,一个UID的平均查询次数为3.6964094557111005次。

   

  查询1次、2次、3次、大于3次的UID个数:

  hive> select SUM(IF(uids.cnt=1,1,0)),SUM(IF(uids.cnt=2,1,0)),

  SUM(IF(uids.cnt=3,1,0)),SUM(IF(uids.cnt>3,1,0)) from (select uid,count(*) as cnt from sogou.sogou_ext_20111230 group by uid) uids;

   

  则可知,(a) 查询次数为1次的用户总数为549148,查询次数为2次的用户总数为257163,查询次数为3次的用户总数为149562,查询次数大于3次的用户总数为396791。

  (b) 查询次数大于2次的用户总数为149562+396791=546353,且占比为546353/(549148+257163+149562+396791) = 546353/1352664=0.4039,这意味着有40.39%的用户的搜索次数大于2次,而有一半多的用户都仅进行了1-2次的搜索行为。

  用户搜索次数排行榜:

  hive> select uid,count(*) as total from sogou.sogou_ext_20111230 group by uid order by total desc limit 50;

   

  uid

  total

  uid

  total

  02a8557754445a9b1b22a37b40d6db38

  11528

  7b634a16c60058536990c0c55c79eb42

  340

  cc7063efc64510c20bcdd604e12a3b26

  2571

  6a7d4670dd26d878e12b2c048c280648

  337

  9faa09e57c277063e6eb70d178df8529

  2226

  fb3b5f51387932c8996baca6abd54921

  337

  7a28a70fe4aaff6c35f8517613fb5c67

  1292

  13140b934a265e8967344050a4d6ddca

  322

  b1e371de5729cdda9270b7ad09484c4f

  1277

  a519967011de16ee5f1aa257f25271b9

  313

  c72ce1164bcd263ba1f69292abdfdf7c

  1120

  779752cf3d115b126f33d2dab9a1351a

  312

  2e89e70371147e04dd04d498081b9f61

  837

  e6e112274223c10e22fd7a117c6b1b60

  312

  06c7d0a3e459cab90acab6996b9d6bed

  720

  efcfeccce2328288693568905be5ebfd

  298

  b3c94c37fb154d46c30a360c7941ff7e

  676

  f3075aeb9962db17cea21b14797ee19b

  289

  beb8a029d374d9599e987ede4cf31111

  676

  b9095a863d4d1a8bd16d4977c4ee9e7b

  289

  f41fd2711156d4b255f2dcf236d6bb39

  641

  2b4d3ef902df2dc0ac6993460075384b

  288

  c65b26d0ceb14896ad901d3c4265e23d

  590

  02eb52814598699374d8a8e60796415c

  288

  5342261d204710ccaabd3425bc1c5c2c

  502

  3330efbf34dd148f14a02e0e7bf8032a

  286

  d53f50eeda326b5ac64c8782c9935f1b

  480

  f2941355b9bd97ba9cd6f1fb1f31079e

  286

  910c5227f0d2ffd870e5b7a9ade789c6

  477

  ffadcf2db46dc5fc9d7787656ebd7aa4

  283

  91e62d9148c8d9f71110a4248176a769

  472

  a9c13627ae747fffc1f1d5d4c08d1fba

  279

  deff5f2f6b0dd83d6c0609f0ac5a77b3

  464

  6056710d9eafa569ddc800fe24643051

  277

  1cf709c4444193f4e4f4f8704ec0ef48

  458

  120f417c9fbc95e6d95ebd3faf89a05e

  276

  91de518dad55cd180bba4f1be54c470b

  429

  e6a6f8003b3c768e6d13be4b4fed97bb

  275

  4f38c9cc4b139f69722a1afd95053105

  425

  ee3649c13d209ab84d474c812c680082

  272

  0d56cf20da81670adf923373d50b7dbc

  422

  4fb363d1939017db6cd9e8406e6528e0

  270

  1fbbbcd2587944e60d0dcd4ccac76a78

  420

  637b29b47fed3853e117aa7009a4b621

  266

  b4251b30f49e932818bcebf6e15aa9c7

  394

  d60806329cb0e4383d52f6753cef98b4

  259

  955c6390c02797b3558ba223b8201915

  391

  ba64758bfc5ca184c143d1344da7323a

  257

  8a5bdb441ad0fa41599caf0c3dbdde9e

  388

  0422c6b3504addf0e90bd6835285f2b9

  251

   

  可知,(a) 查询次数最多的UID为02a8557754445a9b1b22a37b40d6db38,查询了11528次;

  (b) 查询次数最多的用户查询了11528次,查询次数第二的用户查询了2571次,查询次数第三的用户查询了2226次,查询次数第四的用户查询了1292次,查询次数第五的用户查询了1277次,查询次数第六的用户查询了1120次,其他的用户均小于1000次;

  (c) 查询次数最多的用户的查询次数远远大于查询次数第二的用户;

  (d) 从查询次数第15的用户开始,用户间查询次数的差别不大,基本保持在10以内的差别;

  url点击排行榜:

  hive> select url,count(*) as cnt from sogou.sogou_ext_20111230 group by url order by cnt desc limit 50;

  得到的结果如下:

  url

  cnt

  url

  cnt

  http://www.baidu.com/

  73737

  http://10086.cn/service/

  3559

  http://www.4399.com/

  19015

  http://www.qiyi.com/

  3441

  http://www.hao123.com/

  14338

  http://sfz.8684.cn/

  3408

  http://www.youku.com/

  14086

  http://www.12306.cn/mormhweb/

  3401

  http://qzone.qq.com/

  12920

  http://www.ccb.com/

  3342

  http://www.7k7k.com/

  8326

  http://dzh.mop.com/whbm/20111230/0/FgSO8zI2887052Fz.shtml

  3295

  http://weibo.com/

  7547

  http://tv.sogou.com/series/wxt4vu5644qlxs6nxtgnu.html?p=40230600

  3275

  http://cf.qq.com/

  7544

  http://www.qzone.cc/gexing/qian/

  3262

  http://www.xixiwg.com/

  7043

  http://www.jprenti.com/

  3199

  http://www.12306.cn/

  6961

  http://www.10010.com/

  3136

  http://dnf.qq.com/

  6835

  http://site.baidu.com/

  3126

  http://bbs1.people.com.cn/postDetail.do?id=112546724

  6325

  http://news.ifeng.com/mainland/special/hetianpaichusuozaoxi/content-3/detail_2011_07/20/7804125_0.shtml

  3104

  http://www.a67.com/

  6048

  http://www.dytt8.net/

  3087

  http://www.qqwangming.org/

  6004

  http://www.nbtxt.com/detail/12477/

  2942

  http://tv.sogou.com/series/wxt4vu5644qnbqwbyg62g.html?p=40230600

  5508

  http://www.icbc.com.cn/

  2838

  http://www.tudou.com/

  5444

  http://tv.youku.com/

  2821

  http://www.zhibo8.com/

  4930

  http://www.qzone6.com/

  2785

  http://www.taobao.com/

  4928

  http://cf.qq.com/act/a20111109happy/new.htm

  2670

  http://tv.sogou.com/series/wxt4vu5644qlvwv27q.html?p=40230600

  4589

  http://mail.163.com/

  2647

  http://www.4399.com/flash/32979aa.htm

  4128

  http://www.qzone.cc/gexing/name/

  2620

  http://www.qqgexing.com/

  4062

  http://www.sina.com.cn/

  2606

  http://tv.sogou.com/movie/wxt5hmbaxxymd2wkv3ep33wo.html?p=40230600

  3847

  http://mail.qq.com/

  2605

  http://movie.youku.com/

  3817

  http://sports.sina.com.cn/nba/

  2558

  http://www.5173.com/

  3748

  http://tv.sogou.com/movie/wxt5hmbazkt4dnndwor3hthm.html?p=40230600

  2507

  http://baike.baidu.com/view/2414016.htm

  3724

  http://10086.cn/

  2491

  可知,(a) 用户最后选中url为百度网站的条数为73737条,与在关键词分析中得到的所有查询百度关键词的条数71362条基本吻合,这可能是因为在关键词分析中除了前50中出现的用户在搜索百度网站时用到的关键词外,还有少量用户用了一些少见的关键词来搜索;

  (b) 用户最后选中url为4399小游戏网站的条数为19015条,这与在关键词分析中得到的以“4399小游戏”关键词出现了11438条、“4399” 关键词出现了7041条,共18479条的数据基本吻合。此外,7k7k小游戏的url点击次数为此类网站第二,为8326次,可能是其潜在的竞争对手;

  (c) 用户最后选中url为优酷网站的条数为14086条,居此类网站第一,这意味着优酷网站基本上是人们看视频的首选网站;

  (d) 此外,人们常用的网站还有qq空间、微博、12306、淘宝等。

  直接输入URL作为查询词的条数:

  hive> select count(*) from sogou.sogou_ext_20111230 where keyword  like "%www%';

  直接输入URL的查询中,点击的结果就是用户输入的URL的网址的条数:

  hive> select SUM(IF(instr(url,keyword)>0,1,0)) from (select * from

   sogou.sogou_ext_20111230 where keyword  like '%www%') a;

   

  可知,(a) 直接输入URL作为查询词的条数为73979条,占总记录的1.48%;

  (b) 直接输入URL的查询中,点击的结果就是用户输入的URL的网址的条数为27561条,占37.26%,从这个比例可以看出,很大一部分用户提交含有URL的查询是由于没有记全网址等原因而想借助搜索引擎来找到自己想浏览的网页。因此搜索引擎在处理这部分查询的时候,一个可能比较理想的方式是首先把相关的完整URL地址返回给用户,这样有较大可能符合用户的查询需求。

  Rank在10以内的条数:

  hive> select count(*) from sogou.sogou_ext_20111230 where rank < 11;

  由得到的结果可知,Rank在10以内的条数为4999869,占总记录的99.997%。这意味着用户在搜索时常常只翻看搜索引擎返回结果的前10个结果,即返回结果页面的第一页。这个用户行为决定了尽管搜索引擎返回的结果数目十分庞大,但真正可能被绝大部分用户所浏览的,只有排在最前面的很小一部分而已。所以传统的基于整个结果集合查准率和查全率的评价方式不再适用于网络信息检索的评价,我们需要着重强调在评价指标中有关最靠前结果文档与用户查询需求的相关度的部分。

  由UID分析部分的结果可知,在2011年12月30日这一天中查询次数最多的用户是02a8557754445a9b1b22a37b40d6db38,下面来具体分析其用户行为。

  查看用户02a8557754445a9b1b22a37b40d6db38所查询的关键词及其频次:

  select keyword,count(*) as cnt from sogou.sogou_ext_20111230  where

   uid='02a8557754445a9b1b22a37b40d6db38' group by keyword order by cnt

   desc;

  得到的部分结果为(频次最高前50):

  keyword

  cnt

  keyword

  cnt

  幼交小说

  41

  baidu

  11

  我和草原有个约定广场舞

  37

  小说下载 txt 电子书 免费下载

  11

  伦理快播

  36

  cf官网

  11

  遮天

  29

  五菱荣光商务车报价

  11

  保险公司的内勤都是靠关系才能进的吗

  28

  沙特女人吃饭

  11

  联想u260 二手

  25

  601106

  11

  新亮剑

  24

  2012年会搞笑创意节目

  10

  百度

  24

  154四肖

  10

  人体艺术

  23

  韩金军

  10

  qq头像

  20

  芭比公主

  10

  E52如何用灵图9

  17

  赛尔号

  10

  宁夏金源伟业科技有限公司

  17

  网上订火车票

  10

  qq空间

  17

  低保证明怎么写

  10

  优酷

  16

  1683168

  10

  快播

  15

  qq网名

  10

  后宫甄嬛传

  13

  4399洛克王国

  10

  钱多多嫁人记

  13

  中国移动

  10

  酒店工程部个人工作计划

  13

  cf

  10

  沙特女人

  13

  大魔头

  10

  新浪微博

  12

  天目湖旅游度假区开发与水环境保护

  9

  凰图腾

  12

  4399

  9

  http://72dnc.com

  11

  理赔内勤

  9

  龙门飞甲

  11

  雪豹

  9

  金陵十三钗

  11

  玛哈嘎拉图片

  9

  百度一下 你就知道

  11

  三国杀

  9

  将查询次数大于等于5的关键词可视化为词云如下:

   

  可见,(a) 此用户近段时间比较感兴趣的广场舞是“我和草原有个约定”;

  (b) 此用户近段时间可能有意向找保险公司内勤类的工作;

  (c) 从词云上可以看出,此用户比较喜欢用长度较长的词语作为关键词进行搜索行为;

  查看用户02a8557754445a9b1b22a37b40d6db38在2011年12月30日这一天的各时间段内的查询次数:

   

  select hour,count(*) as cnt from sogou.sogou_ext_20111230  where

   uid="02a8557754445a9b1b22a37b40d6db38' group by hour order by hour

   desc;

  得到的结果如下:

  hour

  cnt

  hour

  cnt

  0

  239

  12

  638

  1

  186

  13

  663

  2

  62

  14

  661

  3

  44

  15

  723

  4

  29

  16

  753

  5

  40

  17

  697

  6

  49

  18

  711

  7

  90

  19

  892

  8

  308

  20

  885

  9

  529

  21

  887

  10

  591

  22

  740

  11

  610

  23

  501

   

  可见,(a) 用户在3-7时处于搜索行为的低谷期,基本维持在每小时40条左右的搜索量;

  (b) 用户在8时、9时的搜索增长速率最大,之后在16时之前保持稳步上升;

  (c) 用户在17时和18时的搜索量出现局部最低,可能时用户的晚饭时间,因而搜索量减少;

  (d) 用户在19-21时的搜索量达到一天中的最高峰,用户搜索行为最活跃,可考虑在此时段投放推荐广告等。

  由URL分析部分的结果可知,在2011年12月30日这一天中点击次数最多的网站是http://www.baidu.com/,下面来进行具体分析。

   

  查看用户点击http://www.baidu.com/所用的搜索关键词及其计数:

  hive> select keyword,count(*) as cnt from sogou.sogou_ext_20111230 where url="http://www.baidu.com/" group by keyword order by cnt desc;

  得到的结果如下:

  keyword

  cnt

  keyword

  cnt

  百度

  35498

  百度网

  48

  baidu

  17560

  baibu

  45

  百度一下 你就知道

  6880

  badu百度

  41

  百度一下

  6673

  baudu

  39

  www.baidu.com

  1446

  baudu百度

  39

  BAIDU

  794

  www。百度

  39

  bdu百度一下

  256

  baud百度一下

  36

  百度 一下 你就知道

  247

  百度一下,你就知道

  36

  baid

  220

  beidu

  34

  bai

  177

  baiud

  32

  www

  160

  baidu]

  31

  百度首页

  160

  bai du

  31

  百

  156

  badu

  30

  白度

  121

  百度地图

  30

  www。baidu.com

  107

  baiu

  30

  www.baidu

  106

  www。baidu

  28

  百度、

  94

  wwwbaiducom

  26

  摆渡 百度一下

  94

  bidu

  26

  百度 一下

  93

  about:百度

  25

  baidu

  87

  百度一下首页

  25

  www。baidu。com

  86

  baidui

  25

  搜索 baidu

  82

  baiducom

  24

  搜索 百度

  61

  百度知道

  23

  baodu

  61

  baiduyixia

  22

  摆渡

  53

  百度。com

  22

   

  可见,用户在搜索一个网站时可能出现各式各样的搜索关键词,因而模糊匹配到用户想要的网站很重要,建议模糊匹配频次较高的搜索词。

  查询点击http://www.baidu.com/各个时间段的条数:

   

  hive> select hour,count(*) as cnt from sogou.sogou_ext_20111230 where url="http://www.baidu.com/" group by hour order hour;

  hour

  cnt

  hour

  cnt

  0

  1588

  12

  3986

  1

  1428

  13

  4297

  2

  1146

  14

  4569

  3

  989

  15

  4626

  4

  788

  16

  4741

  5

  795

  17

  4438

  6

  717

  18

  4732

  7

  699

  19

  4962

  8

  2038

  20

  4918

  9

  3367

  21

  4461

  10

  3995

  22

  3800

  11

  3695

  23

  2962

   

  可见,搜索百度网站的在时间上的分布基本上与所有搜索行为在时间上的分布大概一致,这也从侧面说明了百度为人们广泛应用。

  查询搜索过“仙剑奇侠传”的uid:

  hive> select uid,count(*) as cnt from sogou.sogou_ext_20111230  where keyword="仙剑奇侠传' group by uid order by cnt desc;

  得到的结果如下:

  uid

  cnt

  uid

  cnt

  653d48aa356d5111ac0e59f9fe736429

  6

  3bc04a0444c08239fca551ad95ca08ae

  1

  e11c6273e337c1d1032229f1b2321a75

  5

  3c9a09e25828ca7fa441c9ef16c66a80

  1

  4d1af2d521b2e72978a68815087dd550

  3

  45e623de82433688a756275af9be61cc

  1

  ab90b6700c0f205c520f07e4cc1d7b96

  3

  50152c1874febb5c7b81075b6437fae0

  1

  2b71bae0c544d0049be8b2bde01b795f

  3

  51815c0afe0237b8c43f8aa12011a60a

  1

  81f26b22a6e52f14c40647c25feb269c

  3

  5dbe046d05d4397adb2d8dda0b421773

  1

  82bf38b33596975e1511b8c1f9519644

  3

  a296f675947f027625f1a4d60ae67e23

  1

  ba64758bfc5ca184c143d1344da7323a

  3

  bc615ad74bc05647e59f46ab4da92af6

  1

  6901e38fa48949c6e3450c1042dc0c73

  3

  dc953c98270ec152dbdae786160c6a2e

  1

  02f1e94feaa001f5a19d6d97a5f25f9f

  2

  fb570c116c556ddb3d712142bcd652b2

  1

  0ee5179ff89b568dbce2c73136c535c5

  2

  0d84be52ca3783cd87ac9e9b04e200c6

  1

  1e57f18af1d9b646c8a003f66720aaa5

  2

  3b5295a9c7dc63d10a235bab9c04995b

  1

  2ae3984c3f82650b6c0189e6763be408

  2

  3fcf0f637c1e97445ae53d0813274771

  1

  80b65ac2d2f993af78e5484c766e4119

  2

  5da853c2fa6535b2a03382afd493a4d7

  1

  99313ba2ea15907e0a8f335c6d74f314

  2

  7b61cc65359eef75581b86f766a644dd

  1

  a4f3dbfb256bd25c7e58a1b030c8d95d

  2

  84724ec293a70aeff25c5983141ea52d

  1

  ad5cfe784c8aa492eb57c4db6a932ad0

  2

  b05e49b63ca201549b53a7b7be6b22cb

  1

  b4b379f3719ce038655c2e816a4542d4

  2

  b4b0b57023f41c9c232af15feec897aa

  1

  ea7d6638294045636fcf92c161d51050

  2

  c78d90abb6d97eef073e70c8ad143a35

  1

  17533946097b22f09e67741b5f84a8c6

  2

  ecdb9ff3f0046824d8ff90da47e6bcb0

  1

  785934a66a53fbe6bc135275283868c1

  2

  f231ab96f2bf7c18f527506ecc5ee1a7

  1

  908dd24c58050e2e3f0b132b387e9fdd

  2

  00160e665054e5f5168183d2766a483c

  1

  91881679246d00f7b34f0e3313ee0439

  2

  108414df6fe049fb5f0811d6ac600424

  1

  9ded72abf69dc3efe556fcbf752df92f

  2

  3cb06a2751e4c2f5d9fc7032edc8d531

  1

  c0c82a8fc022c2d64f14188f550954a0

  2

  55361f45e44caa332157b6e8941179da

  1

  c9f632be1d7c5f188323f35dfc4264ea

  2

  57208ce9ef99e760b5bdd9ba992ffe6d

  1

  f7336296dc7c69a2ffc2178e7c8a7e94

  2

  863fae4c7c86dc6daa5b55dd1ffe3eb9

  1

  10fc3f82e8175a90e8c41e3a2cd86812

  2

  9931ab69327e87878283a1dbc13c9619

  1

  a530d6385be5967da6dc74f38012a610

  2

  bac9b55d9b7107dd5b0cdd5ce388d169

  1

  bc5817fbcd5e2b5d20dc50a29470c262

  2

  c4acf1919ed442fb11b8c1a32dd91def

  1

  db6eb39cf39d747b4446fe83bc9fe1c3

  2

  c5a8bc8c1bcc742cb1bd98bb560f2d91

  1

  03dcbe547d94f80cafdd1ea7c91c1680

  1

  cbea098bc581fcf1ecf85922a8b08df5

  1

  04356f4d2ecaa3774c8024619fb37d30

  1

  dc4b344aaa0dc765bb5ecee4eca377cc

  1

  1875e8e340b25647b03a9e4edf05d34f

  1

  e15cb20f47f519832254d707c36ffbab

  1

  2f1636d6e198ddf154526ca96a0f99fc

  1

  e7c8fee27af3d4d3ad778106660b47e2

  1

  375e1d62e8696d5cf3379c557fbf64f2

  1

  e9dfe73b154e0a3c99a28427d196e439

  1

  可知,查询“仙剑奇侠传”较多的用户是653d48aa356d5111ac0e59f9fe736429,为6次,和用户e11c6273e337c1d1032229f1b2321a75,为5次;下面来进一步分析这两个用户的用户行为。

  查找uid为653d48aa356d5111ac0e59f9fe736429的相关搜索记录:

  hive> select * from sogou.sogou_ext_20111230 where

   uid='653d48aa356d5111ac0e59f9fe736429';

  得到的结果为:

  keyword

  url

  放羊的星星

  http://tv.sohu.com/s2010/fydxx/

  放羊的星星

  http://tv.sogou.com/series/wxt4vu5644qlpror6k24jugh2ddq.html?p=40230600

  放羊的星星

  http://tv.sohu.com/s2010/fydxx/

  我可能不会爱你

  http://tv.sohu.com/s2011/wknbhan/

  仙剑奇侠传

  http://www.163dyy.com/detail/500.html

  仙剑奇侠传

  http://www.tvmao.com/drama/WVgxbA==/episode

  7聊

  http://www.7liaos.com/

  7聊

  http://www.7liaos.com/

  仙剑奇侠传

  http://www.163dyy.com/detail/500.html

  仙剑奇侠传第一部全集

  http://tv.sogou.com/series/wxt4vu5644qm7sn5updont6awsv3lwwsxozl6.html?p=40230600

  仙剑奇侠传第一部

  http://www.youku.com/playlist_show/id_16700878.html

  仙剑奇侠传1

  http://tv.sogou.com/series/wxt4vu5644qm7sn5updont6awsv3lwwsxozl6.html?p=40230600

  仙剑奇侠转1

  http://www.youku.com/playlist_show/id_3549043.html

  仙剑奇侠传

  http://www.163dyy.com/detail/500.html

  仙剑奇侠传

  http://www.114dyw.com/teleplay1/xianjianqixiachuan/

  仙剑奇侠传

  http://www.163dyy.com/detail/500.html

  可见,(a) 用户653d48aa356d5111ac0e59f9fe736429搜索“仙剑奇侠传”的目的是为了观看影片;

  (b) 用户653d48aa356d5111ac0e59f9fe736429 希望观看仙剑奇侠传第一部;

  (c) 同时,放羊的星星也是用户653d48aa356d5111ac0e59f9fe736429目前比较感兴趣的电视剧。

  查找uid为e11c6273e337c1d1032229f1b2321a75的相关搜索记录:

  hive> select * from sogou.sogou_ext_20111230 where

   uid='e11c6273e337c1d1032229f1b2321a75';

  得到的结果为:

  keyword

  url

  仙剑奇侠传4官网

  http://pal4.52pk.com/

  仙剑奇侠传4结局

  http://zhidao.baidu.com/question/196334214

  仙剑奇侠传4

  http://baike.baidu.com/view/10142.htm

  仙剑奇侠传3

  http://baike.baidu.com/view/33571.htm

  仙剑奇侠传2

  http://baike.baidu.com/view/246644.htm

  仙剑奇侠传

  http://baike.baidu.com/view/2188.htm

  仙剑奇侠传三外传

  http://baike.baidu.com/view/246650.htm

  仙剑奇侠传四动画

  http://www.56.com/w77/play_album-aid-1824744_vid-MTY3MjkwOTc.html

  仙剑奇侠传3结局动画

  http://v.youku.com/v_show/id_XNDczMTU3Ng==.html

  仙剑奇侠传3结局

  http://zhidao.baidu.com/question/143395514

  仙剑奇侠传三

  http://baike.baidu.com/view/4219.htm

  仙剑奇侠传三游戏剧情

  http://zhidao.baidu.com/question/106721096

  仙剑奇侠传三

  http://baike.baidu.com/view/4219.htm

  仙剑奇侠传四

  http://baike.baidu.com/view/31425.htm

  仙剑奇侠传

  http://baike.baidu.com/view/2188.htm

  仙剑奇侠传二

  http://baike.baidu.com/view/246644.htm

  仙剑奇侠传

  http://baike.baidu.com/view/2188.htm

  阿奴

  http://baike.baidu.com/view/47446.htm

  仙剑奇侠传

  http://baike.baidu.com/view/2188.htm

  仙剑奇侠传二

  http://baike.baidu.com/view/246644.htm

  仙剑奇侠传

  http://baike.baidu.com/view/2188.htm

  Grenade

  http://baike.baidu.com/view/2086505.htm

  北京庐舍宾馆

  http://baike.baidu.com/view/4916228.htm

  北京庐舍宾馆

  http://www.zhuna.cn/hotel-23516.html

  北京庐舍宾馆

  http://www.17u.cn/HotelInfo-27993.html

  北京庐舍宾馆

  http://www.sunnychina.com/hotel/hotel_15894.html

  北京庐舍宾馆

  http://www.yoostrip.com/hotel/hotel_17602.html

  北京庐舍宾馆

  http://hotel.elong.com/detail360_cn_00101382.html

  如家

  http://www.homeinns.com/

  东洛杉矶学院

  http://baike.baidu.com/view/4932647.htm

  东洛杉矶学院

  http://www.elac.edu/

  可见,(a) 用户e11c6273e337c1d1032229f1b2321a75搜索“仙剑奇侠传”的目的更可能是对名为“仙剑奇侠传”的游戏感兴趣;

  (b) 用户653d48aa356d5111ac0e59f9fe736429 对仙剑奇侠传3和仙剑奇侠传4的结局比较感兴趣;

  (c) 此外,用户653d48aa356d5111ac0e59f9fe736429对北京庐舍宾馆的搜索次数达到6次,可能其近期要出行。

  由时间分析部分的结果可知,在2011年12月30日这一天中搜索行为最活跃的时间段为19-21时,下面来进行具体分析。

  在活跃时间段内点击网址排行榜:

  hive> select url,count(*) as cnt from sogou.sogou_ext_20111230 where day=31 and hour in (19,20,21) group by url order by cnt desc;

  得到的结果如下(前50):

  url

  cnt

  url

  cnt

  http://www.baidu.com/

  14341

  http://www.qzone.cc/gexing/qian/

  750

  http://www.4399.com/

  4606

  http://www.nbtxt.com/detail/12477/

  744

  http://www.youku.com/

  3356

  http://sfz.8684.cn/

  739

  http://www.hao123.com/

  2836

  http://www.5173.com/

  719

  http://qzone.qq.com/

  2188

  http://10086.cn/service/

  716

  http://www.7k7k.com/

  2092

  http://www.zhibo8.com/

  703

  http://cf.qq.com/

  1490

  http://www.dytt8.net/

  691

  http://www.qqwangming.org/

  1463

  http://tv.sogou.com/movie/wxt5hmbazkt4dnndwor3hthm.html?p=40230600

  672

  http://www.xixiwg.com/

  1435

  http://tv.youku.com/

  666

  http://www.a67.com/

  1413

  http://www.qzone.cc/gexing/name/

  646

  http://tv.sogou.com/series/wxt4vu5644qnbqwbyg62g.html?p=40230600

  1401

  http://www.jprenti.com/

  606

  http://weibo.com/

  1355

  http://tv.sogou.com/series/wxt4vu5644qmplvw4c3obpg6zdf3zry.html?p=40230600

  604

  http://tv.sogou.com/series/wxt4vu5644qlvwv27q.html?p=40230600

  1226

  http://www.10010.com/

  600

  http://www.tudou.com/

  1202

  http://www.ffdy.cc/

  578

  http://www.12306.cn/

  1094

  http://www.ct10000.com/

  573

  http://www.qqgexing.com/

  1040

  http://site.baidu.com/

  570

  http://movie.youku.com/

  1000

  http://www.ccb.com/

  565

  http://dzh.mop.com/whbm/20111230/0/FgSO8zI2887052Fz.shtml

  975

  http://bugu.cntv.cn/live_cctv5/index.shtml

  530

  http://dnf.qq.com/

  949

  http://tv.sogou.com/series/wxt4vu5644qmrs5vxxf4jsvo.html?p=40230600

  517

  http://www.qiyi.com/

  921

  http://www.qzone6.com/

  515

  http://baike.baidu.com/view/2414016.htm

  901

  http://www.touxiang.cn/

  505

  http://www.taobao.com/

  889

  http://cf.qq.com/act/a20111109happy/new.htm

  505

  http://www.4399.com/flash/32979aa.htm

  886

  http://10086.cn/

  504

  http://tv.sogou.com/series/wxt4vu5644qlxs6nxtgnu.html?p=40230600

  850

  http://www.12306.cn/mormhweb/

  504

  http://tv.sogou.com/movie/wxt5hmbaxxymd2wkv3ep33wo.html?p=40230600

  827

  http://web.sanguosha.com/

  501

  可见,(a) 在19-21时的活跃时间段内,点击量前5的网站分别是百度、4399游戏、优酷、好123网址导航、QQ空间,可以考虑此时段在这几个网站上投放广告等;

  (b) 在19-21时的活跃时间段内,百度网站的点击量为14341次,占全天总次数73737次的19.49%;

  在活跃时间段内搜索关键词排行榜:

  hive> select keyword,count(*) as cnt from sogou.sogou_ext_20111230 where day=31 and hour in (19,20,21) group by keyword order by cnt desc;

  得到的结果如下(前50):

  keyword

  cnt

  keyword

  cnt

  百度

  7172

  新亮剑全集

  811

  baidu

  3516

  电影

  792

  4399小游戏

  2781

  快播

  769

  人体艺术

  2627

  优酷网

  736

  优酷

  2507

  电影天堂

  706

  新亮剑

  2333

  youku

  689

  公安卖萌

  2159

  cf官网

  679

  qq空间

  1732

  吞噬星空

  672

  4399

  1666

  新疆暴徒被击毙图片

  662

  魏特琳

  1608

  qq分组

  660

  黑狐

  1580

  土豆网

  658

  百度一下 你就知道

  1573

  武动乾坤

  655

  qq网名

  1534

  凰图腾全集

  652

  7k7k小游戏

  1524

  仙逆

  645

  百度一下

  1449

  儿子与母亲不正当关系

  644

  李宇春体

  1267

  张去死

  640

  龙门飞甲

  1205

  火影忍者

  620

  qq头像

  1017

  赛尔号

  598

  新浪微博

  1011

  钱多多嫁人记

  574

  hao123

  967

  迅雷看看

  559

  123

  909

  季莫申科情人 图

  556

  qq个性签名

  904

  遮天

  549

  凰图腾

  901

  身份证号码大全

  541

  金陵十三钗

  874

  失恋33天

  535

  4399洛克王国

  870

  土豆

  527

  可知,(a) 在19-21时的活跃时间段内,用户搜索的最多的关键词依旧是百度,这说明百度已是用户的首选搜索引擎;

  (b) 在19-21时的活跃时间段内,用户搜索的关键词排行与全天的用户搜索关键词的排行并无较大区别。

  在活跃时间段内用户排行榜:

  hive> select uid,count(*) as cnt from sogou.sogou_ext_20111230 where day=31 and hour in (19,20,21) group by uid order by cnt desc;

  得到的结果如下:

  uid

  cnt

  uid

  cnt

  02a8557754445a9b1b22a37b40d6db38

  2664

  0d56cf20da81670adf923373d50b7dbc

  99

  cc7063efc64510c20bcdd604e12a3b26

  590

  91e62d9148c8d9f71110a4248176a769

  91

  7a28a70fe4aaff6c35f8517613fb5c67

  305

  116773275003fd2abffc4288f13b1745

  90

  b1e371de5729cdda9270b7ad09484c4f

  292

  b7dce820ccdb4b3a75a64cbf9dcc11c5

  90

  c72ce1164bcd263ba1f69292abdfdf7c

  254

  7b634a16c60058536990c0c55c79eb42

  89

  9a12bf7ee5ea954660092df0ef34acb4

  177

  ba8c0225b1b6062e892e04982073db7a

  87

  ef86311727c54aa1d1bda5cc4ffcd329

  173

  648754a2563bd5b36e028afbe927dfd1

  87

  84e781a747ac7d0d723c8b9f0cc6b87f

  169

  9ded8ab2cc8504e1d6cf87903f5e25b8

  86

  13140b934a265e8967344050a4d6ddca

  156

  e6e112274223c10e22fd7a117c6b1b60

  86

  3e6a34613757d1ce0f6d6d97102ebaad

  142

  2aa714ded74edc258a7dd5c5e2c75015

  84

  deff5f2f6b0dd83d6c0609f0ac5a77b3

  130

  02eb52814598699374d8a8e60796415c

  83

  f41fd2711156d4b255f2dcf236d6bb39

  124

  f3075aeb9962db17cea21b14797ee19b

  83

  b3c94c37fb154d46c30a360c7941ff7e

  123

  4f38c9cc4b139f69722a1afd95053105

  82

  06c7d0a3e459cab90acab6996b9d6bed

  120

  c25a84ec0f90088b35a34d5d7d3264dd

  81

  c3ac142de38ded8dfe7f24f927ea4829

  120

  955c6390c02797b3558ba223b8201915

  81

  779752cf3d115b126f33d2dab9a1351a

  116

  878158a83a09246e78d920129f83f77c

  81

  d53f50eeda326b5ac64c8782c9935f1b

  114

  6ff3b606c01fff5ebff1e2b2bbef2d31

  81

  b08b9d292d1aa0986f01b50bc5b4cec3

  110

  a53cc832a80241ba08754401331b3d87

  80

  91857a446849a86f2722f1ed885814d9

  108

  d524ac3d106082da06ec70b45e40d8af

  77

  b4251b30f49e932818bcebf6e15aa9c7

  105

  ab754186afd495ff1eccb3ecea0d2898

  76

  9907a0874dec6825bc797a73eb0d6d29

  103

  9223efff33f092f888106e3f5ce4912b

  76

  f050339e5fd8c08948b3474b7fc67eb7

  101

  beb8a029d374d9599e987ede4cf31111

  75

  71907d498018fad5c612c72606130681

  101

  e425eb5aebfdcec0f8f4aa05aba21e64

  75

  7bd1088c653b53934dc4e1d31aa911eb

  100

  91de518dad55cd180bba4f1be54c470b

  73

  c65b26d0ceb14896ad901d3c4265e23d

  99

  ffadcf2db46dc5fc9d7787656ebd7aa4

  73

  可知,(a) 在19-21时的活跃时间段内,进行搜索行为最多最活跃的用户是02a8557754445a9b1b22a37b40d6db38,与全天进行搜索行为最多最活跃的用户是同一个;

  (b) 在19-21时内,最活跃用户02a8557754445a9b1b22a37b40d6db38的搜索次数远大于排名第二的用户,此情形与全天的搜索排行情况相同。

  被用户第一次点击的总条数:

  hive> select count(*) from sogou.sogou_ext_20111230 where order=1;

  Rank 前10的被第一次点击的条数

  hive> select count(*) from sogou.sogou_ext_20111230 where rank<11 and order=1;

  Rank 前5的被第一次点击的条数

  hive> select count(*) from sogou.sogou_ext_20111230 where rank<6 and order=1;

  Rank前3的被第一次点击的条数

  hive> select count(*) from sogou.sogou_ext_20111230 where rank<4 and order=1;

  Rank前1的被第一次点击的条数

  hive> select count(*) from sogou.sogou_ext_20111230 where rank<2 and order=1;

  可知,(a) 被用户第一次点击的条数为3465833条;

  (b) Rank为前10、5、3、1的网站被第一次点击的条数分别为3465784条、3197784条、2898900条、1942685条,分别占所有被用户第一次点击的总条数的99.9986%、92.266%、83.64%、56.05%,Rank为前1的条目被点击的概率已达到56.05%,说明Rank为前1的条目被点击的概率是很大的,而且用户第一次点击的几乎所有都是Rank在10以内的条目,可考虑将重要更匹配用户搜索字段的条目放在Rank前10的位置。

  所有Rank为1的条数:

  hive> select count(*) from sogou.sogou_ext_20111230 where rank=1;

  Rank为1的条目在1次内被点击的条数:

  hive> select count(*) from sogou.sogou_ext_20111230 where rank=1 and order<2;

  Rank为1的条目在3次内被点击的条数:

  hive> select count(*) from sogou.sogou_ext_20111230 where rank=1 and order<4;

  Rank为1的条目在5次内被点击的条数:

  hive> select count(*) from sogou.sogou_ext_20111230 where rank=1 and order<6;

  Rank为1的条目在10次内被点击的条数:

  hive> select count(*) from sogou.sogou_ext_20111230 where rank=1 and order<11;

  可知,(a) 所有Rank为1的条数为2071720条;

  (b) Rank为1的条目在1次内被点击、在3次内被点击、在5次内被点击、在10次内被点击的条数分别为1942685条、2062703条、2070397条、2071720条,分别占Rank为1总条数的93.77%、99.56%、99.94%、100%,Rank为1的条目在1次内被点击的概率已达到93.77%之高,而在3次内被点击的概率达到99.56%,说明Rank为1的条目基本上三次内便会被用户点击到,可见rank为1的条目的重要性,可考虑将更重要更匹配用户搜索字段的条目放在此处。

  由此可知,Rank与Order有一定的相关性,一般来讲,被放在越前面的条目更可能被用户点击到,即rank越小,order倾向于越小。

上一篇:韩国伦理今年最高分电影《燃烧》一部让人血在燃烧的电影,有什么理由不看呢?
下一篇:违反教师职业道德心得体会