5)第二百七十九章 潮水退去,全是大虾_从天后演唱会出道方澈
字体:      护眼 关灯
上一章 目录 下一章
  晚,方澈……”这人眼前一亮:“今年的春节档有方澈的电影上映是吧?不会是孔俊贤那些粉丝干的吧?”

  “嗯?”群友表示自己也想到了什么。

  “这……方澈这一次是炸出来多大的鱼啊。”

  说到这有人都开始激动了:“静观其变,搞不好要加班。”

  而在过去的这半夜里,豆半公司,技术部的人几乎全员无休。

  干什么呢?

  找数据,爬数据。

  技术部的工作室里。

  技术部总经理此时急得满头冒汗。

  有人来汇报:“头,情况确实不对劲,除夕晚上,出现了一批新注册的用户,这些用户在过去的一天里利用给其他的电影打分的方式,在养号。而这些用户里有80%的人参与了春节档电影的评分工作。”

  技术部经理一脸黑线:“废话!这点东西掉一调后台数据就知道,你们就研究这个研究了一宿?”

  汇报人员定了定心神,揉了揉已经快要闭上的眼睛:“不是的,这件事情让我们确定了这一定是某一个群体在作祟!随后我们对昨晚进行评分的四万人提取了id。”

  “头,你知道吧,很多人,在不同的平台习惯用一个id的。而且这批新用户注册的那么急,所以肯定有不少人用了常用的id。”

  还是那句话,人走过,必留痕迹。

  而且这痕迹里,往往带着很浓重的个人特色。

  汇报人员继续说:“然后我们根据这四万个id,逐一在微博上进行了搜索,然后爬取了这些用户名的所有的发言,再利用这些用户动态的相似性,进行深度挖掘。”

  这是个极大的工作量。

  一个id在微博上有可能有成千上万个同名的账号。

  这些帐号的动态内容都得爬下来。

  爬下来之后还得对这些id曾经发布的动态和内容进行关键词提取、照片信息提取,然后存档。

  注意哦,这只是一个id的工作量。

  比如说有一个人在豆半上注册了一个帐号叫张三,你按照这个名字在微博上搜索,结果出现了一万个叫张三。

  那这些张三的人的所有的动态都得爬下来。

  可是你怎么知道这一万个张三里面,哪一个是你想要的呢。

  豆半的工作人员坚信昨晚这些人肯定是有相似性的,比如他们都是某一个人的粉丝。

  那么他们的发言里一定会提到同样的东西。

  这个时候就要再拿出来一个新的id,比如李四。

  利用李四这个id,在微博上进行搜索,又出来一万个李四。

  照例,全给爬取下来。

  接下来是王五、赵六……

  然后再进行横向比对,一个个的去试!

  总能试出来蛛丝马迹。

  这个工作量是无比巨大的,对计算机的要求也很高。

  这种情况下,豆半只能增加人手,外聘公司。

  只是过去的这一夜,花了至少上千万。

  但是这是目前为

  请收藏:https://m.ggtxt9.com

(温馨提示:请关闭畅读或阅读模式,否则内容无法正常显示)

上一章 目录 下一章