孙大卫

  • 教育信息:北京工商大学
  • 擅长技能:Java,JavaWeb,C++,Storm,Hadoop,Redis.
hiho统计
擅长技能
Java,JavaWeb,C++,Storm,Hadoop,Redis.
教育经历
  • 北京工商大学 — 本科

    计算机与信息工程学院

    2011 — 2015


工作经历
  • 新浪微博 - 大数据工程师

    开发热门微博榜单业务 : 1、根据任务进度进行开发。 2、搭建实时处理 Storm 系统。

    2016.9 — 现在


  • 博彦科技 - 软件开发工程师

    在博彦科技,外派到微软的Bing部门工作,负责Bing和Cortana的Answer。期间做过1个爬虫监控程序,将百度风云榜中的电影,电视剧,真人秀的名称爬取到,然后发送request分别到百度,Bing,Cortana,比较这3个是否有Answer,进而提升Bing和Cortana的coverage。还做过一个webservice,将数据库中数据封装到类中,然后返回json格式的数据给前端。

    2015.8 - 2016.9


项目经历
  • 热门微博榜单

    热门微博实时榜单系统介绍:分别从 Kafka,Trigger 中接入数据流,在 Spout 中进行过滤,将有用的信息传入相应 bolt,不同的 bolt 分别处理数据,把有用的原始数据存到 Redis 里,数据结构是哈希表,从 Spout 中获得每条微博的转、评、赞数,进行公 式计算后得到一个分数,将结果放到 Redis 中,数据结构为有序集,至此,线上 Storm 系统处理工作结束。线下处理流程:读 取 Redis 中有序集的数据,进行进一步过滤,比如拼音相似度过滤,得到线上榜单所用数据,存入 Redis 中,供下游使用。

    2016.9 - 2016.11


  • 爬虫监控系统

    做过一个爬虫监控程序,主要爬取百度风云榜中的电影,电视剧,真人秀节目名称然后发送 request 到百度,Bing,Cortana 上并从 response 中抽取这三个平台 response 的信息,来完善 Bing 和 Cortana。并将计算得到的 Coverage 存储到 SQL Server 自带的组件 Report Builder 里面,调用 Report Builder 的 API 自动生成折线图,然后将其插入到文件流中,最后 调用 Email API 将信息存到邮件中发送给组内的每个成员,每天 8 点定时运行。

    2015.9 - 2015.10


  • WebService

    做过一个 Webservice,使用了 MVC 框架,从微软内部的资源库中抽取类型为电影,电视剧,真人秀的数据,然后使用 cosmos(微 软的 Hadoop)插入到 Azure 的数据库中,并在云端建立 server,内部逻辑将数据库中存储的 XML 文件信息抽取到类中,然后 调用 Json 类,返回 Json 格式的数据给前端。

    2015.10 - 2015.11


获奖情况
  • 蓝桥杯 - 省赛二等奖

    2013.5


  • IBM DB2 - 通过

    2013.5