报告人:刘永
报告题目:数据科学在政府、企业和个人决策中的应用实例
——从过去八年的工作和面试经历谈起
报告地点:计算机科学与软件学院102报告厅
报告时间:2016年3月7日(星期一)下午4:00
刘永简介:
刘 永 物理学博士
电话: 650 656 5040
Email: hstrsoil@gmail.com
学习与工作经历:
1995 年 9 月 - 1998 年 7 月: 南开数学研究所学习,获博士学位
2008 年 7 月 - 2009 年 9 月: My Space Inc. 数据挖掘组,工程师
2009 年 10 月 - 2012 年 3 月:e Bay Inc. 互联网市场分析组,统计分析师
2012 年 3 月-2014 年 6 月: HP 全球市场分析组,资深数据科学家
2014 年 6 月-2015 年 5 月: Equifax 数据科学组, 统计专家
2015 年 5 月- 今 : Verizon 大数据分析算法组,机器学习主任科学家
My Space 数据挖掘组
(1)提出并实验证明应用自然语言处理中的 N-Gram 技术于垃圾邮件发送者识别的可行性,在此基础上,完成了垃圾邮件发送者实时识别的产品化。
(2)提出并试验了应用 Google 的核心技术 Page Rank 对用户的重要性程度进行排序的可操作性。
(3)应用 Collaborative Filtering 技术,完成了基于 Map Reduce 分布式计算平台的推荐引擎的产品化。
(4)提出并试验了一套循环递进的方法从噪声极大的文字信息中提取用户兴趣有关的关键词,以及实时提取网络论坛中的热门主题。
e Bay 互联网市场分析组
(1)根据用户活动的历史记录,建立了一系列的“倾向于买”定向广告预测模型。
(2)建立了用户水平上的广告增益效应的预测模型 - 产品专利(User level incremental revenue and conversion prediction for internet marketing display advertising, United States US 13/425,831 Issued March 21, 2012)
(3)在搜索排序算法基础上建立了展示广告的实时定向模型,用于 e Bay 在欧洲和美国展示广告的实时
定向,使点击率和转化率得以倍增 - 产品专利(Item ranking modeling for internet marketing display advertising, United States US 13/425,938 Issued March 21, 2012)
(4)用 C++实现了 Gradient Boosting 机器学习算法
HP 全球市场分析组
(1)根据用户在线活动历史,建立了一系列的关于个人用户的和企业用户的预测模型。
(2)对市场和媒介混合模型(Marketing / Media Mix Modeling)作了充分研究,在 Journal of Marketing Analytics 发表学术论文一篇 - Media mix modeling – A Monte Carlo simulation study。Palgrave Macmillan / Journal of Marketing Analytics - J Market Anal 2: 173-186; doi:10.1057/jma.2014.3。 November 21, 2014。同时有专利申请 (Representing a Metric for Marketing Channels, United States HP Patent Ref. 700217596WO01, Filed June 1, 2014)
Equifax 数据科学组
(1)关于个人用户的信用风险模型研究
(2)关于拖欠发生时间的预测模型构建
(3)基于现有数据和可能得到的新数据,提出一系列的产品构想,挖掘数据价值
Verizon 大数据分析算法组
(1)关于各大商家用户的模式识别模型
(2)时序分析
(3)一些大数据相关的独特算法如 Geo Hash, Hyper Log Log 等的实现和验证