
数据会说谎?如何正确的挖掘并使用数据?
前沿的科学实验如何做?
实验又是如何欺骗你的?
ChatGPT等AIGC技术如何与因果学习双向赋能?
数据中台如何发挥功效?
用户增长有捷径吗?
数据科学的最佳实践有哪些?
2023年4月22日,DataFun第三届数据科学在线峰会将试着给你答案!
本次峰会由3位专家主席和6位论坛出品人精心策划而成,共包含了:机器学习与数据挖掘、AB实验、因果推断、数据中台与数字化转型、用户增长与运营、数据科学最佳实践等6大论坛,邀请20余位来自国内外的一线数据科学家,进行深度分享交流。本次峰会将全程直播,欢迎大家扫码免费报名收看:
▌峰会日程

▌峰会组织
个人介绍:巴川,竞技世界首席数据科学家,曾就职于中国搜索、搜狐畅游等互联网公司。主要研究领域包括数据挖掘、知识图谱、人工智能、社交网络挖掘、风控体系、推荐系统、数据可视化等。CCF数据科学SIG主席,北航兼职硕导,多所高校兼职老师,多个技术大会演讲嘉宾及出品人。
个人介绍:2017年在Booking.com担任市场部数据科学家,负责建立用户流失检测系统。2018年加入Twitter,负责Twitter的网络,App性能以及多媒体的分析和优化。包括建立网络速度优化算法和设计分析手机App性能的A/B测试,以及多媒体性能的监控和分析。2021年加入Google全球业务与运营部门,负责为全球大客户提供专业的广告投放和优化策略。个人介绍:The University of Texas at Austin经济学博士,曾在福特汽车公司担任数据科学家,现任快手经济学家,负责流量生态相关的数据分析。机器学习与数据挖掘方向的核心目标是通过机器学习的建模方式解决人与物的匹配问题,以及通过对人行为数据的建模或挖掘研究,解决物的分发和调度问题。而在应用的领域中,又常常会围绕搜索、广告、推荐等几大常见等应用领域中展开。本次论坛中,我们特别邀请了来自OPPO研究院以及迷你世界的专家,详细讲述了机器学习以及相关算法在商业化买量与卖量的广告场景中的深度实践。也邀请了来自淘宝直播的算法专家分享如何通过算法对直播流量的供给与分发,来提升直播流量与供给端的分发效率。还邀请了来自蔚来汽车算法专家,分享机器学习与数据挖掘能力在新能源汽车领域资源推荐与调度的实际应用。通过本次论坛,听众朋友们可以收获机器学习在流量效率提升维度的众多场景实际应用的实践经验,也能收获数据挖掘与算法在一些新兴行业中的落地模式和经验。
个人介绍:毕业于哈尔滨工业大学,10年的大数据以及算法领域经验,目前在OPPO负责商业化标签画像、DMP平台、广告智能投放、人群LookAlike,以及商业化广告召回等能力模块的建设,在广告算法以及大数据领域发表有十几篇发明专利,原创大数据以及算法公众号【数据虫巢】博主。
个人介绍:2017年硕士毕业于中山大学,曾就职于平安科技和蚂蚁金服,负责自然语言理解和生成方向,并登顶 SQuAD2.0 和 GLUE 两大榜单。2021年加入 OPPO 研究院数据智能研究部拓扑 Lab,任职高级机器学习算法工程师,目前从事图神经网络和推荐系统方向的工作。演讲介绍:数据和事物以多种形式呈现,关键取决于我们从什么角度去看待他们。在搜推领域,当我们把各式行为和关系看作图和网络结构时,便衍生出了许多基于图的搜索推荐算法,但是尚缺少系统地归纳。本次分享主要是基于自己的一些思考为大家分门别类地梳理基于图的搜索推荐算法,帮助大家能够从算法和应用两个方面更清晰地去认识这个方向,并介绍我们在OPPO业务场景中的一些实践案例。主要内容包括:个人介绍:大家好,我是殷泽龙,毕业于哈尔滨工业大学。我在迷你创想 担任增长算法负责人。我曾就职于腾讯,参与过多个增长和计算广告相关项目。目前,我主要负责公司增长算法相关工作,包括广告买量、push推荐以及用户生命周期分析。感谢大家聆听我的分享,希望能够对你们有所帮助。个人介绍:淘宝直播技术团队,流量调控,用户增长算法负责人。1. 淘宝直播体系化调控能力演进。通过构建统一化的流量管理平台能力,缓解直播流量控制的确定性业务诉求与跨域各分发场景在流量调控上的协同困难。支持主播、货品、用户等多维度的调控需求,建立更加实时化,精细化,业务多维度可控的体系化调控能力,服务直播生态健康与流量规划可控。2. 实时动态多元价值路径人群建模。将传统主播调控人群圈选问题转化为给主播实时推荐直播在线用户问题,引入面向主播侧的算法实时个性化推荐能力,引入人群聚类算法建模,使得我们可以控制调控给主播的用户集合颗粒度从单个用户到相似子用户群体自由缩放可控,并横向服务于多业务场景,多类型调控诉求。同时,构建调控流量 ROI 目标多元可定制架构,从而具像化调控流量的具体 PV 价值。3. 流量调控与供给端到端联动。围绕(用户、主播、货品)三元图网络结构建模,形成爆品预估,新品发现,PV 价值预估等系列方案,结合实时多元价值路径精准动态人群方案,端到端的联动营销供给与流量调控分发,提升流量的确定性,实现调控流量的整体闭环。个人介绍:蔚来汽车算法工程师,主要负责资源推荐和单量预测算法工作。1. 背景:介绍什么是时序数据以及时序预测需要解决哪些问题;2. 业务场景及挑战:介绍业务场景面临的关键性问题;个人介绍:四川大学计算机专业硕士研究生。具有多年搜索推荐场景的算法和工程实践经验,为数十家阿里云客户提供场景优化建议和效果优化。
2. 推荐算法定制加快特征工程、排序模型的快速创建1. 通过推荐算法定制,一键生成代码,减少特征工程编码时间2. 通过PAI-REC引擎,大大提高模型部署效率4. 结合特征平台做排序模型迭代,加快模型探索效率

在线随机对照实验(A/B测试)是评估因果效果的重要方法,现在已被广泛应用于众多互联网产品的优化和决策中,涉及广告、运营、商业化、产品和算法等各个方面。在实践应用中,我们希望能够快速、科学地进行实验并获得可信结果,但在许多场景下,这也存在挑战。本次实验论坛将邀请多家海内外著名互联网公司的实验技术专家和应用专家,分享他们在业务中使用实验解决问题和实现价值的实战经验和技术。本次论坛的分享内容包括硅谷实验文化、优秀实验平台的设计理念、复杂场景中的实验方法和经验总结(如广告、用户增长、视频和双边平台等方面),以及进阶实验分析方法(如路径分析、分群分析和漏斗分析)。希望通过本次论坛给听众带来实践有用的经验和方法,以及创新想法的启发。
个人介绍:赵振宇,腾讯海外游戏数据科学总监,开源项目 CausalML 创始作者之一。美国西北大学统计学博士,先后在 Yahoo、Uber、腾讯任职,负责实验、因果推断、机器学习、分析预测等方法的应用、研究和工具建设,发表多篇相关论文和专利。徐萌 Snap Inc. Lead Applied Research Scientist个人介绍:徐萌是 Snap Inc. 的Lead Applied Research Scientist,她从北京大学元培学院获得经济学和法学学士学位,从加州大学洛杉矶分校经济学系获得博士学位,其后加入了Snap Inc.,专注于利用观察数据进行因果推断。她的研究兴趣在于因果推断(Causal Inference),包括加权平衡方法(Balancing Approach)、合成控制(Synthetic Control)、因果中介分析(Causal Mediation Analysis)、因果机器学习(Causal Machine Learning)、随机对照试验中的选择问题(Selection Problem)、分位数回归(Quantile Regression)和方差缩减(Variance Reduction)。演讲题目:双边平台中的因果效应(Global Treatment Effect in Two-Sided Platforms)演讲提纲:在线平台(online platform)往往涉及到双边互动,如买家和卖家、内容创作者和内容观看者等。一项影响某一方的试验也会通过这个互动关系进而影响另外一方。这种双边关系使得估算因果效应成为一项挑战。本演讲将立足类似Snapchat的社交平台,讨论在双边平台上如何估算随机试验的总体效果(Global Treatment Effect),存在哪些挑战。演讲包含了以下几个方面:1. Snapchat在估算因果效应时遇到的挑战:内容创作者和内容观看者的互动(1)内容观看者的衡量指标(viewer-side metrics)
(2)缩小估计方差(variance reduction)(3)因果中介分析(causal mediation analysis):将总体效应(total effect)分解为由内容创作者传道的中介效应(mediated effect)和直接效应(direct effect)(1)聚类随机试验(cluster randomization experiment)(2)双边随机试验(two-sided randomization design)(3)时间序列试验(switchback/time-series experiment)(4)结合随机试验方法和合成控制法(synthetic control)
2. 如何在以内容创作者为随机单位的单边试验中估算内容观看者受到的影响?可能存在什么问题?3. 如何利用特殊的试验设计来估算双边互动中的总体试验效果?这些试验设计在应用中存在哪些挑战?潘洁 腾讯 数据科学团队副组长(Team Leader)个人介绍:潘洁,北京理工大学硕士毕业。目前就职于腾讯,担任数据科学团队Team Leader,曾在百度担任搜索产品A/B实验技术负责人。有9年互联网产品数据分析经验,尤其在实验设计和分析方面拥有丰富的实践经验演讲题目:腾讯视频复杂场景实验分析方法和实验质量问题揭秘1. 复杂场景下的实验分析案例:以真实实验案例出发,一步步抽丝剥茧,分析实验问题。帮助大家掌握实验分析的通用思路和常用方法2. 实验质量监控和分析:介绍实验中遇到的常见实验质量问题以及解决方案2. 介绍实验分析中的常用数科方法,例如用户路径分析、用户分群分析、内容漏斗分析等3. 实验分析中经常遇到的实验质量问题有哪些,以及对应的解决方案介绍王家侃 Statsig,Founding Engineer个人介绍:Statsig 创始团队成员之一。目前负责我们的 Enterprise Engineering 团队,这个团队的主要职责是保证我们客户在用 Statsig 后跑更多更好的实验,常见的工作包括提供相关的培训,解决用户独特的功能要求等。在这之前曾负责我们所有的 SDK。在加入 Statsig 之前,曾在 Facebook 的游戏平台组做产品和 growth 4年,带领团队做过上千个实验。Facebook 之前曾在微软必应就职。4. 介绍 Statsig 的产品,以及我们计划如何去民主化A/B实验3. 了解如何用 Statsig 来做 AB 实验田间 Colin 字节跳动 Data Scientist个人介绍:负责字节旗下某海外app 用户增长数据科学相关工作。演讲提纲:用户增长相关场景是一个典型的数据驱动。然而在当下产品feature迭代过程中经常使用的AB实验体系,在新用户场景下直接应用却出现了很多困难,针对新用户增长这-通用场景,应用AB实验体系(分流和实验评估)科学、准确的评估方案的效果,提升用户增长的效率。
1. UG场景针对新用户AB实验面临的哪些困难,如何解决个人介绍:在领英实验学科有多年工作经验,曾任领英实验科研团队经理,领英实验科研带头人;领导和参与了领英重大的2B和2C的实验创新;现为领英广告业务科学技术骨干,致力于将AI与DS在广告服务业中做最有机的结合。演讲题目:广告实验是如何“欺骗”你的 —— 如何发掘真正的实验效力
4. 领英如何通过设计和分析实验来发掘真正的实验效力2. 对于针对以上问题的不同的解决方法的利与弊有基本的认知3. 了解领英如何解决广告实验中的问题和落地中的一些注意事项
因果推断是一项决策技术,基础研究致力于变量间因果关系的识别,以及因果效应的无偏量化估计,同时,其与深度学习、强化学习、Bandit等方向的交叉研究也十分活跃。近年来,因果推断在电商、制造、医疗、金融等领域逐渐被广泛应用。
本次论坛,我们特别邀请了来自中国人民大学统计系、达摩院、NEC中国研究院、九章云极DataCanvas、以及香港大学的各位专家。算法上,为我们带来因果归因、因果网络发现、因果强化学习、因果驱动预训练大模型等方面的分享,业务上,为我们带来因果推断在医疗诊断、销量预测、库存管理、策略长周期效果估计方面的实战案例及经验。通过本次论坛,听众可以详细了解因果推断理论方面的最新进展及不同行业上的应用实践。

个人介绍:刘春辰,计算机博士。目前就职于阿里巴巴数据技术部,担任高级算法专家。主要从事知识表示、自然语言处理、贝叶斯推断、可解释AI、因果推断、鲁棒优化等领域的前沿技术创新研究及商业化落地。在学术成果方面,在ICML、AAAI、IJCAI等顶级AI会议、期刊发表多项研究成果,先后发表20余篇SCI、EI研究成果,在海内外申请专利40余项。
个人介绍:李伟现为中国人民大学统计学院副教授,2009-2013年在南开大学数学科学学院读本科,2013-2020年在北京大学数学科学学院读博士及博士后研究,2020年入职中国人民大学统计学院。主要研究领域为因果推断、缺失数据、高维统计等。目前在主持国家自然科学青年基金项目、北京市自然科学基金面上项目、全国统计科学研究重点项目、国家重点研发计划青年科学家项目子课题等多项科研项目。演讲题目:Retrospective causal inference with multiple effect variables演讲提纲:As highlighted in Dawid (2000) and Pearl & Mackenzie (2018), deducing the causes of given effects is a more challenging problem than evaluating the effects of causes in causal inference. Lu et al. (2022) proposed an approach for deducing causes of a single effect variable based on posterior causal effects. In many applications, there are multiple effect variables, and thus they can be used simultaneously to more accurately deduce the causes. To retrospectively deduce causes from multiple effects, we propose multivariate posterior total, intervention and direct causal effects conditional on the observed evidence. We describe the assumptions of no-confounding and monotonicity, under which we prove identifiability of the multivariate posterior causal effects and provide their identification equations. The proposed approach can be applied for causal attributions, medical diagnosis, blame and responsibility in various studies with multiple effect or outcome variables. Two examples are used to illustrate the proposed approach.个人介绍:何刚,AI架构师,目前就职与九章云极D-Lab部门,主要从事AI前沿技术的研究、研发与开源,研究方向包括因果推断、贝叶斯网络、自动机器学习等前沿领域方向,研究成果在金融、通讯等领域有众多的实践案例。
个人介绍:毕业于上海交通大学,硕士学历,加入阿里达摩院四年,主要从事搜推算法、用户增长,因果推断等相关工作。演讲题目:Insightscope:因果推断在业务场景下的抽象和应用演讲提纲:主要介绍因果推断技术在多个业务场景下的问题抽象,方法定义,业务效果,并整体抽象成一个因果分析框架。3. 因果推断在不同业务场景下的应用,如搜推、营销、用户增长个人介绍:王尔立,数学博士,现就职于NEC中国研究院,任研究员。侧重开发“NEC因果分析系统”,以协助客户进行数字化转型(DX)。2019年博士毕业于昆士兰大学数学物理系。曾供职于澳大利亚国立大学计算机系任助理研究员。已完成论文10 余篇,提交专利5项。与同事一起,获得NEC集团事业贡献二等奖。演讲提纲:因果分析是一种挖掘数据背后的原因和结果的技术,因其白盒模型特性被认为对商业应用有重要价值。可解释性的需求预测和补货策略是仓储管理成功的重要因素。本次分享的主要内容包括:1. 了解因果网络发现的常用方法和相应的数据场景;2. 了解业界因果分析平台,如何为决策者提供结构化模型、关键因素分析等服务;3. 了解基于因果模型在处理复杂仓储问题的策略控制的前沿探索
个人介绍:香港大学信息管理学博士在读,主要研究方向为因果实验设计,因果推断,数字经济等。演讲提纲:在通过A/B实验帮助进行产品策略优化的过程中,受到实验时长限制,我们只能检测到策略的短期影响,然而关注策略的长期影响往往更符合产品的战略目标。本次演讲将介绍策略的长期影响较短期影响的不同之处,整理分享工业界一些探究策略长期影响的方案,以及分享者针对策略长期影响预测的研究成果。2. 工业界现有的预测产品策略长期影响的方法与实验设计

本次论坛将着重探讨数据中台的建设与运营、数字化转型与数据中台的关系、全域数据中台建设方法论等方面的内容,涵盖了数据中台的设计与实现、数据治理、工具设计、服务设计等话题,以及数据服务化建设背景、核心解决方案介绍、落地实践与收益等实践案例,旨在为听众提供全面、深入的数据中台和数字化转型方面的知识。听众将从中获得如何实现数据驱动业务、如何建设有效协同的数据团队等实践经验,帮助听众更好地了解数字化转型与数据中台的关系,掌握全域数据中台建设方法论和全域数据中台运营策略,从而更好地实现数字化运营。
个人介绍:资深车企数字化专家,现任某知名高端电动汽车大数据产品负责人,曾在阿里影业、中国移动苏州研发中心、数梦工场汽车事业部等公司担任大数据产品负责人;主导实施上汽大众营销数据中台、奇瑞营销数字化平台和PSA集团CDP等项目,在车企数据中台、全域BI和CDP平台建设方面有丰富的实践经验。演讲题目:新能源车企数字化转型:数据中台的实践与思考3. 在全域数据中台建设中如何搭建有效协同的数据团队个人介绍:阿里巴巴14年数据工作者,亲历阿里巴巴数据中台建设和发展,是阿里数据中台架构体系与建设方法论的深度参与者之一,有着丰富的数据中台实践经验。现任瓴羊 Dataphin 高级产品专家,负责核心建模、研发领域的产品设计,为千行百业的数据治理提供能力。孟帅帅 bilibili 数据平台 资深开发工程师个人介绍:bilibili数据平台部数据服务研发负责人。上海交通大学硕士毕业,先后加入美团、哔哩哔哩工作,目前在哔哩哔哩数据平台负责数据服务、数据应用产品、BI工具等方向的研发与建设,长期关注并深耕大数据领域,在元数据管理、数据治理、数据服务与应用等领域有丰富的实践经验。个人介绍:负责东风日产大数据平台、车联网大数据平台、数据中台的架构设计以及落地实现。

自2014年4G在国内商用之至今,8年内网民流量从6.4亿提升到10.6亿,互联网渗透率74%,各家公司在这八年间纷纷成立了自己的增长团队,经过多个阶段的发展演化,UG已经成为一门集用户获取、用户运营、用户营销、工程算法、实验科学等运营、营销、策略、平台、技术为一体的综合科学,并在不同的商业目标、用户心智、产品生命周期下衍生出各自特色的应用和方法论。为兼顾不同行业、专业参与者的参会体验,我们特别邀请了腾讯视频视频增长数据科学专家贺山、淘宝直播APP数据负责人郭明累、美图公司高级数据分析经理陈珊、阿里云用户增长产品技术负责人夏立雪为我们带来增长方法、增长案例、增长实践的分享,也邀请到腾讯PCG高级研究员徐国强给我们解密投放场景下问题分析和用户价值评估的技术方法。希望从事增长行业或者关注增长科学的你,能够在参加本次论坛之后,对UG的流量增长、会员增长、产品技术框架以及投放、实验、价值度量方面有些启发和收获。
个人介绍:腾讯视频用户增长数据科学负责人,在用户数据分析领域深耕多年,对投放/push/活动等增长武器的应用有丰富经验,对数据量化和评估有一定方法论。个人介绍:硕士毕业于南京大学,目前就职于腾讯(深圳)计算机有限公司,担任高级研究员,主要研究领域包括知识图谱、用户增长、因果推断等。从19年开始参与用户增长算法相关工作,近年来,深度参与了腾讯大禹投放中台建设,赋能用户增长获客提效,目前覆盖了手机QQ浏览器、应用宝、全民K歌等众多产品和业务。演讲提纲:外部买量作为获客的主要手段,一直以来都是各个产品和业务用户增长部门的重点任务。近年来,在降本增效的大环境下,如何有效提升外部买量的ROI受到了越来越多的重视。本次演讲我们将会重点介绍腾讯大禹投放中台用户增长算法能力建设,从实践的角度分享我们对投放场景下问题的分析和思考,以及在多产品、多业务场景下的用户价值建模和应用技术。个人介绍:贺山,腾讯视频增长数据科学专家。前爱奇艺增长数据专家。3. 如何在复杂的营收体系下精准、公允的度量用户价值个人介绍:分别在网龙、美柚、美图公司从事过数据分析及策略产品相关工作,现在美图公司负责美图秀秀app、美图设计室业务数据分析工作。个人介绍:人大硕士,阿里直播技术-淘宝直播APP数据负责人。3. 在存量时代,怎么更好优化用户留存,助力用户增长个人介绍:夏立雪,他是三清博士,已发表30余篇学术论文,入选2022年度人工智能最具影响力学者榜单,斯坦福学科Top2%科学家榜单。夏立雪现工作在阿里云计算平台事业部,负责阿里云用户增长和广告产品的研发。2. 哪些场景特别适合基于AI算法的用户增长方案?
在如今高度数字化的世界中,数据科学已成为一门跨学科领域,它融合了统计学、计算机科学、自然科学、社会科学和业务知识,旨在从庞大的数据中提取有价值的信息。随着技术的不断进步,数据科学在各行各业中的应用取得了显著的成果,为商业决策、产品创新和社会发展提供了强大的支持。本次论坛将聚焦于数据科学的最新进展及其在各个行业中的实践应用,我们很荣幸能邀请到金融、互联网、营销等领域的专家,共同探讨数据科学在各个行业中的实践经验和成果。出品人:李翱 柏美迪康环境科技 数据算法负责人 & 总经理助理个人介绍:清华物理学博士,曾任职快手数据科学家,快手策略算法lead,现在工业互联网领域从事环境数据科学家相关工作,全栈数据科学家。个人介绍:硕士学历,在云音乐先后从事后端开发、算法平台研发等工作,现为云音乐AB实验平台负责人、算法投放引擎架构师。
演讲提纲:云音乐完成新一代实验平台搭建,覆盖并服务于全公司所有业务,提供亿级别流量在线实验能力。本次将从平台基建、指标基建、实验评估三个维度来介绍如何构建一个学科的AB测试平台,并基于平台推广覆盖经验,分享下如何在公司内部建立及推进实验文化,有哪些手段来保证实验科学性及流程效率。个人介绍:前滴滴数据科学家,专注于商业智能工具开发以及 uplift model 结合运筹优化在用户补贴场景的落地。现小红书数据科学家,专注于因果推断在社区、商业化场景中的落地。日常工作涵盖,准实验场景因果效应估计(PSM、DID、SCM等)、HTE、Credit assignment 等。3. 获得因果推断在内容领域驱动业务改善的最佳实践个人介绍:用户增长部推荐算法专家,毕业于北京航空航天大学,先后在阿里巴巴、字节跳动任职,目前主要负责电商推荐、广告营销、智能运营的算法工作。
听众收益:了解手机增长领域的核心痛点,如何在多种挑战下高效落地,算法驱动业务增长。个人介绍:本科毕业于中国人民大学,研究生毕业于威斯康星麦迪逊大学统计系。2020年加入度小满,负责全流程的信贷业务分析与洞察。
▌关于我们
DataFun:专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过3000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章900+,百万+阅读,16万+精准粉丝。