25小说网 通过搜索各大小说站为您自动抓取各类小说的最快更新供您阅读!

1.1 什么是因果推断

因果推断用于衡量一个行为的价值。即判断一个“因”能导致多少“果”。

比如说我今晚复习数学,明天数学考试能提升多少分。这是一个很难回答的问题,因为我无法同时知道不复习和复习后,我分别能考多少分,当前时刻我只能做一种选择并得到一个结果,另一个选择的结果是永远不可知的,这在因果推断里叫做反事实(conterfactual)。

因果推断往往会衍生出一个研究方向,因果发现。即判断一个行为是否和一个事件互为因果(推断是判断带来了多少果,发现是判断是否为因果)。比如冰棍卖的多和电费高往往同时出现,但他们不是因果关系,因为这种现象主要是天气热带来的。

1.2 为什么要研究因果

1.2.1 因果性 ≠ 相关性[2]

设想一个场景:大数据发现,穿鞋睡觉的人第二天往往会头疼。因此我们可以得出穿鞋睡觉和头疼相关,但这显然是反直觉的,客观规律告诉我们穿鞋睡觉不应该导致头疼。那但数据上为什么会呈现出这个现象呢?

原来是穿鞋睡觉的人大多都喝酒了,所以,真正导致头疼的其实是“隐藏”变量-是否喝酒。(这在因果推断里叫混淆变量,confounder)

深入思考一下,我们为什么会得出”因为穿鞋睡觉所以头疼“的错误结论,那是因为我们隐含的观察到“不穿鞋睡觉不头疼“,两组数据对比下得出结论。但是这个结论错误的关键是,两个集合里喝酒的人分布是不一致的,真实的因果是喝酒所以头疼,因此这里会有数学上的“辛普森悖论”。

因此,这个场景我们只能说穿鞋睡觉和头疼有相关性,但不能说他们互为因果。即相关 ≠ 因果

1.2.2 因果推断 > 相关性分析

为了对比因果推断和其他的机器学习问题,学术界提出了三层的因果之梯[3][4]:

相关(Association,观察):解释p(y|x),即已知x的条件下,y会怎么样。这是大部分场景下机器学习所面对的问题,如上一节所述,相关 ≠ 因果,故常规的机器学习方法无法处理因果问题。以上面的case为例,假设x = 穿鞋睡觉,y=头疼,则该层级会看到两者相关性很高的“假象”。

干预(Intervention,行动):解释p(y|do(x),z),即做某个行为x后,y是怎么样的。比如上面的例子,干预穿鞋睡觉的行为x,单独分析穿鞋睡觉(即do(x) = 1)和不穿鞋睡觉(do(x) = 0),在不同喝酒状态下的头疼(y)分布。这个层面可以分析出穿鞋睡觉对头疼可能无影响。但无法判断每个人穿鞋睡觉会不会导致头疼,因为观察不到。

反事实(counterfactual,想象):解释行为x对结果y的影响,即我做了x和不做x,对结果y的影响程度。这是因果推断要解决的问题,比如上面的例子,我不仅看到每个人不穿鞋睡觉头不痛的现象,还能反事实的推断出每个人穿鞋睡觉头不疼,进而得出穿鞋睡觉对头疼的具体影响程度。

上面的解释说明,相关 < 干预 < 反事实(即解决反事实问题的方法可以处理干预和相关问题,反之不成立)。传统的机器学习方法是处理相关性问题的,而因果推断关注反事实层。因此因果推断能解释的事情,将比传统的机器学习方法更“高级”,也更贴合日常的需要

2. 基础理论

2.1 业界流派

因果推断是根据一个结果发生的条件对因果关系得出结论的过程。存在两种研究方法[5]

实验性研究:通过大量随机对照实验(Rct)得出结论。因果推断的难点在于反事实,因此对照实验需要“足够随机”。对上面的例子而言,我们需要在实验组和对照组中确保喝酒的比例是均等的。这是代价昂贵且费时费力的。

观测性研究:对于已有的观测数据,通过建模进行因果关系的研究。这种方式对数学的要求较高且存在准确率的问题,但可操作性强。

显然,实验性研究是理论上最完美的方式,但实际中我们不可能穷举类似“喝酒状态”这种影响因和果的因素,随机对照试验的成本是极大的,仅存在理论的可能。业界的研究重点是,如何优化观测性研究的方法,使其准确度逐步逼近实验性研究。

当前,观测性研究存在两大流派,分别是pearl创立的结构因果图模型(Scm)和Rubin创建的潜在结果模型(Rcm)。[6][7]

2.2 变量定义与说明

为了便于后续介绍,这里先对因果推断的常用变量做一个说明。黑色粗体为重要定义,treatment Effect是衡量干预效果的指标,也是我们期望优化的目标以及模型的输出[5][7][8][9]

2.3 因果分析流程

介绍推断的具体方法之前,我们先说明因果分析的流程。如下图,主要有两个步骤[1][10]:

Identification(因果识别):基于观测数据,输出不同干预下的统计分布(即“原因因子”状态不同时结果因子的分布),以分布的gap作为衡量因果关系的依据。Scm模型主要解决这部分问题(并不是说Scm不能做后续的推断)

Estimation(因果推断):根据统计结果,做反事实的推断,以反事实与观测的gap作为效果大小的衡量,这个过程叫Estimation。Rcm模型重点在这部分

想减肥想减肥好吃,防护服减减肥进去刺骨寒风

25小说网推荐阅读:四合院:我何雨柱,誓不做吸血包四合院:农场主的美好生活四合院:这个住户恐怖如斯九龙至尊四合院:开局奖励神级厨艺重生1983:从夺回家产开始手握购物app:年代女配赢麻了穿成灾星小村姑,把全村都带歪了卷飞全家后我躺平了四合院:从返还技能开始美妇村情一天一个补偿包,反手打爆商业圈猛男诞生记四合院:开局拒绝一大爷换房婚礼现场,我和全家断绝关系!重生皇妃之不争宠武纵八荒我一个中介,会点风水很正常吧荒野求生之我的运气有亿点好山村最强小农民四合院:老子农场在国外重生1960,带着亿万食品仓库四合院:傻兄傻弟下乡知青:直接跟全家断绝关系赤胆特工四合院:我找傻柱报仇,全院慌了最强战神四合院:一人纵横万古神帝穿越古代:悍妇当家每月一首成名曲,打爆娱乐圈四合院:刚得系统,贾家逼我接济无敌升级王年代:随身农场被曝光了80年代剽悍土着女开局当替身,真千金在豪门杀疯了大佬媳妇甜又野救命!大佬她又开始反向许愿了!神魂丹帝人家采蘑菇,你采百年野山参全职中医万界交易,破产小老板的崛起之路邪御天娇携带亿万物资穿越七零四合院:我在四合院看我火爆全网四合院:这一家子惹不起年代1960:穿越南锣鼓巷,四合院:我真不想收拾你们60年代,饥荒年,赶山挖百年参权贵巅峰:我居然是世家子弟
25小说网搜藏榜:斗罗大陆4终极斗罗(斗罗大陆IV终极斗罗)重生皇妃之不争宠武纵八荒我和女神的荒岛生涯重生八零从知青回城开始古玩街直播:你管这叫捡漏?求生综艺爆火后,我成了全民团宠年代:从大山开始仙门弃婿皇上,本宫很会撩校草恋上小丫头狂妻要翻天:沈爷,娶我步步沦陷重生1983,从卖小龙虾开始我一个中介,会点风水很正常吧[穿越]龙小六星际逆袭记女监狱男管教他比火光更耀眼盛少,又又又发狗粮了穿成反派大佬的黑月光是谁劫走了我的初恋弃妃拒承欢本宫娇养的小奶狗被宠野了重生之农女太子妃吾家淘妻不好惹爱妃别跑,本王要以身相许神级提示:开局举报行走的五十万手握超市穿年代,糙汉福妻美又飒直播盗墓游戏,呆妹周姐人麻了!舞动娱乐圈身价万亿,校花被我骗光生活费最强少年医圣绝色风华:腹黑召唤师逆天妖妃撩君心凤鸾九霄环佩锁情仇绝世神医重生七五:王牌娇妻有灵泉重生明星路为动画制作献上美好祝福相婿出山你好,我是人间执剑者纨绔江湖:重生公主惹邪王霸道凌少的小妻子柯南之迪路兽有话要说叶君临李子染大结局2香江1979,我是光影大玩家神医毒妃不好惹云若月红楼之宠妃都市玄门医王
25小说网最新小说:权力巅峰:从1995年重生开始完蛋!在恋综岛被各大龙王包围了神豪:从原神开始我与美女的打野求生神豪:百倍返现,从舔狗到万众瞩目高考落榜我创建修仙大学都重生了谁还拉帮套啊祖坟冒青烟,地府被我搞通货膨胀娱乐:我在兼职,却要补位披哥?双星奇遇记星河浮生被美女虐完后,混蛋道士觉醒了!带女儿摆地摊,全球被我馋哭了!新冷战:异界入侵越放纵越有钱,我享受肆意人生高能世界的悠闲生活想象之界重生:之都市仙君全名修真的时代夫妻对调娃我带好了,你养的家呢我老婆是个什么东西?娱乐圈的素人身有绝症,所有人都后悔了处分我退学,高考又求我回去?重生之最后的茅山道士娱乐,雪藏结束了18岁成神豪,从此深情是路人许昭的人间半途两界穿越:精灵帮我赚钱天物觉醒:我能刻印一切隐姓埋名二十年,崛起先杀白月光离婚烂仔带两娃,你竟突然成神豪SSSS级天赋!我!超凡剑仙!柳条胡同之谁是小嘎么?重生之后,我成了文娱之王病娇美女总裁爱上我浴血江湖大佬:捡个美女做老婆官场:救了神秘大佬,乘风破浪我的维多利亚女友巷口算命那些年恋综:开局成为酒仙重生官场:从复仇开始文娱:不做舔狗,做全网的白月光赛车娘:从零缔造殿堂少女重生:不当舔狗,闪婚霸道女总裁天后上班我睡觉,直到歌词家中曝乱世旅人:莫斯拉之城天降便利店,通古今后赢麻了你让我一个细胞拯救世界