Hardware Club管理合伙人杨建铭:人工智能存在的1%问题

Hardware Club管理合伙人杨建铭:人工智能存在的1%问题 | 行业前沿


Hardware Club管理合伙人杨建铭:人工智能存在的1%问题


本文原文载自风传媒杨建铭专栏

杨建铭专栏:https://www.storm.mg/article/510764


作者简介:杨建铭,现任巴黎风险资本公司Hardware Club管理合伙人。台湾大学电机学硕士、法国HEC Paris MBA,CFA持证人,过去曾在亚洲、硅谷和欧洲半导体行业从业十二年,包含创业四年。

导读:人工智能真如科幻电影所演的那样神奇可靠吗?其实并不见得,在某些场景下,只要发生1%的失误,可能就会造成无法弥补的巨大伤害。

现在发展气势旺盛的人工智能技术,主要以机器学习类神经网络为主流。虽然募资中的创业者和不同投资哲学的风险资本家满嘴都是人工智能,仿佛世界上所有的问题都即将被人工智能解决,但机器学习本质上仍然存在我常说的“1%问题”。

所谓的“1%问题”,是指虽然只有极低的机率会出现极端状况,但一旦出现极端状况,后果往往非常严重,以至于让整个回报期望值跌落为负值。

我们可以假设一个抽签游戏。签筒中有99支白笔和1支黑笔,抽中白笔可得100美金,抽中黑笔则得赔9900美金,那么这个抽签游戏的净回报期望值为0。

99% × $100 + 1% × (−$9,900)=$0

基本上这是一个不赚也不赔的游戏,理性的金融思考逻辑下,任何人都不应该玩这个游戏,因为期望回报为0。而且波动性大于0(有99%的机会可能赚钱,有1%的机会可能赔钱)比起什么都不做(波动性为0)就可以稳稳地赚到(或赔掉)1美金来说应该是一个比较不具吸引力的游戏。

如果上面这个游戏在抽到黑笔时必须要拿出9900美金的赔款,回报期望值就会变成负值,成为一个不管什么状况下,理性的金融人都不会去参与的游戏。

接下来,我们把这个99%正确率的场景对应到影像辨识,也就是机器学习最早出现突破的领域。

类神经网络的主要演算法其实在很早之前就已经存在,但实际的应用很有限,除了前任脸书AI大神Yann LeCun当年在贝尔实验室开发的支票手写辨识机器得到广泛的应用以外,大部分通用影像辨识仍然错误率很高,而且速度奇慢无比。

21世纪前十年,关于电脑永远无法击败人脑的说法常常采用一个简单的例子来反驳:小孩子没什么辨别能力,但只要看过猫几次,不需要特别学习就可以十拿九稳地辨认出任何外貌的猫,但这简单的问题电脑却挣扎半天还是频频出错。


机器学习式的人工智能是一个大陷阱

不过,在研究者发现使用绘图芯片(GPU)进行类神经网络运算的速度,远比用中央处理器(CPU)快很多后,事情开始有了爆发性的进展。

2012年的ImageNet影像辨识大赛(ILSVRC,ImageNet Large Scale Visual Recognition Challenge)中,一个深层卷积网络达成16%的辨识错误率,两年后的赢家则一举突破降至7%;2015年年底,机器的辨识错误率达到3.6%,超越人类5%的水平;2017年,ILSVRC大赛的38支队伍中更是有高达29支队伍的机器辨识错误率都成功突破5%。看来在各种影像辨识的任务中,使用任劳任怨的机器取代任性的人类已经是不可逆的进程。

但是以上的案例都只讨论到错误的概率,并没有讨论到各种不同的场景,这里我们要引入刚才定义的“1%问题”,来检视现有机器学习式的人工智能系统是一个很大的陷阱。


Hardware Club管理合伙人杨建铭:人工智能存在的1%问题



场景一:传统安保

传统安保指的是人类实时监看保安摄影系统,在电影或电视剧中也常常出现这样的场景:两三个穿着工作装的保安盯着十几个分割屏幕,结果一聊天分心,让变态杀人狂成功避过监视进入他的目标区域。

保安不可能做100%毫无疏漏,因此这门生意本来也就是概率问题。聘用更多人监看电视就可以降低疏漏率,但是边际效果下降,成本上升。在用户能够接受的费用范围内,用户和安保公司签署的合约中需接受一定的总体疏漏概率,并追加同样是概率问题的保险制度,从而得到一个可行的商业模式。

如果使用影像辨识系统来取代坐在屏幕前监看的人类,成本多半可以降低,而且疏漏率更是远比会打瞌睡和偷懒的人类低。因此,用户可以享受更有保障的安保服务,安保公司也有机会赚到更多的钱,尽管疏漏率仍然不会降到0,但这是一个真正有用的机器学习应用场景。


场景二:行事历自动排程

风险资本家的日常都是一场接着一场的会议,但是不同于企业内部会议只要排时间,他们的会议分散在世界各地,中间还穿杂着各种电话会议,外加大量的出差,这就代表跟会议对象确认时间是一件非常耗时的事情,邮件一来一回可能花两天时间,但还是安排不好一场会议。

传统的解决方案是聘请秘书或者助理,好的秘书或者助理会根据会议重要性、敏感性、时区、合伙人飞行状况、班机延误风险等各种因素,和对方进行适当的会议时间、地点和方式协商。


Hardware Club管理合伙人杨建铭:人工智能存在的1%问题


​​


当然这样等级的秘书或者助理很贵,不是大家都负担得起,我自己常常遇到不那么专业的秘书,把事情搞砸的次数也不算少。Hardware Club因为旗下管理基金总规模还不大,所以并没有特别编列聘用秘书或助理的预算,大多是合伙人自己排程,也因此很多同事都下班了,但还能看得到合伙人在回复邮件,安排下一次出差的会议。

因此,我也终于理解当年包括DCM Ventures、FirstMark Capital、Two Sigma Ventures、Softbank Capital在内的多家知名风险管理公司为什么投资并大肆吹嘘一家位于纽约的新创公司——x.ai。

x.ai使用机器学习,用电脑秘书自动分析来信内容,并以自然语言回信请求安排会议,然后根据对方回应的文字内容(时间冲突、地点冲突、时区错误等信息)进行新的时间和地点确认,最后成功达成共识后就自动写进使用者的行事历。

最终理想状态是机器跟机器对话,因为这样一来就不需要分析自然语言,可以直接将日程写进行事历。所以,能够理解前因后果和对话背景的自然语言人工智能能力就变得十分重要。

但在我看来,x.ai的商业考量从第一天开始就有逻辑上的缺陷:会忙到需要秘书或助理帮忙协调行事历的人,正是因为行事历项目又多又重要,才有动力去使用x.ai的系统,希望能降低一些成本。

但类神经网络机器学习基本上是一个从很大的输入输出资料库,提炼出以简驭繁的模型方法,是一个缩减资讯量的过程,理论上不可能达到100%正确,永远都存在搞错的概率。就算做到99%正确,比一般助理更可靠,也不见得有意义。因为只要搞错的那1%行事历事项涉及到非常关键的人事物(例如:有意投资基金的机构法人、打算收购公司的大企业负责人等),可能导致的损失会远远超过之前因为换成机器而节省下来的成本。

我可以理解为什么分身乏术的风险资本家,有可能因为自己排会议的痛苦经验,而觉得自动排程行事历是一个很棒的商业点子,加上遇到很厉害的人工智能创业者,因此决定投资。但是我高度怀疑这些风险资本家,现在是否仍然依赖这样的软件服务来安排自己的行程——因为我实在无法想像当一个风险资本家跟基金投资人重要的会议被安排错误时,他可以接受“平均错误率比人类低”的借口。


场景三:自动驾驶

上面所提的“平均错误率比人类低”将我们带到目前1%问题可能最严重,但偏偏却又是各方重金押注的领域:自动驾驶。

两年前,当特斯拉首次有用户因为使用自动驾驶而遇难时,马斯克在推文上表示特斯拉的肇事死亡率仍然远低于一般汽车市场总体统计数据,暗示特斯拉的自动驾驶系统比人类驾驶更好,所以不应该被责怪。

但这种看似很典型的、很理性的工程师逻辑忽略了一件很重要的事情:当100个人开着100台车,因驾驶人的问题发生一件致死车祸时,其他的99个人和99台车并不会被一概而论。换言之,这个系统是分散的,每个驾驶人互相独立不相干。整体来说只要肇事率维持在1%,系统并不会被咎责。


Hardware Club管理合伙人杨建铭:人工智能存在的1%问题



但如果是特斯拉所提供的自动驾驶有1%的肇事率,那就不是一个分散式系统问题,而是一个中央系统的问题,被咎责的包含其它九十九台安全无恙的车子,而可能导致的赔偿金或者刑罚也是根据一百台计算。

2009年美国丰田汽车暴冲致死事件,除了造成大量汽车召回以及车厂经济损失,丰田家族继承人也被拖到美国国会面前羞辱,更别提品牌受到的重创。10个月后当调查结果终于出炉,正式排除丰田的责任,并将多数相关事件的肇事原因归属于驾驶人,但这时对丰田的永久性伤害已经造成。

同理,特斯拉(平均水平,而是要做到更低的数量级,才能避免因为1%问题而导致的全或者任何车厂)的自动驾驶系统,目标也不能仅仅是肇事率低于大众盘皆输。

结论:机器学习类神经网络本质上是一个或然率的系统,用来颠覆原本就是建立在或然率上的商业(例如侦测信用卡盗刷)是非常适合的,因为只要人工智能的表现能够比既有的或然率优异,企业就能实现更低成本和更高获利。

但如果或然率是结果,而且本质上存在“1%问题”(单一事件可能导致巨大损失),那么就不能单纯用错误率较低的机器学习类神经网络取代,因为只要出现一只黑天鹅,就可以否决所有天鹅都是白色的论点。


分享到:


相關文章: