德州扑克与量化交易

德州扑克能教会你的知识,比整条华尔街还要多。——彼得·林奇

随着计算机算力、算法的进步和数据的积累,近年来人工智能研究与应用成果显著。有关DeepBlue2和阿尔法狗击败人类象棋、围棋冠军的故事耳熟能详,人工智能在棋类游戏上面对人类已稳操胜券,但同样很受欢迎的游戏德州扑克,却至今没有取得决定性的胜利。



这是因为德州扑克是复杂的不完备信息扩展式博弈。在数学中专门有一个分支博弈论(GameTheory),主要就是研究具有斗争或竞争性质现象的数学理论和方法。围棋、象棋等棋类游戏则属于完备信息扩展式博弈。一字之差,求解难度相去甚远。



所有的完备游戏(例如五子棋、国际象棋、围棋)都有一种特性,那就是,当你采取一些行动时,你的对手也采取了一些行动,当你发现自己身处一个特别的子博弈环境时,完全可以忽略其它不相关的情况,决策点与最佳策略直接相关,你唯一需要做的事情就是,确定当前的决策点。只是状态复杂度和博弈树复杂度的区别。



德州扑克是不完备游戏,这类游戏具备当你处在一个特定的子博弈中时,随即又会出现其他的子博弈,你不能从这个决策点出发,因为其他子博弈会影响你当前子博弈的最佳策略。换句话说,当在不完美的信息博弈中进行决策时,你必须考虑到这个博弈的全局策略,而并非子博弈的最佳策略。德扑游戏玩家并不知道游戏中所有的信息,比如对手的手牌和桌上未翻开的公共牌,存在隐藏的信息,同时还有诈唬等心理战术。并且随着牌局参与的人的增多,其信息不完全程度更甚,求解难度更大。

金融市场则是更加复杂的不完备信息扩展式博弈。金融市场参与群体众多,存在较大的信息不对称特征,每一位决策者只能了解到市场部分信息,而参与者的行为和情绪同时又受到市场之外的各种信息的影响,具有随机性、信息不完全可见性、博弈规模大等特征。

信息的民主化使得主动性投资变得越来越难做。我们必须改变生态系统,更多地依赖大数据、人工智能、量化等手段。

——全球最大资管集团贝莱德创始人及CEO拉里·芬克

与棋类游戏相比,德州扑克与金融市场交易更加相似。德州扑克需要根据位置、手牌、彩池、对手隐藏信息等有限的信息,来计算胜率和赔率,做出合理的决策,同时还要懂得利用心理战术,善于观察和挖掘对手信息,捕捉和利用对手的决策失误;要擅长资金管理,防止过早出局。这里面有胜算评估,有资金管理,还有心理历练。良好的德州扑克训练,有利于量化交易的意识和技能的培养。

由于计算扑克这类大规模博弈的精确纳什均衡的复杂度太高,最近10年,相关的研究工作开始转向求解更加容易计算的近似纳什均衡。人工智能在德州扑克领域开始取得了可喜成果。DeepStack是加拿大阿尔伯特大学开发的人工智能系统,它采取的是深度学习算法,是世界上第一个在“一对一无限注德州扑克”上击败了职业扑克玩家的计算机程序。2017年1月,卡内基梅隆大学人工智能机器人Libratus在两人无限注的德州扑克中战胜了四位顶级人类职业德扑选手,又于4月战胜了李开复邀请的2016世界德扑大赛WSOP金手链冠军率领的“龙之队”,Libratus背后的一个核心算法是虚拟遗憾最小化(CFR),这是一个与深度学习算法不同的机器学习算法。2018年初,Libratus的主创人员TuomasSandholm成立了「StrategyRobot」公司,以此将他的实验室成果应用于政府部门的工作,并通过开发战争模拟类游戏,协助军方完成军事战略的制定和规划。相关公开信息显示,去年8月,该公司与美国陆军签订了一份长达两年的合作合同,价值1000万美元。这份合同指出,公司将为五角大楼的一个创新部门提供服务。



虚拟遗憾最小化能够给出决策点上每个可执行动作的概率—-即博弈的策略,采用该策略可以使收益最大而遗憾值最小。遗憾值是指对未采取的动作后悔程度的量化,举例来说,在玩剪刀石头布的游戏时,若甲出石头,乙出布,则甲的效用值显然为-1,乙的效用值为1。当游戏结束时,甲显然会后悔为什么自己没有出布,如果出了布,那么效用值为0,更加后悔为啥没有出剪刀,效用值为1。这个时候我们显然可以定义采取动作A和未采取动作B的遗憾值。所谓“虚拟”是指将结局的遗憾值分解到之前的决策点中,通过反复迭代,使得每个决策点遗憾值最小,来达到最终收益最大化的目的。

目前已有券商金工团队将虚拟遗憾最小化算法应用到量化择时交易领域。把市场指数当作对手进行博弈,根据指数的历史数据(对手的历史动作序列),以日为时间尺度,用虚拟遗憾最小化预测下一个交易日指数的涨跌概率,进而给出量化择时的多空信号。





从回测效果来看,取得了较好的盈亏比,但胜率不高,择时效果不够理想,毕竟金融市场是更加复杂的场景,同时预测仅仅是交易的一部分。这仅仅是一个开始,还有更多的问题亟待解决。例如,如何计算多于两人博弈的均衡解?如何处理多人博弈中玩家之间复杂的利益关系?可以确信的是,这一研究领域正处于蓬勃发展的阶段,并在可预见的未来继续发展壮大。或许在不久之后,多人扑克游戏中的计算机程序也将战胜人类,而量化交易也将从中受益。

如果文章对您有用请随意打赏,谢谢支持!