今天先用中文写总结,没啥时间了 今天的目标是理解Provably Efficient Model-Free Constrained RL with Linear Function Approximation的算法 分成了几步来走 How UCB measure uncertainty 在UCB中,Λ(lambda matrix) 是如何影响我们对数据的认知的 信息矩阵 Λ(lambda matrix) Λ(lambda matrix)本质上是几个单eigenvector matrix的加法组成的...
10262025-diary.hashnode.dev1 min readNo responses yet.