词汇表

词汇表

这是一个社区创建的词汇表。欢迎投稿!

智能体

智能体学会通过反复试验做出决定,并受到周围环境的奖励和惩罚。

环境

环境是一个模拟世界,智能体可以在其中通过交互来学习。

马尔可夫性质

这意味着我们的智能体采取的行动仅以当前状态为条件,与过去的状态和行动无关

观察/状态

动作

奖励和折扣

任务

探索与利用的权衡

策略

基于策略的方法:

基于价值的方法:

寻找最优策略的方法

在基于价值的方法中,我们可以找到两种主要的策略

Epsilon-greedy 策略:

贪心策略:

蒙特卡洛和时序差分学习策略