车杆问题(如图 1)是一个经典控制问题, 其基本环境由一个可在水平轨道上左右移动的小车和一根铰接在小车上的直杆组成. 杆的初始状态略有倾斜, 因此会因重力而自然倾倒. 我们的目标是通过控制小车的左右移动, 使杆保持竖直平衡状态尽可能长的时间, 要求杆与竖直方向的夹角不超过特定阈值, 同时小车不能超出轨道边界.

图 1 车杆问题示意图

#

定义环境

好消息是 Python 包 gymnasium 已经为我们实现了这个环境的代码, 我们可以直接调用.

from gymnasium.envs.classic_control import CartPoleEnv

from gymnasium.wrappers.common import TimeLimit

def get_env(render: False, max_step=-1):

    raw_env = CartPoleEnv(render_mode="human" if render else None)

    if max_step > 0:

        return TimeLimit(raw_env, max_episode_steps=max_step)

    return raw_env

from gymnasium.envs.classic_control import CartPoleEnv

from gymnasium.wrappers.common import TimeLimit

def get_env(render: False, max_step=-1):

    raw_env = CartPoleEnv(render_mode="human" if render else None)

    if max_step > 0:

        return TimeLimit(raw_env, max_episode_steps=max_step)

    return raw_env

from gymnasium.envs.classic_control import CartPoleEnv

from gymnasium.wrappers.common import TimeLimit

def get_env(render: False, max_step=-1):

    raw_env = CartPoleEnv(render_mode="human" if render else None)

    if max_step > 0:

        return TimeLimit(raw_env, max_episode_steps=max_step)

    return raw_env

from gymnasium.envs.classic_control import CartPoleEnv

from gymnasium.wrappers.common import TimeLimit

def get_env(render: False, max_step=-1):

    raw_env = CartPoleEnv(render_mode="human" if render else None)

    if max_step > 0:

        return TimeLimit(raw_env, max_episode_steps=max_step)

    return raw_env

这里不使用 gym.make("CartPole-v1") 的原因是其限制了最长步数为 500, 这样的步数仍然过短, 模型可能陷入局部最优解, 比如任小车以较慢的速度滑出有效区域.

这个环境的和如下表所示.

状态	取值区间
车的位置
车的速度
杆的角度
杆末端的角速度

表 1 车杆问题状态空间

动作	值
向左推车
向右推车

表 2 车杆问题动作空间

只要坚持一帧, 就能获得分数为的奖励.

#

设计 Q 网络

根据环境的和 , 我们需要设计一个接收一个四维向量, 并输出一个二维向量的网络. 我这里给出一个例子.

import torch

import torch.nn as nn

import torch.nn.functional as F

class QNet(nn.Module):

    def __init__(self, state_size=4, action_size=2):

        super(QNet, self).__init__()

        self.fc1 = nn.Linear(state_size, 64)

        self.fc2 = nn.Linear(64, 64)

        self.fc3 = nn.Linear(64, action_size)

        self._initialize_weights()

    def _initialize_weights(self):

        for m in self.modules():

            if isinstance(m, nn.Linear):

                nn.init.kaiming_normal_(m.weight, mode='fan_in', nonlinearity='relu')

                nn.init.constant_(m.bias, 0)

    def forward(self, state):

        if state.dim() == 1:

            state = state.unsqueeze(0)

        x = F.relu(self.fc1(state))

        x = F.relu(self.fc2(x))

        q_values = self.fc3(x)

        return q_values

import torch

import torch.nn as nn

import torch.nn.functional as F

class QNet(nn.Module):

    def __init__(self, state_size=4, action_size=2):

        super(QNet, self).__init__()

        self.fc1 = nn.Linear(state_size, 64)

        self.fc2 = nn.Linear(64, 64)

        self.fc3 = nn.Linear(64, action_size)

        self._initialize_weights()

    def _initialize_weights(self):

        for m in self.modules():

            if isinstance(m, nn.Linear):

                nn.init.kaiming_normal_(m.weight, mode='fan_in', nonlinearity='relu')

                nn.init.constant_(m.bias, 0)

    def forward(self, state):

        if state.dim() == 1:

            state = state.unsqueeze(0)

        x = F.relu(self.fc1(state))

        x = F.relu(self.fc2(x))

        q_values = self.fc3(x)

        return q_values

import torch

import torch.nn as nn

import torch.nn.functional as F

class QNet(nn.Module):

    def __init__(self, state_size=4, action_size=2):

        super(QNet, self).__init__()

        self.fc1 = nn.Linear(state_size, 64)

        self.fc2 = nn.Linear(64, 64)

        self.fc3 = nn.Linear(64, action_size)

        self._initialize_weights()

    def _initialize_weights(self):

        for m in self.modules():

            if isinstance(m, nn.Linear):

                nn.init.kaiming_normal_(m.weight, mode='fan_in', nonlinearity='relu')

                nn.init.constant_(m.bias, 0)

    def forward(self, state):

        if state.dim() == 1:

            state = state.unsqueeze(0)

        x = F.relu(self.fc1(state))

        x = F.relu(self.fc2(x))

        q_values = self.fc3(x)

        return q_values

import torch

import torch.nn as nn

import torch.nn.functional as F

class QNet(nn.Module):

    def __init__(self, state_size=4, action_size=2):

        super(QNet, self).__init__()

        self.fc1 = nn.Linear(state_size, 64)

        self.fc2 = nn.Linear(64, 64)

        self.fc3 = nn.Linear(64, action_size)

        self._initialize_weights()

    def _initialize_weights(self):

        for m in self.modules():

            if isinstance(m, nn.Linear):

                nn.init.kaiming_normal_(m.weight, mode='fan_in', nonlinearity='relu')

                nn.init.constant_(m.bias, 0)

    def forward(self, state):

        if state.dim() == 1:

            state = state.unsqueeze(0)

        x = F.relu(self.fc1(state))

        x = F.relu(self.fc2(x))

        q_values = self.fc3(x)

        return q_values

这是一个具有两个隐藏层的网络, 并使用 ReLU 作为激活函数, 还使用了 He 初始化, 优化了初期的训练.

#

样本缓冲区

我们用 collections.deque 做一个简单的样本缓冲区, 可以向里面存入样本, 然后随机地取出.

import collections

import random

import numpy as np

class SampleBuffer:

    def __init__(self, max_size):

        self.buffer = collections.deque(maxlen=max_size)

    def add(self, state, action, reward, next_state, done):

        self.buffer.append((state, action, reward, next_state, done))

    def sample(self, batch_size):

        samples = random.sample(self.buffer, batch_size)

        state, action, reward, next_state, done = zip(*samples)

        return np.array(state), action, reward, np.array(next_state), done

    def size(self):

        return len(self.buffer)

import collections

import random

import numpy as np

class SampleBuffer:

    def __init__(self, max_size):

        self.buffer = collections.deque(maxlen=max_size)

    def add(self, state, action, reward, next_state, done):

        self.buffer.append((state, action, reward, next_state, done))

    def sample(self, batch_size):

        samples = random.sample(self.buffer, batch_size)

        state, action, reward, next_state, done = zip(*samples)

        return np.array(state), action, reward, np.array(next_state), done

    def size(self):

        return len(self.buffer)

import collections

import random

import numpy as np

class SampleBuffer:

    def __init__(self, max_size):

        self.buffer = collections.deque(maxlen=max_size)

    def add(self, state, action, reward, next_state, done):

        self.buffer.append((state, action, reward, next_state, done))

    def sample(self, batch_size):

        samples = random.sample(self.buffer, batch_size)

        state, action, reward, next_state, done = zip(*samples)

        return np.array(state), action, reward, np.array(next_state), done

    def size(self):

        return len(self.buffer)

import collections

import random

import numpy as np

class SampleBuffer:

    def __init__(self, max_size):

        self.buffer = collections.deque(maxlen=max_size)

    def add(self, state, action, reward, next_state, done):

        self.buffer.append((state, action, reward, next_state, done))

    def sample(self, batch_size):

        samples = random.sample(self.buffer, batch_size)

        state, action, reward, next_state, done = zip(*samples)

        return np.array(state), action, reward, np.array(next_state), done

    def size(self):

        return len(self.buffer)

#

DQN 算法

正如我们前面所说的, 我们实现 DQN 算法的更新算法和 -贪心策略. 有一点不同的是, 我们的环境会因为某些原因终止, 比如杆的角度或者小车位置超出范围, 到达最大时间等. 当环境终止时, 要把式 14 中第一项(也即下面代码的 q_targets) 中对未来的估计部分变为 , 因为环境已经终止, 未来不会有任何回报了.

class DQN:

    def __init__(self, state_dim, action_dim, learning_rate, gamma, epsilon, target_update_freq, device):

        self.action_dim = action_dim

        self.q_net = QNet(state_dim, action_dim).to(device)

        self.target_q_net = QNet(state_dim, action_dim).to(device)

        self.optimizer = torch.optim.Adam(

            self.q_net.parameters(), lr=learning_rate)

        self.gamma = gamma

        self.epsilon = epsilon

        self.target_update = target_update_freq

        self.update_count = 0

        self.device = device

    def take_action(self, state):

        # epsilon-greedy

        if np.random.random() < self.epsilon:

            action = np.random.randint(self.action_dim)

        else:

            state = torch.tensor([state]).to(self.device)

            action = self.q_net(state).argmax().item()

        return action

    def update(self, transition_dict):

        states = torch.tensor(transition_dict['states']).to(self.device)

        actions = torch.tensor(

            transition_dict['actions']).view(-1, 1).to(self.device)

        rewards = torch.tensor(

            transition_dict['rewards']).view(-1, 1).to(self.device)

        next_states = torch.tensor(

            transition_dict['next_states']).to(self.device)

        dones = torch.tensor(

            transition_dict['dones']).view(-1, 1).to(self.device)

        # Q(s_t, a_t)

        q_values = self.q_net(states).gather(1, actions)

        # max_a Q(s_(t + 1), a)

        max_next_q_values = self.target_q_net(

            next_states).max(1)[0].view(-1, 1)

        # r(s, t) + gamma max_a Q(s_(t + 1), a), mul (1-done) for obvious reason

        q_targets = rewards + self.gamma * max_next_q_values * (1 - dones)

        loss = F.mse_loss(q_targets, q_values)

        self.optimizer.zero_grad()

        loss.backward()

        self.optimizer.step()

        # update target network

        if self.update_count % self.target_update == 0:

            self.target_q_net.load_state_dict(self.q_net.state_dict())

        self.update_count += 1

class DQN:

    def __init__(self, state_dim, action_dim, learning_rate, gamma, epsilon, target_update_freq, device):

        self.action_dim = action_dim

        self.q_net = QNet(state_dim, action_dim).to(device)

        self.target_q_net = QNet(state_dim, action_dim).to(device)

        self.optimizer = torch.optim.Adam(

            self.q_net.parameters(), lr=learning_rate)

        self.gamma = gamma

        self.epsilon = epsilon

        self.target_update = target_update_freq

        self.update_count = 0

        self.device = device

    def take_action(self, state):

        # epsilon-greedy

        if np.random.random() < self.epsilon:

            action = np.random.randint(self.action_dim)

        else:

            state = torch.tensor([state]).to(self.device)

            action = self.q_net(state).argmax().item()

        return action

    def update(self, transition_dict):

        states = torch.tensor(transition_dict['states']).to(self.device)

        actions = torch.tensor(

            transition_dict['actions']).view(-1, 1).to(self.device)

        rewards = torch.tensor(

            transition_dict['rewards']).view(-1, 1).to(self.device)

        next_states = torch.tensor(

            transition_dict['next_states']).to(self.device)

        dones = torch.tensor(

            transition_dict['dones']).view(-1, 1).to(self.device)

        # Q(s_t, a_t)

        q_values = self.q_net(states).gather(1, actions)

        # max_a Q(s_(t + 1), a)

        max_next_q_values = self.target_q_net(

            next_states).max(1)[0].view(-1, 1)

        # r(s, t) + gamma max_a Q(s_(t + 1), a), mul (1-done) for obvious reason

        q_targets = rewards + self.gamma * max_next_q_values * (1 - dones)

        loss = F.mse_loss(q_targets, q_values)

        self.optimizer.zero_grad()

        loss.backward()

        self.optimizer.step()

        # update target network

        if self.update_count % self.target_update == 0:

            self.target_q_net.load_state_dict(self.q_net.state_dict())

        self.update_count += 1

class DQN:

    def __init__(self, state_dim, action_dim, learning_rate, gamma, epsilon, target_update_freq, device):

        self.action_dim = action_dim

        self.q_net = QNet(state_dim, action_dim).to(device)

        self.target_q_net = QNet(state_dim, action_dim).to(device)

        self.optimizer = torch.optim.Adam(

            self.q_net.parameters(), lr=learning_rate)

        self.gamma = gamma

        self.epsilon = epsilon

        self.target_update = target_update_freq

        self.update_count = 0

        self.device = device

    def take_action(self, state):

        # epsilon-greedy

        if np.random.random() < self.epsilon:

            action = np.random.randint(self.action_dim)

        else:

            state = torch.tensor([state]).to(self.device)

            action = self.q_net(state).argmax().item()

        return action

    def update(self, transition_dict):

        states = torch.tensor(transition_dict['states']).to(self.device)

        actions = torch.tensor(

            transition_dict['actions']).view(-1, 1).to(self.device)

        rewards = torch.tensor(

            transition_dict['rewards']).view(-1, 1).to(self.device)

        next_states = torch.tensor(

            transition_dict['next_states']).to(self.device)

        dones = torch.tensor(

            transition_dict['dones']).view(-1, 1).to(self.device)

        # Q(s_t, a_t)

        q_values = self.q_net(states).gather(1, actions)

        # max_a Q(s_(t + 1), a)

        max_next_q_values = self.target_q_net(

            next_states).max(1)[0].view(-1, 1)

        # r(s, t) + gamma max_a Q(s_(t + 1), a), mul (1-done) for obvious reason

        q_targets = rewards + self.gamma * max_next_q_values * (1 - dones)

        loss = F.mse_loss(q_targets, q_values)

        self.optimizer.zero_grad()

        loss.backward()

        self.optimizer.step()

        # update target network

        if self.update_count % self.target_update == 0:

            self.target_q_net.load_state_dict(self.q_net.state_dict())

        self.update_count += 1

class DQN:

    def __init__(self, state_dim, action_dim, learning_rate, gamma, epsilon, target_update_freq, device):

        self.action_dim = action_dim

        self.q_net = QNet(state_dim, action_dim).to(device)

        self.target_q_net = QNet(state_dim, action_dim).to(device)

        self.optimizer = torch.optim.Adam(

            self.q_net.parameters(), lr=learning_rate)

        self.gamma = gamma

        self.epsilon = epsilon

        self.target_update = target_update_freq

        self.update_count = 0

        self.device = device

    def take_action(self, state):

        # epsilon-greedy

        if np.random.random() < self.epsilon:

            action = np.random.randint(self.action_dim)

        else:

            state = torch.tensor([state]).to(self.device)

            action = self.q_net(state).argmax().item()

        return action

    def update(self, transition_dict):

        states = torch.tensor(transition_dict['states']).to(self.device)

        actions = torch.tensor(

            transition_dict['actions']).view(-1, 1).to(self.device)

        rewards = torch.tensor(

            transition_dict['rewards']).view(-1, 1).to(self.device)

        next_states = torch.tensor(

            transition_dict['next_states']).to(self.device)

        dones = torch.tensor(

            transition_dict['dones']).view(-1, 1).to(self.device)

        # Q(s_t, a_t)

        q_values = self.q_net(states).gather(1, actions)

        # max_a Q(s_(t + 1), a)

        max_next_q_values = self.target_q_net(

            next_states).max(1)[0].view(-1, 1)

        # r(s, t) + gamma max_a Q(s_(t + 1), a), mul (1-done) for obvious reason

        q_targets = rewards + self.gamma * max_next_q_values * (1 - dones)

        loss = F.mse_loss(q_targets, q_values)

        self.optimizer.zero_grad()

        loss.backward()

        self.optimizer.step()

        # update target network

        if self.update_count % self.target_update == 0:

            self.target_q_net.load_state_dict(self.q_net.state_dict())

        self.update_count += 1

#

开始训练

设置参数, 初始化模型, 然后根据我们前面所述的策略启动训练.

import tqdm.notebook as tqdm

device = torch.device(

    "cuda") if torch.cuda.is_available() else torch.device("cpu")

lr = 2e-3

num_episodes = 500

gamma = 0.98

epsilon = 0.01

target_update = 10

buffer_size = 10000

min_buffer_size = 500

batch_size = 64

env = get_env(render=False, max_step=2000)

replay_buffer = SampleBuffer(buffer_size)

state_dim = env.observation_space.shape[0]

action_dim = env.action_space.n

agent = DQN(state_dim, action_dim, lr, gamma, epsilon,

            target_update, device)

return_list = []

for i in range(10):

    with tqdm.tqdm(range(int(num_episodes / 10)), desc='Iteration %d' % i) as pbar:

        for i_episode in pbar:

            episode_return = 0

            state, _ = env.reset()

            done = False

            while not done:

                action = agent.take_action(state)

                next_state, reward, terminated, truncated, _ = env.step(action)

                done = terminated or truncated

                replay_buffer.add(state, action, reward, next_state, 1 if done else 0)

                state = next_state

                episode_return += reward

                # train after there are enough samples

                if replay_buffer.size() > min_buffer_size:

                    b_s, b_a, b_r, b_ns, b_d = replay_buffer.sample(batch_size)

                    transition_dict = {

                        'states': b_s,

                        'actions': b_a,

                        'next_states': b_ns,

                        'rewards': b_r,

                        'dones': b_d

                    agent.update(transition_dict)

            return_list.append(episode_return)

            if (i_episode + 1) % 10 == 0:

                pbar.set_postfix({

                    'episode':

                    '%d' % (num_episodes / 10 * i + i_episode + 1),

                    'return':

                    '%.3f' % np.mean(return_list[-10:])

})

import tqdm.notebook as tqdm

device = torch.device(

    "cuda") if torch.cuda.is_available() else torch.device("cpu")

lr = 2e-3

num_episodes = 500

gamma = 0.98

epsilon = 0.01

target_update = 10

buffer_size = 10000

min_buffer_size = 500

batch_size = 64

env = get_env(render=False, max_step=2000)

replay_buffer = SampleBuffer(buffer_size)

state_dim = env.observation_space.shape[0]

action_dim = env.action_space.n

agent = DQN(state_dim, action_dim, lr, gamma, epsilon,

            target_update, device)

return_list = []

for i in range(10):

    with tqdm.tqdm(range(int(num_episodes / 10)), desc='Iteration %d' % i) as pbar:

        for i_episode in pbar:

            episode_return = 0

            state, _ = env.reset()

            done = False

            while not done:

                action = agent.take_action(state)

                next_state, reward, terminated, truncated, _ = env.step(action)

                done = terminated or truncated

                replay_buffer.add(state, action, reward, next_state, 1 if done else 0)

                state = next_state

                episode_return += reward

                # train after there are enough samples

                if replay_buffer.size() > min_buffer_size:

                    b_s, b_a, b_r, b_ns, b_d = replay_buffer.sample(batch_size)

                    transition_dict = {

                        'states': b_s,

                        'actions': b_a,

                        'next_states': b_ns,

                        'rewards': b_r,

                        'dones': b_d

                    agent.update(transition_dict)

            return_list.append(episode_return)

            if (i_episode + 1) % 10 == 0:

                pbar.set_postfix({

                    'episode':

                    '%d' % (num_episodes / 10 * i + i_episode + 1),

                    'return':

                    '%.3f' % np.mean(return_list[-10:])

})

import tqdm.notebook as tqdm

device = torch.device(

    "cuda") if torch.cuda.is_available() else torch.device("cpu")

lr = 2e-3

num_episodes = 500

gamma = 0.98

epsilon = 0.01

target_update = 10

buffer_size = 10000

min_buffer_size = 500

batch_size = 64

env = get_env(render=False, max_step=2000)

replay_buffer = SampleBuffer(buffer_size)

state_dim = env.observation_space.shape[0]

action_dim = env.action_space.n

agent = DQN(state_dim, action_dim, lr, gamma, epsilon,

            target_update, device)

return_list = []

for i in range(10):

    with tqdm.tqdm(range(int(num_episodes / 10)), desc='Iteration %d' % i) as pbar:

        for i_episode in pbar:

            episode_return = 0

            state, _ = env.reset()

            done = False

            while not done:

                action = agent.take_action(state)

                next_state, reward, terminated, truncated, _ = env.step(action)

                done = terminated or truncated

                replay_buffer.add(state, action, reward, next_state, 1 if done else 0)

                state = next_state

                episode_return += reward

                # train after there are enough samples

                if replay_buffer.size() > min_buffer_size:

                    b_s, b_a, b_r, b_ns, b_d = replay_buffer.sample(batch_size)

                    transition_dict = {

                        'states': b_s,

                        'actions': b_a,

                        'next_states': b_ns,

                        'rewards': b_r,

                        'dones': b_d

                    agent.update(transition_dict)

            return_list.append(episode_return)

            if (i_episode + 1) % 10 == 0:

                pbar.set_postfix({

                    'episode':

                    '%d' % (num_episodes / 10 * i + i_episode + 1),

                    'return':

                    '%.3f' % np.mean(return_list[-10:])

})

import tqdm.notebook as tqdm

device = torch.device(

    "cuda") if torch.cuda.is_available() else torch.device("cpu")

lr = 2e-3

num_episodes = 500

gamma = 0.98

epsilon = 0.01

target_update = 10

buffer_size = 10000

min_buffer_size = 500

batch_size = 64

env = get_env(render=False, max_step=2000)

replay_buffer = SampleBuffer(buffer_size)

state_dim = env.observation_space.shape[0]

action_dim = env.action_space.n

agent = DQN(state_dim, action_dim, lr, gamma, epsilon,

            target_update, device)

return_list = []

for i in range(10):

    with tqdm.tqdm(range(int(num_episodes / 10)), desc='Iteration %d' % i) as pbar:

        for i_episode in pbar:

            episode_return = 0

            state, _ = env.reset()

            done = False

            while not done:

                action = agent.take_action(state)

                next_state, reward, terminated, truncated, _ = env.step(action)

                done = terminated or truncated

                replay_buffer.add(state, action, reward, next_state, 1 if done else 0)

                state = next_state

                episode_return += reward

                # train after there are enough samples

                if replay_buffer.size() > min_buffer_size:

                    b_s, b_a, b_r, b_ns, b_d = replay_buffer.sample(batch_size)

                    transition_dict = {

                        'states': b_s,

                        'actions': b_a,

                        'next_states': b_ns,

                        'rewards': b_r,

                        'dones': b_d

                    agent.update(transition_dict)

            return_list.append(episode_return)

            if (i_episode + 1) % 10 == 0:

                pbar.set_postfix({

                    'episode':

                    '%d' % (num_episodes / 10 * i + i_episode + 1),

                    'return':

                    '%.3f' % np.mean(return_list[-10:])

})

#

观察结果

新建一个有可视化界面的环境, 然后看看模型的表现吧!

env = get_env(render=True)

state, _ = env.reset()

done = False

while not done:

    action = agent.take_action(state)

    env.render()

    next_state, reward, terminated, truncated, _ = env.step(action)

    done = terminated or truncated

    state = next_state

env = get_env(render=True)

state, _ = env.reset()

done = False

while not done:

    action = agent.take_action(state)

    env.render()

    next_state, reward, terminated, truncated, _ = env.step(action)

    done = terminated or truncated

    state = next_state

env = get_env(render=True)

state, _ = env.reset()

done = False

while not done:

    action = agent.take_action(state)

    env.render()

    next_state, reward, terminated, truncated, _ = env.step(action)

    done = terminated or truncated

    state = next_state

env = get_env(render=True)

state, _ = env.reset()

done = False

while not done:

    action = agent.take_action(state)

    env.render()

    next_state, reward, terminated, truncated, _ = env.step(action)

    done = terminated or truncated

    state = next_state

不出意外的话, 你的模型应该能很好地控制住杆, 直到永远.

如果不幸没有, 请再仔细检查代码有没有错误. 此外由于我并没有设置任何 seed, 所以这种情况也是完全有可能发生的, 可以再尝试几次, 或者尝试修改超参数.

无论如何, it works on my machine.

#

好像还缺点什么

我们批评过 Q-Learning 只能学习离散状态空间中的函数, 但现在我们的 DQN 也不能给出连续的动作.

是的, 所以研究者们还提出了基于"策略梯度"的算法(DQN是基于值函数的), 比如 REINFORCE, 这种算法可以预测连续的动作. 除此之外, 还有混合两种思想的算法, 比如 Actor-Critic, PPO, DDPG 等. 但是这些算法都不在本文的计划范围之内了.

至此, 我们已经完成了对强化学习基础概念和两种入门算法的介绍. 从最初的马尔可夫决策过程, 到价值函数, 策略函数的概念, 再到 Q-Learning 和 DQN 算法的实现, 我们循序渐进地窥见了强化学习的一点思想.

不管怎样, 强化学习是一个广阔而深刻的领域, 本文也将仅仅止步与其思想和入门算法的介绍. 上面提到的其他算法并不在本文的计划内容范围内. 若有兴趣, 可以自行了解.

希望你有所收获.