import numpy as np
from scipy import stats
import random
import matplotlib.pyplot as plt

n = 10


def get_reward(prob, n=10):
    reward = 0
    for i in range(n):
        if random.random() < prob:
            reward += 1
    return reward


np.mean([get_reward(0.7) for _ in range(2000)])

7.0165


record = np.zeros((n, 2))
record

array([[0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])


def update_record(record, action, r):
    new_r = (record[action, 0] * record[action, 1] + r) / (record[action, 0] + 1)
    record[action, 0] += 1
    record[action, 1] = new_r
    return record


def get_best_arm(record):
    arm_index = np.argmax(record[:, 1], axis=0)
    return arm_index


np.random.seed(123)

record = np.zeros((n, 2))
probs = np.random.rand(n)
eps = 0.2
episodes = 500

print('probs: ', probs)

probs:  [0.69646919 0.28613933 0.22685145 0.55131477 0.71946897 0.42310646
 0.9807642  0.68482974 0.4809319  0.39211752]


def epsilon_greedy(record, eps=0.2):
    return get_best_arm(record) if random.random() > eps else np.random.randint(n)


# track mean rewards
epsilon_greedy_rewards = [0]
epsilon_greedy_choices = np.zeros(n)

for i in range(episodes):
    choice = epsilon_greedy(record, eps)
    r = get_reward(probs[choice])
    record = update_record(record, choice, r)
    mean_reward = ((i + 1) * epsilon_greedy_rewards[-1] + r) / (i + 2)
    epsilon_greedy_rewards.append(mean_reward)
    epsilon_greedy_choices[choice] += 1

plt.xlabel('Plays')
plt.ylabel('Average Reward')
plt.plot(
    np.arange(len(epsilon_greedy_rewards)),
    epsilon_greedy_rewards,
    label='Mean Rewards(epsilon_greedy)')

probs:  [0.69646919 0.28613933 0.22685145 0.55131477 0.71946897 0.42310646
 0.9807642  0.68482974 0.4809319  0.39211752]

[<matplotlib.lines.Line2D at 0x1377dfeb0>]


plt.xlabel('Choices')
plt.ylabel('Counts')
plt.bar(np.arange(len(epsilon_greedy_choices)), epsilon_greedy_choices, label='Choices Count')

<BarContainer object of 10 artists>


def softmax(action_values, tau=1.12):
    exp = np.exp(action_values / tau)
    return exp / np.sum(exp)


# track mean rewards
softmax_rewards = [0]
softmax_choices = np.zeros(n)

for i in range(episodes):
    p = softmax(record[:, 1])
    choice = np.random.choice(np.arange(n), p=p)
    r = get_reward(probs[choice])
    record = update_record(record, choice, r)
    mean_reward = ((i + 1) * softmax_rewards[-1] + r) / (i + 2)
    softmax_rewards.append(mean_reward)
    softmax_choices[choice] += 1

plt.xlabel('Plays')
plt.ylabel('Average Reward')
plt.plot(
    np.arange(len(epsilon_greedy_rewards)),
    epsilon_greedy_rewards,
    label='Mean Reward(epsilon greedy)')
plt.plot(
    np.arange(len(softmax_rewards)),
    softmax_rewards,
    label='Mean Reward(softmax)')
plt.legend()

probs:  [0.69646919 0.28613933 0.22685145 0.55131477 0.71946897 0.42310646
 0.9807642  0.68482974 0.4809319  0.39211752]

<matplotlib.legend.Legend at 0x137923130>

多臂老虎机问题¶

$\varepsilon$-greedy 策略¶

Softmax 策略¶