当前位置: 首页 > news >正文

怎么利用网站赚广告费汕头网站建设公司

怎么利用网站赚广告费,汕头网站建设公司,有域名之后怎样进行网站建设,wordpress 数据库发布问题陈述 我们有两个多臂老虎机(Multi-Armed Bandit),分别称为左边的老虎机和右边的老虎机。每个老虎机的奖励服从不同的正态分布: 左边的老虎机:奖励服从均值为 500,标准差为 50 的正态分布,即…

问题陈述

我们有两个多臂老虎机(Multi-Armed Bandit),分别称为左边的老虎机右边的老虎机。每个老虎机的奖励服从不同的正态分布:

  • 左边的老虎机:奖励服从均值为 500,标准差为 50 的正态分布,即 N(500,50)N(500,50)。

  • 右边的老虎机:奖励服从均值为 550,标准差为 100 的正态分布,即 N(550,100)N(550,100)。

我们的目标是使用 ε-greedy 强化学习算法(ε=0.1,初始值为 998)来估计这两个老虎机的奖励期望值。具体来说,我们需要通过多次尝试(拉动手臂)来逐步更新对每个老虎机奖励的估计,最终找到两个老虎机的奖励期望值。

问题分解

  1. 目标

    • 使用 ε-greedy 算法估计两个老虎机的奖励期望值。

    • 通过多次尝试,逐步更新对每个老虎机奖励的估计。

  2. ε-greedy 算法

    • ε=0.1:表示有 10% 的概率进行随机探索(随机选择一个老虎机),90% 的概率进行利用(选择当前估计奖励最高的老虎机)。

    • 初始值=998:表示每个老虎机的初始奖励估计值为 998。

  3. 奖励分布

    • 左边的老虎机:N(500,50)N(500,50)

    • 右边的老虎机:N(550,100)N(550,100)

  4. 输出

    • 经过多次尝试后,输出两个老虎机的奖励期望值的估计结果

    • 通过运行代码,我们可以得到一个图表,显示两个老虎机奖励期望估计值随着时间的变化情况。随着拉动次数的增加,两个估计值应该逐渐接近它们各自的真实奖励期望值(500 和 550)。

import numpy as np
import matplotlib.pyplot as plt# 参数初始化
epsilon = 0.1  # ε-greedy算法中的ε
Q1 = 998  # 左边老虎机的奖励期望估计
Q2 = 998  # 右边老虎机的奖励期望估计
n1 = 0  # 左边老虎机的拉动次数
n2 = 0  # 右边老虎机的拉动次数
num_plays = 10000  # 总共拉动的次数# 奖励的真实分布
mu1, sigma1 = 500, 50  # 左边老虎机的真实奖励分布(均值,标准差)
mu2, sigma2 = 550, 100  # 右边老虎机的真实奖励分布(均值,标准差)# 用于存储结果
Q1_estimates = []
Q2_estimates = []# ε-greedy策略的实验
for t in range(num_plays):# 根据ε-greedy策略选择一个老虎机if np.random.random() < epsilon:action = np.random.choice([1, 2])  # 随机选择左或右else:action = 1 if Q1 > Q2 else 2  # 选择当前估计奖励最大的老虎机if action == 1:reward = np.random.normal(mu1, sigma1)  # 从左边老虎机获得奖励n1 += 1Q1 += (reward - Q1) / n1  # 更新左边老虎机的奖励期望估计Q1_estimates.append(Q1)else:reward = np.random.normal(mu2, sigma2)  # 从右边老虎机获得奖励n2 += 1Q2 += (reward - Q2) / n2  # 更新右边老虎机的奖励期望估计Q2_estimates.append(Q2)# 最终的奖励期望估计
print(f"最终左边老虎机的奖励期望估计: {Q1}")
print(f"最终右边老虎机的奖励期望估计: {Q2}")# 绘图
plt.figure(figsize=(12, 6))# 绘制左边老虎机奖励期望估计的变化
plt.plot(Q1_estimates, label="Left Slot Machine (Q1)", color="blue")# 绘制右边老虎机奖励期望估计的变化
plt.plot(Q2_estimates, label="Right Slot Machine (Q2)", color="red")# 绘制真实奖励期望值的参考线
plt.axhline(y=mu1, color="blue", linestyle="--", label="True Q1 (500)")
plt.axhline(y=mu2, color="red", linestyle="--", label="True Q2 (550)")# 图表设置
plt.title("Reward Estimation in ε-greedy Slot Machine Experiment")
plt.xlabel("Number of Plays")
plt.ylabel("Estimated Reward")
plt.legend(loc="best")
plt.grid(True)# 显示图表
plt.show()

显示结果如图:

http://www.yidumall.com/news/70498.html

相关文章:

  • 做淘宝客网站用什么系统百度客服电话24小时人工服务热线
  • 兰州企业网站建设多少钱网站的推广优化
  • 做网站如何与腾讯合作免费建站系统哪个好用吗
  • 华文细黑做网站有版权吗百度竞价托管公司
  • 查询网站名有没有收录某企业网站的分析优化与推广
  • 中企动力官做网站怎么样谷歌推广代理商
  • 太原网站建设方案维护百度营销推广靠谱吗
  • b2c网站框架seo秘籍优化课程
  • 备案个人网站名称大全品牌营销活动策划方案
  • 公司营销型网站制作企业seo关键字优化
  • 上海 餐饮网站建设如何创建自己的域名
  • 视频会议系统直播聊天网站开发百度投诉电话
  • 包头北京网站建设大连seo关键词排名
  • b2c网站开发方案北京官网seo收费
  • 高端网站建设优化百度百科分类方法
  • 网站seo技术能不能赚钱无锡网站制作推广
  • 网络营销与市场营销的关系青岛自动seo
  • ps怎么做网站设计百度交易平台
  • 做网站小程序台州关键词首页优化
  • 个人网站怎么做联盟推广微信小程序开发教程
  • 宿州金融网站建设百度竞价排名叫什么
  • 设计师联盟重庆网站seo多少钱
  • 网站制作合同书seo检测
  • 山东东方路桥建设总公司官方网站最近军事新闻热点大事件
  • 滕州做网站比百度好用的搜索软件手机版
  • 富阳网站制作企业建设网站公司
  • ui个人作品集网站公司官网开发制作
  • 门头效果图制作trinseo公司
  • 如果做网站需要多少钱软文写作的三个要素
  • 网页设计网站开发需要哪些知识30条新闻摘抄