当前位置: 首页 > news >正文

合肥建设工程信息网站alexa

合肥建设工程信息网站,alexa,百度商桥网站加不上,网站建设会遇到哪些难题《Single-Turn Agent for Empowering GUI Automation》 赋能GUI自动化的单轮代理 摘要 我们介绍了一个用于图形用户界面(GUI)交互任务的单轮代理,使用了视觉语言模型Florence-2-Base。该代理的主要任务是识别与用户指令相对应的UI元素的屏幕…

《Single-Turn Agent for Empowering GUI Automation》
赋能GUI自动化的单轮代理

摘要

我们介绍了一个用于图形用户界面(GUI)交互任务的单轮代理,使用了视觉语言模型Florence-2-Base。该代理的主要任务是识别与用户指令相对应的UI元素的屏幕坐标。

它在Screenspot和OmniAct上表现出强大的性能,同时保持了0.27B参数的紧凑规模和最低的延迟。

相关的改进来自于多任务训练和基于MLLM的数据增强。手动注释的语料库很少,但我们表明,MLLM增强可能产生更好的结果。

在Screenspot和OmniAct平台上,我们的模型超过了专门针对GUI的模型(如SeeClick)和大模型(如GPT-4V)。

模型:hugging-face.co/Samsung/TinyClick.

在这里插入图片描述

下游任务的示例命令。TinyClick 接收屏幕截图和用户指令,然后预测 UI 元素的边界框和动作。

训练情况

模型开源: hugging-face.co/Samsung/TinyClick
Florence2:一个定位和检测模型、通过同时使用带注释的图像和自然语言解释,允许适应跨领域。

训练方式

多任务训练

任务类别和目的

我们使用了公开可用的语料库来训练单轮对话智能体,这些语料库主要包含命令和位置(边界框)。
为了准备训练数据,我们使用了现有的MLLM注解或软件元数据,并且也使用我们自己的MLLM管道对数据进行了重新注解。
元素的描述、期望、位置和用途主要基于MLLM注解,而对象检测则使用了Android XML UI元数据。
实验验证了我们的方法的有效性,用更小、更快的模型超越了当前的基线。

任务名称

1.Element captioning
根据屏幕上的位置生成UI元素的描述、目的或操作预期。

2.Element location
根据视觉描述定位UI元素

3.Object detection
检测所有可点击的UI元素

4.Agent action
根据用户指令(command)定位要点击的UI元素或要点击的位置。

5.QA
根据屏幕内容QA

训练数据集

1.WaveUI
2.AMEX
3.Mind2Web
4.GUI Odyssey(not in train)
5.GUI Course
6.AndroidControl
7.ScreenQA
8.WebUI(not use)
9.OmniAct(validation set)

在这里插入图片描述

MLLM注解模型标注的方式

InternVL2-26B 标注数据 GUI Course的例子:

你的任务是生成一个预期 expectation ——与红色方框中的UI元素交互后会发生什么。

也就是说

输入是 image、prompt、 包含command和action的input json
输出是 output json

在这里插入图片描述
在这里插入图片描述

训练任务示例

同一个UI元素 可以 有多个不同的任务,类似 grounding和widget caption的意思

在这里插入图片描述

http://www.yidumall.com/news/41815.html

相关文章:

  • 厦门做企业网站比较好的公司引流用什么话术更吸引人
  • 企业网站托管运营西安百度提升优化
  • 外包app公司不给源代码如何进行seo
  • 桂林创新大厦网站怎样在百度上免费做广告
  • 个人做网站需要备案吗成都有实力的seo团队
  • 网站静态化的处理网络营销产品的特点
  • 融资融券配资网站开发成都关键词自然排名
  • 西安好的皮肤管理做团购网站百度云手机登录入口
  • 长沙哪个平台做网站好seo优化软件有哪些
  • 网页设计的网站推荐今天最新新闻国内大事件
  • phpcms怎么做网站seo服务外包报价
  • wordpress 3.9 模板企业网站seo优化
  • 校园网二手书交易网站建设企业培训课程名称大全
  • 磁力网站怎么做的源码semantics
  • 图片制作表情包的软件鸡西seo顾问
  • 网站里的课程配图怎么做skr搜索引擎入口
  • 提高美誉度的网络营销方式北京百度seo服务
  • 用来做网页的软件seo工具不包括
  • 香港com域名注册网站优化搜索排名
  • 河南建筑职业技术学院旺道网站优化
  • 网站后台可以备份吗百度seo软件优化
  • 付费小说网站怎么做网站关键词排名查询工具
  • 微信网页上的网站怎么做的电商平台如何推广运营
  • 网站建设的市场需求怎么开网站
  • 淘宝客的免费电影网站怎么做网络优化主要做什么
  • 南昌做网站哪家公司好良品铺子网络营销策划书
  • 网站的优化什么做百度推广工具有哪些
  • 做网站数据库及相关配置怎么自己注册网站平台了
  • 仿qq网站程序世界新闻最新消息
  • 做黄网站违法吗常用的关键词挖掘工具有哪些