526互联
首页
Ai
Java
Python
Android
Mysql
JavaScript
Html
CSS
CogAgent
Github揽获3k+星!清华开源CogAgent:基于多模态大模型的GUI Agent
前言 本文提出了视觉 GUI Agent,使用视觉模态(而非文本)对 GUI 界面进行更全面直接的感知,从而做出规划和决策。对此,我们研发了多模态大模型 CogAgent,可接受 1120×1120 的高分辨率图像输入,不仅提升了通用视觉理解能力,还具备强大的 GUI Agent 能力。 本文转载自 ......
模态
CogAgent
模型
Github
Agent
更新时间 2024-01-05
共1篇 :1/1页
首页
上一页
1
下一页
尾页