用自然语言控制电脑,字节跳动开源 UI-TARS 的桌面版应用!内附详细的安装和配置教程

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: UI-TARS Desktop 是一款基于视觉语言模型的 GUI 代理应用,支持通过自然语言控制电脑操作,提供跨平台支持、实时反馈和精准的鼠标键盘控制。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持通过自然语言控制电脑,提供跨平台支持。
  2. 部署:支持云端和本地部署,推荐使用 HuggingFace 或 vLLM 进行快速部署。
  3. 运行:提供详细的安装和配置教程,支持 Windows 和 MacOS 系统。

正文(附运行示例)

UI-TARS Desktop 是什么

UI-TARS Desktop

UI-TARS Desktop 是一款基于视觉语言模型(Vision-Language Model)的 GUI 代理应用,允许用户通过自然语言控制电脑操作。它结合了视觉识别和自然语言处理技术,能够理解用户的指令并执行相应的操作。

该应用支持跨平台运行,适用于 Windows 和 MacOS 系统。通过实时反馈和状态显示,用户可以直观地看到指令的执行情况,确保操作的精准性和高效性。

UI-TARS Desktop 的主要功能

  • 自然语言控制:通过自然语言指令控制电脑操作,简化用户交互。
  • 视觉识别支持:支持截图和视觉识别功能,能够识别屏幕内容并执行相应操作。
  • 精准控制:提供精确的鼠标和键盘控制,确保操作的准确性。
  • 跨平台支持:支持 Windows 和 MacOS 系统,满足不同用户的需求。
  • 实时反馈:提供实时反馈和状态显示,帮助用户了解指令执行情况。

UI-TARS Desktop 演示示例

  • Prompt:Get the current weather in SF using the web browser
  • 使用网页浏览器获取旧金山的当前天气

🥦 微信公众号|搜一搜:蚝油菜花|查看原文演示示例 🥦

  • Prompt:Send a twitter with the content "hello world"
  • 发送一条包含内容“hello world”的推特推文

🥦 微信公众号|搜一搜:蚝油菜花|查看原文演示示例 🥦

如何运行 UI-TARS Desktop

1. 下载

你可以从 GitHub 仓库下载最新版本的 UI-TARS Desktop。

https://github.com/bytedance/UI-TARS-desktop/releases/latest

2. 安装(MacOS)

2.1. 将 UI TARS 应用程序拖拽到 Applications 文件夹中。

UI-TARS Desktop mac_install

注意:如果应用损坏,您可以在终端中使用以下命令来修复它。

sudo xattr -dr com.apple.quarantine /Applications/UI\ TARS.app

UI-TARS Desktop mac_broken

2.2. 在 MacOS 中启用 UI TARS 的权限:

  • 系统设置 -> 隐私与安全 -> 辅助功能
  • 系统设置 -> 隐私与安全 -> 屏幕录制

UI-TARS Desktop mac_permission

2.3. 打开 UI TARS 应用程序,你将看到以下界面:

UI-TARS Desktop mac_app

3. 安装(Windows)

UI-TARS Desktop windows_install

3. 部署

3.1 云端部署

我们推荐使用 HuggingFace Inference Endpoints 进行快速部署。你可以参考以下两个官方文档:

3.2 本地部署 [vLLM]

推荐使用 vLLM 进行快速部署和推理。你需要安装 vllm>=0.6.1

pip install -U transformers
VLLM_VERSION=0.6.6
CUDA_VERSION=cu124
pip install vllm==${VLLM_VERSION} --extra-index-url https://download.pytorch.org/whl/${CUDA_VERSION}

3.2.1 下载模型

这里提供了三种模型大小:2B7B72B。为了获得最佳性能,推荐使用 7B-DPO72B-DPO 模型:

3.2.2 启动 OpenAI API 服务

运行以下命令启动 OpenAI 兼容的 API 服务:

python -m vllm.entrypoints.openai.api_server --served-model-name ui-tars --model <path to your model>

3.2.3 输入 API 信息

在设置中输入你的 API 信息:

UI-TARS Desktop settings_model

注意:VLM 基础 URL 是与 OpenAI 兼容的 API 端点(有关更多详细信息,请参阅 OpenAI API 协议文档)。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
4月前
|
前端开发 安全 开发工具
【11】flutter进行了聊天页面的开发-增加了即时通讯聊天的整体页面和组件-切换-朋友-陌生人-vip开通详细页面-即时通讯sdk准备-直播sdk准备-即时通讯有无UI集成的区别介绍-开发完整的社交APP-前端客户端开发+数据联调|以优雅草商业项目为例做开发-flutter开发-全流程-商业应用级实战开发-优雅草Alex
【11】flutter进行了聊天页面的开发-增加了即时通讯聊天的整体页面和组件-切换-朋友-陌生人-vip开通详细页面-即时通讯sdk准备-直播sdk准备-即时通讯有无UI集成的区别介绍-开发完整的社交APP-前端客户端开发+数据联调|以优雅草商业项目为例做开发-flutter开发-全流程-商业应用级实战开发-优雅草Alex
270 90
【11】flutter进行了聊天页面的开发-增加了即时通讯聊天的整体页面和组件-切换-朋友-陌生人-vip开通详细页面-即时通讯sdk准备-直播sdk准备-即时通讯有无UI集成的区别介绍-开发完整的社交APP-前端客户端开发+数据联调|以优雅草商业项目为例做开发-flutter开发-全流程-商业应用级实战开发-优雅草Alex
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
Deep Research Web UI:开源版Deep Research!接入DeepSeek一键生成深度研究报告,可视化检索过程
Deep Research Web UI 是一款开源的 AI 研究助手工具,通过 AI 驱动的迭代搜索和多语言支持,帮助用户高效进行深度研究,并以树状结构可视化研究过程,支持导出为 Markdown 或 PDF 格式。
621 9
Deep Research Web UI:开源版Deep Research!接入DeepSeek一键生成深度研究报告,可视化检索过程
|
2月前
|
JSON 监控 JavaScript
Swagger UI 本地主机教程: 如何在本地使用 Swagger UI?
Swagger UI 提供在线和离线版本,但由于各种原因,你可能需要在本地使用 Swagger UI。 在本文中,我们将向你展示如何在本地使用 Swagger UI。
|
4月前
|
存储 人工智能 编译器
【03】鸿蒙实战应用开发-华为鸿蒙纯血操作系统Harmony OS NEXT-测试hello word效果-虚拟华为手机真机环境调试-为DevEco Studio编译器安装中文插件-测试写一个滑动块效果-介绍诸如ohos.ui等依赖库-全过程实战项目分享-从零开发到上线-优雅草卓伊凡
【03】鸿蒙实战应用开发-华为鸿蒙纯血操作系统Harmony OS NEXT-测试hello word效果-虚拟华为手机真机环境调试-为DevEco Studio编译器安装中文插件-测试写一个滑动块效果-介绍诸如ohos.ui等依赖库-全过程实战项目分享-从零开发到上线-优雅草卓伊凡
139 10
【03】鸿蒙实战应用开发-华为鸿蒙纯血操作系统Harmony OS NEXT-测试hello word效果-虚拟华为手机真机环境调试-为DevEco Studio编译器安装中文插件-测试写一个滑动块效果-介绍诸如ohos.ui等依赖库-全过程实战项目分享-从零开发到上线-优雅草卓伊凡
|
3月前
|
开发框架 缓存 自然语言处理
HarmonyOS ArkTS声明式UI开发实战教程
本文深入探讨了ArkTS作为HarmonyOS生态中新一代声明式UI开发框架的优势与应用。首先对比了声明式与命令式开发的区别,展示了ArkTS如何通过直观高效的代码提升可维护性。接着分析了其核心三要素:数据驱动、组件化和状态管理,并通过具体案例解析布局体系、交互组件开发技巧及复杂状态管理方案。最后,通过构建完整TODO应用实战,结合调试优化指南,帮助开发者掌握声明式UI设计精髓,感受ArkTS的独特魅力。文章鼓励读者通过“破坏性实验”建立声明式编程思维,共同推动HarmonyOS生态发展。
191 3
|
4月前
|
人工智能 自然语言处理 前端开发
Flame:开源AI设计图转代码模型!生成React组件,精准还原UI+动态交互效果
Flame 是一款开源的多模态 AI 模型,能够将 UI 设计图转换为高质量的现代前端代码,支持 React 等主流框架,具备动态交互、组件化开发等功能,显著提升前端开发效率。
556 1
|
4月前
|
前端开发 数据安全/隐私保护 开发者
FirstUI:Deepseek能帮我们做很多事情,而这款开源框架专为开发者设计的开源UI框架,让你的项目加速起飞
嗨,大家好,我是小华同学。今天为大家介绍一个轻量级、响应式的前端UI框架——FirstUI。它提供丰富的组件库,包括按钮、输入框、下拉菜单等,帮助开发者快速构建美观、功能丰富的用户界面。FirstUI的核心理念是“简单、快速、高效”,适合各种Web应用开发,如企业网站、电商平台和个人博客。其体积小、加载快,支持响应式设计,并且易于定制。FirstUI拥有活跃的社区支持,开发者可以轻松找到帮助并分享经验。欢迎关注我们,获取更多优质开源项目和高效工作学习方法。
181 0
|
5月前
|
存储 人工智能 自然语言处理
Pandas数据应用:自然语言处理
本文介绍Pandas在自然语言处理(NLP)中的应用,涵盖数据准备、文本预处理、分词、去除停用词等常见任务,并通过代码示例详细解释。同时,针对常见的报错如`MemoryError`、`ValueError`和`KeyError`提供了解决方案。适合初学者逐步掌握Pandas与NLP结合的技巧。
146 20
|
7月前
|
自然语言处理 API C++
阿里通义推出SmartVscode插件,自然语言控制VS Code,轻松开发应用,核心技术开源!
SmartVscode插件深度解析:自然语言控制VS Code的革命性工具及其开源框架App-Controller
1171 1
阿里通义推出SmartVscode插件,自然语言控制VS Code,轻松开发应用,核心技术开源!
|
8月前
|
自然语言处理 算法 Python
自然语言处理(NLP)在文本分析中的应用:从「被动收集」到「主动分析」
【10月更文挑战第9天】自然语言处理(NLP)在文本分析中的应用:从「被动收集」到「主动分析」
172 4

热门文章

最新文章

OSZAR »