Что объясняет эта страница
UI-TARS-1.5 is a multimodal vision-language agent optimized for GUI-based environments, including desktop interfaces, web browsers, mobile systems, and games. Built by ByteDance, it builds upon the UI-TARS framework with
- ByteDance (Doubao) · bytedance/ui-tars-1.5-7b
- text+image->text · китайский маршрут модели
- 128 000 context · 0,10 $ input