| 
IT之家 5 月 6 日音讯,据字节高出旗下火山引擎官方音讯,今天,Doubao-Seed-2.0-lite 升级新版块,这是豆包大模子眷属首款全模态领悟模子,复旧视频、图像、音频、文本原生协调领悟,Agent、Coding 与 GUI 才气同步升级。在同等算力本钱下,是企业大范围、批量化部署全模态推理任务的更优性价比接收。 Doubao-Seed-2.0-lite 全新版块已在火山方舟上线。 IT之家附官方刺眼先容如下: 全模态领悟: 不啻看懂图文,更能听懂寰宇 新版块的 Doubao-Seed-2.0-lite 赓续在视觉领悟才气上大幅普及,在物理(HiPhO)、医疗(MedXpertQA)等高阶学科推理上,发扬大幅高出 2 月发布的 Doubao-Seed-2.0-pro。在细粒度感知(BabyVision、WorldVQA)与具身领悟(ERQA)等关键界限达到 SOTA 水平,更符合企业在高价值场景范围化部署。 
加粗暗示最优死心,下划线暗示次优死心,下同 融入语音领悟后,新版块的 Doubao-Seed-2.0-lite 可同期领悟多种输入模态,并完成跨模态合资推理,平直不停必须“音画联接”才能判断的复杂业务需求。 在视频领悟场景下,模子八成合资分析视频中的画面与音频信息,精确辨析视频中的视听一致性,判断“看到的”与“听到的”是否一致。 同期复旧左证当然言语教唆,在视频中精确定位特定事件发生的时候点;更能跨越多个时候段提真金不怕火关键印迹,握续跟踪东说念主物与事件发展,并基于画面进行多步逻辑推理,归附事件预计与当作端倪。 
OmniVideoBench&WorldSense死心基于 Gemini-3.1-Pro 测得 在音频上,模子复旧 19 个语种的精确语音转写、中英文与其他 14 个语种互译,还能深度捕捉语音中的厚谊变化、环境配景声与音乐细节,输出更无缺、更接近东说念主类通晓的语义信息。左证公开评测集,Doubao-Seed-2.0-lite 在语音识别、翻译等多项音频领悟基准上优于 Gemini-3.1-Pro。 
↑ 暗示数值越高越优,↓ 暗示数值越低越优 Agent 和 Coding 才气升级: 长任务更贯通,胜任前后端深度建筑 Doubao-Seed-2.0-lite 对多轮、多步、多拘谨的用户教唆罢职度权贵普及;赓续增强任务反念念推理与多 Agent 协同更正才气,让 Agent 在长程任务中自我拆解、自我校验,不偏题、不遗漏。 Doubao-Seed-2.0-lite 深度适配 OpenClaw、Hermes Agent 等框架,强化深度搜索与 Skill 动态调用,可边实施、边千里淀教养,越用越聪敏。 模子的 Coding 才气全面掩盖前端页面、3D 场景与游戏建筑,委用居品在视觉好意思不雅度与工程无缺度上进一步普及,胜任从原型到上线的前后端深度建筑。 
GUI 才气会通: 界面领悟与操作实施一体化 基于升级的 GUI 才气,米兰体育官网Doubao-Seed-2.0-lite 将“看懂界面”与“动手操作”买通为一条闭环:既能精确识别按钮、菜单、表单、弹窗等界面元素偏执景象,也能贯通完成点击、输入、右键、鼎新、拖拽等 Browser Use 与 Computer Use 操作。 从读懂一张网页,到跨愚弄、跨窗口聚拢实施一整套业务经由,让 Agent 委果具备“端到端把活干完”的委用力。 
Gemini-3.1-pro 死心由土产货复现赢得,其他模子评测数据起首于官方时期阐明与基准榜单 新版块模子正在解锁更多新场景 全模态领悟联接握续增强的 Agent、Coding 和 GUI 才气,不错匡助各界限企业用户解锁更多交易化愚弄场景。 以电竞游戏场景为例,不才面的 AI 电竞阐明比赛例子中,模子合资分析比赛画面与语音携带,围绕准星、身法、说念具、经济、对枪、声息反映等游戏中的多维信息作念切片点评;基于视频深度解构才气,跨越整场比赛的多个回合跟踪归并选手的走位与有商量轨迹,赛青年景高光 / 荒诞图谱与时候轴复盘。 依托 Agent Harness 框架,模子可聚拢实施跨越 25 小时的长程任务,像真东说念主阐明一样精确指出玩家的普及提议。 此外milan,AI 电竞阐明的整套交互界面也由 Doubao-Seed-2.0-lite 模子平直生成 —— 从战况图谱到时候轴复盘卡片,排版整洁、层级了了,视觉好意思不雅度与工程无缺度均达到可上线的水准。 在在线培育场景中,用户也不错在 ArkClaw 中调用该模子,完成高效互助。模子定时检察英语课堂涵养摄像,识别视频中敦厚和学生的涵养和学习景象、白话发音与厚谊变化,发送给班主任和涵养组长;随后调用模子 Coding 才气,还能自动生成包括课堂亮点、学生发扬高光时刻等可视化课堂发扬阐明,发送给学生家长。 在外洋电商运营场景中,在 Hermes Agent 中,基于模子出色的 GUI 才气,自主大开浏览器,在外洋电商平台上搜索英、法、西、德等多言语的口红爆款视频,一键下载至土产货,拆解口播、 BGM、分镜与案牍身分,并回写 Skill 库;随后调用视频生成才气,生成适用于外洋引申的多言语版视频,并自动登录电商平台发布,实施过程继续进化 Skills。 此外,Doubao-Seed-2.0-mini 全新版也已同步上线,一样复旧全模态领悟,对比上一版块,念念考长度大幅裁减,Tokens 死心更高。 时时彩app官方网站下载
|