发现 - 第40页

发现科技资讯

排序

发布更新浏览点赞

SceneGen – 上海交大推出的3D场景生成框架，单图到3D场景一步生成

上海交通大学的研究团队推出了一种名为 SceneGen 的新颖框架，在这一领域取得了突破性进展。它以一张场景图像和图中物体的分割掩码作为输入，能够在一次前向传播中，同时生成场景内多个3D资产的几何、纹...

发现资讯

9个月前

06590

Mini-o3 – 字节联合港大推出的视觉推理模型，支持多轮交互推理

自字节跳动和香港大学的研究团队推出了 Mini-o3，一个旨在复现OpenAI强大但未公开的o3模型能力的开源系统。Mini-o3的核心目标是扩展模型与工具的交互能力，使其能够执行长达数十步的深度推理...

发现资讯

9个月前

06580

LLaDA 2.0 – 蚂蚁集团开源的离散扩散大语言模型，比同级自回归模型快 2.1 倍

蚂蚁技术研究院正式推出LLaDA2.0系列离散扩散大语言模型（dLLM），并同步公开技术报告。LLaDA2.0 包含 MoE 架构的 16B (mini) 和 100B (flash) 两个版本，打破...

发现资讯

6个月前

06570

Seedream 4.5 – 字节跳动推出的AI图像创作模型，增强画面的立体感、光影效果

字节跳动最新发布的AI图像生成模型Seedream 4.5在火山引擎上线。新模型在图像生成主体一致性、指令遵循精准度、空间逻辑理解及美学表现力等方面实现迭代，进一步提升了的整体质量与稳定性。面向广告...

发现资讯

7个月前

06570

LensGo AI – AI内容创作平台，无需专业剪辑技能，满足多样化创作需求

随着科技的飞速发展，越来越多的技术工具涌现出来，LensGo凭借其强大的功能和简洁的操作界面，受到了广大用户的青睐。用户可以轻松实现图像的编辑、优化、分享等操作，提升工作效率和创作体验。允许用户通过简...

发现资讯

6个月前

06560

LLaVA-OneVision-1.5 – EvolvingLMMS-Lab开源的多模态框架，实现跨模态的信息检索

LLaVA-OneVision-1.5 是由 EvolvingLMMS-Lab 开发的全开源多模态框架，旨在通过高效训练和高质量数据实现多模态任务的高性能和低成本。该模型支持基于文本查询图像或基于图像...

发现资讯

8个月前

06560

Qwen3-Omni-Flash – 阿里通义推出的全模态大模型，支持119种文本语言、19种语音识别语言和10种语音合成语言

qwen3-omni-flash（qwen3-omni-flash-2025-12-01）是阿里巴巴qwen团队全新发布的全模态大语言模型。可实现文本、图像、音频和视频的无缝输入与同步输出。模型支持1...

发现资讯

7个月前

06550

Workspace Studio – 谷歌推出的AI智能体构建工具，自动生成定制化 AI 智能体

谷歌发布的一款 ai 驱动自动化工具Workspace Studio，支持用户通过自然语言描述即可创建、管理和分享 AI 智能体（AI Agents）的新工具，通过自动化实现简化工作流程。支持智能任...

发现资讯

7个月前

06550

Qwen3-TTS – 阿里通义开源的系列语音生成模型，实现精准的语音表达

Qwen3-TTS是通义实验室推出的开源语音合成系列模型，集音色复刻、音色定制与精细化语音调控能力于一体，支持客户端实时输入文本并持续接收语音流。模型覆盖10种主流语言（中文、英文、日语、韩语、德语...

发现资讯

5个月前

06540

SpikingBrain-1.0 – 中国科学院推出的类脑脉冲大模型，能实现数量级的效率提升

近日，中国科学院自动化研究所科研团队成功研发出首款类脑脉冲大模型SpikingBrain-1.0。SpikingBrain-1.0在多个性能方面实现突破：实现极低数据量高效训练、实现推理效率数量级提升...

发现资讯

10个月前

06520

加载更多