发现 - 第43页

发现科技资讯

排序

发布更新浏览点赞

NEO – 商汤联合南洋理工开源的全新多模态模型架构，训练仅需1/10数据量，达到顶尖的视觉感知能力

商汤科技联合南洋理工大学S-Lab发布并开源全新多模态模型架构NEO。该架构号称是行业首个实现深层次融合的原生视觉语言模型，通过原生图块嵌入、三维旋转位置编码和多头注意力机制创新，实现视觉与语言在底层...

发现资讯

7个月前

05890

Claude-Mem – 开源Claude Code记忆插件，开启长期记忆功能

Claude-Mem是一款智能插件，旨在为 Claude AI 提供长期记忆功能。该插件能够自动捕获在编码会话期间Claude的所有操作，通过AI进行压缩，并将相关的上下文信息注入未来的会话中，实现持...

发现资讯

6个月前

05840

Qwen3-VL Cookbooks – 阿里推出的多模态任务开发指南，支持多种应用场景

Qwen3-VL Cookbook是一份为开发者准备的多模态实践指南，涵盖从文档解析到视频理解的各类应用场景。核心能力包括万物识别、文档解析、OCR+关键信息提取、视频理解、智能体控制和空间理解3D定...

发现资讯

9个月前

05830

DeepSearchQA – 谷歌开源的AI研究Agent测试基准，精准衡量智能体在真实研究场景中的综合能力

谷歌开源全新网络研究智能体基准DeepSearchQA，成为AI界对抗GPT-5.2的爆款工具。涵盖17个领域的900项人工设计的因果链任务，其中每个步骤都依赖于先前的分析。首次引入过程性评估指标，通...

发现资讯

7个月前

05780

GWM-1 – Runway推出的首个通用世界模型，实时生成和模拟虚拟世界

Runway推出首个通用世界模型GWM-1，采用自回归式建模方式，按帧顺序预测视频内容，具备实时响应与交互能力。其核心理念在于让AI系统在内部构建一套对现实世界运行机制的完整模拟。这就好比让计算机拥有...

发现资讯

7个月前

05670

Kaleido – 智谱AI开源的多主体视频生成框架，支持多张参考图像和文本提示进行视频生成

智谱开源团队联合合肥工业大学和清华大学提出了一种名为Kaleido的开源多主体参考视频生成框架，旨在解决现有开源S2V模型在多主体场景中保持一致性及背景解耦的难题。利用深度学习和计算机视觉技术，能够生...

发现资讯

6个月前

05550

CodeFlying海外版实测，支持多种主流编程语言，应用自动部署上线

“码上飞（CodeFlying）” 是一款聚焦于提升代码开发效率的工具，专为帮助用户快速将创意转化为实际应用设计。是跨赴科技推出的AI自动化应用开发平台，主要面向程序员和开发团队，通过智能化功能简化开...

发现资讯

7个月前

05550

DeepSeek-Math-V2 – DeepSeek开源的数学推理模型，能实现自我验证和修正推理过程

DeepSeek上线全新数学专用模型DeepSeekMath-V2，该模型基于DeepSeek-V3.2-Exp-Base构建，参数规模达685B。它最大的亮点是能像数学家一样自我验证和修正推理过程...

发现资讯

7个月前

05540

RealVideo -智谱AI开源的实时流式视频生成系统，增强交互的自然性和沉浸感

RealVideo是一种流行的视频压缩和传输格式，用于在互联网上传输视频内容。核心功能覆盖文本输入交互、AI语音响应、唇形同步、WebSocket实时双向通信等。该技术能够根据网络带宽和用户设备性能的...

发现资讯

6个月前

05360

Seed3D 1.0 – 字节推出的3D生成大模型，支持单图生成高质量仿真级3D模型

字节跳动Seed团队推出3D生成大模型——Seed3D 1.0，实现从单张图像到高质量仿真级3D模型的端到端生成。仅需一张任意视角的二维图像，即可生成一个包含精细几何结构、高保真纹理贴图以及基于物理渲...

发现资讯

8个月前

05290

加载更多