|
1小时前
|
机器学习/深度学习 人工智能 API
|

Mureka O1:全球首款「思维链」音乐大模型!昆仑万维让AI作曲自我进化

昆仑万维推出的全球首款音乐推理大模型Mureka O1,引入思维链技术实现多轮自我优化,支持10种语言AI音乐创作,具备音色克隆、风格控制等特色功能,为开发者提供API和微调服务。

11 0
来自: 多模态  版块
|
1小时前
|
存储 机器学习/深度学习 人工智能
|

TaoAvatar:手机拍出电影级虚拟人!阿里3D高斯黑科技让动捕设备下岗

阿里巴巴最新推出的TaoAvatar技术,通过3D高斯溅射实现照片级虚拟人实时渲染,支持多信号驱动与90FPS流畅运行,将彻底改变电商直播与远程会议体验。

9 0
来自: 计算机视觉  版块
|
1小时前
|
机器学习/深度学习 人工智能 数据库
|

Mureka V6:10语种AI音乐工厂!昆仑万维「声场黑科技」颠覆作曲

昆仑万维推出的Mureka V6 AI音乐创作基座模型,支持10种语言歌词生成和纯音乐创作,通过自研ICL技术实现声场优化,覆盖爵士/电子/流行等多元风格,为音乐爱好者和专业创作者提供高效工具。

8 0
来自: 多模态  版块
|
1小时前
|
机器学习/深度学习 人工智能 自然语言处理
|

Gemini 2.5 Pro:谷歌「思维可视化」核弹!100万token生吞3本《战争与和平》

谷歌Gemini 2.5 Pro突破性支持100万token上下文窗口,在推理、代码生成和多模态处理方面全面超越GPT-4.5,即将扩展至200万token处理能力。

10 0
来自: 自然语言处理  版块
|
1小时前
|
存储 人工智能 文字识别
|

pdf-craft:PDF秒转Markdown/EPUB!接入DeepSeek轻松生成电子书,自动整理目录、注释和引文

pdf-craft是一款专注于处理扫描书籍PDF的开源工具,能精准提取正文内容并转换为Markdown/EPUB格式,通过AI算法解决跨页连贯性问题,是学术研究和电子书制作的利器。

11 0
来自: 自然语言处理  版块
|
9小时前
|
XML 人工智能 数据可视化
|

ReasonGraph:别让AI成黑箱!这个开源工具把大模型的脑回路画给你看

ReasonGraph是一款开源的可视化分析工具,能将大语言模型的复杂推理过程转化为直观图表,支持50+主流模型和多种推理方法,帮助开发者快速理解AI思考逻辑并优化模型表现。

27 0
来自: 自然语言处理  版块
|
9小时前
|
机器学习/深度学习 人工智能 自然语言处理
|

Qwen2.5-VL-32B:阿里开源多模态核弹!32B模型吊打自家72B,数学推理封神

阿里巴巴最新开源的Qwen2.5-VL-32B多模态模型,在数学推理、视觉问答等任务中超越前代72B版本,支持图像细粒度理解和复杂逻辑分析,已在HuggingFace开源。

25 0
来自: 多模态  版块
|
9小时前
|
机器学习/深度学习 人工智能 vr&ar
|

LHM:单图生成3D动画人!阿里开源建模核弹,高斯点云重构服装纹理

阿里巴巴通义实验室开源的LHM模型,能够从单张图像快速重建高质量可动画化的3D人体模型,支持实时渲染和姿态控制,适用于AR/VR、游戏开发等多种场景。

32 0
来自: 计算机视觉  版块
|
9小时前
|
人工智能 自然语言处理 计算机视觉
|

StarVector:图像秒变矢量代码!开源多模态模型让SVG生成告别手绘

StarVector是由ServiceNow Research等机构联合开发的开源多模态视觉语言模型,能够将图像和文本转换为可编辑的SVG矢量图形,支持1B和8B两种规模,在SVG生成任务中表现出色。

22 0
来自: 多模态  版块
|
10小时前
|
机器学习/深度学习 文字识别 测试技术
|

Qwen2.5-VL-32B: 更聪明、更轻量!

年前,阿里通义千问团队推出了 Qwen2.5-VL 系列模型,获得了社区的广泛关注和积极反馈。在 Qwen2.5-VL 系列的基础上,研究团队使用强化学习持续优化模型,并使用 Apache 2.0 协议开源 32B 这个备受喜爱的参数规模的新 VL 模型—— Qwen2.5-VL-32B-Instruct。相比此前发布的 Qwen2.5-VL 系列模型,本次推出的 32B 模型的特点如下:

28 0
|
11小时前
|
前端开发 测试技术 API
|

DeepSeek-V3小版本升级,非推理模型王者归来

今天,DeepSeek低调地在魔搭社区开源 DeepSeek-V3-0324 模型,虽然官方低调称之为小版本升级,但能力提升一点也不小。

28 4
|
11小时前
|
机器学习/深度学习 人工智能 文字识别
|

今日论文推荐:MAPS、RoboFactory、OpenVLThinker等

由 AIRI 和 MIPT 等机构提出的这项工作,聚焦于视觉编码器生成的大量视觉 token 如何在保持高质量表征的同时减少计算成本。他们提出了一种自适应 token 削减方法,通过结合自编码器和 Gumbel-Softmax 选择机制,筛选出最具信息量的 token。实验表明,在 OCR 任务中可削减超 50% 的视觉上下文而不损失性能,为高效多模态推理开辟了新方向。

13 1
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
|

Reve Image:设计师失业警告!AI秒出海报级神图,排版自动搞定

Reve Image 是 Reve 推出的全新 AI 图像生成模型,专注于提升美学表现、精确的提示遵循能力以及出色的排版设计,能生成高质量的视觉作品。

111 29
来自: 计算机视觉  版块
|
1天前
|
人工智能 搜索推荐 物联网
|

InfiniteYou:写真AI革命!字节核弹级AI秒出定制人像,身份保持度拉满

InfiniteYou 是字节跳动推出的基于扩散变换器的身份保持图像生成框架,通过 InfuseNet 注入身份特征,结合多阶段训练策略,生成高质量、高相似度的图像,兼容多种现有工具,适用于多种应用场景。

105 29
来自: 计算机视觉  版块
|
1天前
|
人工智能 网络协议 Java
|

RuoYi AI:1人搞定AI中台!开源全栈式AI开发平台,快速集成大模型+RAG+支付等模块

RuoYi AI 是一个全栈式 AI 开发平台,支持本地 RAG 方案,集成多种大语言模型和多媒体功能,适合企业和个人开发者快速搭建个性化 AI 应用。

77 21
来自: 自然语言处理  版块
|
1天前
|
机器学习/深度学习 人工智能 Rust
|

MoshiVis:语音视觉实时交互开源!7B模型秒懂图像,无障碍革命来袭

MoshiVis 是 Kyutai 推出的开源多模态语音模型,结合视觉与语音输入,支持实时交互,适用于无障碍应用、智能家居控制等多个场景。

54 28
来自: 语音  版块
|
1天前
|
机器学习/深度学习 人工智能 缓存
|

BlockDance:扩散模型加速革命!复旦字节联手实现50%无损提速

BlockDance 是复旦大学与字节跳动联合推出的扩散模型加速方法,通过识别重用相邻时间步中的结构相似特征,减少冗余计算,最高可加速50%,同时保持生成质量。

47 27
来自: 科学计算  版块
|
1天前
|
人工智能 程序员 API
|

Motia:程序员福音!AI智能体三语言混编,零基础秒级部署

Motia 是一款专为软件工程师设计的 AI Agent 开发框架,支持多种编程语言,提供零基础设施部署、模块化设计和内置可观测性功能,帮助开发者快速构建和部署智能体。

37 15
来自: 自然语言处理  版块
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
|

DeepMesh:3D建模革命!清华团队让AI自动优化拓扑,1秒生成工业级网格

DeepMesh 是由清华大学和南洋理工大学联合开发的 3D 网格生成框架,基于强化学习和自回归变换器,能够生成高质量的 3D 网格,适用于虚拟环境构建、动态内容生成、角色动画等多种场景。

35 4
来自: 计算机视觉  版块
|
1天前
|
人工智能 物联网 UED
|

Soundwave:语音对齐黑科技!开源模型秒解翻译问答,听懂情绪波动

Soundwave 是香港中文大学(深圳)开源的语音理解大模型,专注于语音与文本的智能对齐和理解,支持语音翻译、语音问答、情绪识别等功能,广泛应用于智能语音助手、语言学习等领域。

33 10
来自: 语音  版块
|
1天前
|
编解码 并行计算 物联网
|

4G显存部署Flux,2分钟Wan2.1-14B视频生成,DiffSynth-Engine引擎开源!

魔搭社区的开源项目 DiffSynth-Studio 自推出以来,凭借其前沿的技术探索和卓越的创新能力,持续受到开源社区的高度关注与广泛好评。截至目前,该项目已在 GitHub 上斩获超过 8,000 颗星,成为备受瞩目的开源项目之一。作为以技术探索为核心理念的实践平台,DiffSynth-Studio 基于扩散模型(Diffusion Model),在图像生成和视频生成领域孵化出了一系列富有创意且实用的技术成果,其中包括 ExVideo、ArtAug、EliGen 等代表性模块。

63 3
|
1天前
|
机器学习/深度学习 人工智能 机器人
|

上周多模态论文推荐:MAPS、MapGlue、OmniGeo、OThink-MR1

由西安交通大学、新加坡国立大学和南洋理工大学联合提出,该工作推出了MAPS框架,利用基于Big Seven人格理论的七个智能体和苏格拉底式引导,解决多模态科学问题(MSPs)。通过四阶段求解策略和批判性反思智能体,MAPS在EMMA、Olympiad和MathVista数据集上超越当前最佳模型15.84%,展现了卓越的多模态推理与泛化能力。

25 1
|
2天前
|
机器学习/深度学习 人工智能 开发者
|

GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元

GPT-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型,基于 GPT-4o-mini 架构,采用知识蒸馏技术,适合在资源受限的设备上运行,具有高效、实时和高性价比的特点。

38 2
来自: 语音  版块
|
2天前
|
机器学习/深度学习 人工智能 搜索推荐
|

Second Me:硅基生命或成现实?如何用AI克隆自己,打造你的AI数字身份!

Second Me 是一个开源AI身份系统,允许用户创建完全私有的个性化AI代理,代表用户的真实自我,支持本地训练和部署,保护用户隐私和数据安全。

47 8
来自: 多模态  版块
|
2天前
|
数据采集 人工智能 数据可视化
|

SpatialLM:手机视频秒建3D场景!开源空间认知模型颠覆机器人训练

SpatialLM 是群核科技开源的空间理解多模态模型,能够通过普通手机拍摄的视频重建 3D 场景布局,赋予机器人类似人类的空间认知能力,适用于具身智能训练、自动导航、AR/VR 等领域。

39 5
来自: 多模态  版块
|
2天前
|
存储 人工智能 人机交互
|

Multi-Agent Orchestrator:亚马逊开源AI智能体自动协作黑科技!重构人机交互逻辑,1秒精准分配任务

Multi-Agent Orchestrator 是亚马逊开源的多智能体框架,能够动态分配代理、维护上下文、支持多种代理类型,适用于客户服务、智能交通、物流配送等复杂场景。

40 9
来自: 自然语言处理  版块

用通义万象做一个动态海报庆祝4月24日中国航天日

这段文案描述了一幅动画海报的设计理念,融合传统与现代、科技与梦想。画面以上海黄浦江为背景,明月升起象征传统,火箭升空代表科技探索。穿着旗袍的女孩和多元人群展现文化传承,火箭化为飞船遨游宇宙寓意人类追求未知。古代天文仪器与现代科技呼应,体现历史与未来的对话。整体传达对科技成就的喜悦及对未来的美好期许,致敬中国科学家与宇航员,祝福祖国繁荣昌盛。

40 0
|
2天前
|
人工智能 自然语言处理 关系型数据库
|

不写一行代码,用MCP+魔搭API-Inference 搭建一个本地数据助手! 附所有工具和清单

还在为大模型开发的复杂技术栈、框架不兼容和工具调用问题头疼吗?MCP(Model Context Protocol servers)来拯救你了!它用统一的技术栈、兼容主流框架和简化工具调用的方式,让大模型开发变得简单高效。

58 1
|
2天前
|
机器学习/深度学习 人工智能 测试技术
|

魔搭社区模型速递(3.16-3.22)

魔搭ModelScope本期社区进展:?1177个模型,?216个数据集,416个创新应用,? 11篇内容

61 1
|
2天前
|
机器学习/深度学习 人工智能 搜索推荐
|

今日论文推荐:DeepMesh、TULIP、Cube、STEVE及LEGION

由上海 AI 实验室、西安交通大学等机构提出的 φ-Decoding,是一种全新的推理时间优化策略。该工作通过前瞻采样和聚类技术,平衡了探索与利用的关系,显著提升了大语言模型(LLM)的推理性能。实验表明,其在七个基准测试中超越了强基线,且具备跨模型通用性和计算预算扩展性。

28 1
|
3天前
|
人工智能 监控 数据可视化
|

Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作

Agent TARS 是一款开源的多模态AI助手,能够通过视觉解析网页并无缝集成命令行和文件系统,帮助用户高效完成复杂任务。

1843 3
来自: 自然语言处理  版块
|
3天前
|
人工智能 BI API
|

Dify-Plus:企业级AI管理核弹!开源方案吊打SaaS,额度+密钥+鉴权系统全面集成

Dify-Plus 是基于 Dify 二次开发的企业级增强版项目,新增用户额度、密钥管理、Web 登录鉴权等功能,优化权限管理,适合企业场景使用。

113 3
来自: 多模态  版块
|
3天前
|
机器学习/深度学习 人工智能 API
|

GPT-4o-Transcribe:OpenAI 推出高性能语音转文本模型!错误率暴降90%+方言通杀,Whisper当场退役

GPT-4o-Transcribe 是 OpenAI 推出的高性能语音转文本模型,支持多语言和方言,适用于复杂场景如呼叫中心和会议记录,定价为每分钟 0.006 美元。

45 2
来自: 语音  版块
|
3天前
|
人工智能 自然语言处理 语音技术
|

GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈

GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型,支持多语言、多情感控制,适用于智能客服、教育学习、智能助手等多种场景。

69 2
来自: 语音  版块
|
5天前
|
人工智能 监控 JavaScript
|

Crack Coder:在线面试“AI外挂”!编程问题秒出答案,完全绕过屏幕监控,连录屏都抓不到痕迹!

Crack Coder 是一款开源的隐形 AI 辅助工具,专为技术面试设计,支持多种编程语言,提供实时编程问题解决方案,帮助面试者高效解决问题。

74 14
来自: 自然语言处理  版块
|
5天前
|
人工智能 编解码 物联网
|

阶跃星辰开源Step-Video-TI2V 图生视频模型介绍

在今年 2 月,阶跃星辰开源了两款 Step 系列多模态大模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型,为开源社区贡献了自己的多模态力量。

48 1
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
|

RWKV-7革新序列建模,Impossible Videos探索超现实,Creation-MMBench点燃创意火花: 今日论文

由 RWKV 项目(Linux Foundation AI & Data)和 EleutherAI 等机构提出的 RWKV-7 "Goose",是一种全新的序列建模架构。它在30亿参数规模上刷新了多语言任务的下游性能纪录,媲美顶级英文语言模型,同时仅需恒定内存和推理时间。核心创新包括广义delta规则和上下文学习率优化,超越了传统Transformer的表达能力。作者还开源了3.1万亿token的多语言数据集和代码,助力社区研究。

51 3
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
|

Orpheus TTS:开源语音克隆王炸!200ms延迟+情感操控,Llama3引爆音效革命

Orpheus TTS 是基于 Llama-3b 架构的开源文本到语音系统,支持自然语音生成、零样本语音克隆和情感引导,适用于有声读物、虚拟助手、游戏等多种场景。

124 1
来自: 语音  版块
|
5天前
|
机器学习/深度学习 人工智能 文字识别
|

Umi-OCR:31K Star!离线OCR终结者!公式+二维码+多语种,开源免费吊打付费

Umi-OCR 是一款免费开源的离线 OCR 文字识别工具,支持截图、批量图片、PDF 扫描件的文字识别,内置多语言识别库,提供命令行和 HTTP 接口调用功能。

79 0
来自: 计算机视觉  版块
|
5天前
|
机器学习/深度学习 人工智能 编解码
|

Step-Video-TI2V:开源视频生成核弹!300亿参数+102帧电影运镜

Step-Video-TI2V 是阶跃星辰推出的开源图生视频模型,支持根据文本和图像生成高质量视频,具备动态性调节和多种镜头运动控制功能,适用于动画制作、短视频创作等场景。

66 0
来自: 计算机视觉  版块
|
5天前
|
存储 人工智能 自然语言处理
|

YT Navigator:AI秒搜YouTube!自然语言直达视频关键帧

YT Navigator 是一款 AI 驱动的 YouTube 内容搜索工具,通过自然语言查询快速定位视频中的关键信息,支持与视频内容对话,适用于研究人员、学生和内容创作者。

49 0
来自: 自然语言处理  版块
|
6天前
|
人工智能 监控 数据可视化
|

Manus再遭复刻!开源多智能体协作工具,实时查看每个AI员工的"脑回路"

LangManus 是一个基于分层多智能体系统的 AI 自动化框架,支持多种语言模型和工具集成,能够高效完成复杂任务,适用于人力资源、房产决策、旅行规划等多个场景。

293 0
来自: 自然语言处理  版块
|
6天前
|
人工智能 自然语言处理 PyTorch
|

Instella:AMD开源30亿参数语言模型!训练效率碾压同级选手

Instella是AMD推出的30亿参数开源语言模型,基于自回归Transformer架构,支持多轮对话、指令跟随和自然语言理解,适用于智能客服、内容创作和教育辅导等多个领域。

31 1
来自: 自然语言处理  版块
|
6天前
|
人工智能 编解码
|

ReCamMaster:视频运镜AI革命!单镜头秒变多机位,AI重渲染颠覆创作

ReCamMaster 是由浙江大学与快手科技联合推出的视频重渲染框架,能够根据用户指定的相机轨迹重新生成视频内容,广泛应用于视频创作、后期制作、教育等领域,提升创作自由度和质量。

153 0
来自: 计算机视觉  版块
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
|

GR00T N1:全球首个开源人形机器人基座模型!双系统架构解锁通用操作

GR00T N1 是英伟达推出的全球首个开源人形机器人基础模型,基于多模态输入和双系统架构,能够执行复杂操作任务,适用于物流、制造、零售等多个领域。

46 1
来自: 多模态  版块
|
6天前
|
人工智能 机器人 开发者
|

UniAct:清华团队突破!跨平台机器人通用模型,仅需50条数据就能快速适配新环境

UniAct 是由清华、商汤、北大、上海AI Lab联合推出的具身基础模型框架,旨在解决不同机器人之间的行为异构性问题,通过学习通用行为实现跨平台控制。

43 1
来自: 多模态  版块
|
6天前
|
机器学习/深度学习 人工智能 算法
|

Stable Virtual Camera:2D秒变3D电影!Stability AI黑科技解锁无限运镜,自定义轨迹一键生成

Stable Virtual Camera 是 Stability AI 推出的 AI 模型,能够将 2D 图像转换为具有真实深度和透视感的 3D 视频,支持自定义相机轨迹和多种动态路径,生成高质量且时间平滑的视频。

44 0
来自: 计算机视觉  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
13865
内容
6
活动
3139
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互
  • http://www.vxiaotou.com