AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    正在检查是否收录...

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品

点击了解

:https://app.aibase.com/zh

1、阶跃发布端到端语音大模型Step-Audio 2 mini

阶跃星辰发布了最强开源端到端语音大模型Step-Audio2mini,其在多个国际基准测试中取得SOTA成绩,表现出卓越的音频理解、语音识别、跨语种翻译和对话能力。该模型采用创新架构设计,突破传统ASR+LLM+TTS三级结构,实现原始音频输入到语音响应输出的直接转换,并引入链式思维推理与强化学习联合优化,提升对副语言信息的理解和自然回应能力。

AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

【AiBase提要:】

🔥 Step-Audio2mini在多个国际基准测试中取得SOTA成绩,性能超越Qwen-Omni、Kimi-Audio等开源模型。

🧠 模型采用真端到端多模态架构,突破传统ASR+LLM+TTS三级结构,实现更简洁、低时延的音频处理。

💡 引入链式思维推理与强化学习联合优化,提升对情绪、语调、音乐等副语言信息的理解和自然回应能力。

详情链接:https://github.com/stepfun-ai/Step-Audio2

2、9月1日AI内容新规正式生效!不标识就违法

《人工智能生成合成内容标识办法》于9月1日起强制实施,标志着中国AI内容治理进入制度化、规范化的新阶段。新规要求所有AI生成内容必须进行显式和隐式标识,以提升信息透明度并防止虚假信息传播。

AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

【AiBase提要:】

✅ 显式标识要求AI生成内容在文本、图片、视频和音频中明确标注,打破AI内容的隐身术。

🔍 隐式标识通过数字指纹技术嵌入元数据,实现内容溯源和监管能力提升。

⚖️ 违规后果严重,包括限流、整改、下架及法律风险,推动AI产业规范发展。

3、美团推出开源大模型LongCat:旨在赋能开发者,加速AI应用落地

美团推出的开源大模型LongCat具有强大的技术实力,通过创新的混合专家架构实现了高效的计算性能,并在多个基准测试中表现出色,为开发者提供了强大的工具。

AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

【AiBase提要:】

🧠 LongCat-Flash拥有560亿参数,采用混合专家(MoE)架构,动态激活部分参数以优化计算效率。

🚀 支持超过100个标记每秒的推理处理能力,具备低延迟和高扩展性。

📊 在MMLU、数学推理等任务中表现优异,展示了其在实际应用中的潜力。

详情链接:https://longcat.chat/

4、上海AI实验室发布多模态大模型书生·万象 InternVL3.5

上海AI实验室发布了多模态大模型InternVL3.5,通过创新的级联式强化学习、动态视觉分辨率路由与解耦部署架构,实现了推理能力、部署效率与通用能力的全面升级。该模型在多个基准测试中表现优异,超越了GPT-5和Claude-3.7-Sonnet等主流模型。

AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

【AiBase提要:】

✨ InternVL3.5采用级联式强化学习框架,显著提升了推理性能。

🖼️ 模型支持多种视觉分辨率,并优化了响应速度。

🚀 提供多种参数规模模型,满足不同资源需求场景。

详情链接:https://github.com/OpenGVLab/InternVL

5、腾讯ARC开源音频模型 AudioStory:用大语言模型生成长音频

腾讯ARC团队推出的AudioStory模型,结合了大语言模型和音频生成技术,能够生成结构化且具有时间一致性的长篇叙事音频。该模型在指令跟随能力和音频质量方面表现出色,适用于视频配音和长音频生成等多种场景。

AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

【AiBase提要:】

🎧 AudioStory 是一款基于大语言模型的长篇叙事音频生成模型,能够处理多种音频任务。

📊 模型具备强大的指令跟随能力,可生成连贯的音频叙事,提升用户体验。

🛠️ 团队已发布推理代码,并展示多个应用案例,展现其在视频配音和长音频生成上的优势。

详情链接:https://github.com/TencentARC/AudioStory

6、OpenAI震撼发布GPT-realtime!语音AI革命来了,人机对话真假难辨

OpenAI推出的GPT-realtime语音模型在自然流畅度和情感表达方面实现了重大突破,能够精准模拟人类语调、情感波动和语速变化。该模型不仅具备多模态处理能力,还能实时调整语音风格以适应不同场景需求,为AI语音交互带来了革命性的变化。

AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

【AiBase提要:】

🚀 GPT-realtime实现了前所未有的自然语音交互体验,精准还原人类语音细节。

🧠 模型具备多模态处理能力,结合图像与语音信息进行综合分析和响应。

💡 支持多种语音风格切换,满足不同场景下的个性化语音交互需求。

7、Meta 与 UCSD 推出 DeepConf:AI 推理准确率达 99.9%,计算成本降低 85%

Meta与加州大学圣地亚哥分校(UCSD)合作推出的DeepConf技术,在高难度推理任务中实现了99.9%的准确率,并将计算资源消耗降低了84.7%。该技术通过引入“置信度”机制,使AI能够动态调整解题策略,从而提高推理效率和准确性。

AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

【AiBase提要:】

🔍 DeepConf 技术在高难度推理任务中实现了99.9% 的准确率。

💡 计算资源消耗减少了84.7%,大幅降低了运算成本。

🚀 通过 “置信度” 机制,AI 能够动态调整解题策略,提升推理效率。

详情链接:https://arxiv.org/abs/2508.15260

8、马斯克承认xAI代码库遭窃,前员工转投 OpenAI!

马斯克承认xAI代码库遭窃,前员工Xuechen Li被指控窃取商业机密并转投OpenAI,事件引发科技界广泛关注。

【AiBase提要:】

💻 前员工Xuechen Li被指控窃取xAI的商业机密并转投OpenAI。

🔒 xAI要求法院禁止Li在OpenAI工作,并归还被盗数据。

🚀 Li离职前套现近700万美元,可能为OpenAI节省数十亿美元研发费用。

9、阿里巴巴 Qwen 团队发布下一代 GUI 自动化框架 Mobile-Agent-v3 和 GUI-Owl

阿里巴巴 Qwen 团队推出了两款革命性的产品 ——Mobile-Agent-v3 和 GUI-Owl,旨在解决图形用户界面(GUI)自动化中的挑战。这些工具通过多模态模型和多代理协作,提升了任务理解和执行的能力,展现出强大的跨平台任务完成能力,标志着阿里巴巴在通用 GUI 自动化领域的重大进展。

AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

【AiBase提要:】

🧠 GUI-Owl 是阿里巴巴推出的多模态代理模型,集成感知、推理和执行能力,适应复杂 GUI 环境。

🤖 Mobile-Agent-v3 框架实现多代理协作,通过动态更新计划提升任务执行效率。

📊 这两款产品在 GUI 自动化基准测试中表现出色,标志着阿里巴巴在自动化领域的重要突破。

详情链接:https://arxiv.org/abs/2508.15144

10、微软推出Copilot Labs,首个实验性工具“Copilot音频表达”上线

微软推出了全新的实验性AI中心Copilot Labs,旨在邀请用户参与AI的创新与发展。其首个工具是“Copilot音频表达”,能够将书面文本转化为自然流畅的语音旁白,并支持情感和故事模式,让用户拥有高度控制权。

AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

【AiBase提要:】

🌟 Copilot Labs是一个邀请用户参与AI创新的平台,标志着微软在AI领域的进一步探索。

🔊 “Copilot音频表达”是首个实验性工具,可将文本转换为自然语音,并支持情感和故事模式。

🌐 该工具在全球范围内免费开放,但部分功能需要登录Microsoft账户并拥有Copilot Pro订阅。

详情链接:https://copilot.microsoft.com/labs/experiments/audio-expression

11、小红书自动化神器xiaohongshu-mcp上线!AI助力内容创作,解放你的双手!

xiaohongshu-mcp这一基于MCP协议的开源工具,能够实现小红书平台的自动化登录、内容发布和数据获取功能。该工具通过与AI客户端集成,简化了操作流程,并具备良好的扩展性,适合内容创作者和开发者使用。

【AiBase提要:】

🔐 智能登录,持久化体验:首次扫码登录后,后续操作无需重复登录。

🖼️ 图文发布领跑,未来功能可期:目前支持图文内容自动化发布,未来计划扩展视频发布和数据分析功能。

🛠️ 开发者友好,生态开放:基于Go语言开发,代码结构清晰,易于二次开发,支持GitHub克隆部署。

详情链接:https://github.com/xpzouying/xiaohongshu-mcp

  • 本文作者:WAP站长网
  • 本文链接: https://wapzz.net/post-27681.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.8W+
9
1
2
WAP站长官方

苹果新增三款过时产品 iPhone 8 Plus被列为复古产品

上一篇

每周读书与学习

下一篇
评论区
内容为空

这一切,似未曾拥有

  • 复制图片
按住ctrl可打开默认菜单