歡迎來到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的熱點内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鮮AI産品點擊了解:https://app.aibase.com/zh
1、階躍發布端到端語音大模型Step-Audio 2 mini
階躍星辰發布了最強开源端到端語音大模型Step-Audio2mini,其在多個國際基准測試中取得SOTA成績,表現出卓越的音頻理解、語音識別、跨語種翻譯和對話能力。該模型采用創新架構設計,突破傳統ASR+LLM+TTS三級結構,實現原始音頻輸入到語音響應輸出的直接轉換,並引入鏈式思維推理與強化學習聯合優化,提升對副語言信息的理解和自然回應能力。
【AiBase提要:】
? Step-Audio2mini在多个国际基准测试中取得SOTA成绩,性能超越Qwen-Omni、Kimi-Audio等开源模型。
? 模型采用真端到端多模态架构,突破传统ASR+LLM+TTS三级结构,实现更简洁、低时延的音频处理。
? 引入链式思维推理与强化学习联合优化,提升对情绪、语调、音乐等副语言信息的理解和自然回应能力。
詳情鏈接:https://github.com/stepfun-ai/Step-Audio2
2、9月1日AI內容新規正式生效!不標識就違法
《人工智能生成合成內容標識辦法》于9月1日起強制實施,標志著中國AI內容治理進入制度化、規範化的新階段。新規要求所有AI生成內容必須進行顯式和隱式標識,以提升信息透明度並防止虛假信息傳播。
【AiBase提要:】
? 显式标识要求AI生成内容在文本、图片、视频和音频中明确标注,打破AI内容的隐身术。
? 隐式标识通过数字指纹技术嵌入元数据,实现内容溯源和监管能力提升。
?? 违规后果严重,包括限流、整改、下架及法律风险,推动AI产业规范发展。
3、美團推出開源大模型LongCat:旨在賦能開發者,加速AI應用落地
美團推出的開源大模型LongCat具有強大的技術實力,通過創新的混合專家架構實現了高效的計算性能,並在多個基准測試中表現出色,爲開發者提供了強大的工具。
【AiBase提要:】
? LongCat-Flash拥有560亿参数,采用混合专家(MoE)架构,动态激活部分参数以优化计算效率。
? 支持超过100个标记每秒的推理处理能力,具备低延迟和高扩展性。
? 在MMLU、数学推理禑嵛务中表现优异,展示了其在实际应用中的潜力。
詳情鏈接:https://longcat.chat/
4、上海AI实验室发布多模态大模型书生·万象 InternVL3.5
上海AI實驗室發布了多模態大模型InternVL3.5,通過創新的級聯式強化學習、動態視覺分辨率路由與解耦部署架構,實現了推理能力、部署效率與通用能力的全面升級。該模型在多個基准測試中表現優異,超越了GPT-5和Claude-3.7-Sonnet等主流模型。
【AiBase提要:】
? InternVL3.5采用级联式强化学习框架,显著提升了推理性能。
?? 模型支持多种视觉分辨率,并优化了响应速度。
? 提供多种参数规模模型,满足不同资源需求场景。
詳情鏈接:https://github.com/OpenGVLab/InternVL
5、腾讯ARC开源音频模型 AudioStory:用大语言模型生成长音频
騰訊ARC團隊推出的AudioStory模型,結合了大語言模型和音頻生成技術,能夠生成結構化且具有時間一致性的長篇敘事音頻。該模型在指令跟隨能力和音頻質量方面表現出色,適用于視頻配音和長音頻生成等多種場景。
【AiBase提要:】
? AudioStory 是一款基于大语言模型的长篇叙事音频生成模型,能够处理多种音频任务。
? 模型具备强大的指令跟随能力,可生成连贯的音频叙事,提升用户体验。
?? 团队已发布推理代码,并展示多个应用案例,展现其在视频配音和长音频生成上的优势。
詳情鏈接:https://github.com/TencentARC/AudioStory
6、OpenAI震撼發布GPT-realtime!語音AI革命來了,人機對話真假難辨
OpenAI推出的GPT-realtime語音模型在自然流暢度和情感表達方面實現了重大突破,能夠精准模擬人類語調、情感波動和語速變化。該模型不僅具備多模態處理能力,還能實時調整語音風格以適應不同場景需求,爲AI語音交互帶來了革命性的變化。
【AiBase提要:】
? GPT-realtime实现了前所未有的自然语音交互体验,精准还原人类语音细节。
? 模型具备多模态处理能力,结合图像与语音信息进行综合分析和响应。
? 支持多种语音风格切换,满足不同场景下的个性化语音交互需求。
7、Meta 与 UCSD 推出 DeepConf:AI 推理准确率达 99.9%,计算成本降低 85%
Meta與加州大學聖地亞哥分校(UCSD)合作推出的DeepConf技術,在高難度推理任務中實現了99.9%的准確率,並將計算資源消耗降低了84.7%。該技術通過引入“置信度”機制,使AI能夠動態調整解題策略,從而提高推理效率和准確性。
【AiBase提要:】
? DeepConf 技术在高难度推理任务中实现了99.9% 的准确率。
? 计算资源消耗减少了84.7%,大幅降低了运算成本。
? 通过 “置信度” 机制,AI 能够动态调整解题策略,提升推理效率。
詳情鏈接:https://arxiv.org/abs/2508.15260
8、马斯克承认xAI代码库遭窃,前员工转投 OpenAI!
马斯克承认xAI代码库遭窃,前员工Xuechen Li被指控窃取商业机密并转投OpenAI,事件引发科技界广泛关注。
【AiBase提要:】
? 前员工Xuechen Li被指控窃取xAI的商业机密并转投OpenAI。
? xAI要求法院禁止Li在OpenAI工作,并归还被盗数据。
? Li离职前套现近700万美元,可能为OpenAI节省数十亿美元研发费用。
9、阿里巴巴 Qwen 团队发布下一代 GUI 自动化框架 Mobile-Agent-v3 和 GUI-Owl
阿里巴巴 Qwen 团队推出了两款革命性的产品 ——Mobile-Agent-v3 和 GUI-Owl,旨在解决图形用户界面(GUI)自动化中的挑战。这些工具通过多模态模型和多代理协作,提升了任务理解和执行的能力,展现出强大的跨平台任务完成能力,标志着阿里巴巴在通用 GUI 自动化领域的重大进展。
【AiBase提要:】
? GUI-Owl 是阿里巴巴推出的多模态代理模型,集成感知、推理和执行能力,适应复杂 GUI 环境。
? Mobile-Agent-v3 框架实现多代理协作,通过动态更新计划提升任务执行效率。
? 这两款产品在 GUI 自动化基准测试中表现出色,标志着阿里巴巴在自动化领域的重要突破。
詳情鏈接:https://arxiv.org/abs/2508.15144
10、微软推出Copilot Labs,首个实验性工具“Copilot音频表达”上线
微软推出了全新的实验性AI中心Copilot Labs,旨在邀请用户参与AI的创新与发展。其首个工具是“Copilot音频表达”,能够将书面文本转化为自然流畅的语音旁白,并支持情感和故事模式,让用户拥有高度控制权。
【AiBase提要:】
? Copilot Labs是一个邀请用户参与AI创新的平台,标志着微软在AI领域的进一步探索。
? “Copilot音频表达”是首个实验性工具,可将文本转换为自然语音,并支持情感和故事模式。
? 该工具在全球范围内免费开放,但部分功能需要登录Microsoft账户并拥有Copilot Pro订阅。
詳情鏈接:https://copilot.microsoft.com/labs/experiments/audio-expression
11、小紅書自動化神器xiaohongshu-mcp上線!AI助力內容創作,解放你的雙手!
xiaohongshu-mcp這一基于MCP協議的開源工具,能夠實現小紅書平台的自動化登錄、內容發布和數據獲取功能。該工具通過與AI客戶端集成,簡化了操作流程,並具備良好的擴展性,適合內容創作者和開發者使用。
【AiBase提要:】
? 智能登录,持久化体验:首次掃碼登錄後,後續操作無需重複登錄。
?? 图文发布领跑,未来功能可期:目前支持图文内容自动化发布,未来计划扩展视频发布和数据分析功能。
?? 开发者友好,生态开放:基于Go语言开发,代码结构清晰,易于二次开发,支持GitHub克隆部署。
詳情鏈接:https://github.com/xpzouying/xiaohongshu-mcp
(舉報)