網站賺不到錢？立刻加入參與變現
字體超市--好字體用得起，買得起！
共建未成年人“清朗”網絡空間承諾書

AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布語音大模型Step-Audio 2 mini

2025-09-01 15:54 · 稿源：站長之家

歡迎來到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的熱點内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鮮AI産品點擊了解：https://app.aibase.com/zh

1、階躍發布端到端語音大模型Step-Audio 2 mini

階躍星辰發布了最強开源端到端語音大模型Step-Audio2mini，其在多個國際基准測試中取得SOTA成績，表現出卓越的音頻理解、語音識別、跨語種翻譯和對話能力。該模型采用創新架構設計，突破傳統ASR+LLM+TTS三級結構，實現原始音頻輸入到語音響應輸出的直接轉換，並引入鏈式思維推理與強化學習聯合優化，提升對副語言信息的理解和自然回應能力。

【AiBase提要:】
? Step-Audio2mini在多个国际基准测试中取得SOTA成绩，性能超越Qwen-Omni、Kimi-Audio等开源模型。
? 模型采用真端到端多模态架构，突破传统ASR+LLM+TTS三级结构，实现更简洁、低时延的音频处理。
? 引入链式思维推理与强化学习联合优化，提升对情绪、语调、音乐等副语言信息的理解和自然回应能力。
詳情鏈接:https://github.com/stepfun-ai/Step-Audio2

2、9月1日AI內容新規正式生效！不標識就違法

《人工智能生成合成內容標識辦法》于9月1日起強制實施，標志著中國AI內容治理進入制度化、規範化的新階段。新規要求所有AI生成內容必須進行顯式和隱式標識，以提升信息透明度並防止虛假信息傳播。

【AiBase提要:】
? 显式标识要求AI生成内容在文本、图片、视频和音频中明确标注，打破AI内容的隐身术。
? 隐式标识通过数字指纹技术嵌入元数据，实现内容溯源和监管能力提升。
?? 违规后果严重，包括限流、整改、下架及法律风险，推动AI产业规范发展。

3、美團推出開源大模型LongCat:旨在賦能開發者，加速AI應用落地

美團推出的開源大模型LongCat具有強大的技術實力，通過創新的混合專家架構實現了高效的計算性能，並在多個基准測試中表現出色，爲開發者提供了強大的工具。

【AiBase提要:】
? LongCat-Flash拥有560亿参数，采用混合专家（MoE）架构，动态激活部分参数以优化计算效率。
? 支持超过100个标记每秒的推理处理能力，具备低延迟和高扩展性。
? 在MMLU、数学推理禑嵛务中表现优异，展示了其在实际应用中的潜力。
詳情鏈接:https://longcat.chat/

4、上海AI实验室发布多模态大模型书生·万象 InternVL3.5

上海AI實驗室發布了多模態大模型InternVL3.5，通過創新的級聯式強化學習、動態視覺分辨率路由與解耦部署架構，實現了推理能力、部署效率與通用能力的全面升級。該模型在多個基准測試中表現優異，超越了GPT-5和Claude-3.7-Sonnet等主流模型。

【AiBase提要:】
? InternVL3.5采用级联式强化学习框架，显著提升了推理性能。
?? 模型支持多种视觉分辨率，并优化了响应速度。
? 提供多种参数规模模型，满足不同资源需求场景。
詳情鏈接:https://github.com/OpenGVLab/InternVL

5、腾讯ARC开源音频模型 AudioStory：用大语言模型生成长音频

騰訊ARC團隊推出的AudioStory模型，結合了大語言模型和音頻生成技術，能夠生成結構化且具有時間一致性的長篇敘事音頻。該模型在指令跟隨能力和音頻質量方面表現出色，適用于視頻配音和長音頻生成等多種場景。

【AiBase提要:】
? AudioStory 是一款基于大语言模型的长篇叙事音频生成模型，能够处理多种音频任务。
? 模型具备强大的指令跟随能力，可生成连贯的音频叙事，提升用户体验。
?? 团队已发布推理代码，并展示多个应用案例，展现其在视频配音和长音频生成上的优势。
詳情鏈接:https://github.com/TencentARC/AudioStory

6、OpenAI震撼發布GPT-realtime！語音AI革命來了，人機對話真假難辨

OpenAI推出的GPT-realtime語音模型在自然流暢度和情感表達方面實現了重大突破，能夠精准模擬人類語調、情感波動和語速變化。該模型不僅具備多模態處理能力，還能實時調整語音風格以適應不同場景需求，爲AI語音交互帶來了革命性的變化。

【AiBase提要:】
? GPT-realtime实现了前所未有的自然语音交互体验，精准还原人类语音细节。
? 模型具备多模态处理能力，结合图像与语音信息进行综合分析和响应。
? 支持多种语音风格切换，满足不同场景下的个性化语音交互需求。

7、Meta 与 UCSD 推出 DeepConf：AI 推理准确率达 99.9%，计算成本降低 85%

Meta與加州大學聖地亞哥分校（UCSD）合作推出的DeepConf技術，在高難度推理任務中實現了99.9%的准確率，並將計算資源消耗降低了84.7%。該技術通過引入“置信度”機制，使AI能夠動態調整解題策略，從而提高推理效率和准確性。

【AiBase提要:】
? DeepConf 技术在高难度推理任务中实现了99.9% 的准确率。
? 计算资源消耗减少了84.7%，大幅降低了运算成本。
? 通过 “置信度” 机制，AI 能够动态调整解题策略，提升推理效率。
詳情鏈接:https://arxiv.org/abs/2508.15260

8、马斯克承认xAI代码库遭窃，前员工转投 OpenAI！

马斯克承认xAI代码库遭窃，前员工Xuechen Li被指控窃取商业机密并转投OpenAI，事件引发科技界广泛关注。

【AiBase提要:】
? 前员工Xuechen Li被指控窃取xAI的商业机密并转投OpenAI。
? xAI要求法院禁止Li在OpenAI工作，并归还被盗数据。
? Li离职前套现近700万美元，可能为OpenAI节省数十亿美元研发费用。

9、阿里巴巴 Qwen 团队发布下一代 GUI 自动化框架 Mobile-Agent-v3 和 GUI-Owl

阿里巴巴 Qwen 团队推出了两款革命性的产品 ——Mobile-Agent-v3 和 GUI-Owl，旨在解决图形用户界面（GUI）自动化中的挑战。这些工具通过多模态模型和多代理协作，提升了任务理解和执行的能力，展现出强大的跨平台任务完成能力，标志着阿里巴巴在通用 GUI 自动化领域的重大进展。

【AiBase提要:】
? GUI-Owl 是阿里巴巴推出的多模态代理模型，集成感知、推理和执行能力，适应复杂 GUI 环境。
? Mobile-Agent-v3 框架实现多代理协作，通过动态更新计划提升任务执行效率。
? 这两款产品在 GUI 自动化基准测试中表现出色，标志着阿里巴巴在自动化领域的重要突破。
詳情鏈接:https://arxiv.org/abs/2508.15144

10、微软推出Copilot Labs，首个实验性工具“Copilot音频表达”上线

微软推出了全新的实验性AI中心Copilot Labs，旨在邀请用户参与AI的创新与发展。其首个工具是“Copilot音频表达”，能够将书面文本转化为自然流畅的语音旁白，并支持情感和故事模式，让用户拥有高度控制权。

【AiBase提要:】
? Copilot Labs是一个邀请用户参与AI创新的平台，标志着微软在AI领域的进一步探索。
? “Copilot音频表达”是首个实验性工具，可将文本转换为自然语音，并支持情感和故事模式。
? 该工具在全球范围内免费开放，但部分功能需要登录Microsoft账户并拥有Copilot Pro订阅。
詳情鏈接:https://copilot.microsoft.com/labs/experiments/audio-expression

11、小紅書自動化神器xiaohongshu-mcp上線！AI助力內容創作，解放你的雙手！

xiaohongshu-mcp這一基于MCP協議的開源工具，能夠實現小紅書平台的自動化登錄、內容發布和數據獲取功能。該工具通過與AI客戶端集成，簡化了操作流程，並具備良好的擴展性，適合內容創作者和開發者使用。

【AiBase提要:】
? 智能登录，持久化体验：首次掃碼登錄後，後續操作無需重複登錄。
?? 图文发布领跑，未来功能可期：目前支持图文内容自动化发布，未来计划扩展视频发布和数据分析功能。
?? 开发者友好，生态开放：基于Go语言开发，代码结构清晰，易于二次开发，支持GitHub克隆部署。
詳情鏈接:https://github.com/xpzouying/xiaohongshu-mcp

（舉報）

相關推薦

關鍵詞：

小米开源首个原生端到端語音大模型支持音频重建任务和音频转文本任务

小米发布首款开源端到端語音大模型Xiaomi-MiMo-Audio，拥有12亿参数，在智能性、情感表达和交互适配方面接近人类水平。该模型最大技术突破在于少样本学习能力，通过创新预训练架构和超一亿小时训练数据，成功突破传统语音模型依赖大规模标注数据的技术瓶颈。基于Transformer架构，支持音频重建和音频转文本等多任务处理。小米已在Huggingface平台发布预训练和指令微调版本，并在Github开源Tokenizer模型，为研究者和开发者提供完整工具链。

?AI語音 ?開源模型 ?少樣本學習
薦AI日报：小米开源首个原生端到端語音大模型；通义万相Wan2.2-Animate正式开源；Suno v5即将上线

AI日报今日聚焦多项技术突破：小米开源首个端到端語音大模型Xiaomi-MiMo-Audio；通义万相推出全新动作生成模型Wan2.2-Animate；Suno即将发布革命性音乐模型v5；生数科技获数亿融资，视频生成技术商业化加速。同时关注OpenAI修复ChatGPT安全漏洞，谷歌将Gemini集成至Chrome浏览器，Luma AI发布支持16位色的Ray3视频生成模型，法国Mistral推出开源推理模型Magistral Small 1.2，Notion发布AI智能体，腾讯混元3D Studio提升3D创作效率。

?AI ?語音大模型 ?小米開源
即構發布雲端實時語音識別服務

ZEGO雲端實時語音識別服務針對直播、語聊、在線課堂和會議等場景，提供低延遲（端到端600ms）、高准確率（提升40%）、低成本（節省50%以上）的解決方案。支持30多種語言及方言，適配多廠商接入，具備降噪和回聲消除能力。核心應用包括實時字幕和AI觀衆互動，顯著提升用戶體驗和業務效率，助力企業全球化布局。

?實時語音識別 ?語音識別服務 ?音視頻場景
逗哥配音平台：千款AI配音演員覆蓋全行業，重新定義語音創作邊界

隨著內容創作行業蓬勃發展，高質量、多風格的配音需求日益增長。國內領先的AI語音技術平台——逗哥配音，憑借上千款精選音色和全面的行業適配能力，成爲衆多專業機構和個人創作者的首選方案。平台擁有超千款聲音，覆蓋不同年齡、聲線和風格，可調參數達數十種，實現“千聲千面”的語音多樣性。其聲音資源具備極強的行業適配性，適用于小說、影視解說、新聞播報、課程培訓等多種場景，並針對ASMR、角色對話等專項優化。逗哥配音已整合文案提取、視頻去水印等工具，打造一站式創作平台，顯著提升內容産出效率。未來計劃擴大聲音庫規模，深化垂直行業適配，並開放自定義音色訓練功能，推動AI配音從技術輔助逐步進化爲創意産業的核心生産力工具。

?AI語音技术 ?配音音色 ?行業適配能力
薦AI日报：腾讯发布混元3D 3.0模型；昆仑万维上线Agent Studio功能；阿里Qoder推出付费订阅服务

AI日报汇总最新行业动态：腾讯发布混元3D+3.0模型，建模精度提升3倍；昆仑万维Mureka上线音乐创作功能；阿里Qoder推出付费订阅服务；VEED Fabric 1.0实现图片转视频；OpenAI发布GPT-5-Codex革新编程；全国发布AI安全治理框架2.0；Mini-o3实现超长视觉推理；上海AI Lab推出多模态模型Lumina-DiMOO；腾讯微调技术提升图像美感300%；Meta推出轻量级MobileLLM-R1；腾讯启动AI应用繁荣计划；谷歌DeepMind?

?AI日報 ?騰訊混元3D ?3D建模
薦AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布；Kimi 推出全新 Agent 模式

本期AI日报聚焦多领域技术突破：京东物流发布“超脑大模型2.0”与“异狼具身智能机械臂系统”，推动物流行业迈向自主执行；DeepSeek推出V3.1终结版，修复漏洞并为V4架构铺路；Kimi上线Agent模式“OK Computer”，支持智能网站开发等复杂任务；ChatGPT新增个性化資訊功能，定制用户专属新闻；Exa Code发布代码索引工具，助力AI代理精准生成代码；Meta推出AI视频创作平台Vibes，简化短視頻制作；蚂蚁数科发布隐私保护AI框架Gibbon，推理速度提升超百倍；OpenAI新基准测试显示GPT-5在多个行业逼近人类专家水平，覆盖九大行业44种职业。

?京東物流 ?超腦大模型2.0 ?異狼具身智能機械臂系統
薦AI日報：美團發布推理大模型LongCat-Flash-Thinking；阿裏Wan-Animate開源；字節推豆包翻譯大模型

AI日報欄目聚焦人工智能領域最新動態。美團推出高性能推理大模型LongCat-Flash-Thinking；阿裏開源Wan-Animate模型革新AI視頻生成；字節跳動發布豆包翻譯模型，支持28種語言互譯；華爲與浙大聯合推出安全大模型DeepSeek-R1-Safe；阿裏雲即將發布跨模態模型Qwen3-Omni；xAI推出計算成本降低98%的Grok4Fast模型；YouTube發布多項AI創作輔助功能；IBM推出輕量級文檔處理模型Granite-Docling-258M；中科院發布類腦大模型SpikingBrain實現百倍速度突破；OpenAI將推出僅限Pro用戶的計算密集型新功能。

?AI日報 ?美團大模型 ?LongCat-Flash-Thinking
薦AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问开源300+模型

本文汇总了近期AI领域多项重要进展：生数科技推出Vidu Q2模型，显著提升视频生成中细微表情的真实感；火山引擎发布炉米Lumi平台，支持视觉模型LoRA微调以定制独特风格；阿里云通义千问开源超300个模型，下载量突破6亿次；百度开源多模态视觉理解模型Qianfan-VL，适配不同场景需求；微软在Copilot中引入Anthropic模型，拓展AI助手功能；OpenAI计划在美国新建五个数据中心以加速Stargate项目；英伟达开源Audio2Face模型，提升实时面部动画生成效果；Meta发布具备沙箱推演能力的32B代码世界模型CWM，优化代码调试效率。这些动态展示了AI技术在视觉、多模态、开源生态及硬件支持等方面的快速迭代与创新突破。

?AI ?視頻生成 ?細微表情
薦AI日報：阿裏雲開源通義DeepResearch；誇克推醫師考試大模型

本期AI日报聚焦多项前沿动态：阿里云开源轻量级AI代理DeepResearch，性能媲美OpenAI；夸克推出国内首个全阶段医师考试大模型测试集；微软Copilot将上线类ChatGPT记忆管理功能；迪士尼等巨头起诉MiniMax侵犯版權；OpenAI提升ChatGPT搜索准确性；Notion推出个性化AI助手；谷歌发布更小巧高效的时间序列预测模型TimesFM-2.5；Figma推出AI设计功能简化创作流程。整体展现AI技术在开源、医疗、?

?AI ?開源 ?輕量級
易鑫發布Agentic大模型，破解汽車金融風控與效率痛點

9月12日，易鑫集团在“IT Value Summit数字价值年会”上入选“2025创新场景年度AI应用TOP榜”，成为汽车金融科技领域唯一上榜企业。首席科技官贾志峰指出，易鑫以AI为核心驱动力，通过自研大模型“智鑫多维”等技术，显著提升风控水平与融资通过率，推动行业智能化转型。平台已连接全国4.2万家经销商及上百家金融机构，服务覆盖牧民、基层员工等多元群体，体现技术普惠价值。未来将持续加大科技创新投入，深化国内普惠金融服务，并探索技术出海，助力全球汽车金融行业迈向更高水平智能化。此次上榜不仅是对其技术实力的认可，更反映出行业正加速拥抱智能化变革。

?AI應用 ?汽車金融 ?金融科技

今日大家都在搜的詞：

熱文

3 天
7天

站長商机

美女1级情感片下载二级1片欧美1级片 1级片网站 a1级片免费看1级片看1级片国产1级片三级1片三1级片

AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布語音大模型Step-Audio 2 mini

小米开源首个原生端到端語音大模型支持音频重建任务和音频转文本任务

薦AI日报：小米开源首个原生端到端語音大模型；通义万相Wan2.2-Animate正式开源；Suno v5即将上线

即構發布雲端實時語音識別服務

逗哥配音平台：千款AI配音演員覆蓋全行業，重新定義語音創作邊界

薦AI日报：腾讯发布混元3D 3.0模型；昆仑万维上线Agent Studio功能；阿里Qoder推出付费订阅服务

薦AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布；Kimi 推出全新 Agent 模式

薦AI日報：美團發布推理大模型LongCat-Flash-Thinking；阿裏Wan-Animate開源；字節推豆包翻譯大模型

薦AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问开源300+模型

薦AI日報：阿裏雲開源通義DeepResearch；誇克推醫師考試大模型

易鑫發布Agentic大模型，破解汽車金融風控與效率痛點

今日大家都在搜的詞：

熱文

微信新功能上线：长按图片“搜一搜” 检索购物转表一键达

AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问

雷軍稱沒什麽好猶豫的：50歲正是闖的年紀

小米非常非常缺人上熱搜雷军谈小米成功秘诀

AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布

苹果回应iPhone17 Pro划痕：展示机问题将改善

小米17标准版正式发布：售价4499元起首发第五代骁龙8至尊版

雷军：小米17标准版加量不加价年度演讲时长大约2个半小时

卢伟冰：小米17全球首发骁龙8 Elite Gen5

小米汽车定制服务发布：每月限量 40 台选配金额需超10万元

微信新功能上线：长按图片“搜一搜” 检索购物转表一键达

华为WATCH GT 6/Pro系列手表发布售价1488元起

雷軍公布小米17標准版外觀：1.18mm窄邊框、6.3英寸直屏

AI日報：接入MJ！誇克發布造點AI；Wan2.5-Preview發布；可靈推

全新问界M7小订破22万：将于明晚上市公布价格

AI日報：美團發布推理大模型LongCat-Flash-Thinking；阿裏Wan-

AI日報：阿裏推多模態模型Qwen3-Omni；谷歌推出AP2協議；百度推

ColorOS 16将于10月15日发布 Find X9系列全球首发搭载

折叠屏iPhone细节曝光采用超薄钛合金：预计售价2000美元起

小米平板8系列搭載11.2英寸3.2K旗艦屏

站長商机