網站賺不到錢？立刻加入參與變現
字體超市--好字體用得起，買得起！
共建未成年人“清朗”網絡空間承諾書

AI日报：Wan 2.2-S2V模型即将发布；?字节跳动内测3D Model Generator；微软开源 VibeVoice-1.5B 模型

2025-08-26 15:13 · 稿源：站長之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的熱點内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鮮AI産品點擊了解：https://app.aibase.com/zh

1、阿裏通義萬相预告Wan 2.2-S2V模型：解锁AI視頻音頻同步生成

阿裏通義萬相团队在社交媒体平台X上发布了其最新AI模型Wan 2.2-S2V，该模型能够同步生成视频和音频，实现视频与音频的深稛嶷合。这标志着多模態AI生成技術的重要進展，爲內容創作者提供了更高效、更具表現力的工具。

【AiBase提要:】
? Wan2.2-S2V模型具備視頻與音頻同步生成能力，突破傳統視頻生成模型的限制。
? 模型能生成包含唱歌音频的AI视频，展现多模態AI生成技术的创新性。
? 此模型可能重新定义AI視頻生成領域的標准，推動沈浸感和真實感內容生成的發展。

2、字节跳动内测全新 3D 模型生成工具 “3D Model Generator”

字节跳动旗下的豆包团队正在研发一款名为“3D Model Generator”的新型3D模型生成工具，旨在为用户提供可控的大规模生成模型功能。该工具支持基于图像生成和结合图像与模型文件的生成方式，降低了3D建模的门槛，尤其在游戏开发领域具有重要意义。

【AiBase提要:】
?? 支持基于图像生成3D模型，降低3D建模门槛。
?? 提供结合图像和模型文件的生成方式，增强创作灵活性。
? 预计对外开放，扩展豆包功能，服务更广泛用户需求。

3、手機也能跑！面壁智能重磅發布MiniCPM-V4.5:4.1億參數碾壓GPT-4.1-mini

面壁智能與清華大學NLP實驗室聯合推出MiniCPM-V4.5，作爲端側多模態大模型，其性能卓越且部署高效。該模型在多項基准測試中表現優異，支持多語言、視頻和高分辨率圖像處理，適用于邊緣設備，推動了AI技術的普及。

【AiBase提要:】
? MiniCPM-V4.5以4.1亿参数实现高性能，超越GPT-4.1-mini等模型。
?? 支持多图、视频理解及高分辨率图像处理，OCR性能领先主流模型。
? 高效部署于边缘设备，适合移动、离线场景，降低开发门槛。
詳情鏈接:https://huggingface.co/openbmb/MiniCPM-V-4_5

4、苹果推出AI训练新方法用任务清单替代人工评分显著提升模型性能

蘋果公司研究團隊提出了一種名爲基于清單反饋的強化學習（RLCF）的創新訓練方法，通過用具體任務清單替代傳統的人工點贊評分機制，大幅提升了大語言模型執行複雜指令的能力。該方法在多個評測基准中表現出色，尤其在處理複雜多步驟任務時效果顯著。

【AiBase提要:】
? RLCF方法通过任务清单替代人工评分，提升模型执行复杂指令能力。
? 在FollowBench、InFoBench等测试中，性能提升显著，最高達8.2%。
?? 使用大规模模型生成检查清单，为小模型提供优化指导，但需强大计算资源支持。

5、微软开源 VibeVoice-1.5B 模型：90 分钟超长语音合成新突破

微軟開源了其最新音频模型 VibeVoice-1.5B，该模型在语音合成技术上实现了多项重大突破，包括支持90分钟超长语音合成、四位发言人支持以及3200倍的音频压缩率。同时，其双 tokenizer 架构有效解决了音色与语义不匹配的问题，为语音合成领域带来了新的技术突破。

【AiBase提要:】
? VibeVoice-1.5B 模型可一次性合成90分钟的超长语音，支持最多四位发言人。
? 该模型实现3200倍的音频压缩率，保持高保真语音效果。
? 采用双 tokenizer 架构，解决音色与语义不匹配的问题。
詳情鏈接:https://huggingface.co/microsoft/VibeVoice-1.5B

6、谷歌Imagen 4正式上线 Gemini API 和 Google AI Studio

谷歌公司发布了全新的文本转图像生成模型Imagen4，通过Gemini API和Google AI Studio平台向用户开放。该模型包含三个版本，分别针对不同需求优化，提升了图像生成质量、速度和成本效益，为艺术创作、廣告设计等多个行业提供了强大的工具支持。

【AiBase提要:】
? Imagen4标准版提升了整体图像生成质量，特别是在文本渲染准确性方面表现突出。
? Imagen4Fast版本优化了快速图像生成和大批量处理任务，处理速度显著提升，使用成本降至每次生成0.02美元。
?? Imagen4Ultra版本能够生成更精细的图像细节，并能更准确地遵循用户输入的文本提示，确保生成结果的一致性和准确性。

7、字节跳动AI核心人才流失视觉研究负责人冯佳时正式离职

馮佳時作爲字節跳動Seed大模型視覺基礎研究團隊的核心負責人，其離職對公司的AI研究布局産生了一定影響。他在計算機視覺領域擁有深厚的學術背景和豐富的經驗，並在加入字節跳動後取得了顯著的成就。

【AiBase提要:】
? 冯佳时是字节跳动Seed大模型视觉基础研究团队的负责人，其离职引发广泛关注。
? 冯佳时拥有中国科学技术大学、中科院自动化研究所和新加坡国立大学的教育背景，具有深厚的学术背景。
? 冯佳时在字节跳动期间领导了多模态基础模型和生成模型等前沿技术的研究，为公司技术创新做出了重要贡献。

8、英伟达发布Jetson Thor机器人计算平台

英伟达推出了全新的Jetson Thor机器人计算平台，采用Blackwell GPU架构，AI算力达到2070TFLOPS，较上一代提升7.5倍。该平台配备128GB内存，支持多AI模型运行，并集成了NVIDIA Isaac仿真平台，为开发者提供统一的开发环境。

【AiBase提要:】
? Jetson Thor采用Blackwell GPU架构，AI算力达到2070TFLOPS，性能提升显著。
? 配备128GB超大内存，支持多任务处理和复杂场景下的高效运行。
? 集成NVIDIA Isaac仿真平台，提供从云端到边缘的统一开发环境。

9、Genspark推出AIDesigner:一鍵生成品牌全案，重新定義Al設計新格局

Genspark AI Designer是一款革命性的AI设计工具，能够一键生成完整的品牌设计方案，涵盖Logo、包装、网站设计等多个领域，极大地降低了设计门槛，并受到全球设计界与科技行业的广泛关注。

【AiBase提要:】
? Genspark AI Designer支持多模态输入，可生成矢量图标、3D渲染和动画视频等多种设计资产。
? 该工具通过自然语言指令完成复杂设计任务，实现品牌Logo、包装、网站禑岖链路创意解决方案。
? AI Designer重新定义了品牌设计流程，为创作者和企业提供了高效且经济的解决方案。
詳情鏈接:https://www.genspark.ai/ai_designer

10、豆包正式上線未成年人保護模式

豆包推出未成年人保護模式，旨在幫助家長管理孩子的使用行爲。該模式關閉了部分功能，如推薦視頻、第三方網頁浏覽等，但保留了翻譯和深入研究等功能。

【AiBase提要:】
? 未成年人保护模式可由家长通过密码开启，限制部分内容的访问。
? 推薦视频、第三方网页浏览等功能在该模式下默认关闭。
? 翻译和深入研究等功能仍可正常使用，确保学习和探索不受影响。

（舉報）

相關推薦

關鍵詞：

免費生成10秒高清視頻！通義App接入通義萬相2.5

在2025云栖大会上，阿里发布通义万相Wan2.5 Preview系列模型，覆盖文生视频、图生视频、文生图和图像编辑四大功能。其视频生成模型首次实现音画同步，可生成匹配画面的人声、音效和BGM，时长从5秒提升至10秒，支持24帧/秒的1080P高清输出，降低影视级创作门槛。模型指令遵循能力增强，支持运镜等复杂连续变化控制。用户通过通义App输入指令即可自动生成10秒高清视频，每日免费使用15次，支持导出无水印视频。同时，图像生成能力全面升级，可生成中英文字符和图表，支持图像编辑功能，一句话即可完成P图。

?通義萬相 ?文生視頻 ?圖生視頻
薦AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-Animate正式开源；Suno v5即将上线

AI日报今日聚焦多项技术突破：小米开源首个端到端语音大模型Xiaomi-MiMo-Audio；通义万相推出全新动作生成模型Wan2.2-Animate；Suno即将发布革命性音乐模型v5；生数科技获数亿融资，视频生成技术商业化加速。同时关注OpenAI修复ChatGPT安全漏洞，谷歌将Gemini集成至Chrome浏览器，Luma AI发布支持16位色的Ray3视频生成模型，法国Mistral推出开源推理模型Magistral Small 1.2，Notion发布AI智能体，腾讯混元3D Studio提升3D创作效率。

?AI ?語音大模型 ?小米開源
薦AI日報：接入MJ！誇克發布造點AI；Wan2.5-Preview發布；可靈推最新視頻生成模型可靈2.5Turbo

近日AI领域迎来多项重要更新：阿里夸克发布AI创作平台“造点”，整合通义万相Wan2.5与Midjourney V7，支持音画同步视频生成；Wan2.5-Preview实现多模态输入与电影级视频同步生成，提升视觉创作能力；可灵AI推出视频生成模型2.5Turbo并降价30%，降低使用门槛；阿里通义推出Qwen3-ASR-Toolkit，实现小时级音视频转录；谷歌相册AI编辑功能扩展至安卓用户，支持语音修图；谷歌Mixboard工具助力创意设计，生成情绪板；Qwen发布Qwen3-Max模型，在代码生成与智能体能力表现突出；Figma推出MCP服务器，实现设计到代码的一键转换，提升开发效率。

?AI創作平台 ?通義萬相 ?音畫同步
基于通义万相美图多款APP上线全新动漫特效、AI变身等视频生成功能

今日，美图公司旗下美图秀秀、RoboNeo、Wink和开拍等多款产品，推出全新动漫特效、AI变身等视频生成功能。据悉，新功能基于通义万相系列模型进行深度开发与训练，为美图的全球用户提供全新的创作体验。近年来，美图加速布局生产力场景，不仅推出面向企业的AI算法服务和解决方案，旗下消费级产品也在快速集成大模型。去年6月，美图就开始和阿里展开大模型合作。

?美圖秀秀 ?AI變身 ?通義萬相
薦AI日報：阿裏推多模態模型Qwen3-Omni；谷歌推出AP2協議；百度推出Qianfan-VL 模型

本期AI日报聚焦多领域技术突破：阿里云推出全球首个全模态AI模型Qwen3-Omni，支持文本、图像、音频和视频统一处理；百度发布多尺寸视觉理解模型Qianfan-VL，优化企业级应用。苹果扩展Image Playground平台，引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议，推动AI支付安全创新。钉钉上线AI表格助手，支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型，性能显著提升。Kimi推出Agent会员服务，智元机器人开源全球首个通用具身智能模型GO-1，降低技术门槛促进行业创新。

?AI模型 ?全模態 ?阿裏雲
薦阿裏媽媽發布萬相台AI無界：新流量新節奏之下的雙11，AI是經營唯一解

電商生态持续演化。闪购业务的爆发，为淘宝带来了大量新增用户和更高的下单频次;超级88购物节激活了更加轻量、日常的“小促”形式，消费者从一年一度的“囤货式购买”，转变为高频次的“循环式购买”;“红猫计划”则支持用户从小红书笔记直达淘宝货品链接，显著缩短转化链路。这一系列变化揭示了:淘系在走向全域大消费平台的路上，新的流量场景正在涌现，新?

?電商生态 ?閃購業務 ?超級88購物節
Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

9月24日，2025云栖大会开幕，阿里通义千问旗舰模型Qwen3-Max重磅亮相，性能超越GPT-5、Claude+Opus 4等，跻身全球前三。该模型包含指令和推理两大版本，预训练数据量达36T tokens，总参数超万亿，具备极强编程和工具调用能力。在SWE-Bench测试中，指令版斩获69.6分全球第一；Tau2-Bench工具调用测试达74.8分，超越同类模型。推理增强版Qwen3-Max-Thinking在数学推理测试中获满分，国内首次突破。通义千问系列已实现全尺寸覆盖，包含三百多个模型。即日起，用户可在QwenChat免费体验Qwen3-Max，或通过阿里云百炼平台调用API服务。

?雲棲大會 ?Qwen3-Max ?通義千問
视频拍照不妥协！佳能R50V 4K 视频 + 2420万像素直出，2025 不用二选一

2025年短視頻创作进入专业化时代，佳能R50V作为全新EOS V系列首款机型，以“视频强优化，拍照不妥协”为核心优势。其支持6K超采样4K 30P、4K 60P及全高清120P慢动作，竖屏适配移动端生态，USB直连实现4K 60P直播，并具备2小时持续录制能力。拍照方面搭载2420万像素APS-C传感器，支持15张/秒高速连拍，机身仅323克轻巧便携。R50V兼顾专业视频输出与高质量拍照，满足创作者多场景需求，实现一机双修。
薦AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问开源300+模型

本文汇总了近期AI领域多项重要进展：生数科技推出Vidu Q2模型，显著提升视频生成中细微表情的真实感；火山引擎发布炉米Lumi平台，支持视觉模型LoRA微调以定制独特风格；阿里云通义千问开源超300个模型，下载量突破6亿次；百度开源多模态视觉理解模型Qianfan-VL，适配不同场景需求；微软在Copilot中引入Anthropic模型，拓展AI助手功能；OpenAI计划在美国新建五个数据中心以加速Stargate项目；英伟达开源Audio2Face模型，提升实时面部动画生成效果；Meta发布具备沙箱推演能力的32B代码世界模型CWM，优化代码调试效率。这些动态展示了AI技术在视觉、多模态、开源生态及硬件支持等方面的快速迭代与创新突破。

?AI ?視頻生成 ?細微表情
小度發布多模態智能攝像機，AI大模型重塑家庭看護體驗

小度科技推出首款多模態智能攝像機C800，搭載800萬像素4K超清攝像頭，支持AI大模型技術。該産品不僅能實現高清監控，還具備智能行爲識別、語音交互等功能，可自定義看護提醒。結合視覺與語音交互，支持複雜語義查詢和家庭設備聯動，擴展智能家居應用場景。目前産品已全網發售，年底還將推出三攝版本，持續探索AI硬件創新。

?AI大模型 ?智能硬件 ?小度科技

今日大家都在搜的詞：

熱文

3 天
7天

站長商机

美女1级情感片下载二级1片欧美1级片 1级片网站 a1级片免费看1级片看1级片国产1级片三级1片三1级片

AI日报：Wan 2.2-S2V模型即将发布；?字节跳动内测3D Model Generator；微软开源 VibeVoice-1.5B 模型

免費生成10秒高清視頻！通義App接入通義萬相2.5

薦AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-Animate正式开源；Suno v5即将上线

薦AI日報：接入MJ！誇克發布造點AI；Wan2.5-Preview發布；可靈推最新視頻生成模型可靈2.5Turbo

基于通义万相美图多款APP上线全新动漫特效、AI变身等视频生成功能

薦AI日報：阿裏推多模態模型Qwen3-Omni；谷歌推出AP2協議；百度推出Qianfan-VL 模型

薦阿裏媽媽發布萬相台AI無界：新流量新節奏之下的雙11，AI是經營唯一解

Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

视频拍照不妥协！佳能R50V 4K 视频 + 2420万像素直出，2025 不用二选一

薦AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问开源300+模型

小度發布多模態智能攝像機，AI大模型重塑家庭看護體驗

今日大家都在搜的詞：

熱文

华为WATCH GT 6/Pro系列手表发布售价1488元起

AI日報：接入MJ！誇克發布造點AI；Wan2.5-Preview發布；可靈推

雷軍自曝壓力巨大：造車造芯把家底全押上了

AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问

华为FreeClip 2耳夹耳机发布：搭载自研NPU AI处理器 1299元

小米开启澎湃OS 3 Beta版最新招募：支持小米14、K70等机型

雷軍稱沒什麽好猶豫的：50歲正是闖的年紀

小米非常非常缺人上熱搜雷军谈小米成功秘诀

雷軍說要敢于對標世界第一：只有對標第一才能最終趕超第一

小米17标准版正式发布：售价4499元起首发第五代骁龙8至尊版

华为WATCH GT 6/Pro系列手表发布售价1488元起

雷軍公布小米17標准版外觀：1.18mm窄邊框、6.3英寸直屏

全新问界M7小订破22万：将于明晚上市公布价格

AI日報：接入MJ！誇克發布造點AI；Wan2.5-Preview發布；可靈推

AI日報：美團發布推理大模型LongCat-Flash-Thinking；阿裏Wan-

AI日報：阿裏推多模態模型Qwen3-Omni；谷歌推出AP2協議；百度推

折叠屏iPhone细节曝光采用超薄钛合金：预计售价2000美元起

ColorOS 16将于10月15日发布 Find X9系列全球首发搭载

iPhone17遭首批用户吐槽客服回应：建议新机带壳

雷军演讲主題《改变》官宣：聊玄戒芯片和小米汽车背后的故事

站長商机