網站賺不到錢？立刻加入參與變現
字體超市--好字體用得起，買得起！
共建未成年人“清朗”網絡空間承諾書

AI日报：阿里通义开源音頻生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

2025-07-09 16:36 · 稿源：站長之家

歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的熱點内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鮮AI産品點擊了解:https://top.aibase.com/

1、阿裏通義開源支持鏈式推理的音頻生成模型ThinkSound

阿里语音AI团队开源了全球首个支持鏈式推理的音頻生成模型ThinkSound，该模型通过引入思维链技术，突破传统视频转音频技术的局限，实现高保真、强同步的空间音頻生成。这一技术进步标志着AI音频从“看图配音”向“结构化理解画面”的跨越。

【AiBase提要:】
? ThinkSound首次将多模态大语言模型与统一音頻生成架构结合，实现精准音频合成。
? 研究团队构建了包含2531.8小时高质量样本的AudioCoT数据集，提升模型处理复杂指令的能力。
? ThinkSound在多个测试集中表现优于主流方法，代码和预训练权重已开源，开发者可免费获取。
详情链接:https://github.com/FunAudioLLM/ThinkSound https://huggingface.co/spaces/FunAudioLLM/ThinkSound https://www.modelscope.cn/studios/iic/ThinkSound

2、谷歌Veo3重磅升級，支持靜態圖片生成生動視頻

谷歌宣布对 AI 视频生成工具 Veo3进行重磅升级，用户只需上传一张静态照片即可生成高质量的音频和视频内容，展示了 AI 在创作领域的巨大潜力。Veo3的核心功能包括保持角色在多个镜头下的一致性，并提供丰富的运镜功能，如推镜头。此外，用户可以选择不同质量的生成模型，但需要消耗相应的 credits。

【AiBase提要:】
?? Veo3升级后支持从单张静态图片生成高质量动态视频。
? 支持运镜功能，如推镜头（Dolly in），提升视频专业性。
? 用户可选择不同质量模型，但需消耗相应 credits 资源。

3、Hugging Face发布新一代小参数模型 SmolLM3:128K上下文，双模式推理

Hugging Face发布了SmolLM3，一款具有30亿参数的小型开源模型，其性能优于Llama-3.2-3B和Qwen2.5-3B。该模型支持多种语言处理，并具备双模式推理功能，同时公开了架构细节以促进研究与优化。

【AiBase提要:】
? SmolLM3拥有30亿参数，性能超越同类开源模型，支持多语言处理。
?? 提供深度思考和非思考两种推理模式，灵活应对不同需求。
? 采用先进的transformer解码器架构，通过三阶段混合训练提升能力。
詳情鏈接:https://huggingface.co/HuggingFaceTB/SmolLM3-3B-Base

4、阿里开源 WebSailor，具备强大的推理和检索能力

阿里通义开源了网络智能体 WebSailor，其在中英文任务的 BrowseComp 评测集中表现出色，超越了 DeepSeek R1和 Grok-3等闭源模型，展现了强大的推理和检索能力。银河证券指出 AI Agent 经济已全面开启，并建议关注布局领先的 SAAS 企业。相关上市公司如焦点科技和中科金财已在 AI Agent 技术应用上有所布局，推动了智能体技术的发展。

【AiBase提要:】
? 阿里通义开源 WebSailor，展现出色的推理与检索能力。
? 银河证券指出 AI Agent 经济全面开启，建议关注相关 SAAS 企业。
? 相关公司如焦点科技和中科金财在智能体技术应用上具备明显优势。
詳情鏈接:https://github.com/Alibaba-NLP/WebAgent

5、Moonvalley发布Marey Realism v1.5:原生1080P AI视频模型，零版權风险引领行业新风向!

Moonvalley推出的Marey Realism v1.5AI视频生成模型在画质、创作自由度和法律合规性上实现了全面升级。其原生1080P视频生成能力、基于授权内容的训练数据以及精准解读复杂提示的能力，为影视制作和廣告创意提供了更安全、高效的工具。

【AiBase提要:】
? 原生1080P视频生成能力，提供接近真实拍摄的视觉体验。
?100%授权数据训练，彻底规避版權风险。
? 支持文本到视频和图像到视频生成，提升创作灵活性。

6、Vidu Q1震撼升级:参考转视频支持最多七张图像，AI视频生成再创新高

Vidu Q1的‘参考转视频’功能允许用户上传最多七张参考图像，生成视觉一致性極高的1080p視頻。該技術通過語義融合確保多圖像元素在視頻中保持一致，解決了傳統AI視頻生成中的場景斷裂或角色失真問題，爲創作者提供了強大的工具。

【AiBase提要:】
? 支持最多七张参考图像，提升视频创作灵活性
? 语义融合技术确保多图像元素在视频中保持高度一致
? 多主体一致性技术实现复杂场景的连贯视觉体验

7、苹果研发类似 ChatGPT AI 客服助手，提升用户支持体验

苹果公司正在开发一款基于人工智能的‘支持助手’，旨在为用户提供更智能和高效的客户服务体验。该功能已在 Apple Support 应用代码中被发现，未来将允许用户在联系客服前获得 AI 生成的解决方案，提高服务效率。

【AiBase提要:】
? 苹果正在开发一款基于 AI 的支持助手，以提升客户服务效率。
? 用户可在联系客服前通过 AI 获得问题解决方案，减少等待时间。
? 支持助手可能允许上传文件，丰富互动体验。

8、飛書重磅發布多款AI新品，打造企業級“豆包”

飛書發布了多款AI産品，包括知識問答、AI會議、Aily、飛書妙搭等，旨在加速AI在企業級應用中的落地。同時，飛書還推出了業界首個AI應用成熟度模型，幫助企業評估AI産品的實際效果。

【AiBase提要:】
? 飞书推出多款AI产品，助力企业实现智能化运营。
? 发布AI应用成熟度模型，提升企业对AI产品的判断能力。
? 飞书多维表格性能与AI能力双重飞跃，支持大规模数据处理。

9、微软、OpenAI 与 Anthropic 联合推出教育工作者 AI 培训中心

美国教师联合会（AFT）联合微软、OpenAI 和 Anthronic 成立全国人工智能教育学院，旨在为教师提供免费的AI工具培训，帮助他们更好地利用人工智能技术。该项目获得2300万美元资金支持，推动教育领域的技术变革。

【AiBase提要:】
??? 教师将通过AI培训掌握新技术，确保在教育中的主导地位。
? 微软、OpenAI 和 Anthropic 提供2300万美元资金支持AI教育项目。
? AI学院致力于推动教育民主化，确保技术服务于学生和教师。

10、昆仑万维重磅发布 Skywork-R1V3.0:跨模态推理能力直逼人类专家!

昆仑万维发布 Skywork-R1V3.0，展现出卓越的多模态推理能力，训练样本少但表现出色，达到了人类专家水平。

【AiBase 提要:】
1. ? Skywork-R1V3.0在跨模态推理中取得76.0分，超越多款闭源模型。
2. ? 该模型使用1.2万条微调样本和1.3万条强化学习样本进行训练。
3. ? 在物理、逻辑和数学推理测试中表现优异，分别获得52.8分、59.7分和77.1分。

（舉報）

相關推薦

關鍵詞：

ISC.AI 2025 人工智能安全治理与创新实践论坛圆满召开

ISC.AI2025人工智能安全論壇在北京召開，聚焦AI安全治理與創新實踐。論壇彙集頂尖專家，探討大模型安全評估與防護、智能體安全、AI治理等前沿議題。360集團張向征指出，隨著Agent技術爆發式應用，AI安全已成爲産業核心焦點。專家們強調需構建AI安全防護體系，應對大模型直接訪問核心系統帶來的全新挑戰。中國電子院彭健提出企業合規建設需關注九大要素，清華大學蘇航揭示智能體安全風險遠超傳統AI。華爲雲範建軍倡導端到端大模型安全防護，中國信通院楊哲超呼籲構建協同治理框架。論壇爲構建安全、普惠、負責任的人工智能未來貢獻智慧。

?人工智能安全 ?大模型安全 ?AI治理
馬斯克母親發帖支持兒子：演示Grok視頻生成功能

近日，马斯克母亲梅耶-马斯克发帖演示支持马斯克的Grok视频生成功能。她表示，这次我把手指放在了最近在X上发布的这张照片上，提示是用Grok制作视频”，现在自己的狗摇着尾巴了，自己玩得很开心。她还特别提示，这个视频由@grok Imagine制作。

?馬斯克 ?Grok ?視頻生成
Razer（雷蛇）在新加坡设立AI CENTER OF EXCELLENCE，加速人工智能投资布局

雷蛇宣布在新加坡设立全球AI卓越中心，并计划在欧洲和美国建立类似机构，推动游戏与开发者工具领域的创新。新加坡中心将招聘150名AI工程师，专注于下一代AI游戏技术研发。雷蛇还推出AI工具套件，包括Game Co-AI和QA Co-AI，帮助开发者提升游戏质量和开发效率。该战略布局正值全球游戏市场快速增长期，预计2033年AI游戏市场规模将达280亿美元。新加坡数字产业发展局表示，此举将巩固该国作为区域AI创新中心的地位。

?雷蛇 ?人工智能 ?遊戲創新
薦AI日报：B站测试AI视频工具花生AI；腾讯发布多模態模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

【AI日报】主要内容： 1. B站测试"花生AI"视频工具，3分钟可成片，同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模態模型Skywork UniPic 2.0，实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI，苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision，支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐，仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新：恢复GPT-4o默认模式，为GPT-5引入多模式选择，优化交互体验

?AI視頻創作 ?花生AI ?B站AI工具
昆仑万维UniPic 2.0“小钢炮”模型炸场，一个模型搞定理解+生成+编辑

大模型又迎来新一波的迭代周期。近日，从Open AI发布GPT-5，到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周，连续5天每天发布一个新模型，而8月13日发布的，正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是，在单一模型中深稛嶷合图像理解、文本到图像生成、图像编辑三大核心能力

?大模型 ?多模態 ?AI生圖
薦AI日報：智譜視覺推理模型GLM-4.5V開源；達摩院開源三項具身智能核心技術；360智腦推出Light-IF系列模型

歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的熱點内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鮮AI産品點擊了解:https://top.aibase.com/1、智谱GLM-4.5V开源发布:全球100B级最佳视觉推理模型智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V，这是该公司在通向通用人工智能（AGI）道路上的又一重要探
薦AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

AI日報欄目聚焦人工智能領域最新動態：1)阿裏發布Qwen3-4B輕量級模型，手機端可運行；2)小紅書開源多模態大模型dots.vlm1，在圖表推理方面表現突出；3)MiniMax推出語音生成模型Speech2.5，多語種表現提升；4)Midjourney推出HD視頻模式，提升專業影像質量；5)Cursor1.4版本增強異步任務處理能力；6)谷歌否認AI搜索影響網站流量，但數據顯示用戶行爲改變；7)MiniCPM-V4.0開源發布，號稱"手機上的GPT-4V"；8)AMD與高通宣布支持OpenAI的gpt-oss系列模型；9)騰訊開源WeKnora文檔智能解析工具；11)疑似GPT-5信息在GitHub泄露；12)FlowSpeech實現書面語轉口語的TTS技術突破。

?AI模型 ?移動端AI ?阿裏通義千問
加佳科技亮相世界人工智能大會，參與浦東重點項目簽約並發布創新技術成果

2025世界人工智能大会(WAIC)7月26日在上海开幕。加佳智云的"曦源一号"项目入选浦东新区人工智能重点项目并签约合作协议。加佳科技首次发布"数字商务智能体训练场"创新技术平台，与多家企业达成战略合作。浦东新区人工智能产业规模超1600亿元，占全市40%。加佳科技通过"曦源一号"训练场基础底座平台，为行业提供"硬件+软件+产业解决方案"一体化服务，推动AI与产业深稛嶷合。大会期间，加佳科技展示其核心成果"数字商务智能体训练场"平台，该平台依托国产替代算力，提供全生命周期开发运营服务，降低企业AI应用门槛。加佳科技还与多家企业达成合作，加速构建开放共生的AI产业生态。

?人工智能大會 ?數字商務智能體 ?浦東新區AI産業
男子编造2岁女儿被抱走遭处罚：为博关注由AI大模型生成

近日，一则细节详尽的“2岁女儿王喵喵被抱走”的寻人启事在网络上疯狂传播，引发超百万次点击与大量转发，众多网友纷纷加入转发助力寻找的行列。启事中描述走失者王喵喵为2岁女性，眼睛大大的，笑时会露出两颗小虎牙，在嘉兴市南湖区新丰镇乌桥超市被一大妈抱走，还附上了“父亲”与“母亲”的联系电话，字里行间满是焦灼，让人感觉是心急如焚的家长发出的求?

?尋人啓事 ?網絡傳播 ?嘉興市
薦AI日报：GPT-5正式发布；百度将推文心5.0大模型；知网发布AIKBase V2.0多模态数据管理系统

《AI日报》精选AI领域最新动态：1)OpenAI发布GPT-5模型，具备强大多模态能力但推理任务仍有局限；2)知网推出AIKBase V2.0多模态数据管理系统；3)Ideogram新增"角色"功能实现图像风格统一；4)Cursor发布CLI版本支持终端AI编程；5)百度即将推出全新推理模型和文心5.0大模型；6)dots.ocr推出1.7B参数多语言文档解析工具；7)特斯拉解散Dojo超算团队转向英伟达合作；8)谷歌Pixel 10引入AI相?

?GPT

今日大家都在搜的詞：

熱文

3 天
7天

站長商机

美女1级情感片下载二级1片欧美1级片 1级片网站 a1级片免费看1级片看1级片国产1级片三级1片三1级片

AI日报：阿里通义开源音頻生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

ISC.AI 2025 人工智能安全治理与创新实践论坛圆满召开

馬斯克母親發帖支持兒子：演示Grok視頻生成功能

Razer（雷蛇）在新加坡设立AI CENTER OF EXCELLENCE，加速人工智能投资布局

薦AI日报：B站测试AI视频工具花生AI；腾讯发布多模態模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

昆仑万维UniPic 2.0“小钢炮”模型炸场，一个模型搞定理解+生成+编辑

薦AI日報：智譜視覺推理模型GLM-4.5V開源；達摩院開源三項具身智能核心技術；360智腦推出Light-IF系列模型

薦AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

加佳科技亮相世界人工智能大會，參與浦東重點項目簽約並發布創新技術成果

男子编造2岁女儿被抱走遭处罚：为博关注由AI大模型生成

薦AI日报：GPT-5正式发布；百度将推文心5.0大模型；知网发布AIKBase V2.0多模态数据管理系统

今日大家都在搜的詞：

熱文

苹果iOS 18.6.1正式版发布：美版Apple Watch血氧功能上线

AI日報：騰訊混元開源Hunyuan-GameCraft；最強圖像編輯器nano-

华为MatePad Air新款官宣8月15日发布

REDMI Note 15 Pro系列官宣下周发布

华为MatePad Air 12英寸2025发布：售价2799元起

AI日報：可靈2.1推出全新首尾幀功能；昆侖萬維上線AI音樂模型M

微信聊天可以引用部分文字了！還可用表情包回複

华为MatePad 11.5 S 2025发布：预装鸿蒙5 首发售价2099元起

苹果正式入驻小红书 iPhone 17系列下月发布

苹果iOS 18.6.1正式版发布：美版Apple Watch血氧功能上线

iPhone17Pro最新外觀曝光：蘋果調整天線布局

AI日報：昆侖萬維發布SkyReels-A3模型；百度搜索PC端全面上線A

AI日報：騰訊混元開源Hunyuan-GameCraft；最強圖像編輯器nano-

全球首款女团机器人10580元拍出接入京东Joy Inside智能体

AI日報：智譜視覺推理模型GLM-4.5V開源；達摩院開源三項具身智

REDMI Note 15 Pro系列官宣本月发布

京东养车50亿补贴更名震骨价号称补贴不「唬」

雷军发起小米YU7版本更名投票称小米YU7标准版绝非丐版

REDMI Turbo 5已备案：首发天玑8500处理器

站長商机