網站賺不到錢？立刻加入參與變現
字體超市--好字體用得起，買得起！
共建未成年人“清朗”網絡空間承諾書

AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

2025-08-07 15:53 · 稿源：站長之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的熱點内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鮮AI産品點擊了解：https://top.aibase.com/

1、阿里新发布Qwen3-4B模型：小巧强劲，手机也能跑 AI！

阿裏通義千問團隊推出的Qwen3-4B系列模型，在小型語言模型領域取得了重要突破，爲移動端AI應用提供了新的技術路徑。該模型不僅在性能上表現出色，還具備高效的資源利用能力，能夠滿足實際應用場景的需求。

微信截图_20250807090216.png

【AiBase提要:】
? Qwen3-4B系列模型在性能与体积之间实现了平衡优化，适合移动设备运行。
? Qwen3-4B-Instruct-2507超越了闭源小型模型GPT-4.1-nano的表现，接近大规模模型Qwen3-30B-A3B的能力。
? Qwen3-4B-Thinking-2507在数学推理评测中获得高分，展现了强大的逻辑推理能力。

2、小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

小红书 Hi Lab 发布开源多模态大模型 dots.vlm1，其基于 NaViT 视觉编码器和 DeepSeek V3 大语言模型，展现出卓越的性能，尤其在图表推理、STEM 数学推理等方面表现突出，标志着开源多模态模型达到新高度。

【AiBase提要:】
? 原生自研的 NaViT 视觉编码器，支持动态分辨率，提升泛化能力。
? 构建了大规模清洗精细的训练集，提升图文对齐质量。
? 在多模态评测中表现优异，接近闭源模型 Gemini2.5Pro 和 Seed-VL1.5。

3、MiniMax Speech 2.5语音生成模型上线：多语种表现力更强

MiniMax推出了新一代語音生成模型Speech2.5，其在多語種表現力、音色複刻和語種覆蓋範圍等方面實現了顯著提升。該模型不僅在中文方面保持全球最強水平，同時英文及其他多語種的表現也得到全面提升，爲多個行業帶來了便利和創新機會。

【AiBase提要:】
? Speech2.5在多语种表现力上取得飞跃性进步，支持40种语言切换。
?? 音色复刻达到行业天花板級精度，可保留不同地區的口音特色。
? 多语种覆盖范围扩展至40个语种，包括多种新增语言，助力全球化内容创作。

4、Midjourney 推出 HD 视频模式，专为专业人士打造高品质影像

Midjourney 推出全新的 HD 视频模式，为专业用户提供更高清、更高质量的视频生成工具。该模式在分辨率和清晰度上显著提升，但成本也相应增加。此功能进一步巩固了 Midjourney 在 AI 视频生成领域的竞争力。

【AiBase提要:】
? HD 视频模式提供更高的像素分辨率，满足专业用户对高质量影像的需求。
? HD 模式成本约为 SD 模式的 3.2 倍，但能带来更优质的视觉效果。
? Midjourney 通过不断优化技术，与 OpenAI 的 Sora 和 Runway 的 Gen-4 等竞争者展开激烈角逐。

5、Cursor1.4正式發布:聚焦異步長程任務，加速大型代碼庫自動化進程

Cursor1.4版本的發布標志著其在AI驅動開發工具領域的進一步領先。該版本增強了異步和長程任務處理能力，優化了大型代碼庫的索引與搜索功能，並推動了AI編碼工具向全自動化的轉型。

【AiBase提要:】
? 异步任务处理能力显著提升，支持后台Agent运行并实现任务队列管理。
? 针对大型代码库进行了精准优化，提升了代码补全和查询效率。
? 推动AI编码工具向全自动化的转型，增强Agent自主性及协作功能。
詳情鏈接:https://cursor.com/en/changelog

6、谷歌否認AI搜索功能影響網站流量，但數據顯示零點擊搜索激增

谷歌反駁了關于AI搜索功能對網站流量造成沖擊的指控，聲稱自然點擊量保持穩定且點擊質量有所提升。然而，數據表明零點擊搜索比例顯著增加，顯示用戶行爲正在發生轉變。

【AiBase提要:】
? 谷歌声称AI搜索功能未显著影响网站流量，但零点击搜索比例上升。
? 谷歌强调点击质量提高，但未提供具体数据支持其结论。
? 用户趋势转向其他平台，如Reddit和TikTok，导致谷歌流量变化。

7、MiniCPM-V4.0开源发布，堪称“手机上的 GPT-4V”

MiniCPM-V4.0作为一款轻量级多模态大模型，凭借卓越的性能和优化设计，在图像、视频理解和多轮对话禑嵛务中表现出色。其在移动设备上的高效运行能力，为AI应用提供了新的可能性。

【AiBase提要:】
? MiniCPM-V4.0基于SigLIP2-400M和MiniCPM4-3B构建，参数量仅为4.1B，却展现出强大的图像、视频理解能力。
? 在iPhone16Pro Max上实测，首次響應延遲不到2秒，解碼速度超過17token/秒，具備高並發處理能力。
? 提供丰富的生态支持，兼容主流框架，并提供iOS应用及详细教程，降低开发者使用门槛。
詳情鏈接:https://github.com/OpenBMB/MiniCPM-o

8、AMD、高通宣布旗下硬件支持 gpt-oss 系列开放模型

AMD与高通联合宣布支持OpenAI的gpt-oss系列模型，标志着边缘计算和AI结合的重要进展。锐龙AI Max+395处理器成为首款运行gpt-oss-120b的消费级AI PC处理器，而高通骁龙平台展示了gpt-oss-20b的出色推理能力。

【AiBase提要:】
? AMD与高通宣布支持OpenAI的gpt-oss系列模型，推动边缘计算与AI结合。
? 锐龙AI Max+395处理器成为全球首款运行gpt-oss-120b的消费级AI PC处理器。
? 高通骁龙平台展示gpt-oss-20b的优秀推理能力，开发者可轻松访问模型。

9、騰訊重磅開源WeKnora！解鎖複雜文檔智能解析，知識管理進入AI新時代

騰訊開源的WeKnora是一款基于大語言模型的文檔理解與檢索工具，能夠處理多模態文檔並提供高效的結構化內容提取和智能交互功能。其模塊化設計和強大的語義處理能力爲多個行業帶來了技術革新。

【AiBase提要:】
? WeKnora支持多模态文档解析，可从PDF、Word、图片等格式中提取结构化内容。
? 基于大语言模型的智能交互功能，支持多轮对话和自然语言查询。
? 模块化架构设计，便于灵活配置和扩展，适配不同行业需求。
詳情鏈接:https://github.com/Tencent/WeKnora

11、重磅!OpenAI 旗舰模型 GPT-5详细信息疑似在 GitHub 上提前泄露

在全球科技界对 OpenAI 即将发布的 GPT- 5 翘首以盼之际，一份疑似该模型的详细说明信息在GitHub Models平台上意外曝光。

【AiBase提要:】
? GPT-5被描述为OpenAI最先進的大語言模型，具有強大的推理能力和代碼質量。
? GPT-5将推出多个版本，以满足不同用户和场景的需求。
? 泄露信息的真实性引发广泛关注，开发者期待官方确认GPT-5的技术细节。

12、FlowSpeech：全球首个书面语转口语的 TTS

FlowSpeech是一款創新的AI文本轉語音工具，能夠將書面文字轉化爲自然流暢的口語表達。它通過上下文感知和多模態支持技術，解決了傳統TTS工具在語調變化和情感表達上的不足，爲用戶提供更貼近真實對話的語音體驗。

【AiBase提要:】
? FlowSpeech专注于书面语向口语的转换，提升语音合成的自然性。
? 智能内容筛选功能可自动识别并剪裁不适合朗读的内容，提高语音质量。
? 开发团队计划推出个性化声音定制服务，拓展应用边界。
詳情鏈接:https://listenhub.ai/zh?tab=flowspeech

（舉報）

相關推薦

關鍵詞：

薦AI日报：混元推四款小尺寸开源模型；昆仑万维发布新推理大模型MindLink；谷歌Gemini 2.5 Deep Think发布

【AI日报】汇总了最新AI领域动态：1)腾讯开源混元系列小尺寸模型，适用于消费级显卡；2)昆仑万维发布推理大模型MindLink，提升回答透明度；3)B站推出AI原声翻译功能，保留UP主音色；4)谷歌Gemini 2.5在数学奥赛夺金，展现强大推理能力；5)OpenAI展示GPT-5网络信息整合特性；6)苹果组建AI团队挑战ChatGPT；7)高德地图推出全球首个AI原生地图应用；8)Adobe推出AI图像合成工具Harmonize；9)NVIDIA发布革命性视频渲染技术；10)谷歌推出Android Studio免费AI编程助手；11)开源结构化信息提取工具LangExtract；12)Figma开发者模式升级提升设计转代码效率。

?人工智能 ?開源模型 ?騰訊混元
AI大模型选型决策指南：10分钟数据对比 Gemini 2.5 Flash-Lite 与 DeepSeek R1

本文探討大模型選型困境與解決方案。2025年全球可調用大模型超300個，但選型面臨三大難題：單位混亂、定價波動快、87%團隊無法量化模型價值。提出三層漏鬥篩選法：1)場景剛需篩選80%選項；2)驗證核心性能；3)評估邊際效益。以Gemini和DeepSeek爲例，前者適合常規FAQ場景年省$16,000，後者適用于金融計算場景可降低15%人工複核。建議建立動態評估體系，將3小時選型會議壓縮至18分鍾，錯誤率下降40%。核心觀點：選型應從參數爭論轉向場景驗證，通過自動化工具爲工程師節省時間，聚焦提示詞優化而非參數對比。
薦AI日报：阿里推全新图片模型Qwen-Image；小米全量开源MiDashengLM-7B；智谱Zread.ai搭载 GLM-4.5

本文汇总了AI领域最新动态：1)阿里开源文生图模型Qwen-Image，中文文本渲染领先；2)ChatGPT周活用户达7亿，OpenAI年收入120亿美元；3)Anthropic测试Claude Opus 4.1，推理能力升级；4)智谱推出开发工具Zread.ai提升代码理解效率；5)xAI发布Grok Imagine4支持文生视频及NSFW内容；6)Character.AI推出首个AI原生社交功能；7)阿里与南开合作视频压缩技术LLaVA-Scissor；8)北京团队突破人形机器人3D视觉系统?

?人工智能 ?文生圖模型 ?阿裏通義千問
薦AI日報：昆侖萬維發布SkyReels-A3模型；百度搜索PC端全面上線AI搜索；Grok 4 AI模型永久免费开放

AI日报栏目聚焦人工智能领域最新动态：1)昆仑万维发布SkyReels-A3模型，实现语音驱动数字人生成；2)xAI宣布Grok4模型永久免费开放；3)OpenAI发布GPT-5提示词指南；4)百度PC端上线AI搜索功能；5)微软Windows Co pilot接入GPT-5；6)百川智能开源医疗大模型Baichuan-M2性能超越GPT-oss120b；7)苹果iOS26将集成ChatGPT-5；8)谷歌推出3D视觉编辑框架BlenderFusion；9)轻量级TTS模型Kitten TTS参数仅1500万；10)MiniCPM-V
OpenAI发布2款开源模型：gpt-oss系列能力接近o3和o4-mini

OpenAI发布开源模型系列GPT-OSS，包含120B和20B两个版本。120B旗舰模型适配单H100 GPU架构，20B轻量版适合边缘计算。两款模型均开放完整推理链监控接口，支持动态参数调节和任务微调优化，性能接近闭源的GPT-O3和O4-mini。该系列突破性地支持代理功能，包括网页交互和Python代码执行，在标准化测试中表现优异。开源策略为开发者提供高性能替代方案，重新定义了AI模型的应用边界。

?人工智能 ?開源模型 ?OpenAI
GPT-5正式发布：与Claude 4、Gemini 2.5等主流大模型谁更胜一筹？

2025年8月7日，OpenAI正式发布GPT-5，官方称其为"最智能、最快速、最实用"的AI模型。GPT-5在数学推理能力上大幅提升，在AIME2025测试中取得94.6%的高分，处理速度也有明显改善。但与竞争对手相睙嵩存在差距：Claude4在代码生成和逻辑推理方面表现优异，支持200K token长文本；Gemini2.5具备2M超大上下文窗口和全模态支持；国产模型DeepSeek R1在中文理解和性价比方面具有优势。AI?
薦AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

【AI日报】主要内容： 1. B站测试"花生AI"视频工具，3分钟可成片，同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0，实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI，苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision，支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐，仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新：恢复GPT-4o默认模式，为GPT-5引入多模式选择，优化交互体验
AI 大模型选型指导：一文实测 Kimi?K2?Turbo?Preview 与 Qwen3?Coder?Flash

本文对比分析了Kimi-K2-Turbo-Preview和Qwen3-Coder-Flash两款AI大模型在开发者选型中的表现。K2-Turbo采用MoE架构，激活参数32B，支持128K上下文，在代码调试和自动化流程方面表现突出；Qwen3-Coder为480B参数的MoE模型，原生支持256K上下文，擅长大规模代码库理解和API集成。二者在中级任务表现接近，但K2在复杂可视化任务更优，Qwen3在多轮Agent调用更稳定。建议根据需求选择：注重调试自动化选K2，需要长上下文支持选Qwen3。推薦使用AIbase模型广场进行高效选型对比。

?AI大模型選型 ?編碼能力對比 ?性能評測
正式上線升級版Qwen3模型！霍濤帶領白山雲持續賦能AI體驗

白山雲在CEO霍濤帶領下上線阿裏千問Qwen3-235B大模型，該模型在指令遵循、邏輯推理、編程等能力顯著提升，在多項評測中超越主流開源和閉源模型。基于全球邊緣雲架構優勢，白山雲提供低延遲、穩定的API服務，支持多語言長文本處理。平台已集成DeepSeek、通義千問等多款大模型，部分免費開放。霍濤表示，邊緣計算正從"流量節點"向"智能計算單元"進化，白山雲依托覆蓋60多國的邊緣網絡，構建日均萬億Token級推理平台，通過"本地推理+雲端協同"架構，已滲透工業質檢、智能駕駛等20多個垂直場景。

?白山雲 ?邊緣雲服務 ?Qwen3模型
薦AI日报：火山引擎发布豆包3.0；通义开源Qwen3非思考模型；谷歌偷偷升级Imagen 4

【AI日报】栏目聚焦人工智能领域最新动态：1)火山引擎发布豆包系列AI模型升级，包括图像编辑3.0、同声传译2.0等；2)通义千问开源Qwen3-30B模型，支持多语言处理；3)OpenAI推出ChatGPT Study学习助手；4)中国发布HYPIR图像复原大模型；5)谷歌NotebookLM新增视频概览功能；6)谷歌Imagen4图像生成模型升级，性能媲美GPT-4o；7)昆仑万维开源多模态模型Skywork UniPic；8)理想汽车发布首搭VLA大模型的i8纯电SUV；9)谷歌在英国推出AI搜索模式；10)OWL团队开源多智能体协作工具；11)2025年用户增速最快APP榜单显示DeepSeek等AIGC应用表现突出。

?人工智能 ?圖像編輯 ?同聲傳譯

今日大家都在搜的詞：

熱文

3 天
7天

站長商机

美女1级情感片下载二级1片欧美1级片 1级片网站 a1级片免费看1级片看1级片国产1级片三级1片三1级片

AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

薦AI日报：混元推四款小尺寸开源模型；昆仑万维发布新推理大模型MindLink；谷歌Gemini 2.5 Deep Think发布

AI大模型选型决策指南：10分钟数据对比 Gemini 2.5 Flash-Lite 与 DeepSeek R1

薦AI日报：阿里推全新图片模型Qwen-Image；小米全量开源MiDashengLM-7B；智谱Zread.ai搭载 GLM-4.5

薦AI日報：昆侖萬維發布SkyReels-A3模型；百度搜索PC端全面上線AI搜索；Grok 4 AI模型永久免费开放

OpenAI发布2款开源模型：gpt-oss系列能力接近o3和o4-mini

GPT-5正式发布：与Claude 4、Gemini 2.5等主流大模型谁更胜一筹？

薦AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

AI 大模型选型指导：一文实测 Kimi?K2?Turbo?Preview 与 Qwen3?Coder?Flash

正式上線升級版Qwen3模型！霍濤帶領白山雲持續賦能AI體驗

薦AI日报：火山引擎发布豆包3.0；通义开源Qwen3非思考模型；谷歌偷偷升级Imagen 4

今日大家都在搜的詞：

熱文

iPhone17Pro最新外觀曝光：蘋果調整天線布局

AI日報：智譜視覺推理模型GLM-4.5V開源；達摩院開源三項具身智

REDMI Note 15 Pro系列官宣本月发布

雷军发起小米YU7版本更名投票称小米YU7标准版绝非丐版

全球首款女团机器人10580元拍出接入京东Joy Inside智能体

特斯拉Model 3长续航后轮驱动版上线：售价26.95万起 830公里续

苹果OLED版MacBook Pro或将延至2027年发布

周鸿祎与机器人PK球技：带球突破被机器人抢断

阿裏小號宣布暫緩停服：可繼續正常使用

华为MatePad 11.5 S官宣8月15日发布

AI日報：昆侖萬維發布SkyReels-A3模型；百度搜索PC端全面上線A