欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的熱點内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鮮AI産品點擊了解:https://app.aibase.com/zh
1、阿裏通義萬相预告Wan 2.2-S2V模型:解锁AI視頻音頻同步生成
阿裏通義萬相团队在社交媒体平台X上发布了其最新AI模型Wan 2.2-S2V,该模型能够同步生成视频和音频,实现视频与音频的深稛嶷合。这标志着多模態AI生成技術的重要進展,爲內容創作者提供了更高效、更具表現力的工具。
【AiBase提要:】
? Wan2.2-S2V模型具備視頻與音頻同步生成能力,突破傳統視頻生成模型的限制。
? 模型能生成包含唱歌音频的AI视频,展现多模態AI生成技术的创新性。
? 此模型可能重新定义AI視頻生成領域的標准,推動沈浸感和真實感內容生成的發展。
2、字节跳动内测全新 3D 模型生成工具 “3D Model Generator”
字节跳动旗下的豆包团队正在研发一款名为“3D Model Generator”的新型3D模型生成工具,旨在为用户提供可控的大规模生成模型功能。该工具支持基于图像生成和结合图像与模型文件的生成方式,降低了3D建模的门槛,尤其在游戏开发领域具有重要意义。
【AiBase提要:】
?? 支持基于图像生成3D模型,降低3D建模门槛。
?? 提供结合图像和模型文件的生成方式,增强创作灵活性。
? 预计对外开放,扩展豆包功能,服务更广泛用户需求。
3、手機也能跑!面壁智能重磅發布MiniCPM-V4.5:4.1億參數碾壓GPT-4.1-mini
面壁智能與清華大學NLP實驗室聯合推出MiniCPM-V4.5,作爲端側多模態大模型,其性能卓越且部署高效。該模型在多項基准測試中表現優異,支持多語言、視頻和高分辨率圖像處理,適用于邊緣設備,推動了AI技術的普及。
【AiBase提要:】
? MiniCPM-V4.5以4.1亿参数实现高性能,超越GPT-4.1-mini等模型。
?? 支持多图、视频理解及高分辨率图像处理,OCR性能领先主流模型。
? 高效部署于边缘设备,适合移动、离线场景,降低开发门槛。
詳情鏈接:https://huggingface.co/openbmb/MiniCPM-V-4_5
4、苹果推出AI训练新方法 用任务清单替代人工评分显著提升模型性能
蘋果公司研究團隊提出了一種名爲基于清單反饋的強化學習(RLCF)的創新訓練方法,通過用具體任務清單替代傳統的人工點贊評分機制,大幅提升了大語言模型執行複雜指令的能力。該方法在多個評測基准中表現出色,尤其在處理複雜多步驟任務時效果顯著。
【AiBase提要:】
? RLCF方法通过任务清单替代人工评分,提升模型执行复杂指令能力。
? 在FollowBench、InFoBench等测试中,性能提升显著,最高達8.2%。
?? 使用大规模模型生成检查清单,为小模型提供优化指导,但需强大计算资源支持。
5、微软开源 VibeVoice-1.5B 模型:90 分钟超长语音合成新突破
微軟開源了其最新音频模型 VibeVoice-1.5B,该模型在语音合成技术上实现了多项重大突破,包括支持90分钟超长语音合成、四位发言人支持以及3200倍的音频压缩率。同时,其双 tokenizer 架构有效解决了音色与语义不匹配的问题,为语音合成领域带来了新的技术突破。
【AiBase提要:】
? VibeVoice-1.5B 模型可一次性合成90分钟的超长语音,支持最多四位发言人。
? 该模型实现3200倍的音频压缩率,保持高保真语音效果。
? 采用双 tokenizer 架构,解决音色与语义不匹配的问题。
詳情鏈接:https://huggingface.co/microsoft/VibeVoice-1.5B
6、谷歌Imagen 4正式上线 Gemini API 和 Google AI Studio
谷歌公司发布了全新的文本转图像生成模型Imagen4,通过Gemini API和Google AI Studio平台向用户开放。该模型包含三个版本,分别针对不同需求优化,提升了图像生成质量、速度和成本效益,为艺术创作、廣告设计等多个行业提供了强大的工具支持。
【AiBase提要:】
? Imagen4标准版提升了整体图像生成质量,特别是在文本渲染准确性方面表现突出。
? Imagen4Fast版本优化了快速图像生成和大批量处理任务,处理速度显著提升,使用成本降至每次生成0.02美元。
?? Imagen4Ultra版本能够生成更精细的图像细节,并能更准确地遵循用户输入的文本提示,确保生成结果的一致性和准确性。
7、字节跳动AI核心人才流失 视觉研究负责人冯佳时正式离职
馮佳時作爲字節跳動Seed大模型視覺基礎研究團隊的核心負責人,其離職對公司的AI研究布局産生了一定影響。他在計算機視覺領域擁有深厚的學術背景和豐富的經驗,並在加入字節跳動後取得了顯著的成就。
【AiBase提要:】
? 冯佳时是字节跳动Seed大模型视觉基础研究团队的负责人,其离职引发广泛关注。
? 冯佳时拥有中国科学技术大学、中科院自动化研究所和新加坡国立大学的教育背景,具有深厚的学术背景。
? 冯佳时在字节跳动期间领导了多模态基础模型和生成模型等前沿技术的研究,为公司技术创新做出了重要贡献。
8、英伟达发布Jetson Thor机器人计算平台
英伟达推出了全新的Jetson Thor机器人计算平台,采用Blackwell GPU架构,AI算力达到2070TFLOPS,较上一代提升7.5倍。该平台配备128GB内存,支持多AI模型运行,并集成了NVIDIA Isaac仿真平台,为开发者提供统一的开发环境。
【AiBase提要:】
? Jetson Thor采用Blackwell GPU架构,AI算力达到2070TFLOPS,性能提升显著。
? 配备128GB超大内存,支持多任务处理和复杂场景下的高效运行。
? 集成NVIDIA Isaac仿真平台,提供从云端到边缘的统一开发环境。
9、Genspark推出AIDesigner:一鍵生成品牌全案,重新定義Al設計新格局
Genspark AI Designer是一款革命性的AI设计工具,能够一键生成完整的品牌设计方案,涵盖Logo、包装、网站设计等多个领域,极大地降低了设计门槛,并受到全球设计界与科技行业的广泛关注。
【AiBase提要:】
? Genspark AI Designer支持多模态输入,可生成矢量图标、3D渲染和动画视频等多种设计资产。
? 该工具通过自然语言指令完成复杂设计任务,实现品牌Logo、包装、网站禑岖链路创意解决方案。
? AI Designer重新定义了品牌设计流程,为创作者和企业提供了高效且经济的解决方案。
詳情鏈接:https://www.genspark.ai/ai_designer
10、豆包正式上線未成年人保護模式
豆包推出未成年人保護模式,旨在幫助家長管理孩子的使用行爲。該模式關閉了部分功能,如推薦視頻、第三方網頁浏覽等,但保留了翻譯和深入研究等功能。
【AiBase提要:】
? 未成年人保护模式可由家长通过密码开启,限制部分内容的访问。
? 推薦视频、第三方网页浏览等功能在该模式下默认关闭。
? 翻译和深入研究等功能仍可正常使用,确保学习和探索不受影响。
(舉報)