欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的熱點内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鮮AI産品點擊了解:https://top.aibase.com/
1、Claude3.5Sonnet模型增加PDF文件處理功能
Anthropic公司最新推出的Claude3.5Sonnet模型增加了PDF文件處理功能,用戶可以通過該模型分析PDF文檔中的文本和視覺元素,包括圖像、圖表和表格等,適用于多種場景。
【AiBase提要:】
? Claude3.5Sonnet模型新增PDF文件处理功能,支持文本和图像分析。
?? 处理过程包括提取文本、转换页面为图像和综合分析三个步骤。
? 处理费用根据文档长度和内容密度不同,用户需遵循文件大小和页数限制。
2、OpenAI完整版o1模型曝光:能力超强 可处理20万个token
我對最新曝光的OpenAI o1模型进行了点评。该模型被称为OpenAI最強大的模型,具備處理大量文本和分析圖像的能力,特別適合高級推理和創造性任務。預計完整版將在今年晚些時候推出,引起了人工智能領域的廣泛關注。用戶們對o1模型的體驗充滿期待。
【AiBase提要:】
? o1模型短暂开放,能处理约20万字和分析图像。
? OpenAI称其为“最強大的模型”,適合高級推理和創造性任務。
? 完整版尚未发布,预计将于今年晚些时候推出。
3、告別隨機生成!Runway推出高級摄像机控制 像导演一样掌控镜头
Runway最新推出的高級摄像机控制功能让用户像导演一样掌控虚拟场景中的镜头移动,为AI视频创作带来前所未有的灵活性和掌控力。用户可以实现水平移动、环绕拍摄、位置探索、循环拍摄等多种效果,极大拓展了创作潜力。这一功能改变了用户对數碼相机工作的看法,实现无缝过渡和增强场景构图。
【AiBase提要:】
? 用户可以像导演一样精准控制虚拟场景中的镜头移动,实现多种效果,包括水平移动、环绕拍摄等。
? 结合速度变化的循环拍摄功能,用户可以生成吸睛的视觉循环或过渡,极大拓展了创作潜力。
?? 高級摄像机控制功能让用户精确控制场景和主題的呈现方式,将观众带入一个栩栩如生、看似3D的世界。
詳情鏈接:https://top.aibase.com/tool/runway
4、付費用戶僅60+,月入卻達3萬!開源AI聊天工具LobeChat盈利模式大揭秘
LobeChat團隊在開源AI聊天工具LobeChat的雲服務公測中取得初步成績,月收入突破3萬元人民幣,但面臨付費轉化率低的挑戰。團隊計劃通過差異化功能和調整訂閱模式解決問題,同時承諾解決産品設計中的挑戰。盈利空間有限,將關注MRR指標確保可持續發展。
【AiBase提要:】
? LobeChat云服务一个月月收入突破3万元人民币,付费用户数达60+,展现商业化希望。
? 付费转化率低,仅不到1%,可能因市场竞争激烈和功能差距。
? LobeChat团队计划推出差异化功能和调整订阅模式,关注MRR指标确保可持续发展。
詳情鏈接:https://lobechat.com/welcome
5、Diffusion 模型也能“举一反三”?阿里IC-LoRA给图像生成模型增加情节记忆力能力
阿裏巴巴通義實驗室最新研究表明,现有的文生图Diffusion Transformer模型已具备生成多张具有特定关系图像的能力,通过IC-LoRA的加持,模型变得更智能,只需少量样本即可学会新技能。研究人员设计了简单有效的流程,唤醒Diffusion模型的“上下文学习”能力,大大降低了AI模型的训练成本,让更多人参与AI创作。IC-LoRA的出现是AI图像生成领域的里程碑式进步,让每个人都能成为艺术家。
【AiBase提要:】
? 现有的文生图Diffusion Transformer模型已具备生成多张具有特定关系图像的能力
? IC-LoRA加持使模型变得更智能,只需少量样本即可学会新技能
? 设计简单有效的流程唤醒Diffusion模型的“上下文学习”能力
詳情鏈接:https://ali-vilab.github.io/In-Context-LoRA-Page/
6、颠覆视频编辑!开源神器ComfyUI-MochiEdit 支持视频转视频,局部编辑
我想象过像操控文字一样编辑视频的情景,现在这个想法已经成为现实。ComfyUI-MochiEdit是一款基于ComfyUI和Genmo Mochi的开源视频编辑工具,它提供了一种全新的视频编辑思路:将视频转换为噪声,再通过目标提示重新采样噪声,生成全新视频。这种方法实现了局部编辑和视频转视频功能,让用户可以轻松修改视频的部分而无需处理整个视频。
【AiBase提要:】
?? 视频转噪声再重采样,实现局部编辑和视频转视频功能
? 可将输入视频转换为具有特定风格或内容的新视频
? 用户可通过调整节点参数控制最终视频效果
詳情鏈接:https://github.com/logtd/ComfyUI-MochiEdit?tab=readme-ov-file#mochi-unsampler
7、AI熱潮推动!Python超越JavaScript,成GitHub最受歡迎編程語言
Python在GitHub开发者平台成功超越JavaScript,主要源自生成式人工智能熱潮。GitHub指出AI并未降低开源项目代码质量,反而促进了AI项目贡献增长。开发者越来越多地将AI模型集成到工具链中,关注小型高效模型和AI代理自动化。2024年最受关注的开源AI项目是“ollama/ollama”,展示了AI领域的快速发展。
【AiBase提要:】
? Python成功超越JavaScript,成为GitHub最受歡迎編程語言,受益于生成式人工智能熱潮。
? 生成式AI项目贡献增长59%,总数增加98%,推动了AI领域的发展。
? GitHub表示AI并未降低开源项目代码质量,开发者对小型高效模型和AI代理自动化表现出浓厚兴趣。
8、Meta最新黑科技:Sparsh賦予機器人“人類級”觸覺,靈巧操作不再是夢!
Meta FAIR 实验室近日发布了名为“Sparsh”的人工多模态指尖触觉感知技术,为机器人赋予近似人类的触觉感知能力,将在机器人操控领域带来革命性变化。该技术采用自监督学习,利用46万+触觉图像进行预训练,支持多种视觉触觉传感器,显著提升机器人在触觉感知任务上的性能。发布的Sparsh模型标志着AI触觉感知领域的重大突破,未来有望改变机器人与物理世界交互方式。
【AiBase提要:】
? Sparsh模型采用自监督学习,预训练使用46万+触觉图像,无需人工标注数据,学习通用触觉表征。
? Sparsh模型支持多种视觉触觉传感器,如DIGIT、GelSight2017和GelSight Mini,提升机器人在触觉感知任务上的性能。
? Sparsh模型在TacBench基准测试平台上表现出色,在力估计、滑动检测禑嵛务中即使使用1%标注数据也能取得满意结果。
詳情鏈接:
https://scontent-sjc3-1.xx.fbcdn.net/v/t39.2365-6/464969941_1107633400780143_7479102347328147009_n.pdf?_nc_cat=103&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=y8Ui1HEw3BQQ7kNvgFe-ePu&_nc_zt=14&_nc_ht=scontent-sjc3-1.xx&_nc_gid=AeaFsuZziasVwPfMQsEoZqu&oh=00_AYAMqxGq0ATCySDxZWB0ZT8BgSkogYmj13c9f3ytVtkmSg&oe=672DEEE4
9、全新開源音頻模型Hertz-Dev:超低延遲,實現AI實時對話
在当今科技的浪潮中,对话式人工智能(AI)已经成为我们生活中的重要组成部分。Standard Intelligence Lab推出的Hertz-Dev开源音频模型,实现了超低延迟的实时对话AI,为人与机器之间的互动带来新的希望。
【AiBase提要:】
? Hertz-Dev是一个开源的8.5亿参数音频模型,理论延迟仅为80毫秒,实际延迟为120毫秒,极大提升了实时对话体验。
? 独立开发者和研究人员可以轻松使用先进的实时对话AI技术,无需庞大硬件支持,降低了门槛。
? Hertz-Dev的广泛应用将推动人工智能在客户支持、智能家居等领域发展,让人与机器的互动更为自然。
詳情鏈接:https://github.com/Standard-Intelligence/hertz-dev
10、前小鹏高管创办 AI 陪伴机器人公司,成功融资千万元!
作爲前小鵬機器人産品設計負責人的孫兆治創辦的上海珞博智能科技有限公司成功完成千萬元級人民幣的天使輪融資。公司專注于AI陪伴機器人領域,産品定位爲“AI潮玩”,將兼顧桌面和可穿戴場景,具備多項創新特性。
【AiBase提要:】
? 珞博智能完成千万元级人民币的天使轮融资,主要来自行业投资者。
? 公司成立于2024年1月,首款産品定位爲“AI潮玩”,已完成前三輪原型機設計開發。
? 创始人孙兆治具有丰富的用户体验设计和工业设计背景,公司目标市场明确,面向年轻女性用户的情感陪伴需求。
(舉報)