劃重點:
站長之家(ChinaZ.com)12月1日 消息:Meta最近宣布推出Ego-Exo4D,这是一项具有重大影响的举措,为视频学习和多模态感知研究提供了一套基础数据集和基准套件。该数据集是Meta FAIR(基础人工智能研究)与Project Aria以及15所大学两年合作努力的结晶。
Ego-Exo4D的獨特之處在于同時捕捉了參與者佩戴的可穿戴相機的第一人稱“自我的”視角和周圍相機的多個“外界”視角。這兩個視角是互補的,第一人稱視角展示了參與者所見和所聽,而外界視角則展示了周圍環境和上下文。這爲AI模型提供了一個窗口,窺視複雜人類技能的奧秘。
通過FAIR和大學合作夥伴的聯合努力,Ego-Exo4D捕捉了來自美國、日本、哥倫比亞、新加坡、印度和加拿大的800多位熟練參與者的視角。該聯合體計劃于十二月份開源數據,包括超過1,400小時的視頻和用于新奇基准任務的標注。明年,他們計劃舉辦首個公开基准挑战,并發布自我与外界理解的基准模型。
Ego-Exo4D的關注點是熟練的人類活動,如運動、音樂、烹饪、舞蹈和自行車修理。通過對人類技能在視頻中的理解的進步,可以促使許多應用的發展。例如,在未來的增強現實(AR)系統中,戴著智能眼鏡的人可以通過虛擬AI教練迅速掌握新技能;在機器人學習中,機器人觀看其環境中的人們可以通過較少的實際經驗獲得新的靈巧操作技能;在社交網絡中,新的社群可以根據人們在視頻中分享他們的專業知識和互補技能而形成。
然而,實現這一潛力在今天的數據集和學習範式下並不可能。現有的包含自我和外界視角(即自我-外界)的數據集很少,規模小,缺乏跨相機的同步,或者過于策劃或編輯以抵禦現實世界的多樣性。因此,目前關于活動理解的文獻主要只涵蓋自我或外界視角,無法在第一人稱和第三人稱視角之間流暢切換。
Ego-Exo4D構成了最大的公共同步時間的第一人稱和第三人稱視頻數據集。構建這個數據集需要招募跨足不同領域的專業人士,彙集多樣的群體共同創建多方面的AI數據集。所有情景都涉及現實世界的專業人士,相機佩戴者參與者在所展示的技能方面具有特定的資格、培訓或專業知識。例如,Ego-Exo4D相機佩戴者包括職業和大學運動員;爵士、薩爾薩和中國民間舞蹈者和教練;競技攀岩者;在工業規模廚房工作的專業廚師;以及每天服務數十輛自行車的自行車技師。
Ego-Exo4D不仅是多视图,还是多模态的。使用Meta独特的Aria眼镜拍摄,所有自我视频都伴随着与时间对齐的七通道音频、惯性测量单元(IMU)和两个广角灰度摄像头等多种传感器。所有数据序列还通过Project Aria的先进机器感知服务提供了眼球注视、头部姿势和环境的3D点云。
此外,Ego-Exo4D提供了多種新的視頻語言資源:
- 相機佩戴者描述自己行動的第一人稱敘述。
- 對每位相機佩戴者行動進行的第三人稱實況描述。
- 對視頻進行評論的第三人稱口頭專家評論。他們是具有特定領域專業知識的52名教練和老師,根據相機佩戴者的表現提供建議和評論。
所有這三種語言資源都與視頻時間戳匹配。通過這些新穎的視頻語言資源,AI模型可以了解熟練的人類活動的微妙方面。據我們所知,以前沒有任何具有如此廣泛且高質量的多模態數據的視頻資源。
除了數據之外,他們還爲自我-外界視頻的基礎任務提供了基准,以推動社區的努力。
他們提出了四個任務:
- 自我(-外界)識別:從自我(和/或可選的外界)視頻中識別過程活動的微觀關鍵步驟及其結構,即使在能量受限的情況下也可以。
- 自我(-外界)熟練估計:推斷一個人執行技能的程度。
- 自我-外界關系:通過估計語義對應關系和轉換視點,將老師(外界)的動作與學習者(自我)的動作相關聯。
- 自我姿勢:僅從單眼自我視頻中恢複專業人士的熟練動作,即3D身體和手勢姿勢。
他們爲每個任務的培訓和測試提供了高質量的標注,這是超過20萬小時的標注員努力的結果。爲了啓動這些新挑戰的工作,他們還制定了基准模型並報告了它們的結果。他們計劃在2024年舉辦首個公開基准挑戰。
Ego4D联合体是FAIR与全球十几所大学之间的长期合作。在2021年發布Ego4D之后,这支由专家教职员、研究生和工业研究人员组成的团队重新启动,推出了Ego-Exo4D项目。该联合体的优势既在于其集体的AI才能,也在于其地理广度,可以在各种视觉环境中记录数据。
Ego-Exo4D包括來自六個國家和七個美國州的視頻,爲AI開發提供了多樣化的資源。聯合體成員和FAIR研究人員在整個項目中進行了協作,從制定倡議範圍,到收集數據集的獨特組成部分,再到制定基准任務。該項目還標志著Aria眼鏡在學術研究社區的單一最大協調部署,涉及12個不同地點的合作夥伴使用了這些眼鏡。
通过發布这一规模和多样性前所未有的资源,该联合体旨在为视频学习中的核心AI挑战提供支持。随着这一研究方向的发展,他们设想未来的AI将使人们在增强现实和混合现实(AR/MR)中学习新技能的方式发生变革,如何视频在用户面前栩栩如生,系统充当虚拟教练,引导他们完成新的程序并提供建议以改进。同样,他们希望它将使未来的机器人通过观察熟练的人类专家获得复杂的灵巧操作洞察。Ego-Exo4D是实现这一未来的关键一步,他们迫不及待地期待看到研究社区如何应用它。
(舉報)