戴著蘋果Vision Pro打麻將！NTU微軟華人團隊聯手打造Otter-E，專為AR頭顯設計。

新智元報道

編輯：桃子拉燕

【新智元導讀】近日，南洋理工&微軟華人團隊聯手推出多模態模型「水獺」，未來還可成為AR頭顯的AI助手，超越賈維斯不是夢！

蘋果封神頭顯Vision Pro誕生，直接開啟了空間計算之路。

如果開發一個AI助手「賈維斯」，能夠讓下一代頭顯在生活中發揮極致，那才真的讓人興奮。

打麻將時，直接問我該棄什麼牌？Otter-E給出打牌建議，以後還不是把把胡。

空中飛行時問Otter-E我想停在某個位置，它便會詳細講解讓你如何落地。

‍還有踢球時，也能尋求Otter-E的建議。

甚至，當你看到水裡嬉戲的水獺，有感而發，就可以讓Otter-E為你做一首五行詩。

以上，便是來自南陽理工大學和微軟的研究人員專為AR頭顯訓練的AI助手「Otter-E」。

其實，這是Otter模型的另一個進化體。

Otter是一個基於OpenFlamingo的多模態的模型，在MIMIC-IT上進行了訓練，並展示了改進的指令遵循能力和上下文學習。

值得一提的是，Otter在2個消費級的RTX3090 GPU便可跑。

另外，MIMIC-IT橫跨了7個圖片和視頻的數據集，涵蓋了各種各樣的場景，支持8種語言。

從通用的場景理解，到發現細微差異，再到增強AR頭顯的第一人稱視圖理解。

有網友表示，很興奮能夠看到人們為蘋果Vision Pro制作的AI AR應用。

支持8種語言，橫跨7個數據集

目前，AI發展最快的領域就集中在對話助手上，AI擁有強大的能力來理解用戶的意圖，然後執行。

除了大型語言模型《LLMs》的強大概括能力外，指令調優功不可沒。

指令調優涉及在一系列不同的高質量的指令上對LLM進行微調。

通過指令調優，LLMs獲得了對用戶意圖更強大的理解能力。

雖說LLaVA的性能還算強大，但LLaVA-Instruct-150K仍然存在三個限制。

(1) 有限的視覺多樣性。

(2) 以單一的圖像作為視覺數據。

(3) 僅有和語言相關的上下文信息：

為了解決這些限制，研究人員引入了多模態上下文指令調整《MIMIC-IT》。

MIMIC-IT有三個最大的特點：

(1) 多樣化的視覺場景，包含了一般場景、自我中心視角場景和室內RGB-D圖像等不同數據集的圖像和視頻。

(2) 多個圖像《或一個視頻》作為視覺數據。

(3) 多模態的語境信息，特點是以多模態格式制定的語境信息，包括多個指令——回應對和多個圖像或視頻。

論文地址：https://arxiv.org/pdf/2306.05425.pdf

下圖為MIMIC-IT的示意圖。

MIMIC-IT的數據集包括280萬個多模態指令——反應對，涵蓋以下基本能力：感知、推理，以及計劃。

每條指令都伴隨著多模態的對話背景，使得在MIMIC-IT上訓練的VLM能夠在交互式指令之後表現出強大的熟練度，並能實現零樣本泛化《zero-shot generalization》。

研究人員建立了MIMIC-IT數據集，以支持更多的VLMs獲得理解真實世界的能力。

下圖是兩種模型數據格式的比較：LLaVA-Instruct-150K vs MIMIC-IT

(a) LLaVA-Instruct150K由單一圖像和相應的僅有語言的語境信息《黃框部分》組成。

(b) MIMIC-IT在輸入數據中容納了多個圖像或視頻，並支持多模態的語境信息，即把圖像/視頻和語言輸入都視為語境信息。

同時，研究人員提出了Sythus，這是一個用於生成多語言高質量指令-答案對的自動管道。

在LLaVA提出的框架基礎上，研究人員利用ChatGPT來生成基於視覺內容的指令-回應對。

為了確保生成的指令-回應對的質量，研究人員的數據管道將系統信息、視覺註釋和上下文中的例子作為ChatGPT的prompt。

由於核心集的質量影響到後續的數據收集過程，研究人員采用了一個冷啟動策略。

在冷啟動階段，研究人員采用啟發式方法，僅通過系統消息和視覺註釋來提示ChatGPT收集上下文中的例子。

這個階段隻有在確定了滿意的語境中的例子後才會結束。

在第四步，一旦獲得指令-反應對，數據管道將它們擴展為中文《zh》、日文《ja》、西班牙文《es》、德文《de》、法文《fr》、韓文《ko》和阿拉伯語《ar》。

Sythus概述。

研究人員采用了一個冷啟動階段來確定最佳的系統信息和語境中的例子，以便在給定的數據集中查詢指令-響應對。

隨後，Sythus跨越步驟1到4，生成了8種語言的高質量指令-響應對。

下圖為MIMIC-IT與其他多模態指令數據集的比較。

MIMICIT憑借以下特點脫穎而出：

(1) 最大的視覺語言指令數據集。

(2) 第一個包括視頻數據的指令數據集。

(3) 支持多模態的上下文場景《數據格式見圖2》。

(4) 支持八種語言，包括：英語、中文、西班牙語、日語、法語、德語、韓語和阿拉伯語。

MIMIC-IT的數據源包括七個數據集：COCO，Spot-the-diff，ScanNetV2，VisualStorytelling，DenseCaption/Activity caption，TVCaption，and Ego4D。

其中lang.表示語言，vis.表示視覺。

下圖為多模態的語境中指令-反應對的數據統計。

(a)和(b)，指令和回應的根動詞-名詞對，圖中內圈代表輸出回應的根動詞，外圈代表直接名詞。

(c)指令和回應的統計，保留了25%的Ego4D指令，以使分佈更均衡。

上圖表現了Otter在不同場景下的反應實例。

在MIMIC-IT數據集上進行訓練後，Otter能夠為情境理解和推理、用語境中示例學習，以及自我視覺AI助手。

Otter誕生

研究者展示了MIMIC-IT數據集的各種應用，以及在其上訓練的視覺語言模型《VLM》的潛在能力。

研究者首先介紹了Otter，一種使用MIMIC-IT數據集訓練的上下文指令調優模型。

接下來，研究人員還探討了在MIMIC-IT數據集上訓練Otter的各種方法，並討論了可以有效使用Otter的許多場景

– 場景理解和推理

MIMIC-IT數據集包含大約280萬個上下文指令-響應對，它們被結構化為一個內聚的模板，以便於完成各種任務。

下面的模板包括圖像，用戶指令和模型生成的響應，利用人類和助手角色標簽，以實現用戶與助手的無縫交互。

在MIMIC-IT數據集上訓練Otter模型，可以讓其獲得不同的能力，這一點在LA和SD任務中得到了證明。

在LA任務上的訓練，Otter表現出卓越的場景理解力、推理能力和多輪對話能力。

同時，在SD任務中，可以熟練地發現日常場景中的一般差異或微妙區別。

如圖，在MIMIC-IT數據集上訓練後Otter的回應，突出了它在多輪對話中理解和推理的能力。

– 用上下文示例學習

正如前面提到的，關於組織視覺語言在上下文實例的概念，研究人員演示了Otter模型在LA-T2T任務訓練後遵循上下文間指令的能力。

對於其他任務，輸入數據的組織格式如下:

– 自我視覺理解

MIMIC-IT數據集的一個顯著特點是，包含了一個第一人稱的視頻和連續圖像的綜合集合，來自IEP、E4D場景。

在IEP場景中，內容強調在室內環境中的理解和規劃，包含了旨在指導模型根據室內佈局進行事件規劃的指令和響應。

另一方面，E4D場景專門為第一人稱增強現實《AR》頭顯助理應用定制了指令和響應。

根據這部分數據，研究人員訓練了一個自我視覺助手，稱為Otter-E，專門為AR頭顯應用設計的。

MIMIC-IT增強了該模型從第一人稱視角感知場景的能力，為即將到來的任務制定策略，並為AR耳機用戶提供有價值的見解和建議。

因此，Otter-E模型成為AR頭顯的一個特殊和有遠見的視覺語言模型，為開創性的沉浸式體驗鋪平道路。

實驗評估

如下表，研究人員利用MMAGIBench框架對視覺語言模型的感知和推理能力的廣泛評估。

Otter通過在感知和推理任務中實現最高的平均準確性，優於所有基線模型。

目前視覺語言模型的評估指標，如VQAv2，在穩健性方面存在缺陷。

例如，VQAv2主要評估單字或短語的反應，而許多模型則產生句子輸出。

為了彌補這一差距，研究人員通過要求ChatGPT將其標簽預測，與每個輸入的真實標簽進行比較來評估這些模型。

如果ChatGPT的反應表明預測與相應的標簽一致，則認為測試樣本是正確的。

如圖，Otter 在視頻理解方面的表現優於基線模型。

(b)人類評估比較。

Otter 展示了優越的實用性和一致性。

(c)上下文學習評估中的少量鏡頭。

Otter 優於 OpenFlamingo 作為一個更好的語境和零鏡頭學習者。

作者介紹

Li Bo

Li Bo是南洋理工大學計算機系一年級博士生，導師是劉子緯。

他熱衷的深度學習研究話題包括：

基礎模型：穩定擴散，GPT，它們似乎有望將具有真正智能的人工智能投入實際應用。

具身AI: 一種通過互動和探索學習解決環境中具有挑戰性任務的自主智能體。

這些都是登月計劃的狂野夢想，也是Li將長期關注的問題。

目前他的第一步研究課題是聚集於真實世界的場景中的計算機視覺和基礎模型的新興能力。

Yuanhan Zhang (張元瀚)

張元瀚是南洋理工的博士生，導師也是劉子緯。

他的研究興趣在於計算機視覺和深度學習。

特別是，對表征學習和可轉移性感興趣。

Ziwei Liu《劉子緯》

劉子緯，新加坡南洋理工大學助理教授，並獲得南洋學者稱號《Nanyang Assistant Professor》。

他的研究興趣包括計算機視覺、機器學習與計算機圖形學。

參考資料：

Otter is a multi-modal model developed on OpenFlamingo (open-sourced version of DeepMind’s Flamingo), trained on a dataset of multi-modal instruction-response pairs. Otter demonstrates remarkable proficiency in multi-modal perception, reasoning, and in-context learning.
by u/hardmaru in MachineLearning

https://otter-ntu.github.io/

https://arxiv.org/pdf/2306.05425.pdf

當遙控車裝了AR，客廳秒變虛擬賽道！。

元宇宙嘗鮮，AR親身體驗，INMO Air AR智能眼鏡評測。