本文原載:微信公眾號『臨菲信息技術港』
認知幻覺在沉浸於物理空間的客觀現實和用戶感受到的主觀現實中起著至關重要的作用。
有兩種類型的認知:靜態認知和動態認知。
靜態認知是本體感覺《如視覺、聽覺和觸覺》,而動態認知是感覺平衡和身體運動。
在動態認知中,適應、注意和行為是重要的特征。
根據認知的對象,可以分為對環境的認知和對某一對象的認知。
特別是在元宇宙中,減少檢測和識別的失真很重要。
減輕失真的方法包括改變內核的形狀、改變表情和增加輸入。
對象識別的對象包括人臉、姿勢、手勢和與身體。
上述這樣的對象識別要經過感應、記錄、識別和跟蹤等過程。
場景和對象識別
對象識別是根據距離來識別物體的大小、形狀、位置、亮度和顏色的過程。
對於場景識別和對象識別,如上圖中所示,使用了新穎的方法《如模態對齊、跨模態關注、點雲和場景圖》。
場景識別也是對當前場景是什麼狀態以及它有哪些組件和配置的良好識別。
在基於子圖的場景圖生成中,采用了一種通過聚類和共享表征將物體對聚類成圖的方法。
場景圖是一種很好的方法,可以補充作為神經網絡模型的局限性而出現的可解釋屬性。
一些研究利用生成方法和場景圖來對重疊情況下的身體進行分類,並預測人在墻後的姿勢。
物體識別與場景識別同樣重要,我們必須關注以人為本的場景分析和非接觸性的交互《例如,凝視、手勢、姿勢》。
當使用單個物體檢測來識別許多物體時,計算的數量與物體的數量成正比,因此人們試圖通過使用抽象的概念來減少計算的負擔。
特別是,一些研究《如world models和MONET》將多個物體抽象為代表,以實現快速的物體識別和有效的訓練。
聲音和語音識別
識別聲音和處理語音有助於了解元宇宙中的環境並方便與其他化身進行交流。
而對話則是與其他化身交流和向元宇宙中的NPC發出指令的直接方法。
由於元宇宙的連接是在不同的環境中進行的,因此擁有一種技術來分離周圍的噪音和自己的聲音同時還不產生噪音是非常有必要的。
此外,根據距離的不同,聲音的響度也成為了一個變量。
進而在元宇宙中創造一個真實的環境,需要考慮到周圍環境的語音識別技術,同時還要根據距離來調整音量。
場景和對象的生成
在元宇宙中生成環境和物體的方法分為反映現實世界的描繪方法和創造新的想象環境的方法。
反映現實環境的一個很現實的方法是在真實世界中再現現實世界中著名的地方《如博物館、埃菲爾鐵塔》和個人熟悉的地方 (例如,家,學校)。
或者,創造一個難以到達的環境《如水下、火星》,來提供超現實的體驗。
在這樣的過程中,人和物就是對象生成的主要對象。
對象生成模塊就負責創建在一個環境中對話時任何所需人類形狀的化身和NPC《例如,名人、家庭成員》。
這個模塊專註於化身的面部表情和關節的自然運動,實現更流暢的多模態對話。
同時,對象生成模塊可生成逼真的物體,逼真到物體的細節足以讓人感受到現實中存在的物體的紋理。
另一種類型的對象生成則是針對想象中的動物《如獨角獸、龍》和不存在的擬態對象《如會說話的椅子》。
聲音和語音合成
聲音合成是一個能給用戶帶來沉浸感的領域,但與視覺相比,就目前而言研究量還不夠。
它在空間中可以創造了聲音,給人一種在現場的感覺,增加了沉浸感。
在元宇宙中的每個角色的聲音都是表達角色性格的一個重要手段。
目前使用最多的是 Tacotron,這是一個基於深度學習的端到端語音合成模型。
它的重點是讓用戶可以使用Prosody來強調單詞或表達不確定性。
而Prosody是一種韻律,是語音信號中與音素、說話人以及通道影響無關的變量,它可以捕捉到有意義的詞語,並通過消減方法來轉化他們的意思。
運動呈現
卷積神經網絡和全局上下文編碼被用來捕捉實時多方三維運動和姿勢估計時對象之間的不對稱依賴關系和上下文模式。
這種方式便於反映人體的結構特征,以便在人體疊加時更準確地解釋動作含義。
當然也可以用單色相機捕捉困難場景的實時三維運動,並分離出人體結構《如握手》,但在捕捉親密互動《如擁抱》方面目前仍有局限。
本部分軟件組件介紹已完結,請關注下一期《元宇宙《4》:內容》