第三屆汽車智能座艙技術峰會演講實錄 | 德賽西威李南山:座艙大模型的實踐和思考
2024年3月8日,在深圳舉辦的2024汽車供應鏈新生態大會的第三屆汽車智能座艙技術峰會上,德賽西威技術中心大模型技術專家李南山做了題為《座艙大模型的實踐和思考》的演講。以下為演講實錄:
各位專家,各位在場的小伙伴,大家下午好,接下來由我跟大家一起分享一下德賽西威AI大模型上車的實踐和思考。
我先自我介紹一下,我是來自德賽西威的李南山,在德賽西威工作也有12年,這12年主要搞的是軟件的設計,參加過公司很多平臺的開發,目前做AI大模型技術這一塊。同時服務的車廠比較多,就不一一贅述了。
說到大模型,大家會想到openAI和ChatGPT,大模型擁有廣泛知識能力,同時具有決策和推理能力的大型數據結構,就是模擬人類的認知過程,它就是我們的大腦。大模型的特點,首先是一個生成式的模型,同時需要大量的數據進行預訓練的數據結構,同時具有Transformer架構的模型,Transformer是可以模擬人的大腦思考的方式,對問題進行合理推理的能力。
以人工智能發展的歷史來看,從起步階段到穩定發展蓬勃發展的階段經歷了很多年的發展。對大模型預訓練技術也是經過了很多代的迭代,到現在比較成熟的是ChatGPT4,這樣的情況下誕生出了很多為人類服務的層次,從最底層的算力層到最上層的應用層,這邊需要重點提一下的就是服務層。為什么要提服務層?比如有了大腦之后,怎么樣為我們服務,完全取決于服務層,意味著我們可以對模型進行定制化的開發,比如說服務于智能座艙和辦公領域,所以我們有了大腦的框架之后,就可以為現代智能座艙進行賦能。
接下來看一下大模型智能座艙,首先從市場的角度來看,預測智能座艙在2025年市場的份額可以達到2千多億元,同時對乘用車的語音交互市場的規模來說,2022年突破22億元。從消費者的角度來看,消費者為智能座艙的功能模塊買單,比如兒童專屬的功能模塊,多模交互模塊、車載語音模塊,這些模塊是大模型在這些模塊里可以發揮很大的能力作用。
智能交互未來會趨向于智能交互和多模交互的方式,所以德賽西威對這些內容做了主動感知,基于計算機的大平臺和算力的加持,加上多模態的感知融合,就可以形成中央控制大腦。中央控制大腦由大模型和大算力組成,這些基礎的情況下就可以為智能座艙賦能,可以做到自主決策性的交互,比如車內乘客的關懷和智能多媒體的控制,甚至做到智能的管家。
從情感和智能化兩條線進行區域的劃分,可以劃分出安全性、便利性、智能管家,當前階段的話,在智能座艙里面,語音在便利性這個階段的。但是未來的趨勢,肯定會走向智能管家的方向。
基于大模型座艙的產品理念,基于車載智能語音來看,有三大難點,一是語音的獲取;二是語義的理解;三是語音的識別。從這三大方向來看,語音的獲取和語音的識別在市場上是有比較成熟的技術了,這邊最困難的就是語義的理解,然而大模型剛好就是可以彌補這一個缺陷的,因為大模型具有一定的決策能力和推理能力,所以利用大模型可以做到更加便利性和智能性。
對比普通的車載語音系統與搭載德賽西威大模型車載語音系統,可以看到普通的語音系統里面,它是基于域定義的結構化的模型,這種模型比較簡單,同時無法進行上下文的理解,所以說無法進行多輪對話。同時模型的自我更新能力是比較差的,因為它的知識量是有限的,所以產生的對話是比較生硬的。而搭載了德賽西威車載大模型系統,首先這個大模型系統是基于Transformer的架構,域訓練的模型,同時基于海量預訓練的模型,意味著我們開發這個模型的時候,采用了大量的數據訓練它,從而可以實現非常自然的對話,同時也可以實現在后續用戶的使用過程中是無監督的,自己學習,不停提升自己能力的。
在車載智能座艙中,大模型的使用來說或者開發來說有比較多的難點,我列出來四個難點,一是平臺使用什么樣的平臺搭載這樣的大模型。二是如何在智能座艙里讓大模型有更精準答案回答。三是如何讓大模型可以做到上下文的理解和多輪對話。四是讓大模型更快的響應用戶速度,提高用戶體驗。
德賽西威在這些技術探索和研究的基礎上有很多的突破,比如說平臺方面的話,采用了B/S架構,這種架構充分利用算力資源打造了一個云和端的架構平臺。二是精準知識庫方面做到了專業知識庫的搭載形式,所以在智能座艙里大模型有很專業的知識,它都可以一一回答出來。三是使用了槽位技術,實現上下文的串通理解,同時可以實現很順暢的多輪對話。四是快速回答方面做了流式的數據輸出,可以達到毫秒級的應答速度,大大提升了用戶的體驗。
接下來看一下基于大模型的車載語音產品,主要以兒童出行的痛點為例,我們羅列了帶著兒童出行三大痛點闡述。對于兒童陪伴有很多基于模型出來的產品,比如說兒童故事機、早教機,有了這些之后,我們的智能座艙為什么還需要開發一個兒童陪伴的解決方案或者產品。首先,我們的思考是這樣的,大模型在智能座艙需要解決對兒童的陪伴,一是養成式的玩偶,玩偶可以見證孩子的成長,可以陪著孩子一起成長。同時它有多種模式的選擇,這種模式主要體現在不同小孩的年齡段,都可以適應,同時可以進行多模的交互,多模交互主要體現在大模型在智能座艙里可以控制,控制或者使用智能座艙里多種傳感器或者是一些外圍的技術。
首先看一下場景一,一個安撫模式,這個場景的背景是這樣的,一個媽媽獨自帶著3歲的小孩去外婆家,寶寶在后面熟睡,清醒之后孩子要聽故事,大模型可以接入進來,大模型給寶寶講述兒童故事。寶寶哭鬧的時候,大模型可以聯動車內的攝像頭,感知到寶寶正在哭鬧的情緒,大模型識別到這些場景之后,給到媽媽一個信號,是不是要進行安撫模式。開車媽媽啟動了安撫模式之后,大模型會自動地利用外婆的聲紋給小孩進行安撫,讓小孩不再哭鬧。
場景二,陪伴模式,7歲的小明的愛好是喜歡唱歌,上車之后,大模型識別到小明比較開心,比如說六一兒童節表演了唱歌的節目,大模型識別到這樣的場景之后,會調出歌曲的一些伴奏,可以哼唱,讓小明進行一定的哼唱,大模型可以控制車內的燈光。整個過程大模型對數據有一定的記錄,同時在這些數據,可以發送到家長的手機上,一起讓家長參與共享,同時對小明的成長來說是打卡性的,所以大模型有陪伴和成長的功能。
場景三是教育模式,說到教育,對于大多數家長來說,都是一個比較頭痛的事情,所以我們列舉了一個爸爸帶著小孩一起出差旅行。爸爸在前面開車,小孩對車外的事物有新鮮感,所以會時不時會問前面的山是什么山,前面有什么樣的風景,類似這種情況,我們的大模型可以介入進來,比如說大模型可以識別到兒童問了這樣的一些問題之后,聯動汽車上的外部攝像頭拍攝到的畫面,同時大模型還有綜合上網的能力,查到答案之后給孩子一個解釋,當前這座山是什么樣的山。類似這樣的信息,也可以投屏到車內的前后屏,和父母做一個有效的互動。
看一下德賽西威對大模型的規劃和進展,首先看一下視頻,這個視頻是德賽西威自己研發的德賽數字人,德賽數字人和智能座艙有效的融合在一起了,這個融合帶來的好處,首先是取代了傳統的語音助手,可以實現對車內信號的控制,比如車內報警都可以進行實時的播報。二是數字人可以幫我們在開車的過程中實現簡單的辦公模式,比如幫我們回復郵件或者回復信息。
對于大模型在辦公領域,德賽西威是這樣看待的。首先,在公司的內網和大模型已經打通了,同時在工作中想問一下當前項目的進度,當前的項目成員有哪些,都可以通過大模型給出一個精準的答案,甚至在軟件領域開發的程序員來說,他可以借助大模型幫他生成功能性的片段代碼,這樣的方式可以提高一定的生產率。
接下來看一下德賽西威對AI大模型后續的一些規劃,這邊我羅列了三點。
首先是有感智知,通過AI技術感知艙內生命的身心狀態,意味著大模型可以給座艙內的生命狀態進行一定的監督,同時給出更好更健康的信息。二是數字情緒,也就是通過AI技術理性表達有溫度的情緒,這一點是在智能座艙里,它并不是一個冰冷的座艙,而是有溫度、有情緒的座艙。三是具身相通,主要是通過AI技術與個人身心的深度聯合,最后打造人機一體的效果。
我的演講完畢,謝謝!
中國汽車報記者趙玲玲 整理