11月12日,“百度世界2024”在上海世博中心舉行。百度創(chuàng)始人、董事長(zhǎng)兼首席執(zhí)行官李彥宏發(fā)表了主題為《應(yīng)用來(lái)了》的演講。
百度地圖也為大家?guī)?lái)了干貨滿滿、精彩紛呈的智能體公開課,由百度地圖開放平臺(tái)技術(shù)架構(gòu)師江暢分享《地圖智能體:導(dǎo)航出行領(lǐng)域的AI應(yīng)用實(shí)踐指南》。
地圖智能體在技術(shù)上是怎么實(shí)現(xiàn)的?
01
技術(shù)實(shí)現(xiàn)路徑
百度地圖智能體的發(fā)布得益于長(zhǎng)期技術(shù)投資所帶來(lái)的技術(shù)積累紅利,依托國(guó)內(nèi)領(lǐng)先的大模型文心一言,擁有學(xué)習(xí)海量出行信息,洞悉用戶交通偏好,并且與業(yè)界美團(tuán)、攜程等主流應(yīng)用廣泛合作,內(nèi)容供給極致豐富。
具體而言,百度地圖智能體在理解和規(guī)劃上,實(shí)現(xiàn)了高度口語(yǔ)化用戶輸入的意圖識(shí)別,具備多輪理解及反思修復(fù)能力,支持模型的長(zhǎng)期和短期記憶,包括用戶畫像和會(huì)話信息,以更好地理解用戶需求。同時(shí),百度地圖不斷構(gòu)建基于海量數(shù)據(jù)的知識(shí)庫(kù)和工具集合,以支持需求理解和執(zhí)行動(dòng)作。
02
技術(shù)架構(gòu)兩大關(guān)鍵環(huán)節(jié)
一、意圖理解
首先是模型選擇。永恒的話題是模型尺寸和推理性能的權(quán)衡,大尺寸模型,效果好,但推理速度慢,成本也貴,更小尺寸的模型,可以扛住更大的流量,但效果可能沒那么好。實(shí)際工程架構(gòu)上,采用混合模型,簡(jiǎn)單的輸入,盡量讓小尺寸的模型承接,非常復(fù)雜的輸入,才會(huì)走到更大的模型,來(lái)平衡成本和效果。
其次是原子化技能。把百度地圖的能力,盡可能地拆解成一個(gè)個(gè)原子化的API,在意圖理解的階段通過(guò)LLM進(jìn)行拆解和映射,類似大家常說(shuō)的,把大象裝進(jìn)冰箱分成三步走,把復(fù)雜的用戶需求分步驟的拆解,讓不同技能來(lái)承接,最終呈現(xiàn)給用戶一個(gè)好的結(jié)果。
最后是多輪能力。多輪推理的模塊,基于對(duì)環(huán)境的感知和長(zhǎng)短期的記憶內(nèi)容,來(lái)實(shí)現(xiàn)諸如“幫我找一個(gè)附近游玩的地方”,找到故宮后,直接說(shuō)“那就導(dǎo)航去這兒吧”這樣的交互對(duì)話能力。
二、知識(shí)問(wèn)答
百度地圖把各種數(shù)據(jù)都做了面向智能體友好的規(guī)格處理,這些知識(shí)現(xiàn)在可以被大模型所理解,并歸納總結(jié)給出合理的答案。
具體來(lái)說(shuō),當(dāng)用戶問(wèn)一個(gè)問(wèn)詢類的問(wèn)題后,首先通過(guò)問(wèn)題的相關(guān)性檢索,從地圖知識(shí)庫(kù)里召回關(guān)鍵要素,通常是用戶問(wèn)題相關(guān)的多個(gè)不同主題的信息,比如營(yíng)業(yè)時(shí)間、地點(diǎn)特色等。當(dāng)抽取出這些多主題信息后,結(jié)合原始的問(wèn)題,利用大模型的強(qiáng)大歸納總結(jié)能力,進(jìn)行最后的歸納、總結(jié),并給出準(zhǔn)確的答案。
地圖智能體有哪些核心能力?
01
出行指令一張圖,聽得懂, 可執(zhí)行
支持基礎(chǔ)60+類語(yǔ)音指令,導(dǎo)航行中可見即可說(shuō),所有功能皆可語(yǔ)音支持;支持10+種路線定制能力,多途經(jīng)點(diǎn)路線、定制化路線(描述路名/道路特征的路線)、多意圖路線隨意組合......只要能描述的路線,都可以規(guī)劃展示。
02
出行信息一張圖, 路上你關(guān)心的全都有
支持服務(wù)區(qū)/擁堵等12類信息問(wèn)詢,也可以做到問(wèn)山問(wèn)水等偏興趣探索的問(wèn)詢需求。
03
旅途好伴侶, 多模態(tài)交互, 讓出行更有趣
只要給出你想去的地方+游玩時(shí)間,即可一鍵生成出游攻略行程規(guī)劃;加載文心大模型,所有知識(shí)皆可問(wèn)詢,滿足泛出行場(chǎng)景的知識(shí)訴求。
地圖智能體有哪些使用場(chǎng)景?
01
行前——復(fù)雜泛搜以及制定出游攻略
具備針對(duì)指定POI的多輪問(wèn)詢能力,例如查找周邊充電站后,可繼續(xù)追問(wèn)是否支持快充,以及是否24小時(shí)營(yíng)業(yè)等信息;根據(jù)不同類型多個(gè)篩選條件,對(duì)周邊或指定區(qū)域進(jìn)行檢索并推薦結(jié)果;通過(guò)口語(yǔ)化問(wèn)詢,如查詢行程時(shí)間、距離、擁堵情況,并根據(jù)路線偏好進(jìn)行推薦。
同時(shí)也新上線了行程規(guī)劃的能力,比如“做一個(gè)北京三日游的攻略”,只要給出想去的地方+游玩時(shí)間,即可一鍵生成出游攻略,包括出游地點(diǎn)、路線、時(shí)間等相關(guān)信息,還附帶海量筆記、消費(fèi)入口供用戶參考和調(diào)整規(guī)劃行程。
02
行中——語(yǔ)音指令、路線定制和行中搜點(diǎn)
在基礎(chǔ)功能指令上,智能體行中可以對(duì)車道級(jí)導(dǎo)航開關(guān)、播報(bào)模式、限行、服務(wù)區(qū)等語(yǔ)言指令做出響應(yīng)。
在特色功能上,智能體支持對(duì)路線的定制化調(diào)整,包括多途徑點(diǎn)/走&不走某條路的路線/大路多的路線/紅綠燈少的路線/曾經(jīng)走過(guò)的路線/轉(zhuǎn)彎數(shù)少路線等。行中搜點(diǎn)——沿途搜、周邊搜、以點(diǎn)搜點(diǎn)能力同樣也是具備的。
03
行中——信息問(wèn)詢、知識(shí)問(wèn)詢
支持導(dǎo)航過(guò)程中的一系列訴求,比如服務(wù)區(qū)/擁堵&動(dòng)態(tài)事件/出入口&收費(fèi)站/限速/道路/起終點(diǎn)&途經(jīng)點(diǎn)&ETA/城市位置&天氣/電子眼/紅綠燈/停車場(chǎng)/誘導(dǎo)方位指引/交規(guī)通行性等地圖信息隨意問(wèn)詢,天級(jí)別迭代;還能接受途中問(wèn)旁邊山、水、建筑信息問(wèn)詢,景點(diǎn)的歷史典故、游覽詞等。也包括對(duì)POI點(diǎn)的營(yíng)業(yè)時(shí)間、位置、歷史信息的一系列query。
04
泛地圖場(chǎng)景
百度地圖通過(guò)不斷完善地圖知識(shí)庫(kù),基于文心大模型,對(duì)地圖知識(shí)做細(xì)化分類,支持開發(fā)者、用戶對(duì)各類千奇百怪、突破想象力的問(wèn)題,都能給出合理的答案。
開發(fā)者如何接入地圖智能體?
01
APl接入方案
通過(guò)云端交互方式,基于大模型語(yǔ)義理解的API,返回檢索、基礎(chǔ)算路、未來(lái)時(shí)問(wèn)規(guī)劃等結(jié)果。能夠幫助企業(yè)快速靈活的搭建【出行AI Agent】。
02
SDK接入方案
端上集成大模型語(yǔ)義理解技術(shù)的SDK,為企業(yè)提供一站式解決方案。接入成本低、開發(fā)門檻低,功能升級(jí)涉及APP發(fā)版。
03
兩個(gè)技術(shù)方案對(duì)比
相對(duì)而言,SDK接入方案對(duì)開發(fā)者更友好,開發(fā)門檻低,但需要發(fā)版,同時(shí)地圖智能體SDK的能力也在不斷擴(kuò)展中;而API接入方案不需要發(fā)版,但開發(fā)門檻更高一些,需要自行實(shí)現(xiàn)端上的產(chǎn)品形態(tài)。建議開發(fā)者按需選擇。
正如百度創(chuàng)始人、董事長(zhǎng)兼首席執(zhí)行官李彥宏在百度世界2024大會(huì)上提出的,“智能體是AI應(yīng)用的最主流形態(tài),即將迎來(lái)它的爆發(fā)點(diǎn)。智能體的門檻低、天花板高,既能讓人人都上手,又能做出復(fù)雜強(qiáng)大的應(yīng)用?!?/span>
百度地圖期待與更多開發(fā)者朋友攜手,充分釋放地圖智能體的能力,探索AI應(yīng)用的無(wú)限新可能。
·END·
掃描/長(zhǎng)按識(shí)別二維碼
直達(dá)官網(wǎng)了解地圖智能體詳情??