AI智能體正在加速嘗試代替人類去做一些“力所能及”的事情。
當(dāng)?shù)貢r(shí)間1月23日,OpenAI發(fā)布了首個(gè)AI智能Operator。據(jù)該公司CEO奧特曼介紹,這款智能體能像人類一樣使用網(wǎng)頁(yè)瀏覽器,并點(diǎn)擊按鈕、打字輸入內(nèi)容等,能自動(dòng)完成預(yù)訂旅行住宿、餐廳預(yù)約、在線購(gòu)物等復(fù)雜任務(wù)。
不僅如此,系統(tǒng)還支持多任務(wù)并行處理,比如在某購(gòu)物網(wǎng)站上訂購(gòu)搪瓷馬克杯之時(shí),也能同步在另一平臺(tái)預(yù)定露營(yíng)地。
Operator支持個(gè)性定制,用戶可為特定網(wǎng)頁(yè)或全站添加自定義指令,并在主頁(yè)保存,實(shí)現(xiàn)跨聊天窗口的多任務(wù)處理,如設(shè)置訂機(jī)票時(shí)的首選航司等。
其技術(shù)原理主要由Computer-Using Agent(CUA)模型驅(qū)動(dòng),并結(jié)合了GPT-4o的視覺(jué)識(shí)別能力和基于強(qiáng)化學(xué)習(xí)的高級(jí)推理功能,使得Operator能 “看見(jiàn)” 網(wǎng)頁(yè),使用鼠標(biāo)和鍵盤與網(wǎng)頁(yè)互動(dòng)。
目前,Operator研究預(yù)覽版率先向訂閱200美元Pro計(jì)劃的美國(guó)用戶開(kāi)放,后續(xù)將逐步擴(kuò)展至Plus、Team和 Enterprise級(jí)別用戶。OpenAI表示,希望很快將Operator集成到其所有ChatGPT應(yīng)用中。
從現(xiàn)有體驗(yàn)來(lái)看,Operator在基礎(chǔ)網(wǎng)頁(yè)操作和重復(fù)性任務(wù)方面表現(xiàn)出色,如搜索篩選、創(chuàng)建購(gòu)物清單和音樂(lè)播放列表等任務(wù)成功率較高。但在處理復(fù)雜的房產(chǎn)搜索等任務(wù)時(shí),成功率相對(duì)較低;在處理不熟悉的UI界面和文本編輯時(shí)表現(xiàn)欠佳。
在發(fā)布演示和用戶測(cè)試中,Operator出現(xiàn)了網(wǎng)頁(yè)無(wú)法成功加載等情況,表明其在運(yùn)行穩(wěn)定性上存在不足。此外,由于部分網(wǎng)站可能會(huì)屏蔽AI訪問(wèn),導(dǎo)致智能體無(wú)法在這些網(wǎng)站上執(zhí)行任務(wù),使其應(yīng)用范圍受到一定限制。
據(jù)OpenAI方面介紹,這款智能體在WebArena測(cè)試中得分58.1%,而在WebVoyager測(cè)試中實(shí)際網(wǎng)站導(dǎo)航成功率達(dá)87%,OSWorld測(cè)試的得分則為38.1%。WebArena是由卡耐基梅隆大學(xué)等機(jī)構(gòu)推出的一項(xiàng)用于測(cè)試智能代理在網(wǎng)絡(luò)環(huán)境中執(zhí)行任務(wù)能力的測(cè)試。WebVoyager測(cè)試主要在亞馬遜、開(kāi)源網(wǎng)站GitHub和谷歌地圖等真實(shí)網(wǎng)站上測(cè)試模型的性能。而OSWorld測(cè)試用于評(píng)估模型控制Windows和macOS等完整操作系統(tǒng)的能力。
盡管還談不上完美,但“這款產(chǎn)品是我們進(jìn)軍智能體領(lǐng)域的開(kāi)始?!眾W特曼在直播中這樣表示。
可以說(shuō),Operator是OpenAI向通用人工智能(AGI)目標(biāo)邁進(jìn)的重要一步,也將進(jìn)一步增強(qiáng)該公司在AI領(lǐng)域的競(jìng)爭(zhēng)力。但考慮到Operator在代替用戶執(zhí)行任務(wù)時(shí)可能需要輸入敏感信息,如何避免潛在安全風(fēng)險(xiǎn)將成為重要問(wèn)題。