去年 11 月, OpenAI 發(fā)布 AI Agent 初級形態(tài)產(chǎn)品 GPTs,讓人看到智能體的應(yīng)用前景。谷歌、亞馬遜在該領(lǐng)域也有所涉獵。比爾?蓋茨更是認(rèn)為 AI Agent 是 AI 的未來,并預(yù)言不久的將來,所有人都將擁有專屬 AI 助理。
為了更好地理解智能體的落地前景,全球領(lǐng)先的風(fēng)險投資和私募股權(quán)公司Insight Partners進(jìn)行了多個行業(yè)的調(diào)研,并發(fā)布一篇深入的分析報告,旨在探索 AI Agent 與傳統(tǒng)自動化平臺的差異,以及AI Agent當(dāng)下落地情況。
核心觀點(diǎn)指出,AI Agent 和大型語言模型(LLM)的融合正在推動自動化向更智能、更高效的方向發(fā)展。報告強(qiáng)調(diào)了人機(jī)交互在部署生成性 AI 解決方案中的重要性,并提出了自動化部署應(yīng)采取漸進(jìn)式策略,從簡單任務(wù)開始,逐步過渡到復(fù)雜工作流程。
以下是原文翻譯。
01 自動化領(lǐng)域發(fā)展的趨勢預(yù)測
1.從消費(fèi)者到知識工作者,每個人都將擁有自己的 AI 助手。這將重新定義垂直應(yīng)用、自動化平臺和 IT 服務(wù)之間的傳統(tǒng)邊界,為企業(yè)家創(chuàng)造變革性的市場機(jī)會。AI 助手將以不同形式出現(xiàn),從現(xiàn)有平臺的輔助工具,到內(nèi)嵌 AI 的應(yīng)用,再到各種形態(tài)的 AI 智能體 (AI Agent)。
2.人機(jī)協(xié)作是部署生成式 AI 解決方案的核心。目前大多數(shù)應(yīng)用場景都處于實(shí)驗(yàn)或早期生產(chǎn)階段,側(cè)重于建議和輔助型工作流程。LLMs 還不具備可靠的規(guī)劃和推理能力,記憶和上下文理解等領(lǐng)域仍在研究中。在自動化平臺上,確定性執(zhí)行至關(guān)重要,LLMs 被用于"設(shè)計(jì)期"的特定任務(wù),而非"運(yùn)行期"。
3.自動化是一個被低估的難題。從業(yè)者正將 AI 加入他們的解決方案和專業(yè)經(jīng)驗(yàn),以提升平臺效率和用戶體驗(yàn)。頂尖的 LLM 提供商正在加入智能體建模、協(xié)作和工具訪問功能,讓用戶能快速構(gòu)建 AI 智能體 (如 GPT 系列)。有望突破的新興企業(yè)需要利用獨(dú)特的數(shù)據(jù)集和簡潔的用戶體驗(yàn),提供差異化的客戶價值,重塑工作流程。
4.內(nèi)置 AI 的自動化部署將采取"從簡單到復(fù)雜"的漸進(jìn)方式,從簡單任務(wù)開始,逐步過渡到復(fù)雜工作流。關(guān)鍵是持續(xù)嘗試智能體,了解 AI 功能在哪些地方真正創(chuàng)造價值,并確保在數(shù)據(jù)、工具和運(yùn)行時等方面搭建合適的"腳手架",使其成為自動化架構(gòu)的一部分。隨著 AI 模型能力的增強(qiáng),可以逐步擴(kuò)大 AI 功能的應(yīng)用范圍。
5.代碼生成已成為開發(fā)基于生成式 AI (GenAI) 應(yīng)用和 Agent 自動化平臺的關(guān)鍵要素。代碼兼具文本形式和明確性能指標(biāo)兩大特性,是 LLM 的理想功能。編程輔助工具的初版已經(jīng)廣泛部署,我們看到更成熟的 AI 驅(qū)動開發(fā)平臺正在涌現(xiàn)。代碼生成型 LLMs 將在智能體架構(gòu)中扮演關(guān)鍵角色。
02 自動化平臺的演變
自動化是人類不斷努力的事業(yè)。每個知識工作者都熟悉這個不起眼的“宏”——一組重復(fù)命令的快捷方式,可以額外提高生產(chǎn)力。
早期的自動化工作主要集中在報價到現(xiàn)金、薪資等工作流程上,工程師編寫定制代碼,將這些受靜態(tài)規(guī)則和定義控制的工作流程拼接在一起。這些脆弱的早期方法推動了第一代自動化平臺的開發(fā),例如:機(jī)器人流程自動化 (RPA) 平臺在自動化重復(fù)性手動任務(wù)方面提供了最大價值。它們結(jié)合了預(yù)定義工作流程庫和低代碼/無代碼平臺,幫助用戶構(gòu)建自己的劇本。RPA 平臺已逐步納入 AI/ML 模型以擴(kuò)展其功能。
像 Workato這樣的iPaaS 平臺首先創(chuàng)建一個中間件層來集成數(shù)據(jù)、應(yīng)用程序源和 API 以連接不同的資源。該數(shù)據(jù)層是自動化引擎的關(guān)鍵輸入,創(chuàng)建干凈的界面是自動化之旅的第一步。
低代碼任務(wù)自動化平臺通過簡單的 UI 提供一組預(yù)定義的集成,以自動執(zhí)行知識工作者和中小型企業(yè)的重復(fù)任務(wù)。
各種垂直自動化 方法專注于供應(yīng)鏈、IT 運(yùn)營和開發(fā)人員生態(tài)系統(tǒng)等領(lǐng)域的特定工作流程,以及面向客戶的用例(如幫助臺和客戶服務(wù)團(tuán)隊(duì))的聊天機(jī)器人。
雖然這些平臺顯著減少了重復(fù)性工作,但通過預(yù)定義工作流程或咨詢部署來實(shí)現(xiàn)自動化價值所需的引導(dǎo)仍然很復(fù)雜。實(shí)施對于企業(yè)運(yùn)營環(huán)境的變化也很脆弱。
GenAI 有潛力加速這一自動化進(jìn)程,因?yàn)楝F(xiàn)有企業(yè)將引人注目的功能融入到他們的平臺中,構(gòu)建者嘗試新架構(gòu),研究人員努力實(shí)現(xiàn)自主人工智能 (AGI) 的最終目標(biāo)。
03 自動化中的AI:不同的參與者,差異的方法論
企業(yè)中的自動化通常是一項(xiàng)復(fù)雜的任務(wù),一些從業(yè)者甚至將其稱為執(zhí)行工作流的多個元素的復(fù)雜編排。隨著 genAI 的出現(xiàn),現(xiàn)有企業(yè)和初創(chuàng)企業(yè)/規(guī)模化企業(yè)正在從不同的角度抓住這一機(jī)會。
RPA 和任務(wù)自動化平臺帶來了顯著的現(xiàn)有優(yōu)勢,擁有豐富的自動化工作流程庫以及與企業(yè)處理復(fù)雜工作流程的經(jīng)驗(yàn)。GenAI 提供了一個通過簡化的用戶體驗(yàn)來解決脆弱性和引導(dǎo)問題的機(jī)會。
Microsoft 365 和 Notion 等應(yīng)用程序平臺將 AI 直接嵌入到平臺和用戶工作流程中,以幫助完成任務(wù)、提供建議并生成內(nèi)容以協(xié)助用戶的工作流程。
原生 AI 方法從應(yīng)用或工作流出發(fā),以第一性原理重新思考自動化。在應(yīng)用方面,Swimm 和Writer等新一代生產(chǎn)力工具令人驚艷地展示了生成式 AI 對工作模式的革新。同樣,來自銷售、營銷、法律和財(cái)務(wù)的許多垂直應(yīng)用程序都使用 genAI 功能來簡化復(fù)雜的工作流程。
LLM 提供商和創(chuàng)業(yè)公司在自動化領(lǐng)域開辟新路徑,利用智能體駕馭生成式 AI 能力執(zhí)行簡單任務(wù)。另一些方法將 LLMs 與必要的"腳手架"相結(jié)合,應(yīng)對復(fù)雜工作流和應(yīng)用。。Agent 自動化是目前不斷創(chuàng)新和研究的焦點(diǎn),開發(fā)者正在模型、架構(gòu)和工具方面進(jìn)行廣泛實(shí)驗(yàn)。
RPA 和任務(wù)自動化平臺
當(dāng)前幾代自動化平臺已積極采用更新的機(jī)器學(xué)習(xí)和人工智能模型作為其平臺的一部分。下面討論了這些平臺當(dāng)前狀態(tài)的簡要述:
用戶界面連接到低代碼工作室,用戶可以在其中構(gòu)建、部署和驗(yàn)證自動化。該界面還用于監(jiān)控性能、跟蹤每個策略的使用情況,甚至衡量他們創(chuàng)建的自動化的投資回報率。
iPaaS作為中間件發(fā)揮著關(guān)鍵作用,它將來自應(yīng)用程序、數(shù)據(jù)存儲和事件流的數(shù)據(jù)匯集在一起,以創(chuàng)建到自動化層的高效接口。
自動化層使用工作室中的模板從預(yù)構(gòu)建的劇本、預(yù)測機(jī)器學(xué)習(xí)模型和工具庫中進(jìn)行選擇,或者執(zhí)行新的工作流程。一些常見的用例包括:·從圖像或電子郵件等非結(jié)構(gòu)化來源中提取數(shù)據(jù)并填寫表格?!び^察人類(例如閱讀屏幕、跟蹤擊鍵)以產(chǎn)生可重復(fù)的工作流程或建議潛在的新自動化?!膸齑嫦到y(tǒng)中提取數(shù)據(jù)并使用 ML 模型創(chuàng)建預(yù)測?,F(xiàn)有企業(yè)正在使用 genAI 來簡化用戶參與并提供新的工作流程,例如:·輸入諸如“銷售勘探”之類的任務(wù),副駕駛會翻譯意圖并搜索自動化庫,為用戶提供任務(wù)的起點(diǎn)。·創(chuàng)建一個表單并根據(jù)預(yù)先訓(xùn)練的模板使用適當(dāng)?shù)淖侄胃滤?。填寫從各種非結(jié)構(gòu)化來源提取的數(shù)據(jù)?!ど伞暗汀贝a以基于 NL 描述以及測試用例創(chuàng)建自動化,以驗(yàn)證輸出和工作流程的描述。人工智能工具通過幫助用戶加快實(shí)現(xiàn)價值的時間,幫助這些平臺建立其現(xiàn)有優(yōu)勢(客戶和手冊)。更好的 UI/UX 有助于減少用戶在復(fù)雜部署中開始時通常需要的咨詢引導(dǎo)。隨著 LLM 能力的發(fā)展,我們可以預(yù)期 RPA 和任務(wù)自動化的能力也會增長。"未來,人類與數(shù)字世界的一切交互都將通過 AI 智能體實(shí)現(xiàn)。"– 楊立昆 (Yann LeCun)
04 代理自動化框架:Copilots/GPT 和Agent
定義市場上常用于指代 genAI 用例的術(shù)語可能會有所幫助。
·Copilots是基于 genAI 的現(xiàn)有應(yīng)用程序和平臺界面,為用戶提供了發(fā)現(xiàn)和增強(qiáng)現(xiàn)有功能的簡化方法。
·智能體 (Agent) 將大語言模型的功能與代碼、數(shù)據(jù)源和用戶界面相結(jié)合以執(zhí)行工作流程。構(gòu)建者正在研究以下幾種方法:
·圍繞 LLM 或針對特定任務(wù)(代碼生成)訓(xùn)練的 LLM 構(gòu)建簡單的封裝器。
·具有“腳手架”的專家混合架構(gòu),可將特定于任務(wù)的代理、預(yù)定義的代碼/工作流程和外部工具結(jié)合起來,以重新構(gòu)想應(yīng)用程序或自動執(zhí)行復(fù)雜的任務(wù)。
·通用智能體旨在通過簡單地描述來自動化任何任務(wù)。對于需要持續(xù)人工智能進(jìn)步的研究人員來說,這仍然是一個長期目標(biāo)——在下面的“參考文獻(xiàn)和進(jìn)一步閱讀”中了解更多信息。
無代碼代理/GPT
AI Agents 最初只是實(shí)驗(yàn),中島洋平 (Yohei Nakajima) 等構(gòu)建者發(fā)布了 Baby AGI 等項(xiàng)目,該項(xiàng)目基于本地 LLM 功能構(gòu)建,可以運(yùn)行簡單的自動化。LLM 提供商現(xiàn)在提供引人注目的無代碼平臺,其中包含外部資源插件庫,以構(gòu)建 LLM 的自定義版本。對于許多簡單的任務(wù)或一次性自動化,這可能是一種快速的開始方式。在這種方法中,無代碼控制臺允許用戶提供任務(wù)的詳細(xì)描述或使用少量提示來引導(dǎo)大模型構(gòu)建智能體。LLM 提供商現(xiàn)在提供與數(shù)據(jù)源和應(yīng)用程序的集成,使代理能夠利用外部數(shù)據(jù)作為其工作流程的一部分。該代理還可以使用專有數(shù)據(jù),使用檢索增強(qiáng)生成 (RAG) 等技術(shù)來提高準(zhǔn)確性。API 引入了搜索等外部工具。如上所示,高級代理可以使用粘合代碼圍繞大模型的功能構(gòu)建,將這些不同的元素組合成一個統(tǒng)一的智能體。LLM提供商預(yù)計(jì)將繼續(xù)推出新功能,例如Agent建模、協(xié)作、更多工具訪問和預(yù)構(gòu)建功能、反射、安全護(hù)欄等,使其成為構(gòu)建Agent的強(qiáng)大平臺。
混合專家代理架構(gòu)
Bardeen、Imbue 和 MultiOn 等構(gòu)建商正在利用專家混合 (MoE) 代理框架來解決為復(fù)雜工作流提供確定性結(jié)果的問題。其想法是將工作流程分割為分配給特定代理或功能的任務(wù),并為代理提供所需的“腳手架”,包括數(shù)據(jù)、豐富的工具集和接口。架構(gòu)概覽如下:
用戶界面
面向用戶的大模型使用戶能夠描述任務(wù)并利用上下文窗口來提供相關(guān)上下文,例如少量示例。新的UI 方法結(jié)合了用戶上下文和交互性,允許用戶引導(dǎo)智能體并改進(jìn)其方法。該設(shè)計(jì)使“人在環(huán)”能夠驗(yàn)證最終輸出。該設(shè)計(jì)實(shí)現(xiàn)了更流暢的“人機(jī)交互”界面,以提供輸入并驗(yàn)證最終輸出。
任務(wù)代理
工作流程可以分解為由 LLM 代理執(zhí)行的不同任務(wù),其中一些任務(wù)將在下面詳細(xì)介紹。這優(yōu)化了當(dāng)前的 LLM 功能,并能夠靈活地使用任務(wù)代理來實(shí)現(xiàn)特定功能,并提供干凈的抽象和未來升級或重構(gòu)它們的選項(xiàng)?!と缃竦囊?guī)劃智能體可提出計(jì)劃,將用戶意圖分解為任務(wù)清單,經(jīng)人工審批后再進(jìn)行調(diào)度執(zhí)行。這仍是一個活躍的研究領(lǐng)域。·路由任務(wù)負(fù)責(zé)將任務(wù)映射到合適的 AI/ML 智能體或預(yù)定義工作流程?!すδ苤悄荏w接受針對特定任務(wù)的訓(xùn)練 (生成式 AI 或預(yù)測性 ML 模型)?!ごa生成智能體將任務(wù)轉(zhuǎn)換為特定任務(wù)所需的代碼,如 SQL 查詢?!し此夹?LLM 通過迭代輸出來評估質(zhì)量并優(yōu)化最終結(jié)果。Devin 等平臺已證實(shí)這一技術(shù)在提高輸出準(zhǔn)確性方面的有效性。
確定性運(yùn)行時間
為了提供始終正確的最終輸出,在確定性運(yùn)行時組合不同任務(wù)的不同輸出已被證明是良好的實(shí)踐。例如,對于金融用例,代碼生成 LLM 生成在運(yùn)行時執(zhí)行的 SQL 查詢,以實(shí)現(xiàn)精確的數(shù)據(jù)提取。MoE 架構(gòu)的核心設(shè)計(jì)原則是僅在需要時使用 AI/ML 模型并利用預(yù)定義的工作流程/劇本。LLM 在設(shè)計(jì)時使用,并在確定性運(yùn)行時進(jìn)行綜合。
智能體與人類的人工智能接口
正如前文所述,人機(jī)交互界面是當(dāng)今架構(gòu)的一個關(guān)鍵點(diǎn)。開發(fā)者正通過多種方式將智能體植根于用戶上下文,從在上下文窗口中輸入,到將智能體設(shè)計(jì)為瀏覽器插件以觀察用戶行為并捕獲上下文。LLM 插件引入外部數(shù)據(jù)或工具,是賦予智能體更多技能的關(guān)鍵。最后,代理可以使用 API 與電子郵件、生產(chǎn)力和通信工具等用戶平臺進(jìn)行通信,模擬人類的工作流程。智能體間交互界面是一個活躍的研究和開發(fā)領(lǐng)域。在 MoE 模型中,具有不同能力的任務(wù)智能體需要如前所述進(jìn)行交互。久而久之,我們可以設(shè)想智能體之間通過交互來完成任務(wù)——類似于如今連接應(yīng)用的 API,延伸出支持 AI 的版本。
企業(yè)部署自動化的注意事項(xiàng)
1.大多數(shù)企業(yè)已經(jīng)使用一系列自動化平臺,從用于特定任務(wù)的經(jīng)典 RPA 和任務(wù)自動化平臺到自主開發(fā)的解決方案。人工智能帶來的生產(chǎn)力仍然是炒作而非現(xiàn)實(shí)?;?genAI 的自動化的候選者需要進(jìn)行清晰的成本/效益分析,因?yàn)樗鼈儗⒆裱c以前的方法類似的成熟曲線。
2.智能體的性能與其訓(xùn)練數(shù)據(jù)的質(zhì)量和相關(guān)性直接相關(guān)。對于許多企業(yè)來說,構(gòu)建干凈且集中的數(shù)據(jù)集和數(shù)據(jù)管道來訓(xùn)練模型,是最優(yōu)先的工作。
3.隨著 GPT5/Llama3 即將發(fā)布,LLM 格局正在迅速發(fā)展,這將刷新SOTA的標(biāo)準(zhǔn)。與此同時,多種具有 GPT4 級別性能的型號現(xiàn)提供已以極具吸引力的成本。企業(yè)現(xiàn)在擁有不同來源、不同性價比水平的模型,可以根據(jù)用例和功能需求進(jìn)行選擇。
4.在平臺層面,市場有多種選擇?,F(xiàn)有企業(yè)正在嵌入人工智能或提供輔助工具,以加快用戶實(shí)現(xiàn)價值的時間。初創(chuàng)公司/規(guī)模擴(kuò)大公司和大模型提供商正在采用人工智能原生方法來重新發(fā)明垂直用例或創(chuàng)建新平臺來改變成本、性能和用戶體驗(yàn)。工作流程和性能基準(zhǔn)應(yīng)該推動選擇。
5.如今的大模型對提示非常敏感,輕微的變化可能會導(dǎo)致模型輸出出現(xiàn)偏差。在用例級別(相對于模型級別)建立明確的性能衡量標(biāo)準(zhǔn)是關(guān)鍵。治理和數(shù)據(jù)安全也是如此。人機(jī)交互是當(dāng)今所有人工智能部署的基本特征。
自動化建設(shè)者的注意事項(xiàng)
1.建筑商可以在自動化平臺中使用 genAI 采取“爬行、行走、奔跑”的方法。深入了解用戶、用例、其性能基準(zhǔn),并利用 LLM 作為將其功能與任務(wù)相匹配的工具,對于構(gòu)建差異化解決方案至關(guān)重要。
2.大模型主要是系統(tǒng) 1 思維者(基于訓(xùn)練數(shù)據(jù)做出直覺反應(yīng))。開發(fā)者需要差異化功能和預(yù)定義函數(shù)/劇本、可能的情況下使用 ML 模型。有重點(diǎn)和有針對性的數(shù)據(jù)集對于模型的基礎(chǔ)至關(guān)重要。
3.對于復(fù)雜的用例 - 不斷的實(shí)驗(yàn)和正確的“腳手架”來合并用戶上下文、訪問外部工具和數(shù)據(jù)集、反射機(jī)制等,是“專家組合”智能體架構(gòu)的基礎(chǔ)方面。
4.簡單的基于文本的 UI 是良好的第一步。構(gòu)建者通過添加實(shí)時交互性 和 多模式 UI進(jìn)行創(chuàng)新 ,為用戶創(chuàng)建更積極的參與,以跟蹤大模型任務(wù)列表、評估輸出并提供主動反饋來引導(dǎo)輸出。
5.通過正確的治理引入差異化的數(shù)據(jù)集,并考慮 安全權(quán)衡、安全護(hù)欄和性能,對于避免最終用戶環(huán)境中部署時的監(jiān)管和合規(guī)性問題非常重要。
05 生成式 AI 代理用例
在我們與企業(yè)的對話中,代理自動化方面正在進(jìn)行各種努力。下面詳細(xì)介紹了一些用例:·F100 電信公司的首席數(shù)據(jù)官:“我們正在構(gòu)建智能體工作流,將表格和數(shù)據(jù)庫鏈接在一起,整合多個數(shù)據(jù)源,然后根據(jù)數(shù)據(jù)采取行動或提出建議?!薄ひ患胰蜃稍児镜臄?shù)據(jù)和人工智能副總裁正在構(gòu)建智能體工作流,以使數(shù)據(jù)分析師能夠從不同的電子表格中獲取見解。·一家 F500 建筑和房地產(chǎn)公司的數(shù)據(jù)和人工智能高級副總裁正在構(gòu)建一個集合Palantir、OpenAI 和內(nèi)部輔助的智能體程序,以從數(shù)千份提交的 RFP 投標(biāo)中選擇獲勝的 RFP 投標(biāo)。·一家大型銀行的高級副總裁,“我看到 GenAI 的兩個活躍用例。第一,向我們所有工程師推出的編碼輔助工具,我們看到高級工程師的生產(chǎn)力提高了約 20% 以上。我們期待這里的新功能。第二,與大模型討論文檔,RAG 顯著改進(jìn)了在模型落地的同時保護(hù)隱私的方式。聊天機(jī)器人一直是實(shí)驗(yàn)性的推出,我們?nèi)栽谕晟七@個用例,以考慮安全性和合規(guī)性。”·一家大型銀行的首席數(shù)字官,“自動化將在我們的行業(yè)中采取多種形式。我們擁有大量的 RPA、ITSM 垂直自動化平臺等,并在大模型上構(gòu)建了智能體。我們正在積極嘗試代理自動化架構(gòu)并不斷學(xué)習(xí)。一些現(xiàn)有供應(yīng)商在整合人工智能方面表現(xiàn)出了極大的敏捷性?!?/p>
06 AI自動化市場地圖
人工智能的創(chuàng)新步伐只會不斷加快。需要注意的是,這里討論的許多方法都處于實(shí)驗(yàn)和早期生產(chǎn)階段。隨著代理和自動化世界的發(fā)展,我們致力于積極跟蹤和更新該領(lǐng)域的發(fā)展?fàn)顩r。同時,我們歡迎有機(jī)會與創(chuàng)始人合作構(gòu)建代理自動化、重新構(gòu)想垂直應(yīng)用程序和差異化基礎(chǔ)設(shè)施平臺,并期待與社區(qū)的反饋和對話。