<form id="jvnrt"></form>

          <noframes id="jvnrt"><form id="jvnrt"><th id="jvnrt"><th id="jvnrt"></th></th></form>
          <address id="jvnrt"></address>

            <noframes id="jvnrt"><address id="jvnrt"><th id="jvnrt"></th></address>
            <address id="jvnrt"></address>

            您的位置:首頁 >聚焦 >

            全球首個大模型Agent產品爆款出場!動動嘴讓PC成為打工人

            2023-08-31 05:50:24    來源:程序員客棧


            (資料圖片)


            新智元報道

            編輯:編輯部 【新智元導讀】有了這個實在的Agent小助手,文秘小帥的辦公流程,簡直叫一個行云流水。
            最近,有了一個神秘助手的小帥,辦公效率比過去提高了十倍不止。 今天,他需要把銷售人員的銷售金額做個排序,再把清單通過釘釘發給張總。 不用多費口舌,小助手立馬準確讀取了小帥的需求。 隨后,小助手干脆利落地給自己列出了行動計劃,不到一分鐘,銷售金額從高到低排序的清單,就赫然出現在了桌面上。 然后,小助手打開釘釘,自動選定了發送對象——張總,然后把清單發送了出去。 這行云流水的一套流程,簡直讓人看呆了。莫非《鋼鐵俠》中的賈維斯AI助理成真了?

            你說,PC做——AI開啟人類辦公新篇章

            在介紹這位神秘助手的身份之前,我們先回顧一下,77年前的人類,是怎樣使用電腦的。 時間回到1946年,世界上第一臺計算機ENIAC誕生。連接一堆線纜、切換一堆開關,就是人類歷史上首次使用電腦的方式。 77年后的今天,ChatGPT的誕生顛覆了人類社會。GPT-4、PaLM、Llama等大模型的相繼爆發,讓AI迎來了歷史性的「iPhone時刻」。 微軟辦公Office 365接入GPT-4,PaLM整合進谷歌Workspace。AI大模型的誕生和崛起,讓打工人的辦公場景發生了根本性變革。 最近爆火的智能體Agent,更是讓賈維斯、《科幻世界》中的機器人小秘書和《星際穿越》中的「塔斯」(Tars)機器人,從科幻走進現實。 正如開頭所演示的,我們只要動動嘴,電腦就能自己動起來,讓原本枯燥繁瑣的工作搖身一變,成為——「你說,PC做」。 而這位能夠「聽得懂,想明白,看得見,動起來」的數字助理,便是實在智能發布的業內首款基于大模型的Agent產品TARS-RPA-Agent,也叫ChatRPA。 它不僅能夠理解人類的意圖,還能操作所有桌面軟件,包括各種復雜的CS架構軟件,甚至對不開放接口的軟件也能操作。 在CV大模型ISSUT(智能屏幕語義理解技術)的加持下,TARS-RPA-Agent就像戴上了酷炫的屏幕洞察眼鏡,眨眼間就能秒懂屏幕上的一切。 甚至,不僅是在電腦上,任何屏幕(比如車載平板)都可以實現這個操作。 舉個例子,這意味著,后續在汽車環境下,除了當下已通過接口方式實現對所有車載設備進行控制,如控制車窗空調、播放音樂、導航等簡單操作之外,還可以通過語音指令輕松指揮車載平板上所有的軟件APP(如釘釘、微信、甚至是WPS、美圖秀秀等)自動完成各種復雜工作任務。 可以說,TARS-RPA-Agent成就的是更加科幻感滿滿的未來,促進人類實現真正的人機協同。 在未來,人類與電腦/手機的協同方式一定是讓技術適應人,而非人適應技術。產品也不再是以系統為中心,而是以人為中心。 在這種全新人機協同模式下,AI將更加智能化、人性化。 與此同時,人類也不用花費大量時間去學習如何操作一個新的應用或工具,而Agent可以理解我們的需求和習慣,做出調整。 這意味著,當AI從一個被動工具,變為一個智能助手,將會更加重視我們的習慣,確保在執行任務要求同時,為人類創造出更加人性化的體驗。

            想讓Agent替你打工?層層難關需攻克

            然而,這項劃時代性技術,需要克服的困難,遠比我們想象的要多。 尤其是,想要讓AI Agent在行業中發揮出真正的商業價值,更非易事。 當你要求Agent幫自己請假時,大模型雖然能做到「理解意圖」,但要操作像釘釘這種沒有可解析的網頁源代碼,或可調用的API接口的應用時,還需要另尋它法。 相比之下,RPA可以模擬人類行為的方式,對電腦軟件完成操作。由此可見,大模型+RPA方式是執行如上幫你請假等任務的一種必然模式。 但隨之而來的另一個問題是,傳統的RPA由于不能對軟件頁面進行精準識別,比如哪個是輸入框,哪個是登錄入口等等,在面對諸多任務時也還是會一籌莫展。 而當前計算機視覺CV大模型的發展,能夠為此提供一種解決方案,讓RPA在執行任務時「看見」操作頁面,秒懂屏幕畫面。 接下來,在解決了接口調用、圖像理解這兩個問題之后,AI Agent還需要突破四大難關,才能成為真正意義上的「數字員工」: 「能否自主拆解任務、能否感知當前環境、能否執行并且反饋、能否記憶歷史經驗?!? 1. 如何輕松實現任務的自主拆解? 首先,在實際的場景中,人類給出的指令是非常復雜的,但所用的語句卻非常簡潔。如何從蘊含龐雜信息和邏輯命令的指令中,理解并拆解任務是非常難的。 比如「訂一張明天到上海的高鐵車票」,就涉及到數量「一張」、時間「明天」、行程「到上?!?、目標「買高鐵票」。 想要最終完成這個任務,就要求Agent必須能夠理解指令,并將其拆解成可執行的子任務和步驟。比如,登錄購票網站、查詢余票信息、完成車票預訂等多個步驟。 2. 如何實現任務元素的精準定位? 除了要把任務分解成可執行的子模塊外,Agent還必須知道自己是誰、在哪。 比如,訂明天的票,就意味著Agent需要知道今天是幾號;有了終點上海,也需要知道自己所處的起點是哪個城市。 與此同時,Agent還需要對周邊的環境有充分的認知、理解和交互。 還是以剛剛的購票任務為例,要完成「登錄購票網站」這一步,就需要Agent明確地知道,賬號輸入、密碼輸入,以及登錄按鈕分別在屏幕上的什么位置。 3. 錯誤會不斷積累,需要及時去更正 在執行任務時,人類會隨時關注進度,并通過不斷的「執行-反饋-修正」來確保任務的正常進行。 對于Agent來說,同樣需要保證每一步操作的正確性,不會因為領會錯了意圖,或者前一步操作失誤,而導致當前步驟點錯按鈕、輸錯賬號或者發錯郵件。 最好是還能夠進行單步尋優,并且把每一步的執行過程和結果都展示和反饋出來。 4. 解決長時記憶,實現自主迭代能力 最后,Agent還需要具有從經驗中學習,并通過歷史案例不斷能提升自己決策的能力。 特別是在人類的幫助下完成一項任務之后,可以在下次遇到同樣的任務時,自己去正確地執行。 舉個例子,為了解決這個困擾大模型已久的長時記憶問題,AutoGPT選擇的就是利用內存管理的手段,來實現上下文保留和決策優化能力。

            AI Agent時代的爆款:TARS大模型智能助理

            面對這一系列的挑戰,實在智能創新性地把CV大模型(ISSUT)、LLM(TARS大模型),以及RPA整合在了一起,并通過不同的技術、設計和方法解決了上述難點。 由此誕生的TARS-RPA-Agent,也成為了一個能夠自主拆解任務、感知當前環境、執行并且反饋和記憶歷史經驗的超自動化智能體。 在TARS-RPA-Agent的加持下,對于發郵件這種基本操作,你只需要在對話框中,輸入「使用163郵箱給×××發送郵件,說你好」即可。 接下來,TARS-RPA-Agent將這個描述的請求拆解為2個步驟。第一步:打開163郵箱;第二步:登錄郵箱發送郵件。在每個計劃中,都包含了詳細的執行步驟。 確認無誤后,直接點擊「執行」,就能看到TARS-RPA-Agent嗖嗖嗖,開始掃描頁面,完成給定的任務。 除了發郵件,諸如請假等各種辦公場景,TARS-RPA-Agent也全能覆蓋,而且還有著優秀的泛化能力。 比如,當你想買一款筆記本電腦,但又不知道選哪款比較好時,就可以問Agent「京東上最暢銷的筆記本電腦是什么」。 很快,Agent就給自己定出了行動計劃,然后根據我們的需求,自己登入京東進行搜索排序,并進入第一個結果的詳情頁。 值得一提的是,TARS-RPA-Agent還考慮到了現有的Agent容易陷入死循環并消耗大量tokens的問題,在任務過程中可允許人工修改、調優等,在產品上能夠更好地支持人機協同操作。 比如,遇到不能執行的步驟,我們只需動動嘴,或者點擊頁面的元素,就能讓它自動創建后面的流程,基本上無需人類操作就能完成。 另外,如果這過程中我們有了新的計劃,直接用嘴告訴TARS-RPA-Agent就可以。 在記錄下選中的產品信息之后,還會貼心地幫你保存下來。 以往,這些功能都得需要在已有組件上去做各種形式的流程實現,不僅復雜,而且難度高。 而現在,有了TARS大模型的加持,直接讓TARS-RPA-Agent擁有「遇河搭橋」的能力。即便是沒有可調用的組件,TARS-RPA-Agent也能夠直接生成一個組件,讓整個工作流暢通無阻。 對于那些沒有編程能力的人來說,無疑是釋放了生產效能。 不僅如此,在大模型的加持下,同樣的操作也可以輕松泛化到其他平臺上。而這一點的實現,只需要你把「京東」這兩個字換成「淘寶」就可以了。 此外,在流程執行結束后,也還可以繼續對話,并增加新的執行計劃來完成流程能。 這些看起來十分簡單的操作,實際上體現的是TARS-RPA-Agent三種強大的能力——視覺識別、邏輯推理,和代碼生成。 首先,TARS大模型本質上是一個語言模型,能夠分析推理,卻「看不到」要執行的對象。但有了ISSUT視覺技術的加持,它就像是有了一雙眼睛,能夠進一步操作對象,驅動RPA去創建整個流程。 其次的邏輯推理能力,讓TARS-RPA-Agent能夠將各個組件變量的邏輯關系進行串聯。 而代碼生成能力,則是讓它可以在沒有基礎組件的流程步驟中直接生成一段代碼,封裝成自建組件,在之后可以隨時調用。 基于此,用戶只需動嘴提出需求,Agent就能自動拆解任務,根據屏幕語言理解,夠完成實時流程搭建和執行。 可以說,實在智能的TARS大模型在超自動化場景與Agent的融合和應用,是國內企業向大模型Agent場景化應用創新邁進的重要一步。 并在最終,實現人類意圖的超越,成為駕馭桌面的終極力量。

            「Agent」:AI引領下的下一個人機協同前沿

            要知道,時間不是衡量偉大技術創新的標準,有時候,速度才是真正的量尺。 當今LLM(大語言模型)最主要的能力體現在,處理和生成內容。但結果的生成,需要以輸入作為前提。 在當前快速發展的背景下,LLM僅僅滿足于其擁有的聊天、創作、繪畫、社交等功能是遠遠不夠的。 而Agent作為一種能夠感知環境,做出決策的智能體,則可以在循環中運行,生成自我導向的指令和操作,不依賴人類來指導對話,更加足以讓人放開想象。 由此,我們可以讓LLM去充當Agent的「大腦」。通過LLM和Agent的結合,能夠讓AI自動化處理更加復雜的任務。 如此一來,Agent智能助手就可以變身一個「數字打工人」,讓我們工作效率大大提升,最終為人類提供更多的實用價值。 而這,也是大模型下一階段的必然發展方向。 為了擴展LLM的應用,國外的研究人員提出了以AutoGPT,GPT-Engineer和BabyAGI等項目為代表的全新形式——集成大語言模型的Agent。 通過將大語言模型作為Agent的核心大腦,就可以實現復雜任務的分解,并在每個子步驟實現自主決策,無需用戶參與即可解決問題。 比如,今年4月爆火的Auto-GPT,現在已經在GitHub上狂攬了147k星。 這個項目的意義在于,Auto-GPT就像是給GPT-4模型裝了一個身體。在接到用戶提交的任務之后,自己就能提出并執行相應的計劃。不到5分鐘,一個網站就搭建好了。 接入GPT-4大模型的GPT-Engineer也是同樣的原理,只需動動嘴,給出一個提示,開發者就可以構建整個代碼庫。 然而,這些新晉頂流的Agent卻有著不少自身的局限性,比如使用GPT-4 API費用高昂、需要一定的編程基礎、應用范圍也相對較窄。 甚至,因為GPT-4固有的局限性,比如胡說八道、犯推理錯誤,有時也會導致Auto-GPT等并不可靠。 除了學術上的探索外,在硅谷,已經有人找出了讓Agent商業化落地的答案。 今年3月,由前OpenAI工程副總裁成立的初創企業Adept,一舉狂攬3.5億美元融資,除了General Catalyst和Spark Capital聯合領投,還有眾多機構和硅谷明星創業者跟投。 簡單來說,Adept創造了一個名為Action Transformer(ACT-1)的「AI隊友」,能夠將文本命令轉化為一系列行動。 比如,通過連接到Chrome瀏覽器的擴展程序,在人類的提示下進行某些操作,或者與Salesforce和電子表格配合,以往需要點擊10次以上的復雜操作,一句話即可完成。

            業界首家推出大模型Agent的公司

            雖然,必須借助API才能實現軟件調用的形式極大地限制了ACT-1的使用場景,但Adept依然拿到了強有力的融資。由此也可以看出,行業內對Agent辦公的強大信心,和這種趨勢的一致認可。 現在,隨著技術的進一步發展,AI Agent更是成為了業界公認LLM落地的有效方式之一。 而國內公司的腳步,自然也沒有落下。 作為國內首家推出大模型Agent的企業,實在智能才成立5年,就榮譽傍身。 連續3年獲評AI準獨角獸企業,通過國家高新技術企業及CMMI-5全球軟件成熟度最高級別認證(全球不到1800家),擁有200余項獨立自主知識產權、實際授予的發明專利53項,位列行業第一。 數十人的高水平算法團隊,NLP、CV、以及OCR技術在國內均為第一梯隊。 實在智能不斷蝶變創新的背后,是技術研發實力深厚的體現,以及倍增的實際效益。 2020年,這家公司首次推出了RPA產品,并在業界首次提出「融合拾取」技術,讓RPA拾取精度實現跨越式發展。 2022年,智能屏幕語義理解技術ISSUT的發布,讓RPA戴上了「眼鏡」,從「拖拉拽」過渡到「點選用」。這種更新的IPA模式,也讓原本門檻極高的RPA工具變得人人可用。 2023年,實在智能憑借技術沉淀,再一次引領創新,將計算機視覺和大模型結合,推出TARS-RPA-Agent,這在全球的Agent領域也是不多見的,更是RPA領域的首創。 實在智能之所以選擇Agent作為產品的下一個發展方向,就是因為人工智能生成為驅動管理系統提供了一種全新的方式,可以直接生成并執行各種可操作的業務流程。 通過整合AIGC,產品能夠實現智能化,并為B端用戶提供高效、可執行的解決方案。其中,LLM如果與企業管理軟件融合好,大模型便能順利落地。LLM的私有化部署能力,往往意味著廠商們更大的商機。 而TARS-RPA-Agent所依賴的LLM——實在智能的自研垂直TARS大模型,具有優異的文本生成、語言理解、知識問答、邏輯推理等核心能力。 在TARS大模型的加持下,一種全新的「TARS + X」模式應運而生。 如今,我們可以看到,ChatRPA為超自動化產品矩陣帶來的變革升級,讓未來辦公「只動嘴不動手」。 與此同時,實在智能的首款和文檔對話的產品Chat-IDP,也開創了文檔交互、文檔處理的新模式。 基于OCR+NLP的「智能文檔審閱」IDP產品,更是已經達到全國領先,廣泛應用于金融、教育、工業等各個行業。 從2023年開始,我們使用的電腦的方式,或將被這家起步雖晚但技術雄厚、帶領行業彎道超車的AI準獨角獸改變。

            關鍵詞:

            相關閱讀