新范式:AIGC推動的數據要素產業價值促進創新
大模型的發展與數據要素的價值創造互為因果,LLM正推動著數據要素以“激發AGI”的全新范式創造價值。
引言
大模型的發展與數據要素的價值創造互為因果,LLM正推動著數據要素以“激發AGI”的全新范式創造價值。如何有效地整合規?;?、高質量的數據以用于大型模型的訓練,不僅是推進大模型發展的窗口,也將成為進一步發掘數據要素潛在價值的關鍵動力。遵循技術發展的規律和市場的原則,將有助于各企業篩選并確定發展通用大模型與行業特定大模型的獨特路徑。
01從人工智能發展歷程,看數據要素價值創造
自2022年末至2024年初,GPT以其卓越的表現引起了廣泛關注。隨著Sora的誕生,短時間內智能的極限被不斷突破。我們目睹了數據價值的極大增強:大型模型通過吸收海量數據,掌握了人類的語言模式、邏輯推理,在諸如文本創作、多語種翻譯、情緒識別、復雜問題解構與執行等眾多領域取得了翻天覆地的成就,甚至能夠在視頻制作中模擬物理動作,因此,被譽為“世界模擬器”。數據不單是構建這些復雜模型的根基,更是推進它們持續進化的源泉。
在美國20世紀70年代的一場語音識別競賽中,展現了兩種截然不同的設計:一種是借助于人類豐富的知識,深入挖掘對人類語言的理解,通過手工編寫的規則來描述語音與語言的結構,例如將音節組合成單詞,或根據上下文確定單詞的發音。另一種是依賴于海量的數據,采用統計從大量語音中提取特征,基于數據的新方法展現出其優越性,特別是在處理龐大、復雜和多變的語音數據時,新方法能夠更好地適應不同的口音、方言和噪音環境。這場比賽的結果直接引發了自然語言處理技術路徑的重大轉變,統計學與計算能力逐漸崛起為該領域的主導。
2004年,DARPA挑戰賽。第一年的比賽宛如一場慘烈的車禍現場,被人們戲稱為“沙漠潰敗”。然而,僅僅一年半后,第二次賽事便再度啟動,展現出兩種截然不同的技術路線:一種是依托于人類豐富的經驗和總結,例如預先探查沙漠路徑,為車輛設計特殊程序以突破路途中的障礙物;另一種則是依賴于龐大的數據,通過機器學習來學習道路特征進行導航和脫障,同時加強對道路數據的實時采集,使無人車能夠“隨機應變”。這一次,依舊是依賴數據的第二條技術路線取得了勝利。從沙漠賽道到城市街道,從基本導航到復雜的交通規則遵守,這些挑戰賽成為無人駕駛技術發展的重要里程碑。
2016年,AlphaGo憑借數百萬局人類棋手的對局數據進行訓練,掌握了高水平的棋局策略和模式。然而,第二個版本AlphaGo Zero卻完全依賴于自我對弈生成的數據進行迭代訓練,從而獲得了超越人類棋手的知識和經驗,達到了前所未有的圍棋境界。這每一次不同類型的比賽,都是算法從統計、機器學習發展到深度學習的過程,也是算力從單片機發展到GPU的過程,更是人類經驗逐步讓渡于海量數據的過程,同時也是人類帶著數據沖擊機器智能新上限的過程。
我們目睹了數據要素在各行各業中通過投入替代、價值倍增以及資源優化三種方式創造價值,發揮著至關重要的作用?;仡櫲斯ぶ悄艿陌l展歷程,我們可以看到算法從統計學習、機器學習逐步演化為深度學習,計算能力也從單片機發展至GPU,這一系列變革反映了人類經驗向海量數據的過渡,同時也是人類攜帶數據挑戰機器智能極限的歷程。從依賴經驗到主要從數據中挖掘規律,從專注于解決單一問題到促進AGI的發展,這些轉變不僅體現了數字要素的價值,更要求我們以全新視角重新評估其重要性。
在近日,蘿卜快跑引起了廣泛關注,其在一些城市的實踐雖顯示出些許遲鈍于道路路況的反應,但總體表現證明了其實施的可行性。隨之,將有越來越多的網約車司機面臨由無人駕駛技術所替代的局面,這仿佛重現了農業機械取代農民的傳統耕作,移動支付淘汰傳統支付方式的歷史場景。
展望未來20年,車路網云的新時代將為近地空中飛行打開無盡的發展空間與可能性。在未來的世界里,或許我們將見證如同電影中描繪的場景:地面行駛著無人駕駛汽車,而低空則被各型飛行器占據。諸如空中出租車和無人配送等新型服務模式的涌現,預示著未來城市交通將向三維空間延伸。
隨著車路網云技術的不斷進步,那些掌握著最新一代城市交通技術、人工智能技術、云計算技術的國家,其發展效率必將提升至新的高度。技術的升級正推動整個社會效率的持續提升,這一趨勢勢不可擋。同時,這也見證了數據要素通過投入替代、價值倍增和資源優化等方式,發揮了巨大的作用。這也是中國在過去二十年里邁向數字化生活和生產方式的根本動力。
02算力和數據是基礎設施層的關鍵,中國正加速挖掘數據價值
圖:智算中心的基礎架構
在數字化的新時代,數據已化身為重要的生產資料,而算力則成為處理這些數據的強勁引擎。伴隨著人工智能、大數據、云計算等前沿技術的飛速進步,算力與數據的關鍵作用愈發顯著,它們共同構筑了當代信息社會的基礎設施層。在這樣的大背景下,中國正致力于深化數據價值的挖掘,推動經濟與社會向數字化方向的全面轉型。
圖:中國通用算力規模與預測
算力、存儲、網絡構建智算中心作為基礎,智算中心的基于最新AI理論和領先的AI計算架構,算力技術與算法模型是其中的核心關鍵,算力技術以AI芯片、AI服務器、AI集群為載體,而當前算法模型的發展趨勢以AI大模型為代表。
智能算力規模正在快速增長,復雜的模型和大規模的訓練需要大規模的高算力支持,這不僅需要消耗大量計算資源,而且對算力的速度、精度、性能也提出更高要求。
AI生態加速收斂,大模型技術逐步收斂,生態走向聚合,模型更收斂、框架更歸一。為了開發更高性能的 AI大模型需要更強的算力平臺,算力底座技術門檻將提高,未來訓練核心依賴集群系統能力。
圖:算力底座技術門檻提高
算力,作為數據處理的核心能力,其發展水平直接關系到一個國家的科技創新能力和產業競爭力。中國在算力建設方面投入巨大,不僅在超級計算機領域取得了顯著成就,連續多年位居全球超算TOP500的數量首位,而且在云計算、邊緣計算等領域也展現出強勁的發展勢頭。通過構建高性能的算力平臺,中國為各行各業提供了強大的數據處理能力,支撐起復雜的數據分析和模型訓練需求。
數據的價值在于其能夠被有效利用,政府高度重視數據資源的整合與開放,推動公共數據資源的開發利用,鼓勵企業間的數據共享與合作。通過建立數據交易市場、完善數據治理體系,國內逐步釋放數據的潛在價值,促進數據資產化、服務化。同時,也在積極探索數據隱私保護和安全使用的法律法規,確保數據價值的挖掘在合法合規的框架內進行。
在應用層面,中國將算力和數據的優勢轉化為實際的生產力。無論是在智能制造、智慧城市建設,還是在金融科技、醫療健康等領域,數據驅動的決策和智能化的服務逐漸成為常態。例如,通過大數據分析,金融機構能夠更準確地評估風險,提供個性化的金融產品;而智能制造則通過實時數據監控和分析,優化生產流程,提高產品質量和生產效率。
未來,隨著5G網絡的普及和IOT技術的發展,數據的產生和應用將更加廣泛。中國將繼續加大對算力和數據基礎設施的投入,推動技術創新和產業升級,構建更加完善的數據生態系統??傊?,算力和數據是現代社會不可或缺的基礎設施,加速挖掘數據價值,它們是推動經濟增長和社會進步的關鍵資源。
03AGI的發展遵循擴展定律
AGI的發展不僅體現在技術的進步上,還涉及到算力的持續提升和模型規模的演進升級。隨著AI變得越來越流行和易于獲取,研究想法的增長無疑加速了技術的發展。尤其是在算力層面,即便面對著摩爾定律的放緩趨勢,片內互聯技術的突破仍為單個芯片設計的規模拓展與能效提升開辟了新的工程成就之路。這些技術進步為AGI的發展提供了強大的基礎。
擴展定律,作為人工智能產業內部破解困局的共識:通過運用更龐大的模型架構,配備更強大的計算能力,從更廣泛的數據集中挖掘更深層次的隱含知識與普遍適用的能力。從GPT 1演進至GPT 3的過程中不斷探索實驗,當參數規模增加至百倍之多,訓練數據集增至五十倍之際,GPT 3.5展現了能力的“涌現”:全球逾億用戶蜂擁而至,驗證了該模型能夠以近乎類人的方式理解上下文和進行對話交流;同時,此模型還展現出了更高級的泛化能力和思維鏈能力,能夠對于未知情境做出合理的推斷,并將復雜問題分解為簡易任務,逐步解決。由此塑造出的AGI(人工通用智能)初步形態:一個基礎且通用的大型模型能夠進行內容創作,能夠革新程序編碼、文檔編輯等多樣化工具軟件的使用體驗,能夠“轉生為”機器人,借助具身智能加快機器人研發的步伐,并且改變了科學研究的傳統范式,促成了生物醫學、材料科學、工業仿真等多個領域的新突破。
中國的LLM型路線見證著數據要素的作用,比如阿里巴巴通義千問,自2023年8月以來,其連續發布了7B、14B、72B及200B參數版本,隨著參數規模的壯大,模型的能力亦顯著提高。AI研究了幾十年,唯一有效的東西便是scaling law(尺度定律),就是不斷放大數據、算力和算法這幾樣生產要素。
AGI正逐漸成為推動社會進步和產業革新的關鍵力量,技術不斷進步,從最初的專家系統到機器學習,再到深度學習的興起,AI技術已經取得了顯著的成就。隨著計算能力的增強、大數據的積累和算法的創新,AGI成為了科技發展的下一個里程碑。AGI的發展背景是復雜多元的,涉及技術進步的內在邏輯、經濟社會的外在需求、倫理法律的約束條件以及國際競爭合作的大環境。未來,AGI的發展將在這些因素的共同作用下不斷推進,同時也需要全社會的智慧和努力來確保其健康、有序和有益的發展。
此外,AI規模法則的提出預示著計算資源的可持續增長與成本的持續降低,從而為AGI的發展奠定了物理上的可能性。OpenAI首席執行官山姆·奧特曼所提出的AI時代摩爾定律——宇宙中的智能數量每18個月翻一番,進一步凸顯了AI技術發展的速率與規模。
在模型方面,隨著算力的不斷強化,基于大模型的AGI智能能力已遠超傳統適用于特定場合的中小型AI模型。一旦完備的通用AI得以實現,其將在AI+各種場景下展現廣泛的應用潛力,同時算法的逐步確立也為AI技術的持續優化開辟了新的可能性。這種相互作用的關系促進了AGI技術的不斷前進與發展。AGI的進步無疑遵循著擴展的原則,通過算力的系統提升與模型規模的逐步升級,推動著AGI技術的迅猛前行。
04 AGI領域應用層創新發展
OpenAI的聯合創始人伊爾亞·蘇茨克維,在一次深入的訪談中,曾以一句精辟而抽象的話語概括了人工智能模型的本質:“The models just want to learn!”此言并非賦予了模型以生命般的學習欲望,而是揭示了模型被設計的初衷——從浩如瀚海的數據中自動汲取隱含的規則與經驗,借助算法的巧思與算力的增強,不斷優化學習的效率,拓寬學習的邊界。
AGI市場,猶如一座宏偉的大廈,其結構復雜而有序,主要分為基礎設施層、模型層、中間層以及應用層。大模型在應用層的探索與創新,如同點亮了這座大廈的璀璨燈塔,為AI領域帶來了前所未見的機遇。隨著計算能力的飛躍提升,數據量的激增,以及算法的持續優化,大模型已悄然嶄露頭角,在自然語言處理(NLP)、計算機視覺、語音識別等多個領域展現出了強大的能力。這些顯著的進步,使得大模型在追尋人工通用智能(AGI)的道路上,愈發展現出全球領先的潛力。
AGI,這片神奇的土地,以其無限的可能性與挑戰,吸引著無數探索者。它要求模型不僅能在某一領域內專精,更要具備跨領域的知識表示與推理能力,如同一位博學多才的智者,能自如地穿梭于不同的領域,應對各種挑戰。同時,AGI還需具備自適應學習的能力,猶如生命體一般,能根據不同的任務與環境,靈活地調整學習的策略與參數。
然而,真正的智能不僅僅是邏輯的推理與知識的積累,更是情感的理解與社交的互動。因此,大模型在追求AGI的道路上,還需賦予其情感與社交智能,使其能夠更加深刻地理解人類的情感,適應人類社會的需求。
在智能的征途上,倫理與道德的指引不可或缺。大模型在實現AGI的旅途中,必須植入倫理與道德的判斷能力,確保其在決策的每一步都能遵循人類的價值觀與道德規范,成為維護人類福祉的守護者。人機協作與交互,是AGI融入人類社會的重要橋梁。大模型應具備與人類協作與交互的能力,能在人類的生產、生活中提供智能化的服務與支持,成為人類智慧的延伸,生活的益友。
因此,大模型在應用層的探索與創新,為AGI的實現注入了蓬勃的生機。通過算法的不斷優化、應用領域的持續拓展、智能水平的日益提升,大模型正穩步邁向AGI的高峰,為社會帶來更為廣泛、更為深入的智能化服務,開啟一個嶄新的智能時代。
圖:AGI市場的四層結構示意圖
應用行業現狀
· 營銷和零售:AGI應用顛覆營銷領域,推動營銷效率提升和體驗優化。
· 金融:金融行業整體處于AGI應用探索期,逐漸向產品測試期邁進。
· 企業應用:AGI應用覆蓋企業全流程,注重效率、知識管理和流程優化。
· 教育:集中在應用探索和產品測試階段,學生側應用速度快、探索程度深。
05通用大模型與行業大模型并駕齊驅,小模型市場需求更大
在大模型的演進之路上,每一次通用大模型的力量提升,皆如潮水般席卷,對散落的應用與解決方案形成無可匹敵之勢;大模型所蘊含的通用智能之價值,勢必超越那些零散場景應用的總和。然而,在AI的廣袤天地中,通用大模型與行業大模型各承其妙,各有千秋。通用大模型,猶如璀璨星辰,于眾多領域與任務中展現卓越性能;行業大模型,則如精密的鐘表,針對特定行業或領域精準調校,專業定制。盡管通用大模型在諸多領域捷報頻傳,但行業大模型仍不可或缺,當應用場景對反應速度有極高要求時,我們或許更需依賴一個更為小型的模型。這類模型雖不具備大模型的普適智能,卻在特定垂直場景中展現出無可比擬的優勢。此時,對模型進行精細調整,滿足定制化需求,追求實時性與高效率,將行業數據注入其中,打造出規模更小、垂直更深的行業模型,方能滿足市場那更為龐大的需求。
在通用大模型的雄厚基礎之上,行業大模型得以筑建。這些通用模型,蘊含著深邃的知識儲備與卓越的泛化能力,不僅為行業大模型奠定了堅實的知識根基,并極大地提升了互動體驗的豐富度;同時,它們還大幅降低了從零起步訓練模型所需的海量數據和計算資源,顯著提高了行業大模型開發及其應用的效率和成效。經由對通用大模型實施提示工程、檢索增強生成、精調、持續預訓練/后訓練等手段,模型能夠更精準地適應特定數據集或任務需求,進而衍生出行業大模型的特定版本(即模型有變),或賦予其行業大模型所具備的功能(即模型不變)。。如今,市場上涌現的眾多行業大模型,如金融、法律、教育、傳媒、文旅等領域,大多基于Llama、SD、GLM、Baichuan等國內外廣為人知的開源大模型而構建。
在專業領域內,大型模型往往需根據特定數據集與任務進行精細調整或定制開發。針對B端客戶群體,每一家企業均有其獨樹一幟的商業運作、數據資產及業務流程,對于大型模型所寄望解決的關鍵問題亦各具特色,個性化需求普遍可見。因此,供應商所提供的行業大型模型不單是產品與工具的集合,更包含必要的定制化服務與支援,甚至于需要客戶的積極參與和共同建設??梢赃@般理解:行業大型模型中的產品宛如“待裝修之房屋”,客戶必須依據各自用途進行“內部裝潢”方能真正滿足其需求。例如,借助TI平臺之力,構建了行業大模型的精選商鋪,推出了MaaS服務,為客戶提供了一系列周全的行業大模型解決方案,覆蓋模型預訓練、精細調整及智能應用開發等多個方面。
行業大模型需
重視全生命周期的安全保障機制
在大型模型的數據處理流程中,相較于傳統模型,其復雜度更高,諸多不可控的因素孕育著不容輕視的安全隱患,涉獵數據隱私保護、推理過程安全、內容審查安全、版權防護等諸多方面。這便迫切需求一套系統化的安全防御機制,對于行業大型模型而言,此需求尤為顯著。安全廠商倡導的大型模型安全框架,針對模型全生命周期內的各類安全風險,提供了原則與方法上的指導,覆蓋內生安全及應用安全兩個維度,助力體系解決大型模型在生產研發過程中遇到的基礎設施、數據、模型、算法等各層面的安全風險,以及不合理應用可能觸發的決策失控風險等。在此之中,針對大型模型生產研發過程中內在的安全問題,應由大型模型研發團隊與安全團隊共同聚焦,通過安全評估等機制確保大型模型的應用能夠達成安全目標??偠灾?,將安全舉措具體實施于研發、訓練、測試、部署發布等每一個環節,同時,也是業界共識,旨在提升大型模型的安全水平,其中可采納的措施包括prompt安全評估、紅藍對抗演練、源代碼的安全防護、基礎設施漏洞的安全防護等多種方式。
2024CSDI 9月20-22日
共話科技應用元年
正值LLM時代,智能軟件研發的技術、范式和工具都發生了巨大的變化。無論是依賴于深度學習、神經網絡和大數據技術。還是軟件研發的范式從傳統的規則驅動和專家系統轉變為數據驅動和模型驅動。大量的智能軟件研發工具和框架應運而生。數據成為了智能軟件研發的核心。智算資源的需求與訓練部署復雜的模型,開發者需要利用高性能的硬件(如GPU、TPU等)和分布式計算技術(如云計算、集群計算、數據庫等)。這些技術應用便是IT企業探尋與研究的必選題。
2024CSDI峰會將以數智+躍遷為主旨,于9月20-22日深圳召開,攜國內眾多頂尖優秀企業,面向技術管理者和一線技術帶頭人。抽絲剝繭:以業務與新興技術應用為導向的:大數據開放架構、AIGC產品創新、智能化開發、LLM智能終端創新、LLM數據智能、多模態LLM、大模型規?;瘧?、云架構生態、質量工程效能、組織戰略、智能化開發、安全LLM等先進數字技術進行全面解析,幫組企業構建和借鑒適合自身的技術應用與業務實踐。
總結
科技浩瀚星海中,數據要素的創新如同璀璨星辰,與科技發展交織成一張推動技術進步的巨網。智能研發與應用創新之舟,正乘著這股浪潮,破浪前行,其航向呈現出多元化的航跡、跨界融合的風帆以及可持續發展的舵盤。在技術與市場這對孿生潮汐的影響下,企業們如同智慧的航海家,將不同領域的技術與知識匯于一爐,鍛造出更具競爭力的產品與應用之錨。
AI的洪流、大數據的海洋,云計算的蒼穹下,先進數字化技術如星辰般璀璨,AI Agent作為自主決策和任務執行的智能體,在金融,醫療,制造業,展現出卓越的效能。它運用大型語言模型(LLM)作為羅盤,理解復雜的語言指令,生成自然流暢的語言回應,極大地提升了人機交互的航速與平穩。
物聯網(IOT)應用則如精細的藍圖,通過捕捉精準的產品數據,為研發的精準優化。
數字員工在AGI應用市場將形成人才匯聚效應,不僅高效完成自動化和智能化任務,更將深度參與企業決策,提供精準數據支持和智能建議,助力企業提升競爭力。
微軟、阿里巴巴、小米、騰訊、華為、360、平安集團、渣打銀行、工商銀行、招商銀行、隨行付、易方達、長亮科技、南方電網、廣州銀聯、穆迪信息、拍拍貸、宇信集團、投哪兒金融、天維信息、薩摩耶、華泰證券、招商證券、國信證券、陸金所、廣發基金、中國銀聯、恒天軟件、天陽宏業、中數通、電信規劃設計院、oppo、步步高、vivo、愛立信、百富計算機、廈門航空、福建聯迪、網易、星網視易、升騰科技、視睿電子、飛利浦、金山軟件、金山游戲、歐特克、順豐、深信服、歡聚時代、虎牙、珠海健康云、優視科技(UC)、52TT、天翼云、凱米網絡、電信設計院、ADmaster、博思軟件、網宿科技、珍愛網、金蝶、唯品會、中國聯通、中國移動、傳動數碼、無限極、中電、珠海網博、中軟、同盾科技、杭州順網、藍凌軟件、長園深瑞、中南民航、遠光軟件、廣聯達、中國電信、傳音、利通、物理研究所等。
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新