論道數(shù)智先鋒丨中科聞歌王磊：讓人工智能在賦能千行百業(yè)的過程中綻放價值（3圖）

發(fā)布時間：2025-02-07 16:44 | 來源：新華網(wǎng) 2025 01/26 17:31:11 | 查看：4413次

2017年，懷著“讓實驗室里的技術(shù)走向市場”、“把科研成果寫在祖國的大地上”的初心，5位來自中科院自動化所的科研人員，聯(lián)合創(chuàng)立了一家人工智能公司——中科聞歌，投身于人工智能前沿技術(shù)的研發(fā)和產(chǎn)業(yè)化實踐。

七年磨一劍，中科聞歌憑借扎實的技術(shù)功底和不懈的場景創(chuàng)新站穩(wěn)了腳跟，產(chǎn)品與技術(shù)廣泛應(yīng)用于媒體、金融、治理等領(lǐng)域。日前，中科聞歌宣布完成新一輪戰(zhàn)略融資，由北京市人工智能產(chǎn)業(yè)投資基金投資，迄今為止已累計完成超十億元融資。

本期《論道數(shù)智先鋒》欄目，新華網(wǎng)對話中科院自動化所研究員、中科聞歌董事長王磊。這位前沿技術(shù)的探索者、商業(yè)落地的先行者表示，要在賦能千行百業(yè)的過程中磨練實力，才能在人工智能的技術(shù)浪潮中彎道超車。

人工智能發(fā)展一日千里

中科聞歌的“聞歌”二字，和“高山流水”出自同一典故，都源于《呂氏春秋》中伯牙子期的故事。子期能夠根據(jù)伯牙的琴聲，判斷出他志在高山還是流水。所以后人用“聞弦歌而知雅意”比喻擅于推理，形容一個人很聰明，能聽懂弦外之音。

王磊介紹：“中科聞歌瞄準(zhǔn)的是人工智能下一代的新技術(shù)——認(rèn)知和決策智能，認(rèn)知和決策智能的核心，就是推理和規(guī)劃能力?！?/p>

感知智能、認(rèn)知智能、決策智能，是業(yè)界從技術(shù)角度給人工智能劃分的三個層次或發(fā)展階段。感知智能就是讓人工智能學(xué)會“聽”或“看”，即運(yùn)用語音識別、圖像處理、視頻分析等技術(shù)處理信息；認(rèn)知智能是讓人工智能“聽得懂”或“看得懂”，這包括對信息的整合、理解和解釋；決策智能則是讓人工智能在復(fù)雜的環(huán)境中知道該“怎么做”。

“人工智能無疑是當(dāng)前最具革命性、顛覆性的技術(shù)之一，尤其是ChatGPT掀起新一輪技術(shù)革命以來，我們感受到了一日千里的發(fā)展速度?！蓖趵诒硎?，“我們希望公司能引領(lǐng)人工智能的技術(shù)發(fā)展，從感知智能、認(rèn)知智能向決策智能跨越，實現(xiàn)人工智能面向復(fù)雜場景的商業(yè)化落地?！?/p>

之所以立下這樣的目標(biāo)，因為中科聞歌的核心團(tuán)隊均來自中國科學(xué)院等知名科研院所及海內(nèi)外頂尖高校。早在公司成立之前，團(tuán)隊在人工智能領(lǐng)域就有了十余年的理論研究、技術(shù)研發(fā)及應(yīng)用實踐積累，并一直致力于學(xué)術(shù)研究向產(chǎn)業(yè)賦能的探索。

“在人工智能這個賽道，我們既做硬核的底層技術(shù)，又做實際的行業(yè)應(yīng)用?！睋?jù)王磊介紹，中科聞歌以DIOS決策智能操作系統(tǒng)為技術(shù)底座，面向各行業(yè)數(shù)智化轉(zhuǎn)型需求進(jìn)行研發(fā)，通過自主可控的雅意（YaYi）多語言大模型、優(yōu)雅（YoYa）多模態(tài)視頻大模型、智川通用決策智能平臺，將傳統(tǒng)依賴常識及經(jīng)驗的人工決策提升為數(shù)據(jù)智能驅(qū)動的AI輔助決策，實現(xiàn)在具體場景的商業(yè)化落地，讓人工智能技術(shù)賦能千行百業(yè)萬企。

DIOS決策智能操作系統(tǒng)

“底層技術(shù)，是對技術(shù)積累的長期堅持；行業(yè)產(chǎn)品，是獲得市場收入和形成正向現(xiàn)金流的重要來源。這兩者形成飛輪、相互促進(jìn)，在技術(shù)和市場兩個方向上同時進(jìn)步，才能支撐起一家公司的持續(xù)發(fā)展。”王磊表示。

他希望，中科聞歌作為中科院走出來的人工智能企業(yè)，一方面要在技術(shù)上領(lǐng)先，做到底層技術(shù)非常扎實、前沿研究持續(xù)推進(jìn)，同時也要在商業(yè)變現(xiàn)和產(chǎn)業(yè)落地方面邁出有力的步伐，成為一家可以持續(xù)盈利、自我造血的人工智能企業(yè)。

大模型的“燃料”不夠用了

盡管人工智能發(fā)展一日千里，國內(nèi)外大模型百花齊放，但2024年以來似乎開始遇冷。卷參數(shù)、卷性能、卷規(guī)模的“百模大戰(zhàn)”背后，需要巨量的數(shù)據(jù)支撐模型的學(xué)習(xí)、訓(xùn)練和優(yōu)化，作為“燃料”的數(shù)據(jù)不夠用了，大模型就開始“卷不動”了。

早在全球范圍的大模型浪潮出現(xiàn)之前，第三方研究機(jī)構(gòu)Epoch AI就曾發(fā)出預(yù)警，原始數(shù)據(jù)增長的速度難以支撐人工智能行業(yè)發(fā)展的速度。Epoch AI今年6月發(fā)布的最新研究稱，在2026-2032年之間的某個時間點(diǎn)，科技公司就會用光公開可用的訓(xùn)練數(shù)據(jù)。

圖源：Epoch AI

“想要明白為什么會出現(xiàn)這種情況以及如何解決，首先我們要搞清楚數(shù)據(jù)、語料和高質(zhì)量語料的區(qū)別?！蓖趵诮忉尩?。

簡單來說，數(shù)據(jù)是一切線上或線下行為留下的痕跡，不管是來自人類還是由計算機(jī)產(chǎn)生，包括文本、圖像、音頻、視頻等多種形式。而語料是一個計算機(jī)術(shù)語，是用于訓(xùn)練算法、機(jī)器學(xué)習(xí)的“原材料”，是教會大模型理解和生成人類語言的“教材”。語料的質(zhì)量直接關(guān)系著大模型的性能，經(jīng)過篩選和處理的高質(zhì)量語料，才能夠達(dá)到舉一反三的學(xué)習(xí)效果。

在王磊看來，高質(zhì)量數(shù)據(jù)和語料短缺的問題確實存在，尤其是高質(zhì)量中文語料更是非常稀缺。

“我們關(guān)注到，國外的一些大模型公開的數(shù)據(jù)訓(xùn)練集中，中文占比不到10%，甚至不到5%，而且其中有大量非主流價值觀的語料或數(shù)據(jù)集合?！蓖趵谡f道，“這讓我們開始意識到，中文語料是比較欠缺的?！?/p>

中文語料的稀缺，歸根結(jié)底在于全球互聯(lián)網(wǎng)中文信息的相對匱乏。阿里研究院2024年5月發(fā)布的《大模型訓(xùn)練數(shù)據(jù)白皮書》顯示，全球網(wǎng)站英文內(nèi)容占比高達(dá)59.8%，中文僅占1.3%，互聯(lián)網(wǎng)上中、英文語料占比存在顯著差異。

“還有很多中文語料在企業(yè)或政府內(nèi)部，以及圖書館、出版社這些專業(yè)機(jī)構(gòu)手里面，無法成為大模型學(xué)習(xí)和訓(xùn)練的語料。因為很多內(nèi)部材料并不在互聯(lián)網(wǎng)上公開，甚至有一些還沒有數(shù)據(jù)化、電子化，這就更凸顯出中文語料的不足。”王磊說。

他還指出，即便是互聯(lián)網(wǎng)上現(xiàn)有的中文網(wǎng)頁，要轉(zhuǎn)化成訓(xùn)練大模型能用的語料數(shù)據(jù)，也需要經(jīng)過篩選、清洗、優(yōu)化等多道工序。“比如300TB的數(shù)據(jù)，可能要去掉90%甚至95%，最后只留下5%高質(zhì)量和高價值的語料信息?！?/p>

所幸“語料荒”的問題并非無解，國家數(shù)據(jù)局等相關(guān)部門已經(jīng)出臺或者正在規(guī)劃一系列政策，支持高質(zhì)量中文語料庫的建設(shè)。比如《“數(shù)據(jù)要素×”三年行動計劃（2024-2026年）》明確提出：“建設(shè)高質(zhì)量語料庫和基礎(chǔ)科學(xué)數(shù)據(jù)集，支持開展人工智能大模型開發(fā)和訓(xùn)練?！?/p>

王磊呼吁：“高質(zhì)量中文語料庫建設(shè)是一個復(fù)合性工程，首先需要國家政策的相關(guān)支持，其次需要行業(yè)之間的市場化交流，最后也要鼓勵企業(yè)級數(shù)據(jù)庫開源，合力打造一個共同構(gòu)建、共同運(yùn)營、共同分享、共同交流的良性生態(tài)?！?/p>

國產(chǎn)大模型如何彎道超車

高質(zhì)量語料數(shù)據(jù)的短缺，讓業(yè)內(nèi)不再迷信靠“刷題”來推動模型性能改善的技術(shù)路線。中國的大模型企業(yè)也不再執(zhí)著于做“中國版ChatGPT”，以中科聞歌為代表的企業(yè)，已另外覓得彎道超車的機(jī)會。

雖然以O(shè)penAI為代表的一些國外科技企業(yè)，占據(jù)了人工智能的先發(fā)陣地，但中國企業(yè)正在全力趕超。據(jù)中國信息通信研究院近日發(fā)布的《全球數(shù)字經(jīng)濟(jì)白皮書》，國產(chǎn)大模型數(shù)量占到全球的36%，僅次于美國的44%；人工智能企業(yè)數(shù)量上，中國也以15%的占比緊隨美國之后，位列第二。

在王磊看來，無論哪個國家的企業(yè)，都在結(jié)合各自優(yōu)勢探索不同發(fā)展路徑，為拓展人工智能的邊界作出貢獻(xiàn)，這些研究成果是全人類共有的。

“我們要看到差距、正視差距，同時也要滿懷信心?！蓖趵谥赋?，隨著國家牽頭，不斷加大對人工智能的投入力度，不僅核心技術(shù)上的差距將逐步縮小，中國也將憑借其他國家無法匹敵的市場前景，在人工智能賦能千行百業(yè)的過程中彰顯出強(qiáng)大實力。

今年3月，“人工智能+”首次被寫入政府工作報告，為發(fā)展數(shù)字經(jīng)濟(jì)、推進(jìn)數(shù)實融合指明了新路徑。從“人工智能”到“人工智能+”，意味著國家層面將加強(qiáng)頂層設(shè)計，推動人工智能技術(shù)與各行各業(yè)緊密融合，加快形成以人工智能為引擎的新質(zhì)生產(chǎn)力。

王磊也建議：“要把中國巨大的市場和生產(chǎn)力優(yōu)勢利用起來，讓人工智能技術(shù)和各行各業(yè)深度融合，通過生產(chǎn)效率的大幅提升，促進(jìn)人工智能價值變現(xiàn)；再通過技術(shù)的價值變現(xiàn)，讓人工智能產(chǎn)業(yè)達(dá)到新的水平，進(jìn)一步推動經(jīng)濟(jì)的高質(zhì)量發(fā)展?！?/p>

依托場景落地驅(qū)動技術(shù)創(chuàng)新，也是中科聞歌一直以來的發(fā)展路線，其應(yīng)用場景從媒體逐步拓展至金融、政務(wù)、能源等各行各業(yè)，因此積累了豐富的行業(yè)“know-how”。在此基礎(chǔ)上，中科聞歌在高質(zhì)量中文語料庫的建設(shè)上開始了新的探索——和垂直領(lǐng)域的頭部公司、領(lǐng)軍機(jī)構(gòu)合作，共建高質(zhì)量行業(yè)語料集。

從熟悉的傳媒領(lǐng)域出發(fā)，不久前新華網(wǎng)與中科聞歌聯(lián)合推出了“多模態(tài)出版語料生產(chǎn)與智慧服務(wù)系統(tǒng)”。打造集多模態(tài)語料加工、知識抽取、內(nèi)容編目與檢索的一站式語料生產(chǎn)服務(wù)，助推媒體出版行業(yè)盤活多年積累的中文語料數(shù)據(jù)，通過開放共享、流通應(yīng)用發(fā)揮更大的價值。

王磊表示，新華網(wǎng)作為中國最具影響力的網(wǎng)絡(luò)媒體和具有全球影響力的中文網(wǎng)站，具備引領(lǐng)行業(yè)建設(shè)中文數(shù)據(jù)庫或語料庫的先天優(yōu)勢。中科聞歌則擁有自主研發(fā)的技術(shù)底座和大模型，又在長期合作中鍛煉出將數(shù)據(jù)轉(zhuǎn)化成高質(zhì)量語料和對大模型進(jìn)行優(yōu)化訓(xùn)練的整套技術(shù)。二者聯(lián)手，自然是強(qiáng)強(qiáng)聯(lián)合。

“我們期待中科聞歌能夠在和新華網(wǎng)的合作中，發(fā)揮各自的技術(shù)優(yōu)勢和資源積累，把出版行業(yè)語料做成一個標(biāo)桿示范工程。然后把這種創(chuàng)新做法擴(kuò)展到其他領(lǐng)域，帶動各行各業(yè)形成共享共用的生態(tài)，為我們國家人工智能大模型的訓(xùn)練，提供充足的高質(zhì)量語料支持、服務(wù)?！?/p>

發(fā)表評論

網(wǎng)友評論

查看所有評論>>

分類列表

站內(nèi)搜索

多媒體
圖片
視頻
音樂

點(diǎn)擊排行
日
周
月
全部

国产av人人妻人人爽,疯狂做受xxxx高潮视频免费 ,粉嫩被粗大进进出出视频,丁香色欲久久久久久综合网,chinese性内射高清国产

論道數(shù)智先鋒丨中科聞歌王磊：讓人工智能在賦能千行百業(yè)的過程中綻放價值（3圖）

相關(guān)閱讀

發(fā)表評論

網(wǎng)友評論

分類列表

站內(nèi)搜索