请选择 进入手机版 | 继续访问电脑版

雨林木风

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 26|回复: 0

智源研究院發布超大規模新型預訓練模型“悟道·文匯”

[复制链接]

1万

主题

1万

帖子

3万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
31551
发表于 2021-1-15 19:52:45 | 显示全部楼层 |阅读模式
  2021年1月11日,北京智源人工智能探求院發布面向認知的超大規模新型預訓練模子“文匯”,旨正在索求解決當前大規模自監督預訓練模子不具有認知才具的問題,這一項目由智源探求院發起的“悟道”攻關團隊完毕。
  “文匯”模子不僅运用數據驅動的形式來筑構預訓練模子,還將用戶行為、常識知識以及認知聯系起來,主動“學習”與創制。本次發布的“文匯”模子與1月初OpenAI剛剛發布的DALL·E和CLIP這兩個連接文本與圖像的大規模預訓練模子類似,“文匯”模子能夠學習分歧模態(文本和視覺領域為主)之間的观念,能够實現“用圖生文”等任務,具有肯定的認知才具。“文匯”模子參數規模達113億,僅次於DALL·E模子的120億參數量,是目前我國規模最大的預訓練模子,並已實現與國際領先預訓練技術的並跑。
  智源探求院學術副院長、清華大學計算機系唐杰教练認為,GPT-3等超大型預訓練模子正在處理復雜的認知推理任務上,比如開放對話、基於知識的問答、可控文本天生等,結果已经與人類智能有較大差异。智源探求院院長、北京大學讯息技術學院黃鐵軍教练指出,“文匯”模子針對性地設計了众任務預訓練的形式,能够同時學習文→文、圖→文以及圖文→文等众項任務,實現對众個分歧模態的观念剖判。經過預訓練的“文匯”模子不必要進行微調就能够完毕“用圖生文”等任務,對模子進行微調則能够靈活地接入如視覺問答、視覺推理等任務。
  目前,“文匯”已助助基於認知推理的众種自然語言及跨模態應用任務,个人應用即將與搜狗、阿裡巴巴、學堂正在線、智譜.AI、循環智能等機構配合上線。目前已有四個樣例應用可用於闪现模子成就。
  本應用基於圖片文本的众模態認知預訓練百億模子,能够助助用戶上傳圖片后,針對圖片內容進行提問或天生圖片的一句話刻画。如上傳圖片后詢問“圖片中的電腦正在水杯的什麼场所?”或“天生對應商品圖片的一句話刻画”。將於未來大規模應用於阿裡的電商場景。

  本應用基於數據可視化技術,通過將自然語言轉化為可視化查詢語句,從而達到“上傳圖外,輸入指令,輸出可視化圖像”的功用目標。隻必要一句自然語言的話,就能够實現數據的可視化自動統計與查詢。

  本應用能够基於輸入的詩歌題目、朝代、作家,天生仿古詩詞。與傳統基於規則或監督學習的詩歌天生分歧,這個應用創作的詩歌來自於自然語言的天生,且無標注數據進行fine-tune,並且能够效法随便詩人創作随便新穎題宗旨詩歌。
  本應用助助用戶上傳問題,並天生具有人物脚色風格的定制化文本解答。與傳統的開放式問答分歧,“文匯”模子天生的谜底具有人設的語言特征,問答內容兴致橫生。目前該應用將計劃正在搜狗的問答場景中运用。

  目前,“悟道”項目探求團隊正正在視覺等更廣泛的范圍內,對大規模自監督預訓練形式開展索求探求,已經啟動了四類大規模預訓練模子研制,搜罗“文源”(以中文為重心的超大規模預訓練語言模子)、“文匯”(面向認知的超大規模新型預訓練模子)、“文瀾”(超大規模众模態預訓練模子)和“文溯”(超大規模卵白質序列預訓練模子)。2020年11月14日,智源探求院已發布了“文源”(以中文為重心的超大規模預訓練語言模子)第一階段26億參數規模的中文語言模子。下一步,智源探求院將聯合優勢單位加疾四類大規模預訓練模子的研發進度。特別是“文匯”模子,未來將著力正在众語言、众模態條件下,提拔完毕開放對話、基於知識的問答、可控文本天生等復雜認知推理任務的才具,使其愈加靠拢人類水准。計劃正在本年6月實現“中文自然語言應用系統”“基於圖文增強和知識融入的圖文應用系統”“基於認知的復雜認知系統”等一批各具特征的超大規模預訓練模子,以期達到對國際領先AI技術的趕超,盡疾實現我國正在國際AI前沿技術探求的領跑。

  群众日報社概況關於群众網報社聘请聘请英才廣告服務配合加盟供稿服務數據服務網站聲明網站律師讯息保護呼唤中央
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

|appname
快速回复 返回顶部 返回列表