2月20日大模型日報

124 0 0

【2月20日大模型日報】在Sora引爆視頻生成時，Meta開始用Agent自動剪視頻了，華人作者主導；Iambic、英偉達、加州理工學院開發多尺度深度生成模型，進行狀態特異性蛋白質-配體複合物結構預測；10倍英偉達GPU：大模型專用晶片一夕成名，來自GoogleTPU創業團隊；三星電子據悉在矽谷成立新團隊，開發通用人工智慧晶片

在Sora引爆影片生成時，Meta開始用Agent自動剪影片了，華人作者主導

https://news.miracleplus.com/share_link/18786

這幾天，AI 視訊領域異常地熱鬧，其中 OpenAI 推出的視訊生成大模型 Sora 更是火出了圈。而在影片剪輯領域，AI 尤其是大模型賦能的 Agent 也開始大顯身手。隨著自然語言被用來處理與影片剪輯相關的任務，使用者可以直接傳達自己的意圖，從而不需要手動操作。但目前來看，大多數影片剪輯工具仍然嚴重依賴手動操作，並且往往缺乏客製化的上下文幫助。因此，用戶只能自己處理複雜的影片剪輯問題。關鍵在於如何設計一個可以充當協作者、並在剪輯過程中不斷協助使用者的影片剪輯工具？在本文中，來自多倫多大學、 Meta（Reality Labs Research）、加州大學聖迭戈分校的研究者提出利用大語言模型（LLM）的多功能語言能力來進行視頻剪輯，並探討了未來的視頻剪輯範式，從而減少與手動視訊剪輯過程的阻礙。

大型多視角高斯模型LGM：5秒產出高品質3D物體，可試玩

https://news.miracleplus.com/share_link/18787

本文中，來自北京大學、南洋理工大學S-Lab 和上海人工智慧實驗室的研究者提出了一個新的框架LGM，即Large Gaussian Model，實現了從單視角圖片或文字輸入只需5 秒鐘即可產生高解析度高品質三維物體。目前，程式碼和模型權重均已開源。研究者還提供了一個線上 Demo 供大家試玩。

GPT-4可能也在用的推測解碼是什麼？一文綜述前世今生與應用情況

https://news.miracleplus.com/share_link/18788

推測解碼（Speculative Decoding）是Google等機構在 2022 年發現的大模型推理加速方法。它可以在不損失生成效果前提下，得到 3 倍以上的加速比。 GPT-4 洩密報告也提到 OpenAI 線上模型推理使用了它。針對如此妙的方法，香港理工大學、北京大學、MSRA以及阿里共同推出了一篇關於推測解碼的綜述，幫助讀者了解推測解碼的前世今生和應用情況，值得一讀。

Iambic、英偉達、加州理工學院開發多尺度深度生成模型，進行狀態特異性蛋白質-配體複合物結構預測

https://news.miracleplus.com/share_link/18789

由蛋白質和小分子配體形成的結合複合物無所不在，對生命至關重要。雖然最近科學家在蛋白質結構預測方面取得了進展，但現有演算法無法系統地預測結合配體結構及其對蛋白質折疊的調節作用。為了解決這種差異，AI 製藥公司Iambic Therapeutics、英偉達（Nvidia Corporation）以及加州理工學院（California Institute of Technology）的研究人員提出了NeuralPLexer，這是一種計算方法，可以只使用蛋白質序列和配體分子圖輸入直接預測蛋白質-配體複合物結構。 NeuralPLexer 採用深度生成模型以原子分辨率對結合複合物的三維結構及其構象變化進行取樣。該模型基於擴散過程，該過程結合了基本的生物物理約束和多尺度幾何深度學習系統，以分層方式迭代採樣殘留級接觸圖和所有重原子座標。 NeuralPLexer 預測與酶工程和藥物發現中重要靶點的結構測定實驗相一致，其在蛋白質組規模上加速功能蛋白和小分子設計方面擁有巨大潛力。

10倍英偉達GPU：大模型專用晶片一夜成名，來自GoogleTPU創業團隊

https://news.miracleplus.com/share_link/18790

我們知道，大模型到 GPT-3.5 這種千億體量以後，訓練和推理的算力就不是普通新創公司所能承擔的了，人們用起來速度也會很慢。但自本週起，這種觀念已成為歷史。有名為Groq的新創公司開發出一種機器學習處理器，據稱在大語言模型任務上徹底擊敗了GPU—— 比英偉達的GPU 快10 倍，而成本僅為GPU 的10%，只需要十分之一的電力。

馬斯克：Neuralink首位人體受試者已康復可憑思考控制滑鼠

https://news.miracleplus.com/share_link/18791

據媒體報道，特斯拉CEO馬斯克在社群媒體平台X上透露，腦機介面公司Neuralink的首位人類受試者「似乎已完全康復，並能僅憑思維在電腦螢幕上移動滑鼠」。 Neuralink公司先前已在猴子身上進行了晶片植入實驗，並獲得美國食品和藥物管理局的批准，正式開始了首次腦植入設備的臨床試驗。

消息指出社群平台x(原 Twitter)正與 Midjourney 就潛在合作夥伴關係進行談判

https://news.miracleplus.com/share_link/18792

據報道，最近更名為 X的 Twitter 正在與人工智慧圖像生成平台 Midjourney 討論潛在的合作夥伴關係DogeDesigner 在X上報道的這一消息表明，X正在探索增強其內容創作能力的新方法。 Midjourney 的人工智慧生成藝術平台允許用戶根據文字提示創建獨特的圖像。

Figma CEO 最新專訪：Figma 從來不只是一個設計工具，從一開始就是消除想像與現實之間的差距

https://news.miracleplus.com/share_link/18793

Figma 聯合創始&CEO Dylan Field 在近期接受了 theVerge 的訪問。 Dylan 提到了將Figma 擴展到更普遍的生產力軟體領域的可能性，不認為Figma 會進入筆記應用領域，但他們希望探索更多與設計、編碼、發布和衡量軟體相關的價值鏈，他們可能透過合作夥伴關係來擴展，而不是獨立開發這些功能。此外， Dylan 討論了 AI 能如何影響設計工作。他認為，AI 的出現降低了設計的門檻，讓更多人能夠參與其中。他認為，AI 可以提高效率，讓設計師在更短的時間內完成更多工作，AI 並不會完全取代人類設計師，因為設計工作中的情感、品牌體驗和使用者流程等方面，AI 目前還無法涵蓋。

為訓大模式不擇手段的 AI 公司，打破了這個古老的網路協議

https://news.miracleplus.com/share_link/18794

大模型的橫空出世，打破了 30 年來網路的運作規則。代碼版「網路小憲法」robots.txt 開始失效了。 robots.txt 是一個文字文件，每個網站都用它來說明自己是否願意被爬蟲抓取。 30 年來，一直是它，讓網路不至於在混亂中運作。不過這個規則能長久運行其實純靠一個人性邏輯——你讓搜尋引擎抓取你的網站，同時你會獲得搜尋引擎的流量回報。這也是幾位網路先驅者達成的握手協議，為了造福網路上的所有人。這種既沒有寫入法律，也沒有權威約束，稍顯天真的規則在運行了30 年後，終於出現了問題——越來越多的AI 公司用爬蟲抓取你的網站數據，提取數據集，訓練大模型和相關產品，但他們並不像搜尋引擎那樣回饋以流量，甚至根本不承認有你存在，你的數據就像肉包子打狗一樣有去無回。許多數據擁有者非常憤怒，新聞出版商等數據擁有者不斷發聲，封鎖 AI 爬蟲，反抗自己的數位資產被無償使用。不過如Google和 OpenAI 這樣的 AI 推動者，也試圖找到更好的規則，畢竟只有各方獲益才能持續發展。