3月4日大型モデルデイリーコレクション

54 0 0

【3月4日大型モデルデイリーコレクション】CVPR 2024 フルスコア論文: 浙江大学は、変形可能な 3 次元ガウス分布に基づく高品質の単眼動的再構成の新しい方法を提案しました; 計算タンパク質工学における最新の SOTA メソッド、オックスフォードのチームはコドンを使用して大規模な言語モデルをトレーニングする; 53 PDF が広く流通し、中核社員が次々と退職 OpenAI にはどのような秘密があるのでしょうか?

CVPR 2024 フルスコア論文: 浙江大学が、変形可能な 3 次元ガウス分布に基づく高品質な単眼動的再構成の新しい方法を提案

リンク: https://news.miracleplus.com/share_link/20133

単眼ダイナミックシーンとは、単眼カメラを使用して観察および分析される、シーン内のオブジェクトが自由に移動できる動的環境を指します。単眼での動的なシーンの再構成は、環境の動的な変化の理解、物体の運動軌跡の予測、動的なデジタル資産の生成などのタスクに不可欠です。 Neural Radiance Field (NeRF) に代表されるニューラルレンダリングの台頭により、動的シーンの 3 次元再構成に暗黙的表現を使用する作業がますます増えています。 D-NeRF、Nerfies、K-planes など、NeRF をベースにした代表的な作品は満足のいくレンダリング品質を実現していますが、真のフォトリアルなレンダリングにはまだ程遠いです。浙江大学とバイトダンスの研究チームは、上記の問題の根本原因は、レイキャスティングに基づく NeRF パイプラインが逆流を通じて観測空間を正準空間にマッピングするため、正確でクリーンなマッピングが達成できないことであると考えています。逆マッピングは学習可能な構造の収束に役立たないため、現在の方法では D-NeRF データセットで 30 以上のレベルの PSNR レンダリングインジケーターしか達成できません。

復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。

リンク: https://news.miracleplus.com/share_link/20134

最近では、OpenAI のビデオ生成モデル Sora が人気となり、生成 AI モデルのマルチモーダル機能が再び広く注目を集めています。現実世界は本質的にマルチモーダルであり、生物は視覚、言語、聴覚、触覚などのさまざまなチャネルを通じて情報を感知し、交換します。マルチモーダルシステム開発の有望な方向性の 1 つは、LLM のマルチモーダル認識機能を強化することです。これには、主にマルチモーダルエンコーダーと言語モデルの統合が含まれます。これにより、エンコーダーがさまざまなモダリティにわたって情報を処理し、LLM のテキスト処理能力を活用して一貫した応答を生成できるようになります。ただし、この戦略はテキスト生成に限定されており、マルチモーダル出力は含まれていません。一部の先駆的な研究では、言語モデルでマルチモーダルな理解と生成を可能にすることで大きな進歩を遂げていますが、これらのモデルには、画像や音声などの単一の非テキストモダリティのみが含まれています。上記の問題を解決するために、復丹大学の Qiu Xipeng チームは、マルチモーダルアートプロジェクション (MAP) および上海人工知能研究所の研究者とともに、モダリティの任意の組み合わせで理解できる AnyGPT と呼ばれるマルチモーダル言語モデルを提案しました。そしてさまざまなモダリティの内容についての推論。具体的には、AnyGPT はテキスト、音声、画像、音楽などの複数のモダリティが絡み合った命令を理解し、適切なマルチモーダルの組み合わせを巧みに選択して応答することができます。

たった一言で絵が動きます。Apple は大規模なモデルアニメーションを使用して生成し、結果を直接編集できます。

リンク: https://news.miracleplus.com/share_link/20135

現段階でも、大型モデルの驚くべき革新能力はクリエイティブ分野、特にSoraに代表される映像生成技術に影響を与え続け、新世代のトレンドをリードしています。誰もがソラに衝撃を受けていますが、おそらく Apple の研究も注目に値するものでしょう。「Keyframer: 大規模言語モデルを使用したアニメーションデザインの強化」と題された研究で、Apple の研究者は、LLM を使用してアニメーションを生成できるフレームワークである Keyframer をリリースしました。このフレームワークを使用すると、ユーザーは自然言語プロンプトを使用して静的な 2D イメージを作成できます。

計算タンパク質工学のための最新の SOTA メソッドであるオックスフォード大学のチームは、コドンを使用して大規模な言語モデルをトレーニングします

リンク: https://news.miracleplus.com/share_link/20136

深層言語モデルからのタンパク質表現は、計算タンパク質工学の多くのタスクで最先端のパフォーマンスを実証してきました。近年の進歩は主にパラメータのカウントに焦点を当てており、最近ではモデルの容量がトレーニングに使用されたデータセットのサイズを超えています。オックスフォード大学の研究者たちは、別の方向性を提案しています。彼らは、アミノ酸配列ではなくコドンに基づいてトレーニングされた大規模な言語モデルが高品質の表現を提供し、さまざまなタスクにわたって最先端のモデルを上回るパフォーマンスを発揮できることを実証しました。種の同定、タンパク質と転写産物の存在量の予測などの一部のタスクでは、コドンに基づいてトレーニングされた言語モデルが、50 倍以上のトレーニングパラメーターを含むものを含め、他のすべての公開されているタンパク質言語モデルよりも優れたパフォーマンスを発揮することを研究チームは発見しました。

53ページにわたるこのPDFは広く出回っており、中核社員が次々と退職しているが、OpenAIにはどのような秘密があるのだろうか。

リンク: https://news.miracleplus.com/share_link/20137

「2027 年に AGI を達成する OpenAI」に関する 53 ページの PDF がインターネット上で広く配布されています。この文書は、2023 年 7 月に登録され、ツイートが 2 つだけある「vancouver1717」という名前の X アカウントからのものです。新たに公開された PDF 文書には、OpenAI が「2027 年までに人間レベルの AGI を開発する」、「2022 年 8 月から 125 兆のパラメーターを備えたマルチモーダルモデルをトレーニングしている」、「2023 年 12 月にトレーニングを完了している」と記載されています。数カ月以内」だが、「推論コストが高いためリリースを中止した」。このモデルは当初2025年に発売予定だったGPT-5であると記載されていたが、中止後Gobi（GPT-4.5）はGPT-5に改名された。内容の信憑性は不明であり、多くの判決には専門性が欠けているため、読んだ人はそれを「信じない」傾向にあります。ただし、この文書には昨年暴露された謎のプロジェクト Q* (キュースターと発音) についても言及されており、Q* の次の段階は当初 GPT-6 だったが、GPT-7 に名前が変更されたと言われています (当初計画されていた)。 2026 年リリースで発売予定）。つまり、リリースされる最新の GPT-5 はオリジナルの GPT-4.5 であり、実際の GPT-5 は GPT-6 に延期され、GPT-6 は GPT-7 に延期されます。しかし、GPT-7 (Q*2025) は最大 145 の IQ を持ち、2027 年までにリリースされ、包括的な AGI を達成します。これらすべての変更は実際にはマスク氏の苦情に関連している。

Mac専用大型モデルフレームワーク登場！ 2 行のコード展開、ローカルデータについて話すことができ、中国語もサポート

リンク: https://news.miracleplus.com/share_link/20138

Mac ユーザーの皆さんは、ついに RTX と専用の大型モデル Chat を持っている N カードプレーヤーをうらやましく思う必要がなくなります。マスターによって起動された新しいフレームワークにより、Apple コンピューターでローカルの大規模モデルを実行できるようになり、展開はわずか 2 行のコードで完了できます。 Chat with RTX をモデルにしたこのフレームワークの名前は Chat with MLX (MLX は Apple の機械学習フレームワークです) で、元 OpenAI 従業員によって構築されました。ローカル文書の概要や YouTube ビデオ分析など、黄学術院のフレームワークに含まれる機能は、Chat with MLX でも利用できます。中国語を含む合計 11 の言語が利用可能で、サポートが組み込まれた最大 7 つの大規模なオープンソースモデルがあります。体験したユーザーからは、「Apple デバイスの場合は計算の負担が少し大きいかもしれないが、初心者でも簡単に始められます。MLX でのチャットは本当に良いです」との声が寄せられています。

Rabbit CEO が Apple の新しい AI の動きと競争について語る | アプリを前後に切り替えるのはひどいことだ R1 はコストとエクスペリエンスのバランスだスタートアップの 99% は消滅するだろう!

リンク: https://news.miracleplus.com/share_link/20140

これは、CES後のRabbit CEOのJesse LyuとTechCrunch記者との最新の会話です。ジェシーは、デジタル時代にはユーザーエクスペリエンスの簡素化と効率の向上が重要であると信じており、R1 デバイスによって、既存のオペレーティングシステムとアプリケーションエコシステムに挑戦するだけでなく、人間とコンピューターのインタラクションの新しい方法を先導します。ジェシー・リュー氏は、テクノロジー大手間の競争について記者団に向かって、10年前にYコンビネーターから学んだ最初の教訓は、スタートアップの99％が消滅するということであった、と語った。スタートアップは間違いなく確率に賭けており、起業家精神はサバイバルゲームであり、そのほうが良いのであるあれこれ心配するのではなく、自分のことに集中して時間を過ごすこと。