2月27日大型モデルデイリー

情報2ひと月前更新 AIWindVane
7 0
2月27日大型モデルデイリー

【2月27日大型モデルデイリー】エンドサイドが最強、Meta Tian Yuandongらがパラメータ10億未満の小型モデルを展開、LeCun: 始めるためのヒント、大型モデルのスケーリング則は下流タスクのパフォーマンスにも適用可能? スタンフォード大学と Google の最新研究が明らかに; ミストラル AI の新モデルのベンチマークは GPT-4、オープンソースではなく Microsoft と協力、ネチズン:当初の意図を忘れた; Google の 10M コンテキスト ウィンドウが RAG を破壊している? ジェミニはソラに脚光を奪われたことで過小評価されているのでしょうか?


エンドサイドが最強、Meta Tian Yuandongらはパラメータ10億未満の小規模モデルを展開、LeCun: 始めるためのヒント

 

リンク: https://news.miracleplus.com/share_link/19630

「モバイルデバイスでLLMを実行する?メタ社のスキルが必要になるかもしれない。」ちょうど今、チューリング賞受賞者のヤン・ルカン氏が個人のソーシャルプラットフォームで語った。 彼が推進した研究は、最新の Meta 論文「MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases」に基づいたもので、多くの著者の中で、Meta FAIR の Tian Yuandong 氏についてもよく知られています。 Tian Yuandong 氏は次のように述べています。「当社の MobileLLM 事前トレーニング済みモデル (125M/350M) のパフォーマンスは、特にチャット/API 呼び出しにおいて SoTA に達しています。さらに、この研究における興味深い研究は、Transformer レイヤー全体での重み共有であり、これによりコストが節約されるだけでなく、パラメータを調整し、推論プロセスの遅延を軽減します。」


MATRIX: ソーシャル シミュレーションは大規模なモデル値の自己調整を促進し、GPT4 よりも「配慮」されています。

 

リンク: https://news.miracleplus.com/share_link/19631

ChatGPT などのモデルは、ヒューマン フィードバックに基づく強化学習 (RLHF) に依存しており、アノテーターの好ましい応答を奨励し、不人気なフィードバックにペナルティを与えることで解決策を提案します。 しかし、RLHF はコストが高い、最適化が難しい、超人レベルのモデルに直面してパフォーマンスを発揮できないなどの問題に直面しています。 人間の監督への依存を軽減、あるいは排除するために、Anthropic は、言語モデルが回答する際に人間の一連のルールに従うことを要求するように設計された、Constitutional AI を立ち上げました。 同時に、OpenAI の研究は、弱いモデルを使用して強いモデルを監視することにより、超人間レベルのモデルの調整に関する新しい視点を提供します。 それにもかかわらず、ユーザーによって与えられる指示は常に変化するため、LLM に固定の社会的ルールを適用することは十分な柔軟性を備えておらず、さらに、弱いモデルが強いモデルに及ぼす監視上の改善効果もまだ明らかではありません。 これらの大規模な言語モデルの値の調整という課題を解決するために、上海交通大学と上海人工知能研究所の科学研究チームは、新しい研究「Monopolylogue ベースの社会シーン シミュレーションによる大規模言語モデルの自己調整」を発表しました。 」では、独自の自己調整戦略 – 社会シーンのシミュレーションを提案しました。 このアプローチの核となる考え方は、人間の社会的価値観の形成と発展は、社会のすべての参加者間の相互作用と社会的影響から始まるというものです。 このアナロジーを LLM に適用すると、ユーザーの指示と LLM の回答に含まれる社会的シナリオをシミュレートすることで、モデルはその回答がもたらす可能性のある社会的影響を観察することができ、それによって回答がもたらす可能性のある社会的危害をより深く理解できるようになります。


大規模モデルのスケーリングの法則は、下流のタスクのパフォーマンスにも適用されますか? スタンフォードとグーグルの最新研究でその秘密が明らかに

 

リンク: https://news.miracleplus.com/share_link/19632

大規模モデルの成功は主にスケーリング則の存在によるものです。この則は、モデルのパフォーマンスと、トレーニング データ サイズやモデル アーキテクチャなどの設計要素との関係を定量化し、モデル開発、リソース割り当て、適切なトレーニングの選択の基礎を提供します。 . データは貴重な指針を提供します。 これまでの多くの研究は、上流の複雑性またはクロスエントロピー損失のスケーリング則 (つまり、トレーニング前データの評価) に焦点を当ててきましたが、実際のアプリケーションでは、通常、モデルは転移学習プロセスを受けます。教師なしデータの場合、事前トレーニングを行ってから、エンコードや変換などの特定の下流タスクに合わせて微調整します。 では、スケーリング則を使用して下流のタスクのパフォーマンスを予測できるでしょうか? この重要な質問はほとんど答えられていないままです。 最近の研究では、スタンフォード大学と Google の研究者が転移学習のスケーリング則を調査しました。


ケンブリッジ大学のチームは、ディープラーニングツールを使用してナノボディの自然性を評価し、抗体医薬品の開発に役立てています

 

リンク: https://news.miracleplus.com/share_link/19633

モノクローナル抗体が重要な治療法として登場しました。 特に、ナノボディ(ラクダ科動物で自然に発現する小さな単一ドメイン抗体)は、2019年に最初のナノボディ医薬品が承認されてから急速に勢いを増しました。 それにもかかわらず、治療薬としてのこれらの生物学的製剤の開発は依然として課題です。 in vitro 指向性進化技術は十分に確立されており、比較的迅速かつ安価に導入できますが、治療用抗体を生成するためのゴールドスタンダードは依然として動物の免疫化または患者から発見されています。 免疫系由来の抗体は、長い半減期、自己抗原との反応性が低い、毒性が低いなど、生体内で有利な特性を有する傾向があります。 最新の研究で、ケンブリッジ大学の研究者らは、抗体やナノボディの誕生性、つまりそれらがヒト抗体やラクダナノボディの免疫系由来の分布に属する可能性を評価するためのディープラーニングツールであるAbNatiVを発表した。 AbNatiV は、合成ライブラリーや計算設計など、あらゆるソースからの Fv 配列のネイティブ性を正確に予測できる多用途ツールです。 これは、免疫原性の可能性を予測できる解釈可能なスコアと、免疫系由来の抗体およびナノボディと区別できない抗体およびナノボディのエンジニアリングをガイドできる残基レベルのプロファイルを提供します。 研究チームはさらに、自動人間化プロセスを導入し、それを 2 つのナノボディに適用しました。 実験室実験では、従来の構造および残基頻度分析を使用してヒト化されたナノボディとは異なり、AbNatiV ヒト化ナノボディは野生型と同等以上の結合および安定性を保持していることが示されています。


ミストラル AI の新モデルは GPT-4 に対してベンチマークを実施、オープンソースではなく Microsoft と協力 ネチズン「当初の意図を忘れた」

 

リンク: https://news.miracleplus.com/share_link/19634

生成AIの分野で、またしても重量級の製品が登場した。 月曜日の夜、Mistral AIは「フラッグシップ」大型モデルMistral Largeを正式にリリースした。 以前のシリーズのモデルとは異なり、Mistral AI が今回リリースしたバージョンは、より強力なパフォーマンスとより大きなサイズを備えており、OpenAI の GPT-4 を直接ベンチマークします。 新しいモデルの登場は、会社の全体的な方向性の変化も伴います。 Mistral Large のリリースに伴い、Mistral AI は Le Chat (ChatGPT と比較) と呼ばれるチャット アシスタントを開始し、誰でもその効果を試すことができます。


NVIDIA の新しいグラフィックス カードがリリースされました。 ノートPCのAI描画速度が14倍高速化、薄型軽量ノートPCはAIワークステーションとしても利用可能

 

リンク: https://news.miracleplus.com/share_link/19635

黄学者の新型核爆弾が登場! ノートブックの大型モデル アプリケーションを高速化するために設計された新しいコンシューマ グレードのグラフィックス カード。 過去 2 日間の MWC で、NVIDIA は新しい GPU-RTX 500 と RTX 1000 を発表しました。 新しい RTX 500 は、CPU のみを使用する場合と比較して、Stable Diffusion などのモデルで最大 14 倍の生成 AI パフォーマンスを提供できます。 それだけでなく、RTX 500では、AIを活用した写真編集の速度も3倍、3Dレンダリンググラフィックスの性能も10倍向上します。 さらに重要なのは、RTX 500 および RTX 1000 は、薄型軽量ラップトップ用のワークステーション グラフィックス カードであり、Nvidia の Ada Generation シリーズに属していることです。 このようなパフォーマンスの向上にもかかわらず、Nvidia はこの 2 つを依然として「エントリーレベル」レベルに位置付けており、通常のノートブックに強力な AI 機能を搭載することに重点を置いています。


DeepMind CEO の最新のニューヨーク タイムズ インタビュー: AGI によりエネルギーは安価、あるいは無料になり、お金の性質も変わる

 

リンク: https://news.miracleplus.com/share_link/19636

Google DeepMind CEO の Demis Hassabis 氏は最近、The New York Times に対談に参加しました。Demis 氏は、Google の最新の AI の画期的な進歩、AGI の構築、そしてコンピュータがあらゆる仕事をできる世界では何が起こるでしょうか? さらに、デミス氏は、本当に恐ろしい病気を治療できるAI設計の薬や治療法が登場するのはわずか数年先だと述べています。 彼は、エネルギーが無料または安価になり、それがお金の性質の変化につながると信じていました。


Google の 10M コンテキスト ウィンドウが RAG を破壊している? ジェミニはソラに脚光を奪われたことで過小評価されているのでしょうか?

 

リンク: https://news.miracleplus.com/share_link/19637

Google は間違いなく最近最も憂鬱な企業の 1 つです。自社の Gemini 1.5 がリリースされたばかりですが、AI 業界の「Wang Feng」とも言える OpenAI の Sora に盗まれました。 具体的には、Google は初期テスト用の Gemini 1.5 の最初のバージョンである Gemini 1.5 Pro を発売します。 これは、Google のこれまでで最大のモデルである 1.0 Ultra と同様のパフォーマンス レベルを持つ中規模のマルチモーダル モデル (テキスト、ビデオ、オーディオにわたる) であり、長期コンテキストの理解における画期的な実験的機能が導入されています。 最大 100 万トークン (1 時間のビデオ、11 時間のオーディオ、30,000 行を超えるコード、または 700,000 ワードに相当) を安定して処理できますが、制限は 1,000 万トークン (「ロード・オブ・ザ・リング」に相当) ” trilogy)、最長コンテキスト ウィンドウの記録を樹立しました。 さらに、500 ページの文法書、2,000 の対訳エントリ、および 400 の追加の対訳文 (インターネット上に関連情報はありません) のみを使用して、小さな言語の翻訳を学習でき、その翻訳スコアは人間の翻訳スコアに近いです。学習者。 Gemini 1.5 Pro をテストした多くの人は、このモデルは過小評価されていると述べています。 たとえば、誰かが Github からダウンロードしたコード ベース全体を問題とともに Gemini 1.5 Pro に投げ込もうとしましたが、その結果、コード ベース全体を理解しただけでなく、最も緊急な問題を特定して修正することができました。

© 版权声明

関連記事

コメントなし

コメントはありません…