本周相対的には比較的平凡で、より多くのメーカーが LLM レースに参入しました。Google は OpenAI に追いつくために製品に取り組んでおり、SnapChat は自社のチャット AI ボットを公開しました。
以下では、先週の AI の主要ニュースを振り返ります。
4 月 17 日
昆仑万维(クンルンワンウェイ)が千億規模の大型言語モデル「天工(テンコウ)」を発表し、内部テストを開始しました。
昆仑万维と AI チームの奇点智源(キテンチゲンユアン)が共同開発した「天工」は、ChatGPT に匹敵する双千億規模の大型言語モデルであり、昆仑万维の AI ドローイング製品「天工巧绘(テンコウカオヒョウ)」に続く革新的な生成型 AI 製品です。昆仑万维は 2022 年 12 月に AIGC 全シリーズのアルゴリズムとモデルを発表し、画像、音楽、テキスト、プログラミングなど、多様なモードの AI コンテンツ生成能力をカバーしています。昆仑万维によれば、「天工」の現在のバージョンは、1 万文字以上のテキスト対話をサポートし、20 ラウンド以上のユーザーインタラクションを実現することができます。
プロジェクト全体で数億人民元を投資し、数百人の開発チームを結成しており、今後も投資を拡大する予定です。
内部テストアドレス:
https://tiangong.kunlun.com/
4 月 18 日
Meta が DinoV2 を発表しました。
DINOv2 は、自己教師ありの高性能コンピュータビジョンモデルのトレーニングに使用される新しい手法です(自己教師ありとは、モデルがラベルのないデータから学習することを意味し、人間の注釈は必要ありません)。DINOv2 は、画像分類、物体検出、セグメンテーションなど、いくつかのコンピュータビジョンのベンチマークで最高の結果を達成しています。これは、DINOv2 が新しい対比学習手法に基づいており、モデルが画像の注目領域に焦点を当て、背景を無視するように促すためです。DINOv2 は、任意の画像コレクションから学習することができ、異なるタスクに微調整する必要はありません。
デモアドレス:https://dinov2.metademolab.com/
論文:https://arxiv.org/abs/2304.07193
GITHUB:https://github.com/facebookresearch/dinov2
4 月 19 日
Aydar Bulatov らが RMT を使用して Transformer を 100 万以上のトークンに拡張する技術を発表しました。
この技術レポートでは、再帰メモリを使用して BERT のコンテキスト長を拡張する方法について説明しています。BERT は、自然言語処理で最も効果的な Transformer ベースのモデルの一つです。彼らは、再帰メモリトランスフォーマーアーキテクチャを利用することで、このモデルの有効なコンテキスト長を前例のない 200 万トークンに拡張し、高いメモリ検索精度を維持しました。この手法により、モデルはローカルおよびグローバルな情報を保存および処理し、入力シーケンスのセグメント間で情報を流動化させることができます。
推論プロセスでは、このモデルは、2,048,000 トークンの合計長さを持つ 4,096 のセグメントのメモリを効果的に利用します。これは、報告された Transformer モデルの最大入力サイズ(CoLT5 の 64K トークンおよび GPT-4 の 32K トークン)を大幅に超えています。彼らの実験では、この拡張により、基本モデルのメモリサイズを 3.6GB に保ちました。
論文アドレス:https://arxiv.org/abs/2304.11062
GITHUB:https://github.com/booydar/t5-experiments/tree/scaling-report
4 月 20 日
有名な画像生成ツール Stable Diffusion のメーカーである Stability-AI が LLM である StableLM をリリースしました。これは、異なる領域やタスクで安定した一貫性のあるテキストを生成することができる言語モデルです。アルファ版は 30 億から 70 億のパラメータを持っており、性能も優れています(GPT-3 は 1750 億のパラメータを持っています)。その後、150 億から 650 億のパラメータを持つモデルが続きます。開発者は、商業または研究目的で StableLM のベースモデルを自由にチェック、使用、改変することができますが、CC BY-SA-4.0 ライセンスの条件に従う必要があります(注意すべきは、ベースモデルはクリエイティブ・コモンズ・ライセンスですが、ファインチューニングは非商用のクリエイティブ・コモンズ・ライセンスであり、商業利用はできません)。
GITHUB: https://github.com/stability-AI/stableLM/
同日、Snapchat は世界中のすべてのユーザーに対して人工知能チャットボット機能を導入しました。
Snapbot という名前のこのチャットボットは、ユーザーが人工知能エージェントと対話できるようにするもので、質問に答えたり、ジョークを言ったり、ゲームをしたり、スナップショットを送信したりすることができます。Snapbot は、ユーザーの好みや行動から学習し、ユーザーの興味に基づいて時折スナップショットを送信します。Snapchat は、Snapbot が人と人の対話を置き換えるためではなく、人と人の対話を強化し、より面白く魅力的にするために存在すると述べています。Snapbot は、ディープニューラルネットワークによって駆動されており、自然言語の応答と画像を生成することができます。Snapchat は、Snapbot がプライバシーとデータ保護法に準拠しており、ユーザーはいつでもこの機能をオプトアウトできると述べています。
Say hi to My AI, our new chatbot located at the top of your chat. Write a song for your bestie who loves cheese, find the best IYKYK restaurant, or Snap it a photo of your garden to find the perfect recipe. Now free for all Snapchatters. #SnapPartnerSummit
4 月 21 日
Google の AI Bard がコーディング能力を公開し、20 種類の言語をサポートし、デバッグもできるようになりました。
Tweet not found
The embedded tweet could not be found…
同日、Fudan University の自然言語処理研究室が新しい MOSS モデルを発表し、国内初のプラグイン拡張型 ChatGPT オープンソース大型言語モデルとなりました。
MOSS は、中英両方の言語と複数のプラグインをサポートするオープンソースの対話言語モデルです。moss-moon シリーズのモデルは、1600 億のパラメータを持ち、FP16 精度では単一の A100/A800 カードまたは 2 つの 3090 カードで動作します。INT4/8 精度では、単一の 3090 カードで動作します。MOSS ベースモデルは、約 7000 億の中英文とコードの単語で事前トレーニングされ、その後、対話指示の微調整、プラグイン強化学習、人間の好みトレーニングにより、マルチターン対話能力と複数のプラグインの使用能力を備えています。
MOSS モデルは、Fudan University の自然言語処理研究室の邱錫鵬教授チームによって開発され、その名前は映画「流浪地球」の AI から取られています。
トライアル申請:https://moss.fastnlp.top
GITHUB:https://github.com/OpenLMLab/MOSS
この記事が役に立った場合は、購読や共有をお願いします。また、私の Twitter もフォローしてください。Web3、Layer2、AI、および日本に関するさまざまな情報をお届けします。