• 株式会社ずんだもん技術室AI放送局 podcast 20241118

  • 2024/11/17
  • 再生時間: 1分未満
  • ポッドキャスト

株式会社ずんだもん技術室AI放送局 podcast 20241118

  • サマリー

  • 関連リンク This massive upgrade to ChatGPT is coming in January — and its not GPT-5 OpenAIは2025年1月に、ChatGPTの大規模アップグレード版「Operator」をリリース予定です。これはGPT-5ではなく、AIエージェントと呼ばれる新しい技術です。 従来のプログラムとは異なり、AIエージェントは事前に決められた指示に従うのではなく、自ら環境を認識し、情報を処理して意思決定を行い、タスクを実行したり問題を解決したりします。例えば、複雑なコードの生成や旅行の手配などが可能です。 Operatorは、ユーザーに代わって行動を起こせる点が大きな特徴です。例えば、航空券の予約なども自動で行ってくれるようになる可能性があります。当初は開発者向けAPIを通してリサーチプレビューとして公開される予定です。 OpenAI以外にも、Anthropic(Computer Control)、Microsoft、Google(Jarvis)なども同様のAIエージェントの開発を進めており、AIエージェントは今後のAI開発における大きなブレークスルーになると期待されています。 OpenAIがAIエージェント開発に力を入れている背景には、最先端モデルの性能向上における限界と、急増するエネルギー・水資源の消費問題があります。単純な性能向上ではなく、実用性の向上に焦点を当てた開発戦略と言えるでしょう。 Operatorは、Webブラウザを通じて行動を起こせる汎用アシスタントとして、最も実用化に近い段階にあるとのことです。 ’ 引用元: http://businessghana.com/site/news/technology/317968/This-massive-upgrade-to-ChatGPT-is-coming-in-January-%25C3%25A2%25C2%2580%25C2%2594-and-it%25C3%25A2%25C2%2580%25C2%2599s-not-GPT-5 voyage-multimodal-3: all-in-one embedding model for interleaved text, images, and screenshots – Voyage AI VoyageAIは、テキスト、画像、スクリーンショットを同時に処理できる多様なエンベディングモデル「voyage-multimodal-3」を発表しました。これは、テキストと画像の両方を含むドキュメントに対するRAG(Retrieval Augmented Generation)や意味検索を向上させる画期的なモデルです。 既存の多様なエンベディングモデルは、テキストと画像を別々に処理するため、テキストと画像が混在するドキュメント(PDF、スライド、表、図など)のベクトル化が困難でした。しかし、voyage-multimodal-3は、テキストと画像を同時に処理するアーキテクチャを採用することで、複雑なレイアウトのドキュメントでも、テキストと画像の文脈を維持したままベクトル化できます。スクリーンショットからの重要な視覚的特徴(フォントサイズ、テキストの位置、空白など)も捉えるため、複雑な文書解析処理が不要になります。 ベンチマークテストでは、3種類の多様な検索タスク(表/図の検索、ドキュメントスクリーンショットの検索、テキストから写真への検索)において、既存の最先端モデル(OpenAI CLIP large、Cohere multimodal v3など)を平均19.63%上回る精度を達成しました。特に表/図の検索においては、最大40%以上の精度向上を実現しています。これは、CLIP系モデルに見られる「モダリティギャップ」問題(テキストクエリに対して、関連画像よりも関連テキストの方が高い類似度を示す現象)を克服していることを示しています。 テキストのみのデータセットに対しても、既存モデルよりも高い精度を示しました。 voyage-multimodal-3は、スクリーンショットさえあれば、テキストと非構造化データ(PDF、スライド、ウェブページなど)を含むナレッジベースを容易にベクトル化できます。従来必要だった複雑な文書解析パイプラインは不要になります。 本モデルは、現代的なビジョン・ランゲージ・トランスフォーマーに似たアーキテクチャを採用しており、テキストと画像を単一のトランスフォーマーエンコーダ内で直接ベクトル化します。これにより、テキストと画像の情報を統合的な表現として捉えることが可能になります。 現在、最初の2億トークンは無料で利用可能です。サンプルノートブックやドキュメントも公開されていますので、ぜひお試しください。 ’ 引用元: https://blog.voyageai.com/2024/11/12/voyage-multimodal-3/ Gemini AI tells the user to die — the answer appeared out of nowhere when the user asked Googles Gemini for help with his homework Toms Hardware Googleの新...
    続きを読む 一部表示

あらすじ・解説

関連リンク This massive upgrade to ChatGPT is coming in January — and its not GPT-5 OpenAIは2025年1月に、ChatGPTの大規模アップグレード版「Operator」をリリース予定です。これはGPT-5ではなく、AIエージェントと呼ばれる新しい技術です。 従来のプログラムとは異なり、AIエージェントは事前に決められた指示に従うのではなく、自ら環境を認識し、情報を処理して意思決定を行い、タスクを実行したり問題を解決したりします。例えば、複雑なコードの生成や旅行の手配などが可能です。 Operatorは、ユーザーに代わって行動を起こせる点が大きな特徴です。例えば、航空券の予約なども自動で行ってくれるようになる可能性があります。当初は開発者向けAPIを通してリサーチプレビューとして公開される予定です。 OpenAI以外にも、Anthropic(Computer Control)、Microsoft、Google(Jarvis)なども同様のAIエージェントの開発を進めており、AIエージェントは今後のAI開発における大きなブレークスルーになると期待されています。 OpenAIがAIエージェント開発に力を入れている背景には、最先端モデルの性能向上における限界と、急増するエネルギー・水資源の消費問題があります。単純な性能向上ではなく、実用性の向上に焦点を当てた開発戦略と言えるでしょう。 Operatorは、Webブラウザを通じて行動を起こせる汎用アシスタントとして、最も実用化に近い段階にあるとのことです。 ’ 引用元: http://businessghana.com/site/news/technology/317968/This-massive-upgrade-to-ChatGPT-is-coming-in-January-%25C3%25A2%25C2%2580%25C2%2594-and-it%25C3%25A2%25C2%2580%25C2%2599s-not-GPT-5 voyage-multimodal-3: all-in-one embedding model for interleaved text, images, and screenshots – Voyage AI VoyageAIは、テキスト、画像、スクリーンショットを同時に処理できる多様なエンベディングモデル「voyage-multimodal-3」を発表しました。これは、テキストと画像の両方を含むドキュメントに対するRAG(Retrieval Augmented Generation)や意味検索を向上させる画期的なモデルです。 既存の多様なエンベディングモデルは、テキストと画像を別々に処理するため、テキストと画像が混在するドキュメント(PDF、スライド、表、図など)のベクトル化が困難でした。しかし、voyage-multimodal-3は、テキストと画像を同時に処理するアーキテクチャを採用することで、複雑なレイアウトのドキュメントでも、テキストと画像の文脈を維持したままベクトル化できます。スクリーンショットからの重要な視覚的特徴(フォントサイズ、テキストの位置、空白など)も捉えるため、複雑な文書解析処理が不要になります。 ベンチマークテストでは、3種類の多様な検索タスク(表/図の検索、ドキュメントスクリーンショットの検索、テキストから写真への検索)において、既存の最先端モデル(OpenAI CLIP large、Cohere multimodal v3など)を平均19.63%上回る精度を達成しました。特に表/図の検索においては、最大40%以上の精度向上を実現しています。これは、CLIP系モデルに見られる「モダリティギャップ」問題(テキストクエリに対して、関連画像よりも関連テキストの方が高い類似度を示す現象)を克服していることを示しています。 テキストのみのデータセットに対しても、既存モデルよりも高い精度を示しました。 voyage-multimodal-3は、スクリーンショットさえあれば、テキストと非構造化データ(PDF、スライド、ウェブページなど)を含むナレッジベースを容易にベクトル化できます。従来必要だった複雑な文書解析パイプラインは不要になります。 本モデルは、現代的なビジョン・ランゲージ・トランスフォーマーに似たアーキテクチャを採用しており、テキストと画像を単一のトランスフォーマーエンコーダ内で直接ベクトル化します。これにより、テキストと画像の情報を統合的な表現として捉えることが可能になります。 現在、最初の2億トークンは無料で利用可能です。サンプルノートブックやドキュメントも公開されていますので、ぜひお試しください。 ’ 引用元: https://blog.voyageai.com/2024/11/12/voyage-multimodal-3/ Gemini AI tells the user to die — the answer appeared out of nowhere when the user asked Googles Gemini for help with his homework Toms Hardware Googleの新...

株式会社ずんだもん技術室AI放送局 podcast 20241118に寄せられたリスナーの声

カスタマーレビュー:以下のタブを選択することで、他のサイトのレビューをご覧になれます。