『株式会社ずんだもん技術室AI放送局』のカバーアート

株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局

著者: 株式会社ずんだもん技術室AI放送局
無料で聴く

このコンテンツについて

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)
エピソード
  • 私立ずんだもん女学園放送部 podcast 20250718
    2025/07/17
    関連リンク Introducing ChatGPT agent: bridging research and action OpenAIが、ChatGPTにまるで専属アシスタントのような新機能「ChatGPT Agent」を導入しました。これにより、ChatGPTはあなたの指示を受けて、自律的にパソコンを操作し、複雑なタスクを一貫して完了させられるようになります。 これまでのChatGPTは質問に答えるのが中心でしたが、Agent機能では「カレンダーを見て、会議の要約を作成してほしい」「競合3社を分析してスライドを作ってほしい」といった、より具体的な作業を依頼できます。ChatGPTはウェブサイトを巡回したり、必要な情報があれば安全にログインを促したり、コードを実行したり、分析を行ったりと、さまざまな手順を踏んで、最終的に編集可能なスライドやスプレッドシートとして結果をまとめます。 この新機能は、ウェブ操作に長けた「Operator」と、情報分析・要約が得意な「Deep Research」の技術を組み合わせたものです。ChatGPTは、仮想のコンピューター上で「推論(考える)」と「行動(実行する)」をスムーズに切り替えながら、あなたの指示通りにタスクを進めます。 最も重要なのは、ユーザーが常にコントロールできる点です。ChatGPTが重要な行動を起こす前には必ず許可を求めますし、いつでも作業を中断したり、自分でブラウザを操作したり、タスクを完全に停止したりできます。 この「Agentモード」は、Pro、Plus、Teamユーザー向けに提供が開始されています。ChatGPTのチャット画面にあるツールメニューから「agent mode」を選択するだけで簡単に有効にできます。GmailやGitHubなどの外部アプリと連携できる「コネクタ」機能を使えば、よりパーソナルな情報にもアクセスし、作業に活かすことが可能です。例えば、週ごとのレポート作成などを自動化することもできます。 ChatGPT Agentは、ビジネスでの繰り返しの作業(プレゼン作成、会議調整、データ更新など)や、プライベートでの旅行計画、イベント企画など、幅広いシーンでの活用が期待されます。各種ベンチマークテストでも非常に高い性能を発揮しており、特にスプレッドシートの編集やデータ分析のタスクでは、人間を超えるほどの精度を見せることもあります。 一方で、ウェブ上で直接行動する新機能には新たなリスクも伴います。OpenAIは安全性に最大限配慮しており、例えば、悪意のある第三者からの不正な指示(プロンプトインジェクション)を防ぐための対策や、モデルの間違いによる被害を避けるための「重要な行動前のユーザー確認」「高リスクなタスクの拒否」といった仕組みを導入しています。また、ユーザーのプライバシー保護のため、閲覧データの削除機能や、パスワードなどの機密情報をモデルが記憶しない安全なブラウザモードも備わっています。さらに、生物・化学兵器関連の悪用リスクに対しても、最高レベルの厳重な安全対策を講じ、専門家との連携やバグバウンティプログラムを通じて、継続的に安全性を向上させています。 この機能はまだ初期段階ですが、今後さらに効率的で多機能なツールへと進化していくことが期待されています。 引用元: https://openai.com/index/introducing-chatgpt-agent さよなら Flaky Test!Devinと共に実現する、CI安定化への道 この記事では、タイミー社が開発現場で直面していた「Flaky Test(フレイキーテスト)」という困った問題を、AIエージェント「Devin(デビン)」を使ってどのように解決し、開発効率を向上させたかを紹介しています。 Flaky Testとは何か?なぜ困るのか? Flaky Testとは、同じコードなのに「ある時はテストに成功し、別の時には失敗する」という、結果が不安定なテストのことです。これはまるで、たまにしか起きない謎のバグのようで、エンジニアの皆さんを大いに悩ませます。タイミー社でも、このFlaky Testが原因で、毎日何度もCI(継続的インテグレーション)という自動テストが失敗し、デプロイ(作ったプログラムを実際に使えるようにすること)が遅れたり、開発者が本来の業務ではなくテストの再実行や原因調査に時間を取られたりしていました。最悪の場合、CIが不安定すぎて「テストが通っても信用できない」状態...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20250717
    2025/07/16
    関連リンク R²D²: Training Generalist Robots with NVIDIA Research Workflows and World Foundation Models NVIDIAが、ロボットが新しいタスクを効率的に学習するための画期的な研究成果を発表しました。これまでは、ロボットに新しい動作を教えるには、大量のデータを集めて一つずつラベル付けする手間がかかっていました。この課題に対し、NVIDIAは「生成AI」や「ワールドファウンデーションモデル(WFMs)」、そして「合成データ生成」という最先端技術を活用することで、ロボットの学習を劇的に効率化しようとしています。 この研究の核となるのが、ロボットが未来の状況を予測し、リアルなトレーニングデータを自動で生成できる「NVIDIA Cosmos」のようなWFMsです。これにより、数ヶ月かかっていた開発期間がわずか数時間で済むようになります。 特に注目されるのが「DreamGen」という合成データ生成パイプラインです。これは、WFMsを使って、人間が手作業で集める手間をかけずに、現実的で多様なトレーニングデータを作り出す技術です。DreamGenで生成されたデータは、ロボットの賢さを測る「DreamGen Bench」という基準で評価され、スコアが高いほど実際のロボットの性能も向上することが確認されています。この技術をベースにした「NVIDIA Isaac GR00T-Dreams」を使えば、ロボットの行動学習に必要な大量のデータを効率的に用意できます。 さらに、NVIDIAは汎用的なロボットを実現する「GR00T N1」というオープンファウンデーションモデルを開発しました。これは、人間の認知能力にヒントを得て、視覚、言語、行動を統合することで、ロボットが複雑な指示を理解し、多段階のタスクを実行できるようにします。「GR00T N1.5」は、このGR00T N1の改良版で、実世界のデータ、シミュレーションデータ、そしてDreamGenで生成した合成データを組み合わせて訓練することで、より高い成功率と幅広いタスクへの対応力を実現しています。驚くべきことに、GR00T N1.5のアップデートは、手動でのデータ収集なら約3ヶ月かかるところを、合成データを活用することでわずか36時間で完了したとのことです。 また、「Latent Action Pretraining from Videos(LAPA)」という技術も発表されました。これは、インターネット上のラベルなし動画を大量に利用して、ロボットの行動を自動で学習させる方法です。これにより、高コストな手動ラベリングが不要になり、効率的なロボット学習が可能になります。 「Sim-and-Real Co-Training」という手法は、ロボットの学習における「リアリティギャップ」を埋めるものです。少量の現実世界のデータと大量のシミュレーションデータを賢く組み合わせることで、シミュレーションで訓練したロボットが実際の環境でも安定して動作できるようになります。この手法は、データ収集のコストを抑えつつ、ロボットの頑丈な動作を可能にします。 これらのNVIDIAの研究成果は、すでにAeiRobot、Foxlink、Lightwheel、NEURA Roboticsといった企業で活用され始めており、産業用ロボットやヒューマノイドロボットの開発を加速させています。今回の発表は、AIとロボティクスの未来を大きく変える可能性を秘めた、非常に重要な一歩と言えるでしょう。 引用元: https://developer.nvidia.com/blog/r2d2-training-generalist-robots-with-nvidia-research-workflows-and-world-foundation-models/ Gemini Embedding now generally available in the Gemini API Googleは、Gemini APIで新しいテキスト埋め込みモデル「gemini-embedding-001」の正式リリースを発表しました。このモデルは、私たちが普段使う「文章」や「単語」といったテキスト情報を、AIが理解し計算しやすい「数値の並び」(これを「埋め込み」と呼びます)に変換するための技術です。AI開発において、この埋め込みを使うことで、テキストデータの中から関連性の高い情報を素早く探し出したり、文章の意味を理解して分類したり、質問に自動で答えるシステムを構築したりと、AIが賢くテキストを扱うための土台となります。 「gemini-embedding-001」の最も大きな特徴は、その非常に高い性能です。テキスト埋め込みモデルの国際的な評価基準である「MTEB Multilingualリーダーボード」で、常にトップクラスの性能を維持しています...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20250716
    2025/07/15
    関連リンク mistralai/Voxtral-Mini-3B-2507 · Hugging Face このドキュメントは、AI分野で注目されるMistral AIがHugging Faceで公開した、新しい大規模言語モデル(LLM)「Voxtral-Mini-3B-2507」について説明しています。このモデルは、既存の「Ministral 3B」というLLMをベースに、特に音声(オーディオ)の入力処理能力を大幅に強化した点が大きな特徴です。 Voxtral Miniは、従来のテキスト処理能力を維持しつつ、最新の音声入力に対応しており、以下のような多様な機能と高い性能を持っています。 高精度な音声の書き起こし(転写): 音声をテキストに変換する能力が非常に優れており、話されている言語を自動で判断して正確に書き起こします。例えば、会議の議事録作成などに役立ちます。長時間の音声に対応: 最大30分の音声書き起こし、または40分の音声内容の理解に対応できるため、長い講演やインタビューの内容を効率的に処理できます。音声からの質問応答と要約: 音声で直接質問を投げかけたり、音声の内容を自動で要約したりする機能が組み込まれています。これにより、音声認識とテキスト処理のシステムを別々に使う手間がなくなり、よりスムーズに音声情報を分析できます。多言語対応: 英語、スペイン語、フランス語、ポルトガル語、ヒンディー語、ドイツ語、オランダ語、イタリア語といった世界中の主要な言語において、高い性能を発揮します。音声による機能呼び出し: 音声での指示に基づいて、特定のプログラム機能(APIなど)を直接実行できるため、音声で操作するAIアシスタントやシステムへの応用が期待されます。 ベンチマークテストの結果でも、音声認識とテキスト処理の両方で高い性能が示されており、その実力が裏付けられています。 このVoxtral Mini-3B-2507は、vLLMという高速な推論ライブラリを使って利用することが推奨されています。具体的な導入方法や使い方の詳細はHugging Faceのページで確認できますが、このモデルを活用することで、音声を使った新しいAIアプリケーションの開発の可能性が大きく広がると期待されています。 新人エンジニアの皆さんにとっては、音声とテキストの両方を高度に扱えるLLMとして、今後のAI開発のトレンドを学ぶ上で非常に参考になるモデルです。音声AIの分野で何か新しいことに挑戦したいときに、強力な武器となるでしょう。 引用元: https://huggingface.co/mistralai/Voxtral-Mini-3B-2507 Grok コンパニオンAniあそびかた~攻略【技術解説有】 Grokから、3Dキャラクターと対話できる新しいコンパニオンモード「Ani」がリリースされました。この機能は基本無料で利用でき、AIアシスタントやLLMの新たな活用事例として注目されています。特に日本の新人エンジニアの方々に向けて、その技術的なポイントを中心に解説します。 Aniは、単に会話するだけでなく、3Dキャラクターが音声に同期した自然なジェスチャーを見せたり、ユーザーとの好感度に応じて反応を変えたり、特定の「行動(アクション)」を実行したりするのが特徴です。 このコンパニオンモードの核となる技術の一つは、Animation Inc.が開発した「音声連動ジェスチャー生成ローカルモデル」です。このモデルは、音声からリアルタイムで自然なキャラクターの動きを生成し、モバイルデバイス上で高速に動作するよう軽量化されています。記事によると、現在iOSのみ対応しているのは、このモデルがiOS向けに最適化されているためと考えられます。 もう一つの重要な技術は、キャラクターの「行動(アクション)」機能です。これは、LLM(大規模言語モデル)の「Function Calling」という仕組みを活用しています。通常のLLMはテキストを生成するだけですが、AniではLLMが「ジャンプ」や「ダンス」といった事前に登録された特定のアクションを明示的に発動する指示を生成します。これにより、キャラクターがユーザーの指示や状況に応じて、より具体的な動作を実行できるようになっています。 さらに、Aniには「好感度システム」が導入されています。ユーザーの会話内容をLLMが評価し、好感度が変化することで、キャラクターの表情や反応が変わる仕組みです。これもFunction Calling...
    続きを読む 一部表示
    1分未満

株式会社ずんだもん技術室AI放送局に寄せられたリスナーの声

カスタマーレビュー:以下のタブを選択することで、他のサイトのレビューをご覧になれます。