TECH BLOGTECH BLOG を配信します

今週の気になったAIニュース vol. 163

2024年11月05日

OpenAIが言語モデルの事実性を測定するベンチマーク「SimpleQA」をオープンソース...

https://gigazine.net/news/20241031-openai-simpleqa/

OpenAIが言語モデルの事実性(factuality)を測定するためのベンチマーク「SimpleQA」を発表しました。SimpleQAは科学技術からエンターテインメントまでの幅広いトピックを含んだ検証済みの4000種類以上の質問から構成されています。

マルチモーダル画像生成AI「OmniGen」登場、1つのモデルで「ポーズ指定生成」「画...

https://gigazine.net/news/20241102-omnigen-unified-image-generation-ai/

広く使われている画像生成AIのStable Diffusionは「ControlNetを組み合わせてポーズ抽出やポーズ指定生成を実行する」「IP-Adapterを組み合わせて類似画像を生成する」といったように拡張機能を用いて多様な作業を実行できます。「OmniGen」はControlNetなどの拡張機能を使わず単一のモデルだけで多様な生成作業を実行可能にすることを目指して開発されたマルチモーダル画像生成AIで、単体で「画像生成」「ポーズ抽出」「ポーズ指定生成」「画像内の物体置換」「被写体指定生成」といった作業を実行可能です。

Google DeepMind、AI生成テキスト判別向け透かし「SynthID Text」リリース

https://www.itmedia.co.jp/news/articles/2410/24/news109.html

Google DeepMindは10月23日（現地時間）、AI生成テキストを識別する技術「SynthID Text」を発表した。デジタルウォーターマーク（電子透かし）技術を用いて、AIが生成したテキストに人間の目には見えない特殊な印を埋め込むことで、そのテキストがAIによって生成されたものかどうかを判別することを可能にする。

この間新しいテストが出る度にOpenAIがやっぱり最強に戻るって書いたが、今度はOpenAIがテストデータを出してきた。

サイズは小さく範囲も限定的だが、論文を見るとやっぱり他のテストよりもかなり深く考えられているように見える。

LLMの評価はこうやってやるんだぞ、というわけか。