OpenAIは今週、重要な研究成果を発表しました。この研究は、大型言語モデルが生み出す幻覚現象の根本原因を系統的に分析したものです。この研究によれば、現在のトレーニングおよび評価プロセスは、モデルの推測を報酬する傾向があり、不確実性を認めることを奨励しないことが、AIが自信を持って誤った情報を生成する主な要因であると指摘されています。
AIの幻覚とは、モデルが自信を持って生成する、一見合理的に見えるが実際には誤った主張を指します。この問題はユーザーがAIシステムを完全に信頼することの障壁となっています。OpenAIはその論文の中で幻覚を模型が自信を持って虚偽の回答を生成する状況についてと明確に定義しており、最新のモデルであるGPT-5に直面しても、この幻覚現象は依然として存在しています。
研究において、論文の第一著者であるアダム・タウマン・カライはテストを実施し、異なるチャットボットがその博士論文のタイトルを尋ねられた際、同じように自信満々に誤った回答をしたことを発見しました。これはこの問題の普遍性を示しています。
OpenAIのチームは、現在の評価方法が誤ったインセンティブを設定していることが、幻覚現象が継続している一因であると発見しました。研究者たちは、ほとんどの評価モデルの性能評価方法が、モデルに対して不確実性に正直に向き合うのではなく、推測を促す形になっていることを指摘しています。
これは選択肢のあるテストに似ています。もし答えがわからなくても、適当に推測すれば正解する可能性がありますが、解答しないことは必ず0点となります。そのため、モデルが正確さのみを基準に評価する場合、推測を奨励することになり、{を認めることにはなりません。
研究によると、数千のテスト問題の中で、推測戦略を採用したモデルは、最終的にスコアボードでのパフォーマンスが不確実性を慎重に認めるモデルを上回ったとされています。OpenAIは、答えを放棄することが謙虚さの指標の一部であり、謙虚さは同社のコアバリューの一つであると述べています。
幻覚現象は依然として存在していますが、OpenAIの最新モデルGPT-5は、幻覚の削減において顕著な進展を遂げました。GPT-5のシステムカードデータによると、新しいモデルの幻覚率はGPT-4より約26%低下しており、複数の評価において卓越したパフォーマンスを示しています。
LongFact-ConceptsおよびLongFact-Objectsのテストにおいて、GPT-5の幻覚率はそれぞれ0.7%と0.8%であり、OpenAIのo3の4.5%や5.1%に比べて明らかに低い結果となっています。医療関連のクエリなどの高リスクのシーンでも、GPT-5の幻覚率はわずか1.6%であり、この分野におけるその優位性を示しています。
OpenAIは、簡単な解決策を提案しました。自信を持って間違えることに対する罰則は、不確実性に対する罰則よりも高く設定すべきであり、同時に適切に不確実性を表現する行動にはポイントを加える必要があります。研究チームは、不確実性を認識するテストを増やすだけでは不十分であり、現在広く使用されている評価方法を更新することが求められると強調しています。
論文では、主要な評価指標がモデルの幸運な推測を引き続き報酬する場合、モデルはその推測行動を学び続けることになると指摘されています。また、評価指標を修正することで、幻覚軽減技術の採用範囲を拡大することが可能です。
研究は、幻覚がプレトレーニング過程でどのように生じるかについても分析しています。OpenAIによると、言語モデルは膨大なテキストの次の単語を予測することで学習を行っており、従来の機械学習とは異なり、各文には明確な真/假ラベルが付されていないため、モデルは流暢な言語の正の例しか見ることができません。
研究チームは、画像認識のアナロジーを使って説明しています。ペットの誕生日のラベルを写真に付けると、たとえアルゴリズムがどんなに進んでいても、誕生日のランダム性のためにエラーが発生します。同様に、スペルや句読点が一貫したパターンに従う場合、これらのエラーはデータが増えるにつれて減少します。しかし、ペットの誕生日のようなランダムで低頻度の事実は、単にパターンだけでは予測できず、その結果として幻覚が生じることになります。
同時、OpenAIはそのモデルの行動チームを再編成しています。この約14人の研究チームは、AIモデルと人間とのインタラクションの仕方を形作ることを担当しています。内部メモによると、行動チームは後期訓練チームに統合され、後期訓練の責任者であるマックス・シュワルツァーに報告することになります。
チームの創設責任者であるジョアン・ジャン(Joanne Jang)が、新しいプロジェクト「OAI Labs」を立ち上げます。このプロジェクトでは、人間とAIが協力する新しいインターフェースのプロトタイプの発明と設計に焦点を当てます。チームはこれまで、モデルの性格特性を形成し、モデルの媚びを減少させることに取り組み、政治的バイアスなどの問題に対処してきました。
この研究は、AIの幻覚問題を理解する上で重要な理論的基盤を提供し、業界全体のモデル評価基準の改善を促進する助けとなります。OpenAIは、言語モデルの出力における信頼性の誤り率をさらに低減するために、引き続き努力していくと述べています。
業界の専門家によれば、評価方法の改善と新技術の適用に伴い、AIの幻覚問題はより良く制御される見込みであり、これによりユーザーのAIシステムに対する信頼性と実用性がさらに向上するでしょう。



