OpenAI의 최신 연구, AI환각 원인과 개선 방안 분석

OpenAI는 이번 주에 중요한 연구 결과를 발표했습니다. 이 연구는 대형 언어 모델이 겪는 환각 현상의 근본 원인에 대한 체계적인 분석을 진행했습니다. 연구에 따르면, 현재의 훈련 및 평가 과정이 모델의 추측을 보상하는 방향으로 치우쳐져 있어, 불확실성을 인정하도록 유도하지 않는 것이 AI가 잘못된 정보를 자신 있게 생성하게 만드는 주된 요인이라는 점을 지적했습니다.

AI 환각은 모델이 자신감 있게 추론하여 겉보기에는 합리적으로 보이지만 실제로는 잘못된 진술을 생성하는 현상을 말합니다. 이러한 문제는 사용자들이 AI 시스템을 완전히 신뢰하는 데 장애가 됩니다. OpenAI는 그 논문에서 환각을 모델이 자신 있게 비현실적인 답변을 생성하는 상황으로 명확히 정의했으며, GPT-5와 같은 최신 모델을 마주하더라도 환각 현상은 여전히 존재합니다.

연구 중, 논문의 첫 저자 Adam Tauman Kalai가 실시한 테스트에서, 다양한 챗봇들이 자신의 박사 논문 제목을 질문받았을 때, 모두 똑같이 자신 있게 잘못된 답변을 했다는 사실을 발견했습니다. 이는 이 문제의 보편성을 드러냅니다.

OpenAI 팀은 현재의 평가 방법이 잘못된 인센티브 메커니즘을 설정하고 있어 환각 현상이 지속되는 부분적인 원인이라고 발견했습니다. 연구자들은 대부분의 평가 모델 성능 방법이 모델이 불확실성과 정면으로 마주하기보다 추측을 하도록 유도한다고 지적했습니다.

이것은 객관식 시험과 비슷해요: 정답을 모르고 무작위로 추측하더라도 맞출 가능성이 있어요; 반면에 대답을 하지 않는다면 반드시 0점을 받게 되죠. 따라서 모델이 정확도만을 기준으로 평가할 때는 추측을 장려하는 것이지, 모르겠다를 인정하는 것이 아니에요.

연구에 따르면, 수천 개의 시험 문제에서 추측 전략을 사용하는 모델이 결국 점수판에서 신중하게 불확실성을 인정하는 모델보다 더 나은 성과를 보였습니다. OpenAI는 답변을 포기하는 것이 겸손의 지표 중 하나라고 언급하며, 겸손은 회사의 핵심 가치 중 하나입니다.

환각 현상이 여전히 존재하지만, OpenAI의 최신 GPT-5는 환각을 줄이는 데 있어 눈에 띄는 발전을 이루었습니다. GPT-5의 시스템 카드 데이터에 따르면, 새 모델의 환각 비율은 GPT-4o에 비해 약 26% 감소했으며, 여러 평가에서 뛰어난 성능을 보였습니다.

LongFact-Concepts와 LongFact-Objects 테스트에서 GPT-5의 환각률은 각각 0.7%와 0.8%로, OpenAI o3의 4.5%와 5.1%에 비해 현저히 낮습니다. 의료 질의와 같은 고위험 상황에서 GPT-5의 환각률은 1.6%에 불과하여, 이 분야에서의 강점을 보여줍니다.

OpenAI는 간단한 해결책을 제안했습니다: 자신감 있는 오류에 대한 처벌은 불확실성에 대한 처벌보다 높아야 하며, 동시에 적절하게 불확실성을 표현하는 행동에는 점수를 부여해야 한다고 강조했습니다. 연구팀은 단순히 불확실성 인식 테스트를 증가시키는 것만으로는 충분하지 않으며, 현재 널리 사용되고 있는 평가 방법을 업데이트할 필요가 있다고 말했습니다.

논문에서는 주요 평가 지표가 모델의 행운 추측을 계속 보상한다면, 모델은 이러한 추측 행위를 지속적으로 학습하게 된다고 지적하고 있다. 반면, 평가 지표를 수정함으로써 착각 기술을 줄이는 범위를 확대할 수 있다.

연구는 또한 환상이 사전 훈련 과정에서 발생하는 메커니즘을 분석했습니다. OpenAI는 언어 모델이 방대한 텍스트에서 다음 단어를 예측함으로써 학습한다고 설명했습니다. 전통적인 머신러닝과는 달리, 각 문장은 명확한 진/가 레이블이 없으며, 모델은 유창한 언어의 긍정적인 사례만 볼 수 있습니다.

연구팀은 이미지 인식의 유추를 통해 설명합니다. 만약 애완동물 생일이라는 태그로 사진을 표시한다면, 알고리즘이 아무리 고급이어도 생일의 무작위성 때문에 오류가 발생할 것입니다. 마찬가지로 철자와 문장 부호가 일관된 패턴을 따르는 경우, 이러한 오류는 데이터가 증가함에 따라 감소하지만, 애완동물 생일과 같은 무작위의 저빈도 사실은 단순히 패턴만으로 예측할 수 없어 환상이 발생하게 됩니다.

동시에, OpenAI는 모델 행동 팀을 재편성하고 있으며, 이 약 14명의 연구 그룹은 AI 모델과 인간 간의 상호작용 방식을 형성하는 역할을 담당하고 있습니다. 내부 메모에 따르면 모델 행동 팀은 후속 훈련 팀에 통합되어 후속 훈련 책임자인 Max Schwarzer에게 보고할 예정입니다.

팀의 창립 책임자인 Joanne Jang이 사람과 AI가 협력하는 새로운 인터페이스 프로토타입을 발명하고 디자인하는 프로젝트인 OAI Labs를 시작합니다. 이 팀은 모델의 성격 특성을 형성하고, 모델의 아첨 행동을 줄이며, 정치적 편향 등 다양한 문제를 다루는 데 힘써왔습니다.

이 연구는 AI 망상 문제를 이해하는 데 중요한 이론적 기반을 제공하며, 전체 산업이 모델 평가 기준을 개선하는 데 기여합니다. OpenAI는 언어 모델의 출력 신뢰 오류율을 지속적으로 낮추기 위해 노력할 것이라고 밝혔습니다.

업계 전문가들은 평가 방법의 개선과 새로운 기술의 응용으로 AI 환각 문제를 더 잘 통제할 수 있을 것으로 기대하고 있으며, 이는 사용자들의 AI 시스템에 대한 신뢰도와 실용성을 더욱 향상시킬 것이라고 보고 있습니다.

Search

OpenAI의 최신 연구, AI환각 원인과 개선 방안 분석

야마구치 유코, 헬로키티 마지막 홍콩 방문

무인양품 25주년, 홍콩 빨간 전용차 15구 순회

센사 플레이 리뷰: 북유럽 감성 스피커

오리스 스타, 복고와 문페의 조우

바쉐론 신제품, WW2026 5대 신작 공개

Search

OpenAI의 최신 연구, AI환각 원인과 개선 방안 분석

Related Posts

야마구치 유코, 헬로키티 마지막 홍콩 방문

무인양품 25주년, 홍콩 빨간 전용차 15구 순회

센사 플레이 리뷰: 북유럽 감성 스피커

오리스 스타, 복고와 문페의 조우

바쉐론 신제품, WW2026 5대 신작 공개