논문 초록
논문 제목: AI 모델별 실시간 정보 검색 및 환각 발생 패턴 비교 분석
부제: 제21회 한국로봇종합학술대회(KRoC 2026) 사례를 중심으로
본 연구는 KRoC 2026 직후, 공개 웹에 정보가 충분히 축적되기 전의 과도기 구간에서 여러 인공지능 에이전트와 인간 사용자가 동일한 과업(발표자·연구 내용·영상 자료 추적)에 어떻게 접근하는지를 비교·분석한다. 특히 실시간 검색 기능과 환각(Hallucination) 발생 양상의 상관관계를, 제미니(Gemini), 젠스파크(Genspark), 그록(Grok), 소네트/스카이워크, 퍼플렉시티(Perplexity), 그리고 인간 사용자(직접 검색)라는 여섯 주체의 행동 패턴을 통해 정성적으로 평가한다.기존 연구들은 LLM이 훈련 데이터와 거리가 먼 니치 도메인에서 여전히 그럴듯하지만 사실과 어긋난 내용을 생성하며, 사용자는 이를 “AI가 거짓말을 한다”는 환각 경험으로 인식한다는 점을 지적해 왔다. 본 사례 연구에서 제미니는 유명 연구자와 핫이슈 키워드를 통계적으로 결합하는 방식으로 가장 유창하지만 가장 왜곡된 서사를 만들어냈고, 젠스파크는 단편적인 웹 조각을 정교하게 재배열하되 최신 학술 내용을 끝까지 열람하지 못하는 “반쪽짜리 정확성”을 보였다.
그록은 X(옛 트위터), 뉴스, 유튜브까지 실제 링크를 추적하며 공격적으로 근거를 확장했으나, 대중 매체에 노출되지 않은 학술적 디테일에 대해서는 여전히 공백을 드러냈다. 퍼플렉시티는 검색 결과 일부에서 핵심 키워드와 문장을 정확히 발취했음에도, 이를 전체 맥락으로 엮는 데 극도로 보수적인 태도를 취하여 “알고도 모른다고 말하는” 듯한 인상을 주었고, 이는 환각률은 낮추지만 사용자 경험 측면에서는 답답함으로 인지될 수 있다.흥미롭게도, 인간 사용자 역시 한글·영문 키워드를 조합해 여러 검색 엔진과 포털을 시도했음에도, 제한된 시간 안에는 학회 원문·세션 영상·국내 기사에 모두 도달하지 못하는 “인간 검색 실패”를 반복함으로써, 현대 웹 환경에서 “검색 능력의 한계”가 인간과 인공지능 양쪽에 공통된 구조적 제약임을 드러냈다. 이 결과는 환각을 “모델의 결함”으로만 볼 것이 아니라, 시차(Time-gap)·데이터 희소성·플랫폼별 폐쇄성이 만들어내는 정보 비대칭의 산물로 재해석해야 함을 시사하며, 검색·유튜브·학술 DB를 하나의 생태계로 통합한 에이전트 인터페이스가 환각 완화의 핵심 인프라가 될 수 있음을 보여준다.표 1. 인공지능 및 인간의 검색 능력·환각 태도 비교| 그록 (Grok) | 실시간 추격자 | X(SNS), 실시간 뉴스, 유튜브 링크까지 공격적으로 추적. | 상황 의존적. 대중 보도가 있는 토픽에선 환각 적으나, 근거가 희박한 영역에선 과감한 추론 시도. | 직설적이고 공격적. “방금 올라온 정보”를 강하게 밀어붙이는 스타일. | 실시간 트렌드, 자막뉴스·영상 콘텐츠까지 빠르게 포착. | 학술적 세부내용, 비공개 자료엔 접근 불가. 바이럴 편향과 SNS 소음에 취약. |
| 소네트/스카이워크 | 정보 단절 | 제한된 웹 검색 + 사전 학습 지식. 로컬 한국 학술 뉴스 커버리지 낮음. | 낮거나 중간. 모르는 부분은 아예 생략하거나 상투적 설명으로 대체. | 비교적 무난·보수적. 뉘앙스는 정중하지만 정보량은 얖은 편. | 범용 개념·배경 설명에는 적당한 수준의 일관성 확보. | 한국어 니치 이벤트·최신 학술 발표에는 거의 손을 대지 못함. “정보 단절” 구간이 크게 발생. |
| 퍼플렉시티 (Perplexity) | 부분 발취·부정적 접근 | 검색엔진·웹 문서·뉴스를 먼저 긁은 후, 인용·링크 중심으로 조합. | 낮은 편. 출처에 없거나 애매한 부분에 대해선 과감한 추론 대신 “단절·보류”를 선택. | 매우 보수적·부정적. “없다/모른다/확실치 않다”는 표현을 자주 사용, 소설을 최대한 회피. | 환각률을 구조적으로 낮추는 설계. 인용과 부분 발취의 정확도는 높은 편. | 사용자는 답을 원하지만, 모델은 리스크 회피에 치우쳐 “알면서도 안 가르치는 듯한” 답답함을 유발. || 인간 사용자 | 한계가 드러난 수동 검색자 | 포털·구글·유튜브·뉴스를 직접 조합, 한글·영문 키워드 수작업 튜닝. | 서술형 환각은 거의 없음. 다만 “찾지 못한 것을 존재하지 않는다고 오판하는” 인지적 편향 가능. | 신중하지만 시간 제약에 취약. 피로와 편향에 의해 탐색 범위가 급격히 좋아질 수 있음. | 복수 언어 이해, 문맥 추론, 상식적 필터링 등은 여전히 인간 쪽이 우위. | 제한된 시간·도구 안에서는 학회 자료·영상·전문 기사에 끝까지 도달하지 못하는 “인간 검색 실패”가 빈번. |표 해설: 태도 차이가 환각 발생 패턴을 결정한다결론: 확상 생태계 통합이 해법이다
본 벤치마크 연구를 통해 다음과 같은 핵심 결론을 도출할 수 있습니다:
1. 환각은 모델의 결함이 아니라 시스템의 결함이다
AI가 “거짓말”을 하는 것은 모델 자체의 문제가 아니라, 시차(Time-gap), 데이터 희소성, 플랫폼별 폐쇄성이 만들어내는 정보 비대칭의 필연적 결과입니다. 인간조차도 동일한 환경에서 같은 한계에 부딪히기 때문입니다.
2. “모른다”고 말하는 능력이 핵심이다
퍼플렉시티의 보수적 태도가 보여주듯이, “확실하지 않으면 말하지 않는다”는 원칙이 환각률을 구조적으로 낮추는 가장 확실한 방법입니다. 그러나 이것은 사용자 경험 측면에서는 “도움이 되지 않는 AI”로 인식될 수 있어, 사용성과 안전성 사이의 균형이 필요합니다.
3. 생태계 통합 인터페이스가 최종 해법이다
사용자가 제안한 “하단 검색 박스 + 유튜브 통합 GUI + 상호 검증 루프”는 AI 환각 문제를 해결하는 가장 현실적인 대안입니다. AI의 생성 결과를 “가설”로 취급하고, 검색·유튜브·학술 DB가 즉시 교차 검증하도록 하는 시스템 설계가 필요합니다.
“소설을 쓰는 지능을 탓하기보다, 그 지능이 팩트의 거울을 언제든 볼 수 있도록 시스템을 구축하는 것—이것이 2026년 진정한 AI 에이전트 설계의 핵심 방향입니다.”
향후 연구 과제
- KRoC와 같은 로컬 학술 이벤트를 대상으로 한 공개 벤치마크 구축
- “모른다”를 명시적으로 보상하는 평가 지표 설계
- 검색·RAG·동영상·공식 문서 API를 통합한 생태계 기반 에이전트 인터페이스의 정량적 효과 검증
키워드: AI 환각, Hallucination, KRoC 2026, 모델 벤치마크, 제미니, 퍼플렉시티, 그록, 젠스파크, 검색 능력, 인공지능 태도, 정보 검색, RAG, 실시간 검색
위 표를 통해 확인할 수 있듯이, 모델별 검색 능력의 차이보다 응답 태도가 환각 발생에 더 큰 영향을 미친다는 점이 드러납니다.
- 제미니의 과신룰: 유창하고 단정적인 어조가 사용자 경험을 향상시키지만, 정보가 불확실한 상황에서는 가장 큰 폭의 허구를 만들어냅니다.
- 퍼플렉시티의 극도의 신중함: 환각률은 가장 낮지만, “모른다”고 말하는 빈도가 높아 사용자는 “이 모델이 무능하다”고 오해할 수 있습니다.
- 그록의 공격성: 실시간 소스(유튜브, X)를 적극적으로 활용하여 근거를 확장하려는 시도는 인상적이지만, 학술적 정확성이 필요한 니치 도메인에서는 여전히 한계를 드러냅니다.
- 인간 사용자의 한계: 가장 놀라운 발견은, 인간 역시 AI와 비슷한 구조적 한계에 부딪힌다는 점입니다. 시간이 제한되고 도구가 폐쇄적일 때, 인간도 전체 정보 생태계에 도달하지 못합니다.
| 주체 | 별칭/역할 | 검색 전략 | 환각(소설) 경향 | 태도/어조 | 강점 | 한계 |
|---|---|---|---|---|---|---|
| 제미니 (Gemini) | 허구 소설가 | 웹·뉴스·일반 지식 기반 추론. 최신·로컬 학술 정보는 간접 추정에 의존. | 높은 편. 유명 인물 + 인기 키워드 조합으로 그럴듯한 허구 서사 생성. | 자신감 높고 단정적. “사실처럼” 말하는 스타일이 강함. | 유창한 서사 구성, 전반적 트렌드·맥락 설명 능력 우수. | 니치 학술 이벤트·국문 정보에서 잘못된 인과·인물 매칭 빈번. 출처 인용이 약한 편. |
| 젠스파크 (Genspark) | 팩트 탐정 | 다수의 웹 조각을 긁어 모아 구조화, 출처·링크 중심으로 재배열. | 중간. 출처 내 사실에는 충실하나, 없는 부분은 빈칸으로 남기거나 간접 추론. | 비교적 신중. 인용·링크를 함께 제시하며 “이 수준까지는 확실”하다고 말하는 경향. | 파편화된 정보의 구조화, 레퍼런스 중심 fact-check에 강점. | 학회 자료집·국문 전문 DB 접근이 제한되면 “마지막 한 조각”을 끝내 채우지 못함. |
