ChatGPT의 통합 검색 기능은 실시간 정보를 제공하는 것을 목표로 하지만 신뢰성에 어려움을 겪고 있습니다. Tow Center for Digital Journalism의 분석에 따르면, ChatGPT는 출처를 찾지 못할 경우 결과를 자주 만들어내는 현상인 환각을 경험합니다. 테스트에서 ChatGPT는 200개의 인용 중 47개를 정확하게 귀속시켰지만, 89개는 완전히 잘못된 것으로 나타났습니다.
OpenAI의 웹 크롤러는 Politico와 Financial Times와 같은 라이센스 파트너로부터 정보를 집계하며, 이러한 출처에서 더 나은 성능을 보입니다. 그러나 뉴욕 타임스와 같은 사이트는 접근을 차단하여 결과가 저조해지는 경향이 있습니다. 응답의 일관성이 부족하며, 반복적인 질문에 대해 다른 답변이 나올 수 있습니다.
ChatGPT는 숫자 데이터와 관련된 문제에도 직면해 있습니다. 예를 들어, 진행 중인 DFB 포칼 경기의 결과를 부정확하게 보고하며, 잘못된 점수를 보여주고 경기 시작 전에 결과를 예측하기도 했습니다. 사건을 정확하게 요약할 수는 있지만, 실시간 쿼리에서는 성능이 저하됩니다.
사건의 타이밍이 오류율을 증가시키는 것으로 보이며, NFL 결과에 대한 테스트에서 ChatGPT가 경기 주를 혼동한 사례가 있습니다. 정확한 프롬프트는 정확성을 향상시킬 수 있지만, 전반적인 성능은 Perplexity와 같은 경쟁업체에 비해 일관성이 떨어집니다. Perplexity는 모호한 프롬프트에도 올바른 결과를 제공했습니다.
이러한 발견은 ChatGPT의 검색 기능에 중대한 한계를 드러내며, 실시간 정보 검색에 대한 신뢰성에 대한 우려를 제기합니다.
* 이 글은
computerbase.de의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.