'언어모델도 시험 본다'…누가누가 똑똑하나, 벤치마크의 모든 것[AI토피아]

LLM ‘언어력’ 평가하는 벤치마크 데이터셋
챗GPT 이후 LLM 일상·산업 활용도 높아져
기본 언어 능력 평가 중심→신뢰성 평가 요구
셀렉트스타 등 윤리성 평가 벤치마크 개발 중


챗GPT로 촉발된 생성형 인공지능(AI) 기술 개발 경쟁이 격화하면서 기대와 우려가 공존합니다. AI와 함께 하는 현재와 같이 살아갈 미래는 인류에게 유토피아일 수도 있고, 디스토피아가 될 수도 있습니다. ‘AItopia’를 통해 AI로 인한 사회·산업의 변화를 분석하고 인류 삶의 미래를 조망합니다.



벤치마크(Benchmark). 생성형 인공지능(AI)이나 거대언어모델(LLM)과 관련한 정보를 접하다 보면 심심치 않게 등장하는 단어다. 주로 토목공학에서 쓰이던 기준점, 표준점이라는 의미가 정보기술(IT) 영역으로 넘어와서는 디바이스의 연산 능력을 평가하는 기준으로 사용돼 왔다. 생성형 인공지능(AI) 분야에서는 LLM의 성능을 평가하는 기준 데이터셋을 의미한다. 벤치마크 점수라고 하면 특정 LLM이 벤치마크 데이터셋을 얼마나 정답에 가깝게 산출해내는 지를 평가한 수치다.


AI 산업이 고도화하고 이에 맞춰 LLM이 많아질수록 벤치마크 데이터셋의 중요성은 더욱 높아질 것으로 전망된다. 여러 모델 가운데 어떤 모델이 더 효율적이고 정확하며, 특정 산업 영역에서 유효한 모델이 될 지 평가할 필요성도 함께 커지기 때문이다. 벤치마크 데이터셋은 통상 LLM의 독해·이해·분류 등 언어 능력을 평가하기 위해 만들어졌다.


세계에서 가장 널리 활용되는 오픈소스 LLM 플랫폼 ‘허깅페이스’ 내 모델들의 성능을 순위로 보여주는 리더보드는 네가지 벤치마크를 적용하고 있다. ARC(AI2 Reasoning Challenge)는 초등학교 수준의 과학문제로 이뤄진 데이터셋이며, HellaSwag는 상식 추론능력을 평가하기 위한 데이터셋이다. MMLU는 모델의 초등 수학, 미국역사, 컴퓨터 화학, 법률 등 57개의 주제에 대한 지식 정확도를 테스트한다. 마지막으로 진실성 검사(TruthfulQA)는 할루시네이션(환각) 정도를 평가하는 척도다.




국내에서는 한국어 능력을 평가하기 위한 벤치마크 데이터셋을 개발하기 위한 노력들이 이어져 왔다. 국내 주요 연구기관 30여 명의 연구원들이 참여해 만든 ‘클루(KLUE)’가 대표적이다. 이 벤치마크 데이터셋은 주제 예측, 유형 분류, 단어간 관계 분석 등 8개 능력을 평가하는 데이터들로 이뤄져 한국어 능력을 종합적으 시험해볼 수 있다. LG CNS에서 주도적으로 구축한 코쿼드(korQuAD)1.0·2.0 역시 활발히 활용되는 벤치마크 데이터셋으로 최신 버전인 2.0은 위키피디아 글을 바탕으로 약 10만여 개 질의응답 쌍으로 구성돼 있다.


모델 자체 성능을 끌어올리는 게 중요했던 여태까지는 주로 모델의 인지·언어적 성능 평가를 위한 데이터셋 개발이 주였다면 이제는 모델이 다양한 산업 분야와 일상에 본격적으로 적용되면서 정확성, 윤리성 등에 대한 요구도 높아지고 있다. 이 때문에 주로 이해력, 분류 등 인지적 능력 평가에 치중해 온 벤치마크 데이터셋은 앞으로 윤리성 평가 등으로 확장할 것으로 전망된다.



박윤규 과학기술정보통신부 2차관이 지난 25일 오후 서울 종로구 정부서울청사에서 디지털 권리장전 및 향후 계획을 발표하고 있다.연합뉴스

최근 디지털 기술 발전에 대응해 정부가 내놓은 디지털 권리장전에도 생성형 AI 모델의 불완정성이 일상과 산업에 야기할 수 있는 부작용에 대한 우려가 드러난다. 기본원칙을 논한 제1장 3조에는 “기술과 서비스는 개인과 사회의 안전에 위혀비 되지 않도록 신뢰할 수 있어야”한다고 명시돼 있다. 20조에서는 “허위조작 및 불법·유해 정보의 생산·유통이 방지되는 등 건전한 디지털 환경이 조성되어야 한다”고 명기했다.


국내에서는 셀렉트스타, 네이버, SK텔레콤, KT, LG AI 연구원 등이 컨소시엄을 꾸려 LLM 신뢰성을 평가를 위해 벤치마크 데이터를 만들기 위한 사업을 진행하고 있다. 이들은 신뢰성을 ‘3H’, 무해성(Harmlessness), 정보 정확성(Honesty), 도움 적정성(Helpfulness) 기준으로 분류하고, 세부 분류에 해당하는 질문과 답변 선택지를 데이터셋으로 구성할 계획이다. 지난 5월 아마존, SK텔레콤의 투자를 받은 AI 스타트업 앤스로픽은 AI의 유해성을 최소화하겠다며 ‘헌법적 AI(Constitutional AI)’라는 개념을 공개했다. 그러면서 "좋든 실든 AI 모델은 가치 체계를 갖게 될 것이다”며 “AI 모델이 인간의 능력에 닿거나 혹은 그 이상을 넘보게 될 것이다. 우리는 모델을 도움 되고, 진실하며 무해함이 유지되도록 AI 시스템을 훈련시켜야 한다”고 밝혔다.


최윤재 한국과학기술원(KAIST) AI대학원 교수는 “인공지능의 엄청난 발전 속도를 고려했을 때, 국민 개개인이 일상 생활에서 인공지능으로부터 직간접적으로 영향을 받을 시점이 머지않았다”며 “이에 대비하기 위해 우리가 미리 인공지능의 신뢰성, 윤리성 기준을 정립한다는 점에서 이번 벤치마크 데이터셋의 역할이 대단히 중요하다”고 말했다.





<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>