로톡 ‘빅케이스GPT’ 변호사시험 정답률 53.3% : 서울경제

GPT-4 API 기반 한국 법령·판례 등 학습
변시 객관식 문제 GPT-4보다 높은 점수
추후 법률 정보 최적화된 언어 모델 개발
"변호사 업무 돕는 AI 법률 비서 만들 것"

GPT-4와 로앤컴퍼니 ‘빅케이스GPT’의 한국 변호사시험 객관식 문제 정답률. 사진 제공=로앤컴퍼니

‘로톡’ 운영사 로앤컴퍼니가 미국 오픈AI의 인공지능(AI) GPT-4 API를 활용해 만든 AI 시스템 ‘빅케이스GPT’가 한국 변호사시험에서 객관식 문제 정답률 53.3%를 기록했다. 로앤컴퍼니는 추후 빅케이스GPT를 고도화해 변호사 업무 조력 서비스를 출시할 예정이다.

18일 로앤컴퍼니에 따르면 빅케이스GPT는 올해 1월 치러진 제12회 대한민국 변호사시험 선택형(객관식) 문항 150개 중 80개를 맞춰 정답률 53.3%를 기록했다. 빅케이스GPT는 공법 40문항 중 19개(정답률 47.5%), 민사법 70문항 중 40개(57.1%), 형사법 40문항 중 21개(52.5%)를 맞췄다. ‘사례형’과 ‘기록형’ 등 서술형 문항 답안을 작성해 평가받는 것은 이번 실험에서 제외됐다.

빅케이스GPT는 영어와 미국 법령, 판례에 특화돼 있는 오픈AI GPT-3.5와 GPT-4보다 뛰어난 성능을 보였다. 빅케이스GPT와 같은 조건으로 로앤컴퍼니가 올 3월 진행한 실험에서 GPT-3.5는 정답률 28.7%, GPT-4는 정답률 34.0%를 기록했다. 오픈AI가 내놓은 최신 언어 모델인 GPT-4는 미국 변호사시험을 상위 10%의 성적으로 통과할 정도로 학습·인지·논리·추론·서술 능력이 뛰어나지만 한국 언어·법령·판례와 관련해서는 빅케이스GPT가 더 우수한 성과를 낸 것이다. 다만 빅케이스GPT가 기록한 객관식 정답률 53.3%의 경우에도 실제 변호사시험 합격 정답률보다는 낮을 것으로 추정된다.

로앤컴퍼니는 GPT-4 API를 활용해 한국 법령·판례 등을 학습시키는 방식으로 빅케이스GPT를 만들었다. 로앤컴퍼니의 법률 정보 플랫폼 서비스 ‘빅케이스’가 보유한 법령 14만 5000건, 결정례 7000건, 유권해석 7000건 등 약 16만 건의 법률 정보가 활용됐다. 또 로앤컴퍼니는 생성형 AI(Generative AI)의 최대 약점으로 꼽히는 ‘할루시네이션(hallucination·정보 왜곡 현상)’을 ‘제로’에 가깝게 통제해 데이터 신뢰성을 높였다. 빅케이스GPT 개발 과정에는 증강검색생성기법(RAG)과 자체 고안한 프롬프트 엔지니어링 등이 활용됐다.

로앤컴퍼니는 추후 빅케이스GPT에 GPT-4 등 다수의 언어 모델(LLM)을 실험, 적용할 계획이다. 법률 정보에 최적화된 언어 모델을 직접 개발해 시스템을 고도화한다는 청사진 또한 가지고 있다. 이를 통해 내년 상반기 중 변호사 대상 SaaS(서비스형 소프트웨어) ‘슈퍼로이어’를 출시한다는 방침이다. 올 6월 톰슨로이터가 6억 5000만 달러(한화 약 8450억 원)에 인수한 케이스텍스트의 ‘코카운슬(Cocounsel)’ 서비스와 같이 △법률 메모 생성 △법률 서면 요약 △법률 질의응답 등의 기능을 제공해 법조인 업무 효율을 향상시키는 것이 목표다.

김본환 로앤컴퍼니 대표는 “한국어와 대한민국 법률에 최적화된 언어 모델로 개발될 슈퍼로이어는 변호사를 돕는 ‘AI 법률 비서’와 같이 구동돼 변호사의 업무 효율을 극대화하는 역할을 맡게될 것”이라며 “자체 보유한 법률AI연구소를 중심으로 변호사들의 성과를 높이기 위한 서비스 출시에 집중해 더 많은 변호사의 업무 환경 개선에 도움을 드리고 싶다”고 말했다.