Daily Develope

[Paper] Evaluating Large Language Models: A Comprehensive Survey 본문

AI

[Paper] Evaluating Large Language Models: A Comprehensive Survey

noggame 2024. 3. 5. 15:13

 

아래는 본 논문의 내용 중 관심있는 일부 Section에 대해서만 번역/의역한 내용입니다.


Paper - Evaluating Large Language Models: A Comprehensive Survey

Figure. An overview of studies on knowledge and capability evaluation for LLMs.

 

3. Knowledge and Capability Evaluation

 모델의 규모와 능력이 발전함에 따라 LLM의 지식과 능력을 평가하는 것은 하나의 중요한 연구로 자리잡았다. LLM이 다양한 분야에 응용되고 배포됨에 따라 task별로 모델의 능력과 한계를 세밀히 평가하는 것 또한 중요해졌다. 따라서 3절에서는 LLM 평가방법 및 벤치마크와 관련한 전반적인 소개를 목적으로 한다.

 

3.1. Question Answering

 QA는 LLM 평가를 위한 주요 방법으로, LLM의 출력이 기대값과 일치하는지 비교하는 방법을 사용해 직접적인 평가가 가능하다. LLM 평가 목적의 어떠한 데이터셋이라도 QA 데이터셋으로 쉽게 변형가능하기에 순수하게 QA 수행능력을 평가하기 위한 데이터셋과 연구는 그리 활발하지 않으며, 이는 동시에 대부분의 데이터셋은 특정 task를 평가하기 위한 목적으로 생성되고 사용된다고도 볼 수 있다.

 따라서 순수하게 LLM의 QA능력을 평가하고자 한다면, 특정 task에 편향되기 보다는 가능한 다양한 task를 다루고, 질문 또한 전문적이기 보다는 일반적이어야 한다. 이런 조건을 일부 만족하는 데이터셋으로는 SQuAD, NarrativeQA, HotpotQA, CoQA 등이 있으며, Kwiatkowski et al. (2019) 연구에서는 일상 질의 말뭉치를 제공하고있다.

Kwiatkowski et al. (2019) : Google 검색 엔진에 제출된 질의 데이터를 익명처리하고, 사람마다의 차이를 보정하고 검증한 질문으로 구성된 데이터셋 사용

 

3.2. Knowledge Completion

 LLM은 multi-tasking application의 초석으로서, 그 유용성은 일반 챗봇에서부터 전문화된 도구에 이르기까지 확장되면서, 넓은 지식 스팩트럼을 필요로하게 되었다. 결과적으로 LLM을 둘러싼 지식의 다양성과 깊이를 평가하는 것이 하나의 중요한 양상으로 자리잡고있다.

 Knowledge Completion 또는 Knowledge Memorization은 Wikidata와 같은 현존하는 기초 지식(knowledge bases)들을 기반으로 LLM을 평가하기 위해 사용되는 task의 종류이다. 예를들어 LAMA(Petroni et al., 2019)는, Wikidata와 ConceptNet (Speer & Havasi, 2012), SQuAD (Rajpurkar et al., 2016)를 포함한 여러 자료(source)로 부터 유도된, 지식 종류(type)의 다양성을 평가한다. 이러한 지식 자료는 사실성과 상식을 포함하는 subject-relation-object 형태로 제공된다. 이런 형태는, 언어 모델에서 놓친 토큰을 매꿔넣을 수 있도록 돕는, 독해 표현(cloze statements)으로 전환될 수 있는 장점을 가진다.

 LAMA에 이어, KoLA (Yu et al., 2023) 연구에서는 Large model의 지식 능력에 대한 보다 깊고 종합적인 연구를 수행했다. KoLA에서는, tail entity (knowledge)를 예측하기 위해 지식 개체(subject-relation-object)를 하나의 relation-specific 템플릿 문장으로 재구조화하는, Knowledge Memorization task를 개발했다.

KoLA 연구에서는 사실성을 증명하기 위해 Wikidata5M을 사용하고, 결과 평가를 위해 EM과 F1 메트릭을 사용했다. 나아가 지식 개체의 빈도가 평가 결과에 영향을 미칠 수 있는지 확인하고자, 오픈소스 및 보유한 21개의 LLM 모델에 대한 시험을 수행했다. 모델이 post-alignment 되었는지 여부를 분류하는 방법으로, 모델의 크기와 지식 기억 사이의 관계를 독릭적으로 분석했고, 그 결과로 LLM에 의해 수집된 지식에 대한 가치있는 식견을 제공했다.

 

WikiFact (Goodrich et al., 2019)는 생성된 텍스트의 사실 정확성을 평가하기 위해 제안된 자동화된 메트릭으로, 데이터셋을 하나의 관계 tuple (subject, relation, object) 형태로 정의한다. 해당 데이터셋은 영어 Wikipedia와 Wikidata 기초 지식을 기반으로 생성되었다. 하지만 텍스트 요약 task만을 대상으로한 한정된 실험이었기에, LLM의 Knowledge Completion 작업에 사용하려는 경우 일부 변경이 필요할 수 있다.

 

3.3. Reasoning

 복잡한 추론 과정에서는, 결론 추정 및 의사(desicion) 결정에 사용될 수 있는 근거와 논리적 프레임워크를 이해하고 효과적으로 사용하는 능력을 필요로한다. 여기서는 평가라는 경관(landscape)의 윤곽을 그리기 위한 노력으로, 추론 과정에서의 논리와 증거 요소(evidential element)에 포함된 성질을 따라 주요 평가 task를 4개의 도메인으로 분류했다. 각 도메인은 상식 추론(Commonsense Reasoning), 논리 추론(Logical Reasoning), Multi-hop 추론, 수학적 추론에 해당한다.

 

3.3.1. Commonsense Reasoning (상식 추론)

 상식 추론은 인간 인지의 기본 요소로, 세계를 이해하고 의사결정하는 능력을 필요로 한다. 이러한 인지 능력은 NLP 시스템의 상황에 따른 추정 능력을 발전시키고, 마치 사람과 같은 언어를 생성하는데 중요한 역할을 한다.

 다양한 데이터셋과 벤치마크에서는 상식 추론 능력을 평가하기 위해 여러 상식 도메인을 다룬다. 이러한 데이터셋은, 정확도(accuracy)와 F1 같은 메트릭과 함께 객관식 질문의 형태로 제공되어, 모델의 상식 지식과 추론 획득 능력을 시험하는데 사용된다. 이처럼 고전적인 상식 추론 데이터셋을 사용한 LLM 성능 평가 방법을 심도있게 다루는 여러가지 연구가 있다.

 

 Bang et al. (2023) 연구에서는, ChatGPT가 CommonsenseQA (Talmor et al., 2019), PIQA (Bisk et al., 2020), Pep-3k (Wang et al., 2018) 데이터셋에 대한 응답 정확도가 높았을 뿐 아니라, 해당 응답을 지지하는 합리적인 추론 절차를 가지는 등, 상당한 성능을 달성했다고 설명했다.

 반면, Bian et al. (2023)연구 평가에서는 GPT-3와 ChatGPT가 지식 도메인을 다루는데 여전히 어려움이 있고, (Social IQA (Sap et al., 2019), HellaSWAG (Zellers et al., 2019), MCTACO (Zhou et al., 2019)와 같은 데이터셋을 사용한) 사회(social), 이벤트, 현대(temporal) 상식 분야에서는 더욱 낮은 성능을 나타냈다. 상세하게는, ChatGPT가 사회나 현대 도메인과 같은 추론 과정에서 필요로하는 전문적인 상식 지식에 대해서 자주 이해하지 못하는 모습을 보였다. ChatGPT는 또한 과한 일반화와 오해를 일으킬 수 있는 상식을 제공하는 경우도 있었다.

 

3.3.2. Logical Reasoning (논리 추론)

 논리적 추론은, 일상적인 언어에서 발생하는 요소를 설명하고 분석하고 면밀하게 평가하는 능력인, 자연어 이해에 있어서 상당히 중요하다. 여기서는 이러한 모델의 논리적 추론 숙련도를 평가하고자, task 유형을 기반으로, 데이터셋을 크게 3가지(Natural language inference datasets, Multiple-choice reading comprehension datasets, Text generation datasets)로 분류한다.

 

Natural Language Inference Datasets

 NLI (Natural Language Inference Datasets)는, 가설(hypothesis)과 전제(premise) 사이에서, 논리적 관계를 결정짓는, 추론 능력을 평가하는데 중요한 task이다. NLI task에서는 모델의 입력으로 한 쌍의 문장들을 입력으로 받아 entailment, contradiction 또는 neutral 관계 라벨로 분류한다.

entailment : 전제에 따라서 가설이 일어날 수 있는, 관련성이 높은 경우
contradiction : 가설이 전제에 위배되는 경우
neutral : 전제와 가설간의 관련성이 낮은 경우

 

아래 목록에서처럼 최근에는 많은 연구에서 이러한 NLI의 능력을 평가하기 위한 노력이 있었다.

  • SNLI (Bowman et al., 2015)
  • MultiNLI (Williams et al., 2018)
  • LogicNLI (Tian et al., 2021)
  • ConTRoL (Liu et al., 2021)
  • MED (Yanaka et al., 2019a)
  • HELP (Yanaka et al., 2019b)
  • ConjNLI (Saha et al., 2020)
  • TaxiNLI (Joshi et al., 2020)

 

Multiple-choice Reading Comprehension Datasets

 객관식 기계독해 구성을 가지는 전형적인 모델의 경우, Passage와 Question이 주어졌을 때 정답 후보 목록 중 가장 적합한 답안 하나를 선택한다. ReClor (Yu et al.,2020), LogiQA (Liu et al., 2020b), LogiQA 2.0 (Liu et al., 2023b), LSAT (Wang et al., 2022)는 이러한 기계독해 평가 영역에 사용할 수 있는 벤치마크로, 정규시험(입학/공무원 시험 등)으로부터 객관식 논리 질문들을 만들어 데이터셋을 구성했기에 본질적으로 어렵고 품질이 좋은 문제들로 이루어져있다. 기계독해와 유사한 task 평가에서는 일반적으로 정확도(accuracy) 및 F1 점수와 같은 메트릭을 사용한다.

 LLM 성능 관련한 앞선 고전적인 데이터셋에 대해서는 이미 많은 연구가 이루어져있다.

 Bang et al. (2023) 연구에서는 "어떤 전제가 결론을 얼마나 뒷받침하는 지"를 기반으로 논리적 추론을 귀납적 추론과 연역적 추론으로 분류했다. 논리적 추론은 "관측과 증거"를 기반으로 부분적인 결론들에 대한 일반적인 전제로부터의 처리과정들을 포함하는 반면, 연역적 추론은 "사실과 그 전제"를 기반으로하고있다. ChatGPT의 경우, 귀납적 추론에서 약한 모습을 보였으나, 연역적 추론에서는 상대적으로 강한 모습을 보였다.

 Liu et al. (2023c) 연구에서는 ChatGPT와 GPT-4가 여전히 논리적 추론에서 큰 과제가 남아있다고 결론지었다. 해당 연구에서는, LogiQA (Liu et al., 2020b)와 ReClor (Yu et al., 2020)와 같은 전통적인 객관식 기계독해 데이터셋에 대한 성능은 상대적으로 좋았던 반면, NLI 데이터셋에 대해서는 상당히 약한 모습을 보인다고 설명했다. 또한 범주 외의 데이터셋을 다룰 때는 성능이 크게 떨어지는 것을 확인했다.

 정확도(accuracy)와 같은 단순한 메트릭으로 제한한 앞선 평가들과는 다르게, Xu et al. (2023a) 연구에서는, 객관 및 주관적인 관점 모두로부터, 잘 정제된(fine-grained) 평가 방법들(정답 정확성, 설명 정확성, 설명 완성도, 설명 장황함)을 제안했다. 해당 연구에서는 지식 편향의 영향을 피하고자 중립의 내용으로 이루어진 새로운 데이터셋인 NewLR를 소개하고, 논리적 추론 평가를 위해 여섯 가지 차원(Correct, Rigorous, Self-aware, Active, Oriented, No hallucination)을 아우르는 구조(scheme)를 만들었다. 평가 결과, text-davinci-003, ChatGPT, BARD 모두 논리적 추론에서 구체적인 한계점을 보여준다는 것을 확인했다. 예를들어, text-davinci-003은 연역적 시나리오에는 탁월했으나 귀납적 추론 task 처리에는 어려움이 있었고, 귀추적 추론(abductive reasoning, 귀추법) task에서 느릿한 현상을 보였다. 그리고 ChatGPT는 합리성 유지 측면에서는 능숙했으나, 복잡한 추론 문제에 대해서는 어려움을 보였다.

 

Text Generation Datasets

 텍스트 생성 데이터셋 연구는, 입력과 출력 모두 텍스트 문자열인 경우에, seq-to-seq 데이터셋을 생성하는 방향으로 발전해왔다.
한 가지 주목 할 만한 연구로는 Ontañón et al. (2022)에서 수행한 연구가 있으며, 해당 연구에서는 propositional logic과 first-order logic의 일부를 사용해 추론에 초점을 둔 데이터셋인 LogicInference를 소개했다.

propositional logic (PL) : 모든 것을 Ture 또는 False와 같이 이분법으로 평가
first-order logic (FOL) : 모든 것을 Object-Relation-Function 상관 관계로 평가

 

LogicInference는 자연어와 보다 격조있는 논리적인 표현방식(notation) 사이의 번역을 포함한 다양한 task로 이루어져있다(해당 task에는 덜 격조있는 논리 표현방식이나, 자연어를 사용하는 one-step, 그리고 multi-step 추론 또한 포함된다). 해당 데이터셋에 대한 모델의 성능 평가에는 sequence 수준의 정확도(accuracy) 메트릭이 사용된다. 유감스럽게도, 본 데이터셋을 사용해 LLM의 성능을 평가한 연구는 없었다.

 추가로 Han et al. (2022) 연구에서는 사람에 의해 색인화된(human-annotated), NLI와 텍스트 생성 task를 모두 다루고 있는, FOLIO open-doamin 데이터셋을 소개했다.

FOLIO에서의 첫 번째 task는 "natural language reasoning with first-order logic"이라고 부르는 NLI task로써, 하나의 이야기를 구성하는 여러 전제와 결론을 바탕으로 해당 결론의 진리값(truth value)을 결정하는 것을 목표로 한다. 평가 메트릭으로는 정확도(accuracy)를 사용하고, Few-shot 프롬프팅을 사용해 LLM의 FOL 추론 능력을 단계적으로 평가했다. 그 결과, GPT-3 davinci를 포함한 4개의 LLM(GPT-3, GPT-NeoX, OPT, Codex)들 중 가장 우수한 성능은, 모델이 무작위로 추론한 정확도보다는 조금 높았으나, False나 Unknown 결과에 대한 유효한 진리값을 정확히 예측하는 부분에서는 상당히 낮은 정확도를 보였다.
FOLIO의 두 번째 task는 NL-FOL 번역으로, 자연어와 FOL 사이 번역과 관련된 텍스트 생성 task이다. 해당 task 평가에는 Syntactic validity, Syntactic exact match, Syntactic abstract Syntax tree match, Predicate fuzzy match, Execution accuracy가 사용되었다. 실험 결과, 충분한 규모의 모델은 FOL 구문에서 패턴을 찾고 유효한 FOL 구문을 단계적으로 생성하는데 좋은 성능을 보였다. 하지만, GPT-3와 Codex의 경우 여전히 NL 이야기를 논리적(또는 의미론적)으로 유사한 FOL로 번역하는 작업에는 어려움이 있었다.

3.3.3. Multi-hop Reasoning

 Multi-hop 추론은 하나의 정답이나 결론에 도달하기까지, 정보와 사실들의 여러 조각들을 연결짓고 근거를 따져보는 능력을 말한다. 이는 단순히 정보의 단일 조각에 의해 답변될 수 없는, 보다 복잡한 추론 또는 답변을 요구하는 문제들을 해결하기 위해 사실이나 지식의 연쇄 과정(chain of facts or knowledge)을 포함한다.

 가장 고전적이고 대표적이라 할 수 있는 HotpotQA (Yang et al., 2018)와 HybridQA (Chen et al., 2020) 벤치마크와 함께 multi-hop 추론 평가에서는 상당한 진보가 이루어져왔다.

HotpotQA, HybridQA 벤치마크에서는 표준 평가방법으로 생성된 답과 예상 정답 사이의 EM과 F1같은 메트릭을 사용한다.

 

 Bang et al. (2023) 연구에서는 HotpotQA 데이터셋의 30개 샘플을 사용해 ChatGPT의 multi-hop 추론 능력을 평가했다. 그 결과 복잡한 추론 task 처리에 낮은 성능을 보였고, 이러한 현상이 여러 LLM에서 공통적으로 나타나는 문제점임을 확인했다.

 Chen et al. (2023a) 연구에서는 HotpotQA 데이터셋의 multi-hop 질문에 대한 LLM의 답변 능력이, 시간이 지남에 따라 어떻게 진화하는지 관측했다. 그 결과 해당 task의 일부에서 GPT-4와 GPT-3.5 성능에 상당한 편차가 있음을 확인할 수 있었다. 구체적으로 2023년 3월부터 6월까지, GPT-4는 EM 정확도가 상당히 증가한 반면, GPT-3.5는 떨어지는 반대의 경향을 보였다. 이러한 결과는, 복잡한 task에 LLM을 적용하는데 있어, 현대의 프롬프팅 방법과 라이브러리에 문제점(취약성)이 있다는 것을 나타낸다.

3.3.4. Mathematical Reasoning

 수학에서 추론, 추상, 계산과 같은 진보된 인지 기술들을 필요로 한다는 점을 고려하면, 수학에 대한 평가가 LLM 평가의 중요한 부분을 차지한다고 볼 수 있다. 일반적으로, 수학적 추론에 대한 평가 테스트셋은 문제에 대응하는 정답 라벨과 측정 기준치를 만족하는 정확도가 함께 제공된다. 따라서 해당 절(section)에서는 주로 수학적 추론 평가 데이터셋의 진화와 수학적 추론의 영역내에서의 평가 방법에 대해 설명한다. AI 모델에 대한 수학적 추론 평가의 발전은 두 단계로 나눌 수 있다.

 초기 단계는 LLM의 등장보다 앞서 진행되었고, 평가 데이터셋은 주로 수학과 과학 문제 풀이를 자동화하기 위한 연구 목적으로 설계되었다. 다양한 문제 유형들 중, 수학 단어 문제는 자연어 처리 task와 흡사하였기에 연구자들로부터 상당한 주목을 받았다. 초기의 평가 데이터셋으로는 AddSub (Hosseini et al., 2014), MultiArith (Roy & Roth, 2015), AQUA (Ling et al., 2017), SVAMP (Patel et al., 2021), GSM8K (Cobbe et al., 2021)가 있다. AddSub, MultiArith, AQUA와 같은 초기의 데이터셋은 질문이 395~600개 정도로 상대적으로 작은 데이터 크기(volume)를 가졌다.

 반면 GSM8KSVAMP는 연구자 커뮤니티로부터 상당한 주목을 받았던 최근의 데이터셋이다. GSM8K의 질문과 답은, 단조롭고 정형화된 형태는 피하면서 적절한 난이도를 가지도록, 출제자에 의해 꼼꼼히 설계되었다. SVAMP에서는 얕은 경험(shallow heuristic)만을 바탕으로 고성능을 달성한 풀이 자동화 모델(automatic solver models)들의 유효성에 의문을 제기했고, 결과적으로 테스트셋에서 해당 모델의 실제 능력을 평가하기 위해 기존 질문들을 수정했다.

두 번째 단계에서는, 다양한 데이터셋들이 주로 LLM을 평가하기 위한 목적으로 사용되었다. 이러한 데이터셋은 크게 두 가지 특성으로 분류할 수 있다.

 첫 번째 분류는, LLM을 평가하기 위한 여러 과제를 다루는, 종합 시험의 특성을 가진다. 주로 객관식 문제로 제시되는, 수학 관련 질문들로 구성된, 수리적인 과제가 보통 여기에 포함된다. M3KE (Liu et al., 2023a)와 C-EVAL (Huang et al., 2023c)와 같은 연구가 해당 범주에 속하며, 둘 모두 초/중/고등학교 수학문제를 다루고있다. 베트남 연구진들은 베트남 고등학교 졸업 시험 데이터셋인 VNHSGE (Dao et al., 2023)을 개발했다. 해당 데이터셋은 공간 기하학(spatial geometry), 수열(number series), 조합(combination) 등의 수학적 사고를 다루는 2,500여개의 수학 문제들로 구성되었다.
 두 번째 분류는, LLM을 심층적으로 평가할 수 있는 수학적 테스트셋 발굴의 중요성이다. 수학 단어 문제와 더불어, 다른 유형의 수한 문제들 또한 수학 추론 평가 영역에서 점차 주목을 받고있다. 예를들어, MATH (Hendrycks et al., 2021c) 데이터셋은 미국 고등학교 수학 경쟁 시험의 문제를 7가지의 유형(Prealgebra, Algebra, Number Theory, Counting and Probability, Geometry, Intermediate Algebra, Precalculus)으로 구분하고, 난이도에 따라 1~5등급으로 정의하고 있다. The JEEBench (Arora et al., 2023) 연구에서는 GPT-4 평가 목적으로, 사람이 풀기에도 어렵고 다소 시간이 걸리는 '인도 공동 입학 시험 (JEE)'으로부터 평가 질문들을 만들었다. MATH 401 (Yuan et al., 2023)에서는 순수 산술 능력을 평가하는 측면에서, 간단한 사칙연산에서부터 다소 복잡한 자연상수(exponentiation), 삼각법(trigonometry), 로그함수(logarithm) 등 다양한 수학적 표현을 다룬 데이터셋을 만들었다. CMATH (Wei et al., 2023b)에서는 중국 초등학교 수학 단어 문제를 난이도에 따라 등급별로 구분하고, 문제마다 풀이 방식을 단계별로 표기하여, 연구자들이 모델의 평가 결과를 보다 쉽게 이해할 수 있도록 구성한 데이터셋을 소개했다.

 LLM의 수리 추론 능력은 일반적으로, 하나의 응답을 도출하기 위해 테스트 모델 프롬프트에 예제가 없거나 일부 예제만 통합된, zero-shot 또는 few-shot 환경하에서 평가된다. CMATH에서는 zero-shot 평가를 사용해 GPT-4가 6개의 모든 난이도에 대해 60% 이상의 정확도로 가장 우수한 성능을 보인다는 것을 확인했다. 하지만 모든 모델들은 난이도가 증가함에 따라 성능이 낮아진다는 것도 알 수 있었다. Wei (et al., 2022) 연구에서는 Chain-of-Thought (이하 CoT) 개념을 소개했고, LLM 프롬프팅에 대한 그 효율성에 대해서 설명했다. 해당 연구에서는 GSM8K, SVAMP, ASDiv (Miao et al., 2020), AQuA 데이터셋에 대한 실험을 수행했고, LLM 평가에 적합한 CoT 프롬프팅 방법을 제안했다. CoT와 더불어 self-consistency 프롬프팅, Plan-and-Solve 프롬프팅 등의 방법 또한 수학 추론 task에서 사용되었다. JEEBench 실험에서는 CoT와 self-consistency 프롬프팅을 활용한 실험을 진행했고, GPT-4 조차도 연관된 수학 개념 검색과 적절한 연산 수행에 어려움이 있을 수 있다는 점을 발견했다.
 LLM 평가가 진행됨에 따라, 일부 연구에서는 앞선 평가 방법들이 정적 평가 부류에 속하는 것이라 언급했으며, 이러한 연구들에서는 인간과 LLM간 상호작용 방법에 따라서 모델의 평가 결과에 강한 영향을 미칠 수 있을 것으로 생각했다. 그러므로 사용자의 행동과 그에 상응하는 모델의 결과 데이터를 수집하는 것이 더 나은 분석으로 이어질 수 있다고 보았다. 이런 관점으로 Collins et al. (2023) 연구에서는 구체적인 대화 요소들이 평가에 반영될 수 있도록 하는 동적 평가 방법인 CheckMate를 소개했다.

 


4. Alignment Evaluation

 

 instruction-tuned LLM이 우수한 성능을 보이긴 하지만, 여전히 학습시킨 사람의 편견, 편향 그리고 환각 등의 문제점을 나타낸다. 따라서 4절에서는, LLM 정렬(alignment) 평가를 하나의 종합적인 관점으로 제공하고자 앞선 그림에서 볼 수 있듯이, 윤리, 편향, 유해성, 진실성으로 나누어 설명한다.

 

4.1. Ethics and Morality

4.2. Bias

4.3 Toxicity

 

4.4 Truthfulness (진실성)

 LLM은 자연어 텍스트 생성에 있어서 눈에 띄는 진보를 이루어왔다. LLM이 생성한 텍스트의 유창성과 일관성은 사람이 얘기하는 것에 견줄 수 있을 정도이다. 이러한 진보는 교육, 경제, 법, 의학 분야를 포함한, 실생활 다양한 도메인을 아우르며 LLM 응용의 대로를 열었다. 하지만 이런 유창성과 일관성에도 불구하고, 사실을 조작하거나 잘못된 정보를 생성할 수도 있어, 생성된 텍스트의 신뢰도를 떨어뜨리기도 한다. 이러한 한계점은 잘 못된 정보를 퍼뜨리는 위험을 가속시킬 수 있어, 법 또는 의학과 같은 전문적이고 명확한 정보를 필요로하는 응용분야에 대한 LLM 적용을 어렵게 만든다. 결과적으로 LLM이 생성한 텍스트의 신뢰성을 검증하고, 진실성에 대한 종합적인 평가가 중요하다. 이로써 LLM에 의해 생성된 정보의 정확도와 신뢰성을 높이고, 다양한 실-도메인(practical domain)에서의 유용성을 강화할 수 있을 것이다.

4.4.1. Datasets for Evaluating Truthfulness

 LLM의 진실성 평가 연구에서는 다양한 데이터셋이 사용되어왔다. 이러한 데이터셋은 관련 task에 따라 3개의 주요 유형(Question Answering, Dialogue, Summarization)으로 분류할 수 있다.

 

Question Answering

 QA 데이터셋은 LLM의 사실성(truthfulness, 진실성)을 평가하는데 있어 주요한 역할을 수행한다. 이러한 데이터셋의 대다수는, 다양한 요소(현재 인간의 지식 영역을 벗어나거나, 필수 문맥과 답변의 증거로 필요한 배경 정보가 결핍된 경우 등)들을 원인으로 하는, 난이도 높은 질문과 답변에 대한 모델의 성숙도를 평가하기 위한 하나의 수단으로 사용되고있다. LLM은 답변이 어려운 질문에 대답해야하는 경우, 사실적 근거가 결핍된 답변이라도 제공하기 위해 노력하기보다는 불명확함을 확실히 나타낼 수 있어야한다. 따라서 해당 절에서는 대답이 어려운 질문을 정리한 QA 데이터셋에 대해 간략히 소개하고, 이를 통해 사실성을 고려한 LLM의 성능 평가에 효과적인 방법을 안내하고자한다.

  • NewsQA (Trischler et al., 2017) : CNN 뉴스 기사 기반으로 사람에 의해 만들어진 119,644 개의 QA pair 기계독해 데이터셋이다. 문제를 만든 사람들에게는 기사 전문이 아닌 오직 제목과 요약본만 주어졌고, 결과적으로 9.5%의 질문에 대해서는 답변을 위한 충분한 근거가 누락되어있다.
  • SQuAD 2.0 (Rajpurkar et al., 2018) : 기존 SQuAD 기계 독해 데이터셋의 확장된 버전으로, 동일 지문을 대상으로 답변하기 어려운 53,775개의 새로운 질문으로 구성되었다. 질문은 해당 질문과 유사한 지문에 높은 연관성을 가지도록 세심하게 만들어졌다. 하지만 유사한 지문에는 질문에 대한 실제 답을 찾을 수 없도록 고안하여, 모델이 답변을 자제하기 보다는 신뢰하기 어려운 추측을 만들도록 유도해, 모델의 분별 능력을 떨어뜨린다. 이는 해당 데이터셋에 대한 도전 욕구를 부추기고, 모델이 신뢰성 있는 답변을 제공할 수 있는지에 대한 능력을 시험할 수 있도록 돕는다.
  • BIG-bench (Srivastava et al., 2022) : 현존하는 LLM의 능력으로 처리하기 힘들 것으로 여겨지는 다양한 task로 구성된 협력적인 (collaborative) 벤치마크이다. BIG-bench의 "known_unknowns" task에는 답이 없는 문제가 포함되어 있으며, 이러한 문제는 (합리적인 추측으로 타당한 답변을 만들지 못하도록) 의도적으로 고안되었기에 더욱 어려운 난이도를 가진다. 또한 답변할 수 없는 문제들은 답변이 가능한 문제들과 한 쌍으로 균형있게 구성해, 답변의 정확도와 신뢰성에 대한 보다 정밀한 평가가 가능하다.
  • SelfAware (Yin et al., 2023) : 질문에 명확한 답을하기에는 정보가 부족한 경우, LLM이 자신이 가진 지식의 경계를 어떻게 인지하는지에 대한 평가를 위해 설계된 벤치마크이다. 1,032 개의 답변할 수 없는 문제와 2,337개의 답변 가능한 문제로 구성되었다. 답변할 수 없는 질문은 그 이유를 기반으로 5가지로 분류하고 있으며 (no scientific consensus, imaginary, completely subjective, too many variables, philosophical), 이는 LLM이 각 도메인의 지식적 한계를 인지하는 능력에 대한 종합적인 평가를 가능도록 한다.
  • 앞서 언급된 데이터셋에서는 답변이 어려운 질문을 사용해 LLM의 사실성을 정량화하는 방법으로 사용했다면, TruthfulQA (Lin et al., 2022a) 벤치마크에서는 훈련 데이터로부터 학습된 거짓 답변 생성을 피할 수 있는지에 대한 시험을 목표로한다. 이렇게 학습된 거짓 답변(imitative falsehoods, ~모방 거짓)을 "거짓 보고(false statements)"라 하고, 거짓 보고는 모델의 훈련 분포에서 높은 가능성(likelihood, ~확률값)을 가진다. TruthfulQA 벤치마크는 다양한 38개 분야에 걸친 817개 질문를 포함하고, 모델로부터 모방 거짓이 나올 수 있도록 특별하게 만들어졌다. TruthfulQA는, 훈련데이터에 다수 반영된 거짓 주장(claim)을 일으킬 수 있도록 설계한 대립적인 질문에 집중함으로써, 현대의 LLM이 진실된 답변을 생성할 수 있는지에 대한 하나의 엄격한 시험을 제공한다.

대화 (Dialogue)

 LLM의 공통응용 분야 중 하나는 자연어를 사용해 사람과 상호작용 할 수 있는 강력한 대화시스템이다. 하지만 LLM은 사실과 관련 없거나 비일관적인 정보를 만들어 제공할 수도 있다. 대화하는 동안에 모델로부터 생성된 말의 사실성과 일관성을 직접(manually) 검증하는 것은 시간과 비용이 큰 작업이기에, 이러한 이슈에 대처하기 위한 다양한 자동화 메트릭이 고안되었다. 또한 대화에서의 사실 검증과 일관성 평가를 위한 연구 목적으로 다양한 벤치마크 데이터셋도 만들어졌다. 이렇게 만들어진 데이터셋은 크게 사실 확인(fact-checking)과 사실 일관성 평가 (factual consistency evaluation), 두 가지 분류로 구분지어 설명 할 수 있다.

 

1. Fact-checking (사실 확인)

 Gupta et al. (2022) 연구에서는 대화에서의 사실-확인 task를 소개하고, DIALFACT라는 이름의 벤치마크를 만들었다. DIALFACT 벤치마크는 대화에서의 주장(claim)을 주석으로 표시한 22,245개 데이터로 구성되고, 각 주장은 Wikipedia로부터 추출된 증거의 일부와 함께 짝지어져있다. 이러한 주장은 증거와의 관계를 기반으로 입증(supported)되는 것인지, 반박(refuted)되는 것인지, 혹은 정보 부족인지로 분류된다. DIALFACT는 다음 3개의 부과제(subtask)를 다루고있다.

1) The Veifiable Claim Detection task : 주장이 입증될 수 있는 사실 정보를 포함하는지 구분
2) The Evidence Retrieval task : 주어진 주장에 대한 관련된 Wikipedia 문서와 증거 문장 검색
3) The Claim Verification task : 하나의 주장이 주어진 증거 문장을 기반으로, 입증되는지 반박되는지 또는 정보가 충분하지 않은지 분류

 

2. Factual Consistency Evaluation (사실적 일관성 평가)

 Honovich et al. (2021) 연구에서는 사실적 일관성이 수동적으로 색인 작업된 Wizard-of-Wikipedia 데이터셋에 대한 시스템 응답 데이터셋을 만들었다.

 유사하게 Dziri et al. (2022b) 연구에서는 지식 기반 대화에서 사실적 일관성을 평가 목적으로 BEGIN 벤치마크를 제안했다. BEGIN 벤치마크는 수동 색인화된 12,000개의 대화 응답을 3개의 분류(온전히 대화에 기반함, 대화에만 기반하지 않음, 일반적임)로 구성했다. Fully attributable (온전히 대화에 기반함) 응답은 제공된 지식으로만으로도 입증될 수 있는 정보를 이용하고, 반면 not fully attributable (대화에만 기반하지 않는) 응답은 입증되거나 검증되지 않은 정보를 포함한다. Generic (일반적인) 응답은 출처가 너무 모호하거나 폭넓은 경우에 해당한다.

 추가로, ConsisTest 밴치마크 (Lotfi et al., 2022) 는 open-domain 대화 agent의 사실 일관성을 평가하는 것에 집중했다. 해당 벤치마크에서는 페르소나 기반의 대화를 크라우드소싱해 만든 PersonaChat 데이터셋을 사용했다. 벤치마크를 만드는 과정에서, PersonaChat 데이터에 존재하는 페르소나 상태와 대화 기록을 참조해, WH(what, when, who, why) 및 Y/N (Yes/No) 유형의 간단한 사실 질문들을 생성했다. 그리고 벤치마크 샘플을 생성하기 위해 각 질문에 적절한 대화 세그먼트를 함께 붙였다. 최종적으로, 페르소나 현상(facts)과 대화 문맥간의 일관성을 종합적으로 평가하기 위한, 약 18,600 개의 QA 대화쌍으로 이루어진 데이터셋이 만들어졌다.

  1. Honovich et al. (2021) 연구에서는 사실적 일관성이 수동적으로 색인 작업된 Wizard-of-Wikipedia 데이터셋에 대한 시스템 응답 데이터셋을 만들었다.

요약

 요약은, 긴 문서로부터 가장 주요한 정보만을 함축해 간결한 개요를 자동으로 생성해준다는 점에서, LLM의 탁월한 응용 분야로 자리매김했다. 그럼에도 불구하고, LLM은 여전히 원본 문서에서 사실 일관성을 유지하면서 요약본을 생성하는데 어려움을 나타내고 있다. 이는 배포에 앞서 LLM의 사실 일관성에 대한 철저한 평가가 중요하다는 점을 역설하는 것이며, 따라서 이러한 모델로부터 생성된 요약의 사실 정확도에 대한 자동화 검증 연구가 촉구되는 상황이다.

 더욱 강건한(robust) 평가 목적으로, 일부 연구에서는 이러한 요소들을 평가하는 벤치마크를 개발하는데 집중했다. 해당 벤치마크에서의 핵심은, 모델이 생성한 요약본과 원본 문서 사이의 사실 일관성을 평가하기 위해, 수동으로 색인화 작업을 진행했다는 것이다. 색인화 작업은, 요약과 원문 사이 사실적 정렬(factual alignment) 등급을 나타내는, Likert 규모 등급과, 요약이 완전한 일관성을 가지는지 여부를 나타내는 이진 일관성 라벨(binary consistency label)을 포함한다. 이와 같은 벤치마크로는 XSumFaith (Maynez et al., 2020), FactCC (Kryscinski et al., 2020), SummEval (Fabbri et al., 2021), FRANK (Pagnoni et al., 2021), SUMMAC (Laban et al., 2022), QAGS (Wang et al., 2020) Goyal’21 (Goyal & Durrett, 2021)가 있다.

 앞서 언급한, 문장과 일부 또는 요약 수준에서 색인화 작업을 수행한 벤치마크와는 대조적으로, Cao et al. (2022)연구에서는 개체(Entity) 수준에서의 색인화된 벤치마크를 만들었다. 한편 Cao & Wang (2021) 연구에서는 단어-수준 색인화를 포함한 CLIFF 벤치마크를 소개했다. 이러한 연구들은 앞선 연구들과 비교했을 때, 보다 잘-정제된(fine-grained) 색인화를 제공한다.

 현대의 요약 시스템에서 더욱 강건하고 표준화된 사실성 평가를 가능하게 만들고자, Tang et al. (2023a) 연구에서는 AGGREFACT 벤치마크를 만들었다. AGGREFACT는 사실성-색인화 데이터 9개(FactCC, Wang’20, SummEval, Polytope, Cao’22, XSumFaith, FRANK, Goyal’21, CLIFF를 통합한 벤치마크이다.

4.4.2. Methods for Evaluating Truthfulness

 언어 모델의 사실 정확도를 평가하기 위한 벤치마크 데이터셋처럼, 진실성을 평가하기 위한 방법론 또한 평가 분야에서 중요한 역할을 수행한다. 진실성을 평가하기 위한 방법은 크게 3가지(NLI, QA & QG, LLM 응용)로 분류할 수 있다.

 

NLI-based Methods

 NLI (Netural language inference, 자연어 추론)는 자연어 처리 과정에서 기본이되는 task 이다. NLI에서는, 흔히 "전제 (premise)"와 "가설(hypothesis)"로 일컫는 두 텍스트 사이에서, 논리적인 관계를 식별하는 능력에 초점을 두고있다. NLI task에서는 전제와 가설 사이의 관계를 참, 거짓, 중립 중 가능성 있는 논리 관계 중 하나로 분류하는 능력을 요구한다. NLI는, 대화나 요약 시스템과 같은 응용분야로부터 생성된, 텍스트의 일관성을 보증하는데 있어 중요한 역할을 맡고있다. 대화 시스템에 있어서, 생성된 말은 (대화 문장과 외부 지식을 포함한) 관련된 원본 정보로부터 기인된 것이어야 한다. 유사하게 요약 시스템에 있어서도, 생성된 요약이 원문과의 일관성을 유지하는 것이 중요하다.

 수반된 결과에서 원문 텍스트와 시스템 출력이 일관성을 나타낼 때, 시스템 출력과 원문 텍스트 사이 일관성 검증 과정은 NLI 문제로 규격화 될 수 있다. 일관성 검증에 사용되는 수반 모델은 보통 사전학습된 언어 모델(BERT, RoBERTa, T5, mT5)에 NLI 데이터셋(SNLI, MNLI, ANLI)을 fine-tuned(미세-조정)하는 방법으로 만들어진다.

 

QAQG-based Methods

 질답과 질문 생성 (QAQG, The Question Answering and Question Generation)에 기반한 방법은 두 텍스트간의 사실 일관성을 평가하기 위한 새로운 하나의 접근법이다. 해당 방법은 요약 task 대상으로 처음 제안되었고, 생성된 요약과 원문 사이 사실 일관성 평가를 위해 QAQG 모델을 활용했다.

 구체적으로는, QAQG 파이프라인은 우선 요약 텍스트로부터 질문이나 질-답 쌍을 자동으로 생성하기 위해 QG 모델을 활용한다. 만약 최초 QG 단계에서 질문만 생성되었다면, 해당 질문들은 이어서 (관련 요약과 원문을 독립 조건으로 참조해) QA 모델에 의해 답변된다. 반면, QG 단계에서 질-답 쌍이 생성되었다면, 질문은 오직 원문만을 관련 조건으로 참조해 QA 모델에 의해 답변된다. 이후 두 답변 사이 유사도를 측정(일반적으로 F1 점수와 같은 토큰-기반 정합성 메트릭을 사용해 측정)해 요약문과 원문 사이의 일관성의 지표로 사용한다. 직관적으로 보면 요약은 원문의 정보 일부를 포함할 것이기에, 요약이 원문을 충실하게 잘 반영했다면 요약과 문서를 조건으로 한 답변은 높은 유사도를 나타내야한다.

 QAQG 프레임워크는, 질문이 대화 응답을 조건으로 생성되고 이후 주어진 지식 정보를 조건으로 QA 모델에 의해 답변된다면, 대화 task에도 유사하게 적용될 수 있다.

 

LLM-based Methods

 최근 연구에서는 적절한 프롬프트가 제공된다면, LLM이 텍스트 품질의 (일반적인 목적의) 평가자(evaluator)로서 사용할 수 있으며, 또한 번역이나 요약과 같은 전문-task 응용 분야에서도 평가자로서 활용될 수 있다고 보고있다.

 LLM의 진실성 문장과 관련하여, Tam et al. (2023) 연구에서는 주어진 원문에서 사실적으로 일관성을 유지한 요약이 그렇지 않은 것에 비해 얼마나 더 선호되는지 평가하도록 LLM에 프롬프팅하여, 사실 일관성을 측정하는 방법을 제안했다.

또한 Chern et al. (2023) 연구와 Min et al. (2023) 연구에서는 LLM에 의해 생성된 문장의 사실성을 평가하기 위해 각각 FacToolFActScore를 소개했다.
 구체적으로 FacTool은 먼저, 여러 task에서 주장(claim)을 자연어로서 어떻게 정의하고 있는지를 기반으로, LLM이 평가 대상 문장으로부터 주장을 추출하도록 프롬프팅한다. 이후 FacTool은 이렇게 추출된 주장으로부터, 증거수집을 위해 검색엔진이나 코드 인터프리터 또는 LLM과 같은 외부 도구에 쿼리가 가능하도록하는, 쿼리를 생성하도록 LLM에 프롬프팅한다. 최종적으로 FacTool은 증거에 대한 주장을 비교하고, 각 주장에 대해 이진(참/거짓) 사실성 라벨을 할당한다.
 FActScore는, FacTool과 어떤 의미에서 유사하게, 우선 LLM을 사용해 텍스트를 짧은 표현(statement)으로 나누어 텍스트 사실성을 평가한다. 이러한 각각의 짧은 표현은 정보의 단일 조각을 포함하는 하나의 사실성 원자(atomic fact)로 나타낸다. 이후 LLM에는 이러한 사실성 원자를 검증하도록 프롬프팅된다.

 앞서 언급된 LLM 사실성 평가에 있어 평가자로서 GPT-4와 ChatGPT같이 널리 인식된 강력한 LLM을 사용한 일반적인 연구와는 대조적으로, 생성된 텍스트의 사실성을 LLM 스스로 평가하는 자가-평가(self-evaluation)를 깊이 파고든 또 다른 부류의 연구가 있다. 해당 분야의 선구적인 연구로부터 질문에 대한 응답의 정확성과 관련하여 LLM을 사용해 그 불명확성을 표현할 수 있다는 것이 입증되었고, 이는 LLM이 그들의 지식 경계와 관련해 자가-인식(self-awareness)을 어느정도 가지고 있음을 의미한다.
 이러한 부류의 연구와 사실성 관련 내용이 대다수의 훈련 말뭉치로 구성되었다는 점으로 짐작해 볼 때, LLM은 사실성 관련 내용과 유사한 토큰에 높은 가능성(probability, ~확률값)을 매길 것으로 예측된다. 결과적으로 LLM이 동일 프롬프트에 대해 생성한 다중(multiple) 응답은 LLM에 의해 환각증상이 나타난 것이 아니라면, 높은 확률값을 가지는 토큰을 선호하는 오늘날 일반적인 생성 전략을 따라, 서로 비슷해야한다. 이에 따라서, 우선 다중 응답을 샘플링하여 텍스트 사실성을 정량화하고 이후 그 응답들간의 일관성을 측정하는 방법인, SelfCheckGPT (Manakul et al., 2023)가 제안되었다.
 Azaria & Mitchell (2023) 연구에서는, LLM의 사실성을 평가하기 위해 스스로 생성한 텍스트를 사용하는 대신, 입력값으로 LLM의 활성은닉층(hidden layer activation)을 사용해 하나의 응답이 참인지 거짓인지 예측하는, 분류모델(classifier) 학습 방법을 제안한다.

 


5. Safety Evaluation


6. Specialized LLMs Evaluation

 LLM은 다양한 후속 부문(downstream) task에서 상당한 성능을 보이면서, 여러 전문 도메인에서도 무시할 수 없을 정도의 성능을 보여준다. 이러한 도메인으로는 생물학, 의학, 교육, 법률, 컴퓨터 과학, 경제와 같은 분야가 있다. 해당 절(section)에서는, 앞선 도메인 내에서 LLM의 최근 성과에 대해 간략히 설명한다. 그럼에도 여전히 도전과 한계가 존재한다는 것을 인정하는 것이 중요하다.

 

6.1 Biology and Medicine

6.2 Education6.3 Legislation

 

6.4 Computer Science

 

6.5. Finance

 금융 도메인에서의 LLM 평가는, 금융 정보를 찾고 있는 전문가와 그 외 비전문가 모두의 수요를 충족할 수 있도록, 금융 지식을 정확하고 신뢰성 있게 답하는 것을 중요하게 여긴다.

 

Financial Application

 연구자들은 LLM을 금융 도메인에 적용하기 위해 지속적으로 LLM 개발에 힘쓰고있다.

 XuanYuan 2.0 (Zhang & Yang, 2023) 연구에서는, 대화 문맥에서 일관되고 문맥적으로 관련있는 응답을 생성하는데 뛰어나도록, 사전학습된 언어 모델을 개선했다.

 FinBERT (Araci, 2019) 연구에서는 Google의 WordPiece 알고리즘을 사용해 금융 텍스트 말뭉치로부터 금융 어휘집(FinVocab)을 구축했다. 이는 금융 지식을 통합하고 금융 텍스트에서 문맥 정보를 요약하는 방법으로, 특히 제한된 훈련 데이터를 사용한 시나리오와 일반 텍스트에서는 잘 사용되지 않는 금융 단어를 포함한 텍스트를 다루는데 있어서, Google의 본래 BERT 모델과 이 외 알고리즘에 비해 장점을 가진다.

 BloombergGPT (Wu et al., 2023)는 500억 파라미터를 가진 언어 모델로, 다양한 금융 task에 있어서 기존의 모델을 능가할 수 있도록 ConvFinQA, FiQA SA, FPB, Headline과 같은 넓은 범주의 금융 데이터를 학습했다.

 

Evaluating GPT

 Son et al. (2023a) 연구에서는 금융에서 LLM의 잠재적 응용과 관련해 task 공식화(formulation), 합성 데이터 생성, 프롬프팅 관련 조사를 수행했다. 해당 연구에서는 GPT의 파라미터 규모를 2.8B 부터 13B까지 조정하면서 이러한 응용에서의 LLM에 대한 평가를 진행했다. 평가 결과, 일관된 금융 추론 능력은 6B에서 나타났고, instruction tuning이나 보다 큰 학습 데이터에 대해서 향상된 성능을 나타냈다.

 Niszczota & Abbas (2023) 연구에서는 GPT가 일반 대중을 위한 금융 robo-advisor 역할로서의 기능을 잘 수행하는지에 대해 평가했다. text-davinci-003과 ChatGPT, 두 개의 GPT 버전에 대한 평가를 위해 금융 교양 시험과 advice-utilization(조언-활용) task를 사용했다. 두 GPT 모델은 금융 교양 시험에서 각각 58%와 67%의 정확도를 보였다. 반면, 연구의 참여자들은 GPT의 성능을 79.3%로 과대평가했다. 이로부터 낮은 금융 지식을 가진 대상자들이 GPT로부터의 조언을 더 잘 받아들인 다는 것을 발견했다.

 Zaremba & Demir (2023) 연구에서는, 금융에서 GPT 모델이 윤리적이고, 투명하며, 믿을만한 사용이 보장되는지와 관련한, 지속적인 연구의 중요성에 대해 언급했다. ChatGPT를 fine-tune 하는데 사용된 훈련 데이터는 다양한 텍스트셋을 포한한다. (따라서) 훈련 데이터에서 저-품질 및 편향된 문맥을 제거하기 위한 노력이 이루어져야 한다.

Comments