Daily Develope

[Paper] G-EVAL : NLG Evaluation using GPT-4 with Better Human Alignment 본문

AI

[Paper] G-EVAL : NLG Evaluation using GPT-4 with Better Human Alignment

noggame 2024. 3. 13. 08:30

G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment

Abstract

  NLG(Natural Language Generation) 평가는 시스템적으로 자동화하기 어려운 작업이다. 기존 BLEU와 ROUGE와 같은 대화 참조를 기반으로한 메트릭은 창조성과 다양설이 결여되어있어, 사람의 판단 결과와는 관계성이(유사도가) 낮다. 최근 연구에서는 LLM 기반으로 NLG를 평가하려는 시도가 있으나, 아직까지는 보통의 뉴럴 평가도구(neural evaluator, 평가 목적으로 학습된 모델)보다 사람과의 일치도가 낮았다.
  따라서 본 논문에서는 LLM 프레임워크와 함께 CoT 및 form-filling 패러다임을 사용해 NGL 출력의 품질을 평가하는 G-EVAL에 대해서 소개한다.
  요약과 대화생성 task에 대해서 시험을 수행했으며, GPT-4를 사용한 G-EVAL 주축 모델은 사람과 0.514의 Spearman 상관성(correlation)을 보였고, 이전 방법들에 비해 성능면에서 크게 앞섰다.

1. Introduction

  최근의 LLM은 높은 품질과 다양한 텍스트를 생성하기에 사람이 쓴 텍스트와 구별하기가 힘들며, 따라서 이러한 NLG 시스템의 품질을 평가하는 것에는 여러 어려움이 있다.
  기존 NLG 평가에 널리 사용되는 BLEU, ROUGE, METEOR과 같은 자동화 평가 메트릭은 사람이 평가한 것과는 낮은 상관성을 가지며, 관련 참조 출력을 필요로 한다는 문제점이 있다. 최근 연구에서는 LLM을 학습시켜, 어떠한 참조 대상도 없이 학습된 확률값에 따라 NLG 출력값의 점수를 매기는 방식으로, 직접 NLG 평가에 사용될 수 있도록 하는 연구가 이루어졌다. 하지만 LLM을 NLG 평가에 사용할 수 있는지에 대한 타당성과 유효성 검증이 제대로 이루어지지 않았으며, 여전히 뉴럴 평가를 사용하는 것 보다 사람이 평가한 결과와의 일치도가 낮은 문제가 존재한다.
  따라서 본 논문에서는 LLM 프레임워크와 함께 CoT 및 form-filling 패러다임을 사용해 NGL 출력의 품질을 평가하는 G-EVAL에 대해서 소개한다. 본 프레임워크에서는 오직 Task IntroductionEvaluation Criteria에 대해서만 명시하고, 이로부터 CoT를 생성하도록 LLM에 요청한 뒤, 해당 CoT를 따라 NLG 출력값을 평가하도록 재요청하는 방식을 사용한다. 평가 결과는 하나의 형태(form)로 규격화되어있다.
  추가 시험으로는 2개의 NLG task에 대해 3개의 meta-evaluation benchmark를 적용해 결과를 확인해보았으며, 그 결과 G-EVAL가 NLG 평가도구로는 사람이 평가한 것과 유사도 방면에 있어서 가장 우수한 성능을 보였다.

2. Method

  G-EVAL는 프롬프트 기반 평가도구로서 다음 3가지 요소로 구성된다.

 

  1. 프롬프트는 평가 task에 대한 정의(Task Introduction)와 함께 원하는 평가 기준(Evaluation Criteria)을 포함한다.
  2. LLM을 사용해 평가 단계를 세부적으로 표현하는 CoT를 생성한다.
  3. LLM을 호출하고, 반환된 토큰의 확률값을 기반으로 점수를 계산하는 점수 함수(scoring function)를 사용한다.

Prompt for NLG Evaluation

  해당 프롬프트는 자연어 지시자(instruction)로서 평가 task와 평가 기준(criteria)을 정의한다.
  평가 task 중 요약 task에 대한 프롬프트 예시는 다음과 같다.

You will be given one summary written for a news article. Your task is to rate the summary on one metric. Please make sure you read and under- stand these instructions carefully. Please keep this document open while reviewing, and refer to it as needed.

 

  또한 프롬프트는 여러 NLG task를 평가하기 위한 일관성, 간결성, 문법과 같은 평가 기준을 포함해야하며, 요약에 대한 일관성 평가 관련 작성 예시는 다음과 같다.

Evaluation Criteria: Coherence (1-5) - the collective quality of all sentences. We align this dimen- sion with the DUC quality question of structure and coherence whereby ”the summary should be well-structured and well-organized. The summary should not just be a heap of related information, but should build from sentence to sentence to a coherent body of information about a topic.”

Auto Chain-of-Thoughts for NLG Evaluation

  CoT는 텍스트 생성 과정동안 LLM으로부터 생성되는 중간 표현방식의 시퀀스이다. 평가 task에 있어서 평가 기준은 보다 세부적으로 묘사될 필요가 있으며, 이는 수동으로 설계하기에는 시간이 오래 드는 작업이다. 우리는 LLM이 이러한 평가 단계를 스스로 만들 수 있다는 것을 확인했고, 따라서 CoT를 사용해 LLM이 생성된 텍스트를 평가하는데 더 많은 상황(context)과 지도(guidance)정보를 제공하고 그 과정과 결과에 대한 설명에 도움을 줄 수 있도록하는 방법을 적용했다.
  예를들어 요약 task의 일관성을 평가하는 과정에서는 "평가 단계"를 프롬프트에 추가하고, LLM이 다음의 CoT를 자동으로 생성할 수 있도록한다.

1. Read the news article carefully and identify the main topic and key points. 2. Read the summary and compare it to the news article. Check if the summary covers the main topic and key points of the news article, and if it presents them in a clear and logical order. 3. Assign a score for coherence on a scale of 1 to 5, where 1 is the lowest and 5 is the highest based on the Evaluation Criteria.

Scoring Function (점수 함수)

점수 함수는 LLM 호출 과정에서, 앞서 설계된 프롬프트, 자동화된 CoT, 입력 문장, 평가 대상 텍스트를 입력으로 사용한다. GPTScore 연구에서는 평가 메트릭으로 평가 대상 텍스트를 생성하는 조건 확률값을 사용하는데 반해, G-EVAL에서는 form-filling 패러다임 방식으로 직접 평가를 수행한다.

  예를들어 요약 task의 일관성을 평가하는 과정에서, CoT와 뉴스 기사, 요약을 하나의 프롬프트로 묶고, 이후 결과를 앞서 정의된 평가 기준에 따라 1~5 사이의 점수로 출력하도록 LLM에 요청했다. 하지만 점수 관련해서는 1~5점 중 대부분 3점에 치중되는 경향의 문제점과, 명시적으로 소수(decimal)값을 요청했음에도 가끔 정수(Integer)값만 출력하는 문제가 있었다.

  이런 문제를 처리하기위해 LLM으로부터 출력되는 토큰의 확률값을 사용해 점수를 일반화하고 그 합계를 계산해 최종값을 도출하도록 사용했다.

 

$$
score = \Sigma^{n}_{i=1}{p(s_i)*s_i}
$$

3. Experiments

  3개의 벤치마크(SummEval, Topical-Chat, QAGS)와 2개의 NLG task(요약, 대화 생성)에 대해서 시험을 수행했다.

3.1 Implementation Details

  GPT-3.5 (text-davinci-003)과 GPT-4를 사용했으며, G-EVAL-4는 GPT-4를 주축 모델로 사용한 G-EVAL 프레임워크이고 G-EVAL-3.5는 GPT-3.5 모델을 사용한 것이다.
  토큰 확률값을 추정하고자 환경변수 값으로는 "n=2, temperature=1, top_p=1"을 사용해 샘플에 대해서 20번 시험했다.

3.2 Benchmarks

  G-EVAL와 사람의 평가 사이 상관성을 측정하고자 세 가지의 meta-evaluation 벤치마크를 적용했다.

  • SummEval : 요약에 대한 다양한 평가방법 비교 (유창성, 일관성, 정합성, 관련성)
  • Topical-Chat : 다양한 평가도구(evaluator)에 대한 meta-evaluating을 위한 테스트배드로, 사람이 매긴 4가지 특성(자연스러움, 일관성, 매력성, 타당성)에 대한 등급 사용
  • QAGS : 요약 task의 환각을 평가하기 위한 벤치마크로, 두 가지 요약 데이터셋에 대한 일관성 측정을 목표로 시험

3.3 Baselines

생략

3.4 Results for Summarization

  요약 수준에서의 SpearmanKendall-Tau 상관(계수)을 사용해 다양한 메트릭에 대한 요약 평가를 수행했다.
  Table 1의 첫 번째 행은 모델 출력과 참조 텍스트 사이의 의미적 유사도를 비교한 메트릭 결과이다. 두 번째 행은 요약한 품질에 대해 사람이 매긴 등급을 학습한 신경망 메트릭을 사용했을 때의 평가 결과이다. 두 번째 메트릭은 첫 번째 유사도 기반에 비해 높은 상관성을 가지며, 이는 요약 (task) 평가에 있어 더 높은 신뢰도를 가진다고 볼 수 있다. 마지막 행은 GPT 기반 평가방법이다. G-EVAL-의 경우 이전의 최첨단(state-of-the-art) 평가도구들을 대체로 능가하며, G-EVAL-4는 G-EVAL-3.5와 비교할 때 (Spearman과 Kendall-Tau 상관 계수 모두에서) 사람이 평가한 경우와의 일치율이 더욱 높았다.

3.5 Results for Dialogue Generation

  대화의 품질 방면에서, 다양한 평가도구의 결과가 사람이 등급으로 평가한 결과와 얼마나 일치하는지를 측정하기 위해 Topical-chat 벤치마크를 사용했고, 각 대화턴마다 Pearson과 Spearman 연관 계수를 계산했다.

  Table 2에서 보이는 바와 같이 (의미) 유사도 기반의 메트릭은 매력성(engaging)과 타당성(grounded)에 있어서 사람이 평가한 것과 비교해 좋은 일치율을 보였으나, 이 외의 평가항목에 대해서는 그렇지 못했다. G-EVAL가 나오기 전까지는, 학습 기반의 평가도구들 중 UniEval가 모든 영역에 있어서 사람의 평가 결과와 유사도가 높았다.
  G-EVAL 또한 Topical-Chat 벤치마크에 있어서 이전의 모든 최첨단 평가 도구들을 상당히 능가했으며, G-EVAL-3.5와 G-EVAL-4가 유사한 성능을 보이는 것으로 보아 G-EVAL 모델에 있어서는 해당 벤치마크가 상대적으로 쉬운 난이도인 것으로 보인다.

3.6 Result on Hallucinations

  발전된 NLG 모델에서는 입력값으로 사용된 문맥과는 다른 텍스트를 생성해내며, 최근 연구에 따르면 강력한 LLM일지라도 여전히 환각 문제가 발생하는 것으로 확인됐다. 이는 요약에 있어 일관성을 측정하기 위한 평가도구를 설계하려는 최근 연구에 동기부여가 되었다. 우리는 다양한 요약 데이터셋(CNN/DailyMail, XSum)을 포함한 QAGS meta-evaluation 벤치마크를 사용해 이를 시험했으며, 결과는 Table 3과 같다.

  BARTScore 평가도구는 추출 관련셋인 QAGS-CNN에서 우수한 성능을 보였으나, 보다 추상적인 QAGS-Xsum 데이터셋에 대해서는 낮은 상관 관계(연관성)를 보였다. UniEval는 둘 모두에서 좋은 성능을 보였다.
  평균적으로 G-EVAL-4가 최신 평가도구들보다 QAGS 벤치마크 성능면에서 우수했으며, QAGS-Xsum 시험에 있어서는 보다 큰 격차를 보였다. 반면 G-EVAL-3.5는 LLM 수용력에 따라 일관성(consistency) 측면에서 민감한 부분이 있어 벤치마크 수행에 실패했다. 그 결과는 Table 1과 동일하다.

4. Analysis

Will G-EVAL prefer LLM-based outputs?

  LLM을 평가도구로서 사용하는데 한 가지 염려되는 부분은, 사람이 작성한 고품질의 텍스트 보다는, LLM 스스로에 의해 생성된 출력값을 더 선호하지 않을까 하는 점이다. 해당 이슈를 확인하고자, 우리는 요약 task에 대해서 LLM이 생성한 평가 점수와 사람이 작성한 요약본을 비교하는 실험을 수행했다. 본 실험에서는 Zhang et al 연구에서 수집된 데이터셋을 사용했으며, 해당 연구에서는 프리랜스 작가에게 뉴스 기사에 대한 고품질 요약본을 만들도록 요청하고, 주석자(annotator)에게 작가가 쓴 요약본과 LLM(GPT-3.5)에 의해 생성된 요약본을 비교하도록 요청했다.

 

  해당 데이터셋은 3가지 유형으로 분류될 수 있다.

  1. 사람이 판단하기에, 사람이 작성한 요약이 GPT-3.5 요약보다 높은 점수를 받은 경우
  2. 사람이 판단하기에, 사람이 작성한 요약이 GPT-3.5 요약보다 낮은 점수를 받은 경우
  3. 사람이 판단하기에, 사람이 작성한 요약이 GPT-3.5 요약과 동등하게 좋은 경우

  수행 결과는 그림 2와 같으며, G-EVAL-4의 경우 사람이 작성한 요약문에 대해서, 사람들이 해당 요약문을 더 선호하는 경우 높은 점수를, 반대로 GPT-3.5 요약을 더 선호하는 경우에는 낮은 점수를 매기는 동일한 모습을 보였다. 하지만 G-EVAL-4는 사람이 작성한 요약보다 GPT-3.5 요약에 항상 후한 점수를 주었다. 이런 현상에 대해서는 2가지 가능성을 보고있다.

 

  1. 고품질 시스템으로부터의 NLG 출력은 평가하기 어려운 것이 자연스러운 현상이다. 원논문의 저자는 주석자(annotator)들 사이에서도 사람이 작성한 요약과 LLM이 생성한 요약에 대한 평가 일치율이, Krippendorff's alpha가 0.07 정도로, 매우 낮았다는 점을 발견했다.
  2. G-EVAL는 아마도 LLM이 생성한 요약에 편향된 것으로 보이며, 이는 모델이 생성과 평가 단계에서 평가 기준에 대해 모델간에 동일한 생각을 공유하기에 발생했을 가능성이 있다.
  3. 본 연구에서는 해당 이슈에 대한 선행 연구로 볼 수 있으며, LLM기반 평가도구로서 LLM이 생성한 텍스트에 대한 편향 현상을 줄이고, 완전히 이해하기 위해서는 더 많은 연구가 필요하다. 우리는, 만약 이러한 평가 점수가 조정(tuning)을 위한 보상 신호로 사용된다면, LLM기반의 평가도구가 자기-강화에 빠질 수 있다는 문제점에 조명했다. 그리고 이는, NLG task에서의 진실된 평가 기준이라기 보다는, 그들 스스로의 평가 기준을 만들어버리는 LLM 과적합(overfitting)의 결과를 초례할 수 있다.

The Effect of Chain-of-Thought

  우리는 SummEval 벤치마크에 대해서 G-EVAL에 CoT를 적용한 경우와 그렇지 않은 경우를 비교했다. Table 1에서 보는바와 같이 G-EVAL-4에 CoT를 적용한 경우가 그렇지 않은 경우보다 모든 경우에서 더 높은 상관성(correlation)을 나타냈고, 유창성에 있어서 더욱 두드러졌다. 이는 CoT가 LLM이 생성된 텍스트를 평가하는데 있어 더 나은 상황(context)과 지도(guidance)를 제공할 수 있음을 나타내며, 또한 평가 과정과 결과를 설명하는데 도움을 줄 수 있다는 것을 뜻한다.

 

The Effect of Probability Normalization

  우리는 마찬가지로 SummEval 벤치마크에 대해서 G-EVAL에 확률 정규화(probability normalization)를 적용한 경우와 그렇지 않은 경우를 비교했다. Table 1에서 보는바와 같이 확률 정규화를 적용한 G-EVAL-4가 적용하지 않은 경우보다 더 낮은 Kendall Tau 상관성(correlation)을 나타냈다. 이는 일치하는 쌍(pair)과 일치하지 않은 쌍의 수를 기반으로 상관성을 계산하는 Kendall-Tau 상관성 특성과 관련있을 것으로 생각된다. 확률을 고려하지 않고 직접 점수를 측정하는 경우에는 일치 및 불일치로 계산되지 않기에, 다수의 동점이 발생할 수 있다. 이로 인해서 Kendall-Tau 상관성이 높아질 수는 있으나, 생성된 텍스트 평가에 있어서 모델의 실제 수용력(capacity)을 나타내는 것은 아니다.
  반면 확률 정규화는, 생성된 텍스트간의 미묘한 차이를 잘 찾아내, 더욱 잘-정제되고 연속된 점수로 나타낼 수 있다. 이는 점수의 등급 순위를 기반으로한 확률을 G-EVAL-4에 적용해, Spearman 상관성을 높이는 방법으로 반영되었다.

 

The Effect of Model Size

  우리는 SummEval와 QAGS 벤치마크에 대해서 모델의 서로 다른 크기별 G-EVAL의 성능에 대해 비교했다. Table 1과 Table 3에서 G-EVAL-4가 G-EVAL-3.5에 비해서 대부분의 측정치(dimensions)와 데이터셋에 대해 더 높은 상관성을 나타내는 것을 볼 수 있다. 이는 큰 모델이 G-EVAL의 성능을 높일 수 있으며, 특히 더욱 도전적이고 복잡할 수 있는 일관성(consistency)과 관련성(relevance)과 같은 평가 task에 효과적일 것으로 생각된다.

Related Work

생략

Conclusion

생략

Comments