ML/NLP

[논문리뷰] Legal Prompting: Teaching a Language Model to Think Like a Lawyer

then-go 2023. 9. 7. 20:44

Legal Prompting: Teaching a Language Model to Think Like a Lawyer

Large language models that are capable of zero or few-shot prompting approaches have given rise to the new research area of prompt engineering. Recent advances showed that for example...

https://arxiv.org/abs/2212.01326

논문의 attribution

logal 도메인에 대한 prompt 기법을 전부 시도하여 성능을 확인해보았음.

1-shot/ 3-shot/ 8-shot / zero-shot / fine tuning with explanation, w/o explanation / Legal reasoning prompt를 사용하였고 결과는 위와 같다.

Abstract

zero 혹은 few-shot prompting을 할 수 있는 LLMs는 프롬프트 엔지니어링의 새로운 연구 분야를 만들어 내었음. 최근의 발전은 CoT 프롬프트가 산술 또는 common sense task를 크게 향상 시킬 수 있음을 보여주었습니다. 우리는 이러한 방법론들이 legal reasoning task에 어떻게 어울리는지 조사하고, 일본의 변호사 시험을 기반으로 한 COLIEE task를 통해 zero-shot/few-shot 접근법을 테스트합니다. 우리의 연구 결과는 CoT와 explanation을 통한 fine-tuning 접근법은 성능향상을 보이지만, 가장 최고의 결과는 특정 legal reasoning technique에서 파생된 IRAC 등에서 나타난다. 실험 결과를 기반으로 2021년 최고 성과를 0.7037 accuarcy에서 0.8148 accuaracy로 개선하고, 2022년 최고 시스템의 0.6789 accuracy를 0.7431 accuracy로 능가함.

1. Introduction

여러 나라에서 변호사가 되기 위해서 치르는 bar exam의 합격률은 미국 80%부터 일본 39.2%까지 다양하다.(일본의 사법시험은 전세계에서 가장 어려운 것으로 알려져있음)

뛰어난 변호사들은 법률문제를 용이하게 수행할 뿐 아니라 task의 근거를 효과적으로 설명할 수 있음.

주어진 법률 문제에 대해 단순히 이분법적인 답변만으로는 충분하지 않으며, 적절한 근거를 끌어내기 위한 논리, 적용 가능한 법률에 대한 chain of reference, legal reasoning technique이 필요하다.

프롬프트 매커니즘의 응용이 자연어 처리 연구에서 점점 중요한 연구 주제로 떠오르고 있음. 하지만, 이는 일반적인 추론 작업에서는 잘 적용될 수 있으나 특화된 도메인에서 적용하기에는 어려움이 있음.

우리의 연구는 prompt 접근법이 legal domain과 같은 매우 특화된 도메인 데이터에 미치는 영향을 조사한다.

Aleberta 대학의 Legal Information Extraction/Entailment 대회인 COLIEE를 중심으로 연구를 진행한다.
- 이 대회에서는 contextual articles이 주어졌을 때 legal hypotheses를 추론하는 것.
- COLIEE dataset은 제안된 가설과 근거 조문에 따라 yes/no 답변을 요구한다.

우리는 LLMs을 사용하여 zero부터 few shot 까지의 접근법을 탐구하며, 기존의 연구들에서 얻은 프롬프트(”Let’s think step by step”) 혹은 우리가 생성한 프롬프트(”Please determine if the following hypothesis is True or False based on the given premise”)와 결합한다.

우리의 연구는 few-shot 및 explanation과 함께 fine-tuning하는 것이 가장 좋고 21년 및 22년 COLIEE data에서 일관된 결과가 나온다.

zero-shot 및 label을 이용한 fine-tuning 접근법은 21년과 22년 불일치한 결과를 보인다.

legal reasoning을 위한 zero-shot 접근법은 한 해에 대해서만 최상의 결과를 보이며, 이는 특정 test set에 대한 overfitting의 가능성이 있음을 시사한다.

2 Legal Entailment task

COLIEE 대회의 두 가지 대회는 일본 bar exam에서 나온 데이터를 사용함.

일본 bar exam은 변호사가 주어진 legal statement가 참인지 거짓인지를 판단하도록 요구함
- 질문에 답하기 위해, 변호사는 주어진 질문과 가장 관련있는 일본 법 조항을 결정해야함
- 관련있는 법 조항이 정해지면 변호사는 선택된 조항(=전제:premise)을 기반으로 질문(=가설:hypothesis)이 참인지 거짓인지를 결정해야 함.

가설 : 지원 개시 사유가 더 이상 존재하지 않을 경우, 가족법원은 당사자의 요청 없이도 지원 개시 결정을 취소할 수 있음.

전제: 제 18조 1항 : 제15조 제1항의 본문에서 정한 사유가 더 이상 존재하지 않으면, 가족법원은 관련된 사람, 해당 사람의 배우자, 해당 사람의 4촌 이내 친척, 미성년자의 후견인, 미성년자의 후견인의 감독자, 지원자, 지원자의 감독자 또는 공격자의 요청에 따라 지원 개시 결정을 취소해야 합니다. 2항: 앞항에 따른 요청에 따라 가족법원은 이전 조항 제1항의 결정 전부 또는 일부를 취소할 수 있습니다.

Entailment : 가설이 틀렸음.

좀더 형식적으로 아래와 같이 정의될 수 있음.

질문 $Q$ 가 주어진 경우, 관련된 조항 $S_1, S_2, S_n$ 을 검색한 후 관련 조항이 “ $Q$ ”또는 “not $Q$ ”를 포함하는지 여부를 결정한다.

이 task의 답은 이진식으로 "YES" ("Q") 또는 "NO" ("¬Q”)이다.

평가 metric은 accuracy이며, 테스트세트가 긍정적 답변과 부정적 답변을 균등하게 가지고 있기 때문에 random baseline은 0.5의 accuracy를 가짐.

COLIEE에 대한 주요한 도전 과제 중 하나는 상대적으로 작은 training 및 test set의 크기이다.
- 과거 대회(=training set) 총 806개의 질문이 있음.
- 21년 test set에는 81개의 질문이, 22년 테스트 셋에는 109개의 질문이 있음.

3 Prior work

생략

4 Experiments and results

GPT-3를 LLM으로 사용하고, text-davinci-002 모델을 사용함.

COLIEE test set은 긍정 답변과 부정 답변이 거의 균일하게 분포되어 있으므로, 평가 metric으로 accuracy를 사용함.

2021 및 2022 test set에서 테스트함.

4.1 Zero-shot (ZS)

동일한 input을 넣었을 때 GPT-3가 동일한 output이 나올 수 있게 하기 위해, 모든 실험의 temperature를 0으로 설정한다.

GPT-3의 파라미터 값은 기본값으로 설정(Top P=1, Frequency penalty = 0, Presence penalty = 0)

간결함을 위해 greedy decoding사용

ZS를 위해 GPT-3에 넣어주는 input에는 다음을 포함함
- 저자가 디자인한 instructive prompt
- COLIEE dataset에서 가져온 premise-hypothesis 쌍
- “True or False?”라는 문장

우리는 GPT-3에서 세 가지 다른 프롬프트를 실험하였음.
- hypothesis의 위치를 명시하는 용어 “following”을 추가하는 것 만으로도 정확도를 0.7160에서 0.7407로 향상시킬 수 있음
- “the given premise”를 “Japanese civil code statutes”로 대체하는 것 과 같이 프롬프트가 덜 지시적인 경우, 정확도가 0.7407에서 0.7037로 감소
- 2021년 COLIEE 우승자가 얻은 정확도는 0.7037로, 우리의 ZS 설정에서 가장 성능이 낮은 프롬프트와 동일함.
  - 따라서 GPT-3에게 더 구체적이고 관련성 있고 지시적인 프롬프트를 제공함으로써 2021년 COLIEE 우승자보다 3.70% 포인트의 정확도를 더 높일 수 있음

가장 높은 정확도를 달성하는 prompt2를 뒤의 실험에서 계속 사용

4.2 Few-shot (FS)

Brown et al. (2020)는 LLMs의 FS 성능이 여러 task에서 ZS 및 일부 SOTA fine-tuning technique보다 우수하다는 것을 입증하였음. 따라서 우리는 GPT-3를 FS 설정에서 평가함.

이를 위해 GPT-3에게 이전 bar exam에 대한 답이 적혀있는 블로그에서 정답을 가져와 예시로 보여준다. 블로그의 가설-답변 쌍은 일본어이며, 이를 구글번역기를 통해 영어로 번역해서 제공함.

1-shot, 3-shot 및 8-shot를 사용하여 실험을 진행. 1-shot 예제는 Figure 1에 나와있음.

결과는 Table2에 나와있음.
- 21년도에는 3-shot과 8-shot이 동일한 정확도를 가지며, 1-shot을 능가함. 셋 모두 21년 COLIEE우승자(0.7037)를 뛰어넘음
- 22년도 8-shot이 3-shot과 1-shot을 능가함. 셋 모두 2022 COLIEE 우승자 (0.6789)를 뛰어넘음

4.3 Zero-shot-Chain of Thought(ZS-CoT)

Kojima et al. (2022)는 LLMs에 각 답변 앞에 “Let’s think step by step”을 추가하기만 하면 연속적인 사고 과정을 생성하고 우수한 추론 능력을 갖출 수 있다는 것을 보였음

따라서 우리는 GPT-3을 사용하여 두 단계 프롬프트(즉, 첫 번째 프롬프트에서 생성된 텍스트의 출력을 두 번째 프롬프트에 사용하는 것)를 사용하여 실험을 진행
- 첫번째 프롬프트는 “Let’s think step by step”을 포함하고, 두번째 프롬프트는 “Therefore, the hypothesis is (True or False)” 을 포함함.

첫번째 prompt인 reasoning extraction에서는 GPT에게 {프롬프트} + {전제} + {가설} + {CoT}를 입력으로 제공
- 여기서 프롬프트는 4.1에서 언급한 prompt2
- CoT = “Let’s think step by step”

두번째 stage인 Answer Extraction은 첫번째 stage의 입력 및 출력과 두번째 프롬프트 “Therefore, the hypothesis (True or False) is”.를 제공.

그러나 ZS-CoT가 COLIEE에 적용될때, 이전 연구들과 같이 강력한 성능은 보여주지 못함.
- accuracy : 2021 = 0.6296, 2022 = 0.7064
- 이는 2022에서 ZS를 능가하고 우승자보다 4.05% 높은 결과이지만, 2021에서는 ZS보다 17.65% 낮은 결과를 얻음.

GPT-3는 언급한 모든 접근 방식(ZS,FS, ZS-CoT)를 통해 설명을 생성할 수 있음
- 하지만 모든 ZS 및 FS에 설명이 포함되지는 않음. 특히 예측된 답변이 True인 경우 설명이 종종 제공되지 않는 경우가 있음.
- 하지만 ZS-CoT로 프롬프트될 때 GPT-3는 항상 설명을 생성함

4.4 Fine-tuning LM with and without explanations

GPT-3를 fine-tuning하기 위해서는 expected input과 그에 대응되는 output(”completion”)으로 이루어진 training sample이 있어야 한다.

2021 COLIEE training set을 사용하여 GPT-3를 fine-tuning함. input으로는 전제-가설 쌍이 사용되고 completion으로는 answer을 사용.

우리는 두가지 종류의 completion으로 GPT-3를 fine-tuning함.
- True or False와 같은 이진법적인 정답만 있는 경우
- 정답과 함께 설명이 있는 경우
  - 설명은 GPT가 생성한 설명/pseudo설명 두 개로 나뉨

지시적인 프롬프트를 사용하여 fine-tuning된 GPT-3(두번째 행)가 프롬프트 없는 설정(첫번째 행)보다 23.99% 더 우수한 성능을 나타냄

GPT-3를 answer 및 explanation과 함께 fine-tuning할때, 서로 다른 방법으로 생성된 두 가지의 explanation을 사용함.

Pseudo-explanation.

hypothesis-premise쌍에서 먼저 premise를 문장으로 분할하고, 각 문장을 MPNet 인코더를 사용하여 인코딩한 후, 인코딩된 premise 각 문장과 hypothesist사이의 코사인 유사도를 계산한다. 코사인 유사도가 가장 높은 premise 문장을 explanation으로 선택함.
- 입력에 지시적인 프롬프트가 포함되면 더 높은 정확도를 달성하므로 fine-tuning중 입력으로 {prompt} + {premise} + {hypothesis} + “True or False”을 제공함
- 또한, completion으로 {label} + “Because according to ” + {pseudo-explanation} 제공.

이를 통해 GPT-3가 어떤 부분에 집중하여 최종 응답을 도출해야 하는지 결정하는 데 도움을 준다.

GPT-3-generated explanation.

이 방법은 “Self-Taught Reasoner” (STaR bootstrapping) approach (Zelikman et al., 2022),에서 영감을 받음.

LLM은 주어진 질문에 답하기 위하여 설명을 생성함. 그러나 생성된 답변이 부정확한 경우, LLM은 올바른 답변을 기반으로 설명을 다시 생성하고 그 설명을 사용하여 올바른 답변을 생성하는 데 미세 조정합니다.

GPT-3에게 “Please explain why the follow- ing hypothesis is” + {label} + “based on the given premise.” + {premise} + {hypothesis} 라는 프롬프트를 통해 가설-전제-답변 세트마다 설명을 생성하도록 유도한 다음, 이를 GPT-3를 파인튜닝하는데 사용한다.

즉, GPT-3에게 {prompt} + {premise} + {hypothesis} + "True or False"을 입력하고 {explanation}을 완성함. 여기서 explanation은 이전 단계에서 생성된 GPT-3 설명임

비용을 위해 GPT-3를 한번만 fine-tuning한다.

4.5 Legal Reasoning (LR) prompt

위에서 논의한 실험 결과를 통해 GPT-3을 fine-tuning하고 3개 또는 8개의 예제로 FS를 수행하는 것이 ZS보다 더 나은 결과를 보여줌. 따라서 우리는 ZS 환경에서 GPT-3의 정확도를 높이기 위해 legal reasoning 프롬프트를 활용함

GPT-3에게 {prompt} + {approach} + {premise} + {hypothesis} + “True or False?”을 입력하고 “주어진 법적 추론 방법에 따라 가설이 참인지 거짓인지 분석하십시오(Please analyze if the hypothesis is True or False according to the given legal reasoning approach)”라는 프롬프트를 사용하여 GPT-3가 변호사처럼 생각하도록 하게 함

법적 추론 방법은 변호사들이 자주 사용하는 방법의 약어로 되어있음. 예를들어, IRAC접근법은 Issue, Rule, Application, Conclusion의 약어임
- Issue : 당사자를 법원에 불러들인 사실과 상황
- rule : issue에 대한 governing law를 찾는 것
- Application : rule을 issue에 적용하는 프로세스를 의미
- Conclusion : rule이 issue에 적용될 수 있는지 여부에 대한 결론을 내리는 것.

결과는 다음과 같음
- TRRAC은 2021년 COLIEE 우승자를 15.79%로 이긴 반면, IRREAC와 IRRAC은 2022년 COLIEE 우승자를 5.41%로 이김

GPT-3에 적용된 각 접근 방식의 정확도를 비교하면 아래와 같음

Uploaded by N2T