[Project page] The research question and solution

검색엔진은 항상 LM 성능을 향상 시키는가?
- No. 몇몇 작업에서 LLM의 검색엔진을 적용해도 개선 효과가 미미함. 검색엔진이 넓은 범위로 최신 정보를 검색하지만 검색 결과가 논쟁의 여지가 있거나 혼란을 줄 수 있음. (disputing or distracting) 이러한 근거 정보는 언어 모델에 반드시 도움이 되는 것은 아님
검색엔진으로 LM 성능 향상하는 방법
- 검색 엔진 결과에 기반한 LLaMA-7B 파인튜닝. finetuned model 은 유익한 검색 결과를 자동으로 추출하고 방해가 되는 항목에 플래그를 지정할 수 있음. Search augmented finetuning 과 함께 검색엔진으로 모델 성능을 크게 향상시킴. chatgpt 나 vicuna-13B 등의 sota 챗봇보다 뛰어난 성능을 발휘
Search-augmented LLMs 의 평가 방법
- GPT4 instruction following 을 사용한 자동채점
- open-ended QA 벤치마크에서 검색 기반 답변 성능 테스트
- Fact, fairness 검사. 본 논문의 목표 중 하나는 대규모 언어모델을 통해 잘못된 정보, hate, stereotype(고정관념)에 맞서 싸우는 것. UniLC 벤치마크로 테스트

Abstract

LLMs 의 단점
- 투명성, 최신정보 활용 능력 부족
검색엔진의 단점
- 검색엔진에서는 인스트럭션과 상반되는 답변이 포함될 수 있음
본 연구의 제안
- 검색엔진에 의해 생성된 검색결과를 기반으로 생성, instruction following 능력을 구현하는 Search-Augmented Instruction Learning(SAIL) 을 제안
- Instruction tuning corpus 사용 → 학습 케이스의 검색 결과를 수집 → (instruction, grounding information, response) triplet 을 학습데이터셋으로 구축 → 파인튜닝
- 수집된 검색 결과 중 방해가 되는 문단을 걸러냄, 노이즈 제거 과정은 명시적인 신뢰할 수 있는 정보 선택과 멀티홉 추론을 포함
Finetuned SAIL-7B의 우수한 instruction following 능력, open-ended QA, fact checking 에서 더 나은 성능