'분류 전체보기' 카테고리의 글 목록 (7 Page)

Rethinking STS and NLI in Large Language Models

논문 리뷰 2024. 5. 27. 16:28

연구 배경 및 목적:최근 몇 년 동안, 대규모 언어 모델(LLM)의 등장으로 다양한 작업에서 효과적인 성능을 보였습니다. 그러나, 의미적 텍스트 유사성(STS) 및 자연어 추론(NLI)에 적용했을 때, 저자들은 LLM의 효율성이 저자원 도메인 정확도, 모델의 과신, 그리고 인간 판단 사이의 불일치를 포착하는 데 한계가 있음을 발견했습니다. 본 연구는 LLM 시대에서 STS 및 NLI 과제를 재고하고자 하며, 임상 및 생의학 도메인에서의 성능을 평가하고, LLM의 예측 신뢰도 및 집합적인 인간 의견을 포착하는 능력을 평가합니다.주요 발견:BERT 기반 모델 대비 성능:BERT-base로 미세 조정된 모델이 10개의 STS 및 NLI 데이터셋 중 9개에서 zero-shot ChatGPT보다 우수한 성능을 보..

Learning High-Quality and General-Purpose Phrase Representations

카테고리 없음 2024. 5. 27. 16:12

Abstract구문 표현은 데이터 과학과 자연어 처리에서 중요한 역할을 하며, 엔터티 정렬(Entity Alignment), 레코드 연결(Record Linkage), 퍼지 조인(Fuzzy Joins), 그리고 패러프레이즈 분류(Paraphrase Classification)와 같은 다양한 작업에 유용합니다. 현재 최신 기법은 대조 학습을 사용하여 사전 학습된 언어 모델을 구문 임베딩에 맞게 미세 조정하는 것을 포함합니다. 그러나 우리는 몇 가지 개선점을 확인했습니다. 첫째, 이러한 사전 학습된 모델은 불필요하게 복잡하고 문맥 문장이 포함된 코퍼스에서 사전 학습이 필요합니다. 둘째, 구문의 유형과 형태론을 활용하면 더 정밀하고 유연한 구문 표현을 생성할 수 있습니다. 우리는 문맥이 필요 없는 방식으로 구..

What makes Chain-of-Thought Prompting Effective? A Counterfactual Study

논문 리뷰 2024. 5. 27. 11:28

Abstract체인-오브-생각(Chain-of-Thought, COT) 프롬프트의 효과는 널리 인정받고 있지만, 그 성공의 근본적인 메커니즘, 즉 왜 다양한 작업에서 효과적인지에 대한 이유는 여전히 미해결된 질문으로 남아 있습니다. 이를 조사하기 위해, 우리는 반사실적 프롬프트 접근법을 사용하여 몇 개의 예시에 사용된 요소들을 체계적으로 조작하고, 모델 행동에 미치는 영향을 테스트했습니다. 이를 통해 심볼(숫자, 엔티티)과 패턴(방정식, 문장 구조)과 같은 프롬프트 요소들이 인-컨텍스트 학습에 기여하는 상대적인 영향을 이해할 수 있었습니다. 세 가지 다른 대규모 언어 모델(LLM)로 실험한 결과, 여러 주요 발견사항이 드러났습니다. 첫째, 프롬프트에 사용된 특정 심볼은 모델 성능에 크게 영향을 미치지 않..

Learning Rate Annealing

AI/딥러닝 2024. 5. 24. 15:01

"어닐링(annealing)"이라는 용어는 학습 과정 중 학습률을 점진적으로 감소시키는 기술을 의미 물리학에서 고온에서 금속을 서서히 식혀 재료의 구조를 안정시키는 "어닐링" 과정에서 유래기계 학습에서는 최적화를 안정화하고, 학습이 진행됨에 따라 더 나은 수렴을 도모하기 위해 학습률을 조정

KL Divergence (Kullback-Leibler Divergence)

AI/딥러닝 2024. 5. 24. 14:48

두 확률 분포 간의 차이를 측정하는 비대칭적 방법

Source-Aware Training Enables Knowledge Attribution in Language Models

카테고리 없음 2024. 5. 23. 21:45

ChatGPT 요약더보기서론대형 언어 모델(LLM)은 사전 학습 중에 방대한 양의 지식을 습득하지만, 종종 해당 지식의 출처를 인식하지 못합니다. 본 논문에서는 LLM이 생성한 응답을 뒷받침하는 사전 학습 소스를 인용하는 '내재적 출처 인용' 문제를 조사합니다. 내재적 출처 인용은 LLM의 투명성, 해석 가능성 및 검증 가능성을 향상시킬 수 있습니다. 이러한 능력을 LLM에 부여하기 위해, 각 문서의 지식을 고유한 출처 문서 식별자와 연결하는 교육을 포함하는 '출처 인식 교육' 방법을 제안합니다. 이 방법은 기존의 사전 학습 및 미세 조정 프레임워크에서 크게 벗어나지 않으며, 실험을 통해 모델 품질에 큰 영향을 미치지 않으면서도 사전 학습 데이터에 대한 신뢰할 수 있는 인용이 가능함을 입증합니다. 관련 ..

Rethinking search: making domain experts out of dilettantes

논문 리뷰/RAG 2024. 5. 23. 21:35

https://dl.acm.org/doi/pdf/10.1145/3476415.3476428 Rethinking search: making domain experts out of dilettantes: ACM SIGIR Forum: Vol 55, No 1When experiencing an information need, users want to engage with a domain expert, but often turn to an information retrieval system, such as a search engine, instead. Classical information retrieval systems do not answer information needs directly, but ...d..

Bloom Filter

공부/자료구조 2024. 5. 23. 21:14

https://gngsn.tistory.com/201 Bloom Filter, 제대로 이해하기 - JavaBloom Filter의 개념과 특징, 그리고 Java에서의 사용법을 알아보는 것이 본 포스팅의 목표입니다. Bloom Filter Bloom filters는 집합 내에 특정 원소가 존재하는지를 확인할 때 사용되는 자료구조입니다. Hgngsn.tistory.com

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

인기포스트

ABOUT ME

just do it just do it

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역