-
2025 Coling (1)카테고리 없음 2025. 3. 23. 15:45반응형
Style Over Substance: Evaluation Biases for Large Language Models
Minghao Wu, Alham Fikri Aji. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- LLM 평가의 편향성 문제를 실증 분석
이 논문은 LLM 평가의 객관성 결여를 지적하며, 특히 사람들이 짧거나 문법적으로 어색하지만 사실적인 답변보다 길고 스타일 좋은 허위 답변을 선호하는 경향을 실험적으로 보여줍니다. 이를 위해 GPT-4로 의도적 오류가 포함된 응답 12종을 생성하고, 사람(크라우드/전문가) 및 LLM(GPT-4/Claude-1) 평가자의 판단을 비교 분석했습니다. - Multi-Elo Rating System (MERS) 제안
기존 Elo 평가 방식은 정확성, 유용성, 언어 품질 등 다양한 평가 기준을 단일 점수로 통합함으로써, 중요한 요소(예: 사실성)를 간과할 수 있습니다. 이에 따라 본 논문은 Accuracy / Helpfulness / Language 3가지 측면으로 분리한 평가 시스템인 MERS를 제안하고, 이 방식이 특히 **GPT-4 기반 평가에서 사실성(factuality)**을 높게 평가하는 데 효과적임을 입증했습니다. - 답변 스타일(길이, 문법 등)에 대한 편향성 규명
모든 평가자들이 긴 답변을 선호하는 경향을 보였고, 특히 GPT-4는 사실 오류가 포함된 길고 화려한 답변을 짧지만 정확한 답변보다 높게 평가했습니다. 예시에서는 "Ollivander Method"와 같은 허구 개념이 포함된 답변이 더 높은 점수를 받은 사례도 존재함. - 크라우드소싱 평가의 한계 명확화
크라우드 평가자들은 사실 오류 탐지 능력이 낮고, 평가에서 ‘동률’로 처리하는 경향이 강하며, 의미 있는 판단을 하지 못하는 경우가 많음. 반면 전문가 평가자는 정확성 면에서 우수했으나, 여전히 길이에 대한 편향은 존재함. - 복수 LLM 기반 평가의 필요성
단일 LLM(GPT-4) 기반 평가는 **자기출력 편향(self-bias)**의 우려가 있으므로, 본 논문은 Claude-1을 함께 사용하여 LLM 간 일관성과 신뢰성 확보에 기여함. 두 LLM은 인간보다 일관된 판단을 보였지만, 여전히 짧고 정확한 응답보다 길고 부정확한 응답을 높게 평가하는 경향이 존재.
❗️한계점:
- 평가 차원 제한
MERS에서는 세 가지 차원(Accuracy, Helpfulness, Language)만을 다루었으며, 다른 중요한 요소들(예: 신뢰도, 독창성 등)은 배제됨. 문제 유형별로 적절한 평가 차원이 다를 수 있음. - 질문 수와 도메인 제한
실험은 40개의 일반 질문으로 구성되었으며, 코딩, 수학, 롤플레이, 창작 등 다양한 도메인을 다루지 않음. 일반화에 한계가 존재. - 평가자 수와 스케일 이슈
전문가 평가는 20명, 200쌍으로 제한되어 있으며, 통계적 안정성에는 다소 약함. 반면, 크라우드소싱은 377명을 사용했으나 질적으로 낮은 평가를 제공. - LLM 평가자의 객관성
GPT-4가 생성한 응답을 GPT-4로 평가할 경우 발생할 수 있는 자기 평가 편향은 Claude-1 도입으로 일부 완화되었지만 완전한 제거는 어려움.
PreAct: Prediction Enhances Agent’s Planning Ability
Dayuan Fu, Jianzhao Huang, Siyuan Lu, Guanting Dong, Yejie Wang, Keqing He, Weiran Xu. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- PreAct 프레임워크 제안 (ReAct의 확장)
본 논문은 기존의 ReAct 프레임워크를 확장하여 "미래 예측(prediction)"을 포함한 새로운 LLM 기반 에이전트 프레임워크인 PreAct를 제안합니다.
PreAct는 THOUGHT → ACTION → PREDICTION의 세 단계를 통해, 추론 방향성과 다양성을 개선하고, **복잡한 계획(task planning)**에 더 효과적으로 대응합니다. - Prediction 기반 계획 보정 및 전략 다양화
각 스텝에서 LLM이 **예상되는 관측 결과(predicted observation)**를 먼저 생성하고, 이후 실제 결과와 비교하여 추론 방향을 보정합니다.
이는 단조롭거나 반복적인 추론 패턴을 탈피하고, 더 전략적이며 다양한 사고 경로를 탐색할 수 있도록 도와줍니다. - 4가지 전략 조합 실험으로 Robustness 입증
- Permanent / Immediate / Reflexion / TOT 등 다양한 메모리 및 선택 전략 조합에서 PreAct의 성능을 비교 분석.
- 특히 Reflexion, Tree-of-Thought(TOT) 전략과 함께 사용해도 성능이 향상되며, PreAct는 이들과 독립적으로 작용함을 보임.
- AgentBench 및 HotpotQA에서 일관된 성능 향상
4가지 대표 task (Householding, OS, DB, LTP)와 HotpotQA 벤치마크에서 PreAct가 ReAct 대비 일관된 성능 향상을 보였음.
예: GPT-4 기준 Householding에서는 Dev 65→80%, Test 68→78%, OS/DB에서는 평균 5~10% 이상 향상됨. - 계획 평가를 위한 새 지표 제안: Diversity & Directionality
- Diversity: 추론의 다양성
- Directional Strategy: 행동 계획의 방향성
두 지표 모두 PreAct가 ReAct보다 유의하게 우수하며, 실제 성공률과 높은 상관관계가 있음을 실증.
❗️한계점:
- Prediction 오류에 취약 (Hallucination 문제)
PreAct는 prediction에 기반하여 reasoning을 진행하기 때문에, prediction이 부정확하거나 hallucination을 포함할 경우 전체 계획 성능 저하.
실험 결과, 모든 prediction이 hallucination일 경우 성능이 감소하고 분산도 커졌음. - Long-term Memory와의 통합 부족
본 논문은 주로 short-term memory (history) 중심으로 설계되어 있으며, **Reflexion 외의 long-term memory (예: example, insight memory)**와의 상호작용은 향후 과제로 남음. - 단순 프롬프트 기반 설계에 의존
PreAct는 전적으로 prompt 설계에 의존하여 prediction과 planning을 유도하며, 파라미터 튜닝이나 fine-tuning된 모델 설계는 없음. 이는 모델에 따라 편차가 있을 수 있음. - 특정 task에는 효과 제한적 (예: LTP)
Lateral Thinking Puzzle과 같이 GPT 자체가 거부할 수 있는 (safety trigger) task에는 PreAct의 prediction 전략이 오히려 성능 저하를 일으킴.
🧠 요약 정리:
- PreAct는 기존 ReAct 방식에 미래 예측(PREDICTION)을 추가한 계획 중심 에이전트 설계로, 복잡한 문제 해결에서 더 높은 전략성과 다양성을 보장.
- Reflexion / TOT 등 다양한 프레임워크와 병행 사용 가능하며, 예측 기반 reasoning이 task 해결력 향상에 핵심 기여함을 실험으로 입증.
- 다만, 예측 품질(Hallucination 관리) 및 Long-Term Memory와의 통합이 다음 과제로 남음.
How Well Can a Long Sequence Model Model Long Sequences? Comparing Architectural Inductive Biases on Long-Context Abilities
Jerry Huang. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- 장문 입력(long-context)에 대한 실증적 비교 분석
본 논문은 최근 각광받는 **long-context 지원 시퀀스 모델들(Mamba, RWKV, SSM 계열)**이 실제로 Transformer보다 더 긴 문맥을 잘 처리할 수 있는지에 대해 정밀하게 실험한 연구입니다.
기존 연구들이 주로 이론적 설명이나 제한된 벤치마크에 의존했던 것과 달리, 이 논문은 RULER 및 Needle-in-the-Haystack (NIAH) 기반의 통제된 synthetic 태스크를 통해 정량적으로 비교합니다. - 다양한 아키텍처에 대한 직접 비교
실험에는 Mamba2, Mamba2+Attention(M2A), Transformer++, RecurrentGemma, Sheared LLaMA, RWKV 등 총 8종의 아키텍처가 포함됩니다.
동일한 파라미터 수(약 2.7B ~ 3B)로 맞추고, 동일 조건에서 학습되어 비교의 공정성을 확보했습니다. - 위치 민감성과 중앙 정보 상실 문제(lost-in-the-middle)
Needle 위치를 변화시키는 실험에서, 모든 모델이 문맥 중간에 위치한 정보를 가장 잘 놓치는 현상을 보였습니다. 이는 기존 Transformer에서 보고되었던 "Lost-in-the-Middle 현상"이 Recurrent/SSM 모델에도 공통적으로 존재함을 시사합니다. - 데이터 유형 변화에 따른 성능 감쇠 분석
같은 위치에 Needle이 있더라도, 노이즈가 숫자 기반이냐 에세이 기반이냐, 또는 UUID인지 숫자인지에 따라 모델별 성능이 급격히 달라짐. 특히 Mamba2는 반복형 haystack에는 강했지만 에세이 기반에는 약했습니다. - "이론적 강점 ≠ 실제 성능"임을 명확히 증명
Mamba 계열이나 SSM 기반 모델들은 이론상 무한 문맥 처리가 가능하지만, 실제로는 Transformer와 유사하거나 더 낮은 성능을 보이는 경우가 많았습니다. 특히 학습한 context 길이를 넘어서면 모두 급격한 성능 저하를 보였습니다.
❗️한계점:
- 작은 모델 사이즈(2.7B)만 실험
비교 실험은 모두 약 3B 수준의 모델로 진행되어, 7B 이상 고성능 모델에서의 일반화 여부는 추가 검증이 필요합니다. - 주로 synthetic 데이터셋에 국한
RULER와 Needle-in-Haystack 기반의 벤치마크는 통제에 유리하나, **실제 downstream task(QA, summarization 등)**에서의 일반화 능력까지는 직접 평가되지 않았습니다. - 추론 시간과 메모리 효율 미비 분석
다양한 모델의 실행 속도, 메모리 효율 등 시스템적 효율에 대한 비교는 본 논문의 초점에서 제외됨. - 학습 커리큘럼과 사전학습 차이 영향 배제 어려움
동일 파라미터 수로 맞추었더라도 훈련 커리큘럼 및 pretraining corpus 차이가 존재하기 때문에, 일부 성능 차이는 모델 구조보다는 학습 이력 때문일 수도 있음.
🧠 총평:
이 논문은 최근 등장한 다양한 long-context 지원 시퀀스 모델들이 정말로 Transformer보다 우수한 장문 처리 능력을 갖고 있는지를 정제된 실험으로 반박하는 중요한 기여를 합니다. 특히:
- 중앙 정보 손실 현상
- 데이터 유형과 needle 위치에 따른 급격한 성능 편차
- 학습 context length를 넘으면 모든 모델 급감
CDAˆ2: Counterfactual Diffusion Augmentation for Cross-Domain Adaptation in Low-Resource Sentiment Analysis
Dancheng Xin, Kaiqi Zhao, Jingyun Sun, Yang Li. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- 새로운 확산 기반 크로스 도메인 증강 프레임워크 CDA² 제안
본 논문은 저자원 감성 분석(Cross-Domain Sentiment Analysis) 문제를 해결하기 위해 CDA²라는 새로운 Counterfactual Diffusion Augmentation 프레임워크를 제안합니다.
기존 방식들이 단순한 단어 치환, masked LM 기반 증강에 머물렀다면, CDA²는 도메인 간 의미 전이 실패 문제(semantic disruption, spurious association)를 diffusion 기반 생성 모델로 해결하고자 합니다. - 도메인 정보 유도 기반 raw target sample 생성 방식 도입
source 문장에서 도메인 관련 단어를 n-gram masking 후, target 도메인 정보를 반영한 orientation vector와 함께 T5 모델을 이용해 raw target sample을 생성합니다.
이를 통해 도메인 스타일을 전이하며, 문장 구조도 다양화할 수 있습니다. - Diffusion-LM 기반 고품질 샘플 생성 + MMD Loss로 도메인 전이 보장
- Continuous space에서 discrete token을 처리하기 위해 **Soft Absorbing State (SAS)**를 설계
- MMD Loss를 도입하여 생성 샘플의 분포가 실제 target 도메인과 일치하도록 유도
- 추론 속도 향상을 위해 **DPM-Solver++**를 채택하여 diffusion sampling 과정 가속
- 데이터 필터링 메커니즘으로 생성 샘플 정제 (CDA²-F)
- 생성된 counterfactual 샘플에 대해 감성 레이블 정합성 확인 + 도메인 적합도 검증
- 해당 필터링을 통해 노이즈를 제거한 고품질 학습 데이터 확보
- 12개 도메인 전이 태스크에서 SOTA 달성
Amazon Review Dataset 기반 12개 전이 실험에서 **기존 대표 모델들(R-PERL, UDALM, TACIT 등)**을 뛰어넘는 성능 확보.
특히 CDA²-F는 평균 성능에서 UDALM과 동일한 최고 성능을 기록. - 다양한 ablation 분석 및 시각화 제공
- SAS, MMD, diffusion, DPM-solver++를 제거한 ablation에서 성능 감소 확인
- t-SNE 기반 시각화를 통해 생성 샘플이 실제 target 도메인과 유사한 분포를 갖는 것을 입증
❗️한계점:
- Target 도메인 데이터에 여전히 의존
비록 unlabeled data만 사용하지만, target 도메인 데이터 없이 학습이 불가능함.
완전한 제로샷 또는 unseen 도메인 대응 능력은 제한적임. - 클래스 결정 로직은 비인과적
생성된 샘플로 classifier를 학습하긴 하지만, 도메인-감성 간 인과적 전이를 고려한 설계는 아님.
향후에는 인과적 클래스 결정 로직을 통합한 분류기 설계가 필요함. - T5 및 diffusion 모델 학습 비용
diffusion 모델과 T5 기반 생성기를 훈련하는 과정은 계산량이 크고 복잡한 프레임워크임.
특히 다양한 도메인에 대해 orientation vector를 따로 관리해야 하므로 확장성 측면에서 제약이 있을 수 있음.
📌 총평:
CDA²는 기존 adversarial/domain-invariant 중심 접근을 넘어, 생성 기반 도메인 전이의 새로운 패러다임을 제시한 논문입니다.
특히 diffusion 기반의 정밀한 제어, n-gram masking을 활용한 도메인 특이성 제거, MMD를 통한 분포 정렬 등은 기술적으로 정교하며 실제 성능에서도 입증된 강점입니다.Sibyl: Empowering Empathetic Dialogue Generation in Large Language Models via Sensible and Visionary Commonsense Inference
Lanrui Wang, Jiangnan Li, Chenxu Yang, Zheng Lin, Hongyin Tang, Huan Liu, Yanan Cao, Jingang Wang, Weiping Wang. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- 미래 예측 기반 공감형 대화 생성 프레임워크 Sibyl 제안
기존 공감형 대화 모델들은 대부분 **과거 대화 이력(context)**을 기반으로 단순한 **정서 추정이나 상식 지식(COMET 등)**을 활용하지만, 이는 감정적 뉘앙스나 의도를 놓치는 경우가 많음.
본 논문은 **향후 대화 흐름을 예측하여 그에 맞는 상식 추론(Visionary Commonsense Inference)**을 수행하고, 이를 통해 공감적이며 정서적으로 적절한 응답을 생성하는 새로운 프레임워크 Sibyl을 제안. - 4가지 지식 유형 기반의 중간 추론 구조
Sibyl은 응답 생성을 위한 중간 단계로, 다음 네 가지 범주의 **예지적 상식 지식(visionary knowledge)**을 추론함:- Cause: 현재 발화를 유도한 원인
- Subsequent Event: 다음에 발생할 사건
- Emotion State: 사용자의 감정 상태
- Intent: 상대방의 대화 의도
이 중간 지식은 Chain-of-Thought 역할을 하며, 대화 컨텍스트와 응답 사이의 의미적 간극을 메워줌.
- LLM을 이용한 상식 수집 + 소형 LLM 예지 모델 학습
ChatGPT로 생성한 미래 상식 지식을 수집한 뒤, 이를 학습 데이터로 사용해 **소형 오픈소스 모델(LLaMA3.1, Flan-T5 등)**을 훈련하여 dialogue context만으로도 상식 추론이 가능하게 함. - Plug-and-Play 구조
Sibyl이 생성한 상식 지식은 어떤 LLM에도 단순한 프롬프트 부착만으로 적용 가능. Finetuning이 필요한 경우 LoRA 등의 경량 기법으로도 적용 가능하여 범용성과 확장성 우수. - 정량 및 정성 평가에서 기존 SOTA 모델 능가
EMPATHETICDIALOGUES와 ESConv 데이터셋에서의 평가 결과, BLEU, ROUGE, METEOR, CIDEr 등 다양한 자동 평가 지표에서 COMET, DIALeCT, DOCTOR 등을 능가.
인간 평가(Human A/B test)와 GPT 기반 평가(G-Eval)에서도 공감성, 자연스러움, 정서적 지지 측면에서 가장 우수한 평가를 받음.
❗️한계점:
- 상식 생성에 ChatGPT 사용 → 데이터 누출 및 고비용 문제
원천 지식(K)을 생성하기 위해 상용 LLM에 의존하고 있어, 도메인 외 이식성, 비용, 공정성 문제 발생 가능. 학습에 사용된 응답 정보를 알고 있는 모델을 참조한 점도 논란의 소지가 있음. - "미래 예측"의 일반화 한계
향후 대화 예측은 본질적으로 one-to-many이므로, 생성된 상식이 실제 대화 흐름과 불일치할 가능성이 있음. 이에 따라 응답의 방향성을 오히려 왜곡할 수도 있음. - 탐욕적 통합 방식
Cause, Emotion, Intent, Subsequent 정보를 무조건 결합하여 응답을 생성하므로, 과도한 정보 노출로 인해 오히려 대화가 부자연스러워질 수 있음.
각 요소의 선택적 사용에 대한 학습 기반 통제 메커니즘은 미제공. - 전통 상식 모델과의 결합 가능성 미흡
COMET/ConceptNet 기반 지식과 Sibyl 상식의 보완적 결합 혹은 선택 전략에 대한 논의 부족. 향후 서로 다른 소스 기반 상식 통합 방식이 필요.
📌 총평:
Sibyl은 “미래를 상상하는 상식 추론”을 통해 공감형 LLM 응답 생성을 한 차원 끌어올린 프레임워크로, 공감·정서지원 대화에서의 성능 향상을 실험적으로 입증했습니다.
특히, 모든 사이즈의 모델에서 플러그앤플레이로 활용 가능하다는 점에서, 실제 응용 가치가 높습니다.Noise-powered Multi-modal Knowledge Graph Representation Framework
Zhuo Chen, Yin Fang, Yichi Zhang, Lingbing Guo, Jiaoyan Chen, Jeff Z. Pan, Huajun Chen, Wen Zhang. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- MMKG 표현 학습의 통합 프레임워크 제안
SNAG은 최초로 **멀티모달 지식그래프(MMKG)**에서 두 가지 핵심 작업인- Multi-modal Knowledge Graph Completion (MKGC)
- Multi-modal Entity Alignment (MMEA)
를 동시에 다룰 수 있는 **경량화된 통합 프레임워크(13M 파라미터)**를 제안.
- Gauss Modality Noise Masking (GMNM) 기법 제안
기존 방법들이 모달리티 노이즈 제거에 집중한 반면, SNAG은 노이즈를 수용하고 의도적으로 주입하여 현실 세계의 데이터 불완전성을 모사하고 모달리티 표현의 강건성을 향상.- 마스킹 확률 ρ와 강도 ϵ 조정 가능
- Dropout 방식보다 성능 손실이 작고 안정성 우수
- Transformer 기반 모달리티 융합 구조 설계
- Multi-head Cross-modal Attention (MHCA), Instance-level Confidence (ILC), FFN을 포함
- 모달리티 간 중요도를 학습하고, 각 엔티티별 가중치를 동적으로 조절함으로써 정확한 모달 융합 실현
- 두 작업(MKGC/MMEA)에 특화된 학습 objective 제공
- MKGC: RotatE 기반 트리플 추론 + self-adversarial negative sampling
- MMEA: Global Modality Integration + ECIA(신뢰도 기반 정렬), IIR(Transformer hidden state 직접 정렬)
- 10개 공개 벤치마크에서 SOTA 달성
DB15K, MKG-W, MKG-Y, OpenEA 시리즈 등에서 MRR, Hits@1, Hits@10 등 주요 지표에서 기존 모델 압도- 특히 이미지 누락 비율(Rimg=0.4~0.6) 높을수록 GMNM 도입 효과 극대화
❗️한계점:
- PLM 기반 기법들과 직접 비교 부족
SNAG은 경량 모델 설계를 강조하지만, **PLM 기반 SOTA 기법(MKGformer 등)**과의 정량적 비교는 생략됨 (파라미터 크기 차이로 제외 처리). - noise 조절 파라미터 튜닝 필요
GMNM의 효과는 ρ, ϵ 값에 민감하여, 시나리오별 하이퍼파라미터 탐색이 필수적. 자동 최적화 기법이 부재함. - Entity Alignment에서 Modal 선택 전략 부재
현재 모든 모달리티 정보를 결합하여 사용하지만, 실제로는 일부 모달리티가 성능에 악영향을 줄 수도 있음.- 정보 선택(selective modality usage) 전략은 향후 과제로 남음
- 미래형 확장 실험은 미제공
본 논문은 SNAG을 LLM이나 Retrieval-Augmented Generation(RAG)에 통합하는 가능성을 언급하지만, 실제 downstream task 통합 실험은 진행되지 않음.
📌 총평:
SNAG은 현실적 노이즈를 고려한 MMKG 표현 학습 모델로, MKGC와 MMEA 모두에서 경량 구조로 SOTA를 달성한 프레임워크입니다.
특히 noise를 제거하지 않고 embrace하는 접근, 모달리티 간 주의집중과 신뢰도 기반 통합, 두 작업을 동시에 처리 가능한 설계는 향후 멀티모달 LLM 기반 지식 주입이나 RAG 시스템 구축에 매우 유용한 기반이 될 수 있습니다.Looks can be Deceptive: Distinguishing Repetition Disfluency from Reduplication
Arif A. Ahmad, Khyathi Gayathri Mothika, Pushpak Bhattacharyya. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- Reduplication vs. Repetition 구분을 위한 최초의 대규모 연구
이 논문은 언뜻 비슷해 보이지만 기능적으로 전혀 다른 두 현상, **Reduplication(의도된 반복)**과 **Repetition(비의도적 반복)**을 구분하는 토큰 레벨 분류 모델을 제안하며, 이 둘을 혼동하지 않도록 설계된 IndicRedRep 데이터셋을 공개합니다. 힌디어, 텔루구어, 마라티어 총 7.7K 문장 포함. - Reparandum–Interregnum–Repair (RiR) 구조 적용
음성 비유창성(disfluency) 이론에 기반해 각 문장을 **세 구간(RiR)**으로 나누고, 이 구조 정보를 분류 입력으로 함께 제공함으로써 Reduplication과 Repetition을 효과적으로 구분할 수 있음을 실험적으로 입증. - Transformer 기반 모델에서 RiR 구조 도입 시 성능 향상
XLM-R, BERT, mT0, Gemma, ChatGPT 등 다양한 멀티링구얼 모델에 대해 RiR 구조를 적용한 결과, 모든 모델에서 평균 F1 score가 1.5~3%p 향상되었고, 특히 XLM-R-large는 84.53 → 84.80, ChatGPT는 87.85 → 89.04로 향상. - 다국어(multilingual) 기반 오류 분석 및 정성적 평가
힌디어, 텔루구어, 마라티어에 대해 오류 예시를 다수 제공하며, Reduplication과 Repetition이 문맥에 따라 어떻게 혼동되는지, 그리고 RiR 구조가 어떻게 이를 해소하는지를 설명함. - 오픈소스 데이터 및 모델 공개
IndicRedRep GitHub 링크를 통해 전체 데이터셋과 코드를 공개하여 다국어 음성 비유창성 탐지 및 다중어 NLU 연구를 촉진.
❗️한계점:
- 언어 범위 제한 (3개 언어만 포함)
힌디어, 마라티어, 텔루구어에만 적용되었으며, 다른 인도계 언어 또는 영어 등 글로벌 언어에 대한 일반화 가능성은 실험되지 않았음. - 단일 형태의 Reduplication만 다룸
**완전 반복(full reduplication)**만을 대상으로 하며, **부분 반복(partial reduplication)**이나 음소/형태소 수준의 변형 반복은 다루지 않음. - 다른 서브워드 모델과의 비교는 생략
ELMo, FLAIR, character-CNN 등 다른 서브워드 기반 표현을 사용하는 방법들과의 성능 비교는 이루어지지 않았음. - 추론 과정의 해석 가능성 부족
모델이 왜 특정 반복을 Reduplication 혹은 Repetition으로 분류했는지에 대한 설명 가능성(explainability)은 제공되지 않음.
📌 총평:
이 논문은 Reduplication과 Repetition을 명확히 구분하고자 하는 최초의 대규모 실증 연구로서, 언어학적 이론(RiR)을 실용적인 분류 모델에 통합함으로써 정확도와 해석 가능성을 모두 확보한 점에서 높은 평가를 받을 만합니다.
ASR 후처리, 다국어 NLU, 유창한 응답 생성 등 다양한 downstream task에 응용 가능성이 매우 높습니다.Learning to Verify Summary Facts with Fine-Grained LLM Feedback
Jihwan Oh, Jeonghwan Choi, Nicole Hee-Yoen Kim, Taewon Yun, Hwanjun Song. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- LLM Feedback 기반 요약 사실성 검증 데이터셋 FineSumFact 제안
수작업 데이터에 의존하지 않고 Llama-3-70B-Instruct 기반의 FineSurE 모델을 이용하여 생성한 **문장 단위의 세밀한 사실성 피드백 데이터셋(102,640개)**을 구축함. 기존의 제한된 human-labeled dataset보다 더 많은 양과 정밀도를 가진 학습 데이터 제공. - 작은 모델(Llama-3-8B-Instruct)을 LLM feedback으로 distillation
Llama-3-8B 모델을 QLoRA 방식으로 fine-tuning하여, 70B 모델 수준의 정확도(bAcc 73.4%)에 근접하면서도 3배 빠른 추론 속도와 낮은 비용을 달성.
실제 inference latency와 cost 측정에서 ChatGPT-3.5 및 GPT-4-turbo 대비 성능·비용·속도 측면 모두 우위. - 피드백 세분화(ablation) 실험을 통해 성능 향상 구조 분석
- 단순 이진 분류(label)보다 **이유(reasoning)**와 **오류 유형(error type)**을 추가하면 system-level 평가 일치도(Spearman)가 0.649 → 0.865로 대폭 상승.
- 세밀한 피드백이 설명가능성과 사용자 신뢰도 확보에 기여.
- 정확한 오류 유형 분류(Localization) 가능
LLM feedback으로 학습된 모델은 Out-of-context, Entity error, Predicate error 등 7가지 오류 유형 분류 정확도에서 zero-shot보다 큰 폭으로 향상. 평균 정확도 **27.8%**로 random 수준(14.3%)을 상회.
특히 Entity error에서는 52.5%의 정답률을 기록. - 도메인별 평가에서도 LLM feedback 학습 모델이 일관적으로 강력함
뉴스, 인터뷰, 미팅 등 다양한 도메인에서 **QA/NLI 기반 기존 모델 대비 높은 인간 일치도(Pearson/Spearman)**를 보이며 범용성 확보.
❗️한계점:
- 단일 LLM(FineSurE 기반 Llama-3-70B) 피드백에 의존
다양한 LLM으로부터 feedback을 수집하지 않아 지식 분포가 한쪽으로 치우칠 가능성이 있으며, 모델 성능이 교사 모델 한계를 넘기 어렵다는 한계 존재. - 오류 유형 불균형 심각 (예: CorefE 거의 없음)
다양한 LLM으로 summary를 생성했음에도 실제 데이터에는 특정 오류 유형이 과소 포함되어 있으며, 이로 인해 **일부 오류 분류 정확도가 0% (예: CorefE)**로 낮게 나옴. - 자체 사실 검증 모델 성능에 제한
인간 데이터보다 뛰어난 성능을 보이지만, ground truth와 100% 일치하는 정답 생성은 보장하지 않으며, 학습된 모델이 어떤 논리로 판단했는지의 설명 가능성(Explainability) 측면은 prompt 구성에 의존함.
📌 총평:
FineSumFact는 요약 사실성 평가(factual consistency)에서의 비용-효율성-정밀도 문제를 동시에 해결하는 새로운 데이터/모델 파이프라인을 제안하며, distillation 및 fine-grained LLM feedback이 효과적임을 강력히 입증한 연구입니다.
FedMKT: Federated Mutual Knowledge Transfer for Large and Small Language Models
Tao Fan, Guoqiang Ma, Yan Kang, Hanlin Gu, Yuanfeng Song, Lixin Fan, Kai Chen, Qiang Yang. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- LLM과 SLM 간 상호 지식 전이(Mutual Knowledge Transfer)를 위한 최초의 연합학습 프레임워크 제안
기존 연구는 주로 서버의 LLM → 클라이언트의 SLM 단방향 전이에 국한됨.
FedMKT는 서버-클라이언트 간 양방향 지식 공유를 통해 LLM과 SLM을 동시에 성능 향상시키는 상호 학습 구조를 구현. - Bidirectional Token Alignment + Selective Knowledge Transfer 설계
- 서로 다른 tokenizer를 사용하는 LLM-SLM 간 토큰 불일치 문제를 최소 편집 거리(MinED) 기반 정렬로 해결.
- DualMinCE 알고리즘을 통해 유익한 지식만 선택적으로 전이하여 스팸 지식 전이 방지.
- LLaMA2와 Bloom 등 서로 다른 모델 간 정렬 사례를 구체적으로 기술.
- 효율적인 파라미터 학습 (PEFT, LoRA 활용)
전체 모델이 아닌 LoRA adapter만 학습하여 메모리 비용 0.12% 수준, 모델 성능은 거의 동일 유지.
이를 통해 모델 아키텍처 상이한 클라이언트들 간 학습이 가능함 (Heterogeneous FL 지원). - 3가지 FL 시나리오 전반에서 일관된 성능 향상
- Heterogeneous: 서로 다른 SLM (GPT-2, OPT, Bloom 등)과 LLM(LLaMA2) 구성
- Homogeneous: SLM이 모두 동일한 아키텍처일 때
- One-to-One: 1개 서버-1개 클라이언트 구조
모든 설정에서 기존 Baseline(Zero-shot, Standalone, FedAvg, LLM2SLM) 대비 LLM과 SLM 모두 성능 향상 입증
→ 예: RTE 기준 GPT-2-xlarge는 Standalone 대비 +7%, LLaMA2-7B는 Zero-shot 대비 +30% 성능 향상
- 연산 및 통신 효율성 극대화
- 연산량: 전체 파라미터가 아닌 adapter만 학습 (예: OPT-1.3B 기준 0.12%)
- 통신량: 모델 전체 대신 공개 데이터셋에 대한 logit과 loss만 교환 (8M float 수준)
❗️한계점:
- 프라이버시 보장에 대한 이론적 증명 부재
공개 데이터에 대한 logit만 공유하더라도, 간접적으로 클라이언트 데이터 유출 위험 존재.
현재는 경험적 분석에 머무르며 공식적인 프라이버시 보장 메커니즘은 미제공. - 스팸/악의적 클라이언트 존재에 대한 대비책 없음
스팸 클라이언트가 잘못된 logit을 전송할 경우 LLM 전체 성능 저하 가능.
향후에는 신뢰도 기반 클라이언트 필터링이 필요함. - 보다 대규모 모델 및 복잡한 task에 대한 확장성 미확인
LLaMA2-7B 수준에서만 실험이 진행되었으며, 13B, 33B 등 대형 모델에서는 자원 한계로 미평가. - 상호 전이 간 선택 기준의 최적성 검증 부족
DualMinCE는 로스 기준의 정렬 방식이므로, semantic alignment 또는 task-specific filtering과의 비교가 없음.
📌 총평:
FedMKT는 LLM-SLM 간 상호 지식 전이를 실현한 최초의 연합 학습 프레임워크로, 다양한 FL 시나리오에서 효율성과 성능을 모두 확보한 강력한 기여를 함.
Tokenizer mismatch 문제에 대한 실용적 해결, selective transfer 전략, LoRA 기반 경량화 모두 산업적 적용 가능성을 크게 높임.Dynamic Graph Neural ODE Network for Multi-modal Emotion Recognition in Conversation
Yuntao Shou, Tao Meng, Wei Ai, Keqin Li. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- GCN 기반 MERC의 한계를 해결하는 DGODE 프레임워크 제안
기존 Multimodal Emotion Recognition in Conversation (MERC) 모델들은 주로 GCN을 활용했지만,- 정적 그래프만 처리하고,
- 과적합/over-smoothing 문제가 발생하며,
- 시간 종속성(temporal dependency)을 고려하지 않음.
이를 해결하기 위해, 본 논문은 **ODE 기반 동적 그래프 신경망(DGODE)**를 설계하여 시간 축을 따라 연속적인 감정 변화 표현을 가능하게 함.
- Adaptive MixHop + Graph ODE 통합 설계
- Adaptive MixHop: 다중 hop 이웃 정보를 통합하여 고차 이웃 관계 및 전역 문맥 포착
- Graph Neural ODE: 감정 상태의 시간 흐름을 연속적 동역학 모델로 정의해, 시간에 따른 감정 변화를 자연스럽게 반영함.
이 구조 덕분에 GCN 레이어 수가 증가해도 성능 저하 없이 안정적인 학습이 가능함 (over-smoothing 해결).
- 이모션 인식 정확도 및 모델 안정성 동시 개선
- 기존 GCN 기반 모델(MMGCN, M3Net 등)은 4개 이상 레이어에서 성능 저하 발생.
- DGODE는 레이어 수 증가에 따른 정확도 하락 없이 일관된 성능 유지.
- MERC 표준 벤치마크(IEMOCAP, MELD)에서 SOTA 달성
- IEMOCAP: W-F1 72.8 (이전 최고인 M3Net의 71.1보다 우수)
- MELD: W-F1 67.2 (AdaGIN, DER-GCN 등 기존 GNN보다 우수)
- 특히 Neutral, Frustrated, Sadness, Surprise 등 모델이 구분 어려워하던 감정 클래스에서 우수 성능 확보.
- 시각화 및 정량적 분석에서 효과 입증
- T-SNE 시각화 결과: DGODE가 감정 클래스 간 경계를 보다 명확하게 분리함
- Ablation 실험: ODE 또는 MixHop 제거 시 성능 급감 → 각 구성요소 기여 확인
- Error 분석: "happy↔excited", "angry↔frustrated" 등 유사 감정 간 혼동 사례 정밀 분석
❗️한계점:
- 정적 라벨 vs 동적 감정 표현의 불일치
감정 라벨은 대부분 **고정된 시간 단위(utterance 단위)**로 부여되지만, 모델은 연속적인 감정 변화를 학습함.
이로 인해 fine-grained 감정 변화를 잘 포착하더라도 ground-truth와의 불일치 가능성 존재. - 소수 클래스 감정 인식 어려움
MELD 데이터셋 기준으로, disgust, fear와 같은 소수 클래스에서 낮은 F1 기록 → class imbalance 이슈 존재. - 연산 비용 증가
ODE solver 및 multi-hop GCN 구조는 기존 단순 GCN보다 학습 시간 및 메모리 소모가 큼. 특히 실시간 응용엔 최적화 필요. - PLM 기반 멀티모달 통합 전략의 부재
RoBERTa, DenseNet, openSMILE 기반 개별 modal encoding 후 단순 fusion. 최근 **multi-modal pre-trained encoder (e.g., CLIP, VideoBERT 등)**를 활용한 융합은 아님.
📌 총평:
DGODE는 MERC의 핵심 문제였던 시간 종속성 미반영, 과적합, shallow layer 한계를 해결하며
GCN 기반 구조를 ODE 기반의 연속적 감정 흐름 모델로 확장한 혁신적 연구입니다.HGCLIP: Exploring Vision-Language Models with Graph Representations for Hierarchical Understanding
Peng Xia, Xingtong Yu, Ming Hu, Lie Ju, Zhiyong Wang, Peibo Duan, Zongyuan Ge. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- CLIP 기반 계층적 이미지 분류 모델 HGCLIP 제안
기존 CLIP 및 VLM들은 계층적(hierarchical) 구조를 고려하지 않거나 단순히 텍스트 계층 정보만 결합했으나, 본 논문은 계층 구조를 명시적으로 그래프 형태로 모델링하고, 이를 시각 및 언어 정보에 주입하는 HGCLIP 프레임워크를 제안. - 텍스트 및 이미지 모달리티 각각에 대해 Graph Encoder 설계
- 텍스트 계층 정보는 WordNet이나 ChatGPT로부터 추출된 클래스 계층 구조를 기반으로 그래프를 구성하고, 해당 텍스트 feature를 GNN을 통해 구조화.
- 이미지 feature는 각 클래스의 **프로토타입(대표 시각 특징)**을 추출하여 그래프 상에서 전파.
- 최종적으로 attention map을 통해 이미지 patch feature들이 구조화된 클래스 정보와 정렬되도록 유도함.
- Multi-modal Prompt 학습을 통한 계층적 표현 강화
- 기존 CLIP은 이미지와 텍스트를 매핑하지만, HGCLIP은 transformer 각 층에 학습 가능한 prompt token을 시각/텍스트 양쪽에 주입.
- 이를 통해 서로 다른 세분화 수준(coarse/fine-grained)의 계층 정보까지 다룰 수 있게 설계.
- 실제 계층 정보가 없을 경우, LLM 기반 라벨 계층 자동 생성
- WordNet 등에서 계층 라벨이 없는 데이터셋에 대해 ChatGPT를 활용해 계층적 구조 자동 생성.
- 실험 결과, noisy한 계층 구조에서도 성능 향상 가능함을 입증.
- 11개 벤치마크에서 기존 SOTA 대비 평균 2~5% 성능 향상
- CIFAR-100, FGVC-Aircraft, Food-101 등 coarse/fine-grained 계층 구조 모두에서 CoCoOp, MaPLe, PromptSRC 등 대비 일관된 우수 성능
- 특히 항공기·식물 등 fine-grained 구조에서는 10% 이상 성능 차이
❗️한계점:
- 텍스트와 이미지에 대해 각각 독립된 Graph Encoder 사용
- cross-modal shared GNN 설계 시 성능 하락 → 현재 VLM 구조에서는 각 모달리티의 표현 특성 차이로 인해 joint graph 학습이 어려움
- graph encoder가 단순(GCN, GAT, SAGE)
- 복잡한 구조나 attention 기반 graph transformer 등을 활용할 경우 성능 개선 가능성 존재
- 현재는 3-layer GAT가 최적이라는 단일 결과만 보고됨
- 계층 라벨 생성의 정확도 문제
- ChatGPT로 생성된 noisy 계층 정보는 예측 정확도에 일정한 편차를 발생시킴.
- 계층 불일치 문제(예: ‘cake’가 ‘appetizer’로 예측됨) 해결 필요
- 계층 간 불일치와 모달리티 간 표현 간극에 대한 구조적 제약 존재
- prediction의 일관성(fine→coarse) 보장은 학습 데이터에 의존적이며, 하향식(bottom-up) 구조와 상향식(top-down) 추론을 동시에 고려한 구조 설계는 아님
📌 총평:
HGCLIP은 VLM 기반 모델에 구조화된 계층 정보를 정교하게 통합하여, 다층 분류 과제를 해결하는 매우 실용적이고 확장성 있는 방법을 제시합니다.
특히 fine-grained classification, domain generalization, subpopulation shift에서 강건한 성능을 보이는 점이 매우 인상적입니다.Persona-DB: Efficient Large Language Model Personalization for Response Prediction with Collaborative Data Refinement
Chenkai Sun, Ke Yang, Revanth Gangi Reddy, Yi Fung, Hou Pong Chan, Kevin Small, ChengXiang Zhai, Heng Ji. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- Retrieval-Augmented LLM Personalization을 위한 효율적 데이터 표현 제안
기존 LLM 개인화(personalization) 연구는 주로 retrieval 방식 개선에 집중했고, retrieved data 자체의 구조적 표현 최적화는 소홀했습니다.
본 논문은 LLM 개인화의 핵심 과제를 "적은 양의 사용자 정보로 높은 정밀도 유지"로 재정의하며, 이를 위한 새로운 DB 구조화 프레임워크 Persona-DB를 제안합니다. - Hierarchical Persona Construction (다단계 사용자 표현)
사용자 로그 → Distilled Persona(DP) → Induced Persona(IP) → Cache 로 이어지는 계층 구조 DB를 구성함.- DP: 구체적 행동/감정 패턴 요약
- IP: 상위 추론값(예: 가치관, 이념)
- Cache: 고정된 상위 카테고리로, 사용자 간 매칭용
이 구조는 정보의 추상화 수준을 올려 일반화 성능을 향상시키며, retrieval 수 감소에도 강건한 구조를 가능케 함.
- Collaborative Refinement (JOIN 단계)
Sparse user(= Lurker) 문제를 해결하기 위해, **유사 성향을 가진 사용자들 간의 DB 연합(JOIN)**을 수행.
Instruction 기반 embedding으로 cache-level similarity를 측정하고, 다른 사용자들의 추상적 persona를 가져와 보완. - Retrieval 크기를 1/10로 줄이고도 성능 유지
기존 full-history 또는 최신 history 대비, Persona-DB는 retrieval 수 10개만으로도 기존 대비 우수한 성능 유지.- Top-k=40 기준, Micro-F1 기준 62.66%, Pearson 47.88%
- Top-k=10으로 줄여도 여전히 baselines 초과 성능 유지
- Cold-start 사용자와 Frequent 사용자 모두에서 강건함
- Lurker(평균 13.8개 기록) 기준 Pearson 56.75%로 History 대비 +15%
- Frequent user 기준에서도 noise를 줄이고 전반적 성능 향상
❗️한계점:
- LLM 추출 기반 persona 품질의 불안정성
추출된 DP/IP 품질은 LLM에 의존하며, 3명의 사람 평가자 평균 3.9/5 점수로 일정 수준의 오류 포함.
하지만 전체 framework는 이 오류에도 견고하게 작동함을 실험적으로 입증. - Prompt Compression 대비 실험은 미약
LLMLingua-2 (40% 압축)와의 비교에서 우위는 입증되었지만, 추론 과정에서 함께 활용했을 경우 성능 향상 여부는 미검증. - 개인정보 보호 및 프라이버시 이슈
다른 사용자 정보와의 JOIN은 잠재적인 프라이버시 침해 가능성이 존재하므로, 실제 배포 시 적절한 보호 조치가 필수. - JOIN 비율 조절 및 자동화 전략 미제공
현재 JOIN 비율(x%)은 고정되어 있고, 동적 조절 메커니즘이나 사용자 반응 기반 적응형 설계는 향후 과제로 남음.
📌 총평:
Persona-DB는 retrieval-augmented LLM personalization의 새로운 방향을 제시하는 구조적 기여가 있는 논문입니다.
특히 sparse / noisy 환경에서도 안정적으로 personalization을 달성하며, LLM 기반 응답 예측의 데이터 효율성과 추론 정확도를 동시에 향상시킨다는 점에서 매우 인상적입니다.Multimodal Aspect-Based Sentiment Analysis under Conditional Relation
Xinjing Liu, Ruifan Li, Shuqin Ye, Guangwei Zhang, Xiaojie Wang. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- 조건적 관계(Conditional Relation)를 고려한 MABSA 모델 CORSA 제안
기존 MABSA(Multimodal Aspect-Based Sentiment Analysis) 모델은 이미지와 텍스트가 항상 관련이 있다는 전제에서 출발하지만, 실제 소셜미디어에서는 이미지와 텍스트가 무관할 수 있음. 이 문제를 해결하기 위해 본 논문은 조건 관계를 명시적으로 고려한 CORSA 프레임워크를 제안함. - CRD (Conditional Relation Detector)
텍스트의 aspect가 이미지 내 객체와 관련이 있는지를 판별하는 조건 관계 판별 모듈. 관련이 없다고 판단되면, 시각 정보를 필터링하여 노이즈 제거 및 성능 저하 방지. - VOL (Visual Object Localizer)
이미지 내에서 aspect와 조건적으로 관련된 영역을 정확히 찾아내는 모듈. YOLOv8 기반 다중 스케일 시각 특징 추출, cross-modal attention, gating mechanism 등을 통해 정확한 시각적 정렬 수행. - Multi-modal BART 기반 MSA 구성
BART 기반 인코더-디코더를 활용한 멀티모달 감성 분석기(MSA)를 설계하여, 추출된 condition-aligned 시각 정보와 텍스트 정보를 함께 사용해 aspect-sentiment pair를 생성. - 두 가지 자동화된 데이터 주석 방식 도입
- 조건 관계(Conditional Relevance): UNINEXT 모델 기반 Referring Expression Comprehension 사용
- 시각 객체 주석: YOLOv8 + MSCOCO 사전학습 모델로 bounding box 및 category 정보 생성
→ 이를 통해 조건 관계가 반영된 C-MABSA 데이터셋 구축
- 다양한 벤치마크에서 SOTA 성능 달성
Twitter-15 및 Twitter-17 데이터셋에서 JMASA, MATE, MASC 모두에서 기존 SOTA 방법들(MCPL-VLP, AoM, RNG 등)을 능가함. 특히 JMASA 기준 F1-score 69.9% (Twitter-15), 70.6% (Twitter-17)로 가장 우수.
❗️한계점:
- 조건 관계 주석 품질 문제 (Annotation Noise)
Conditional relation과 visual object 주석은 기계적으로 생성된 것이며, GT는 존재하지 않음.
→ 데이터 노이즈에 따라 성능이 일정 부분 영향을 받을 수 있음. - 다중 aspect 대응 한계
하나의 이미지에 여러 aspect가 있는 경우(특히 Twitter-17), 조건 관계 평균 처리로 인해 주석 정확도 저하 발생.
→ 정확한 관계 주석이나 aspect 분리 주석이 필요. - 조건 관계/객체 탐지용 사전 모델 성능 의존
REC 및 Object Detector의 한계가 곧 CORSA의 하한 성능을 결정. 특히 unseen domain에서는 불안정할 수 있음. - LLM 및 MLLM 대비 설명성 부족
MLLM(GPT-4V, Llava 등) 대비 성능은 우수하나, 설명력(explainability) 측면이나 사용자 대응 인터페이스 설계는 미흡.
📌 총평:
CORSA는 이미지-텍스트 불일치 조건까지 명시적으로 모델링하여 MABSA의 현실성을 한 단계 끌어올린 구조적 기여를 보임.
특히, 기존 SOTA 모델들이 암묵적으로 가정한 멀티모달 정렬 관계를 깨고, 실제 noisy 환경에 적용 가능성을 제시했다는 점에서 의미가 큼.MCS-SQL: Leveraging Multiple Prompts and Multiple-Choice Selection For Text-to-SQL Generation
Dongjun Lee, Choongwon Park, Jaehyuk Kim, Heesoo Park. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- 다중 프롬프트 + 다중 선택 기반 Text-to-SQL 프레임워크 제안
기존 LLM 기반 Text-to-SQL 접근법은 프롬프트 구조나 예시 순서에 민감하며, 단일 프롬프트에 의존함.
본 논문은 LLM의 민감도를 적극 활용하여, 다양한 프롬프트로 후보 SQL 쿼리를 생성하고, LLM이 최종 선택하게 하는 MCS-SQL 프레임워크를 제안함. - 세 가지 주요 단계로 구성된 구조 설계
- (1) Schema Linking: 다양한 프롬프트로 DB에서 관련 테이블/컬럼을 추출
- (2) Multiple SQL Generation: 다양한 few-shot 예시 조합으로 다양한 SQL 후보 생성
- (3) Multiple-Choice Selection (MCS): 실행 결과 및 confidence 기반 필터링 후, LLM이 reasoning 기반 선택
- BIRD, Spider 벤치마크에서 SOTA 달성
- BIRD: EX 65.5%, VES 71.4% → 기존 GPT-4 기반 SOTA 대비 각각 +5.9%, +3.7% 향상
- Spider: EX 89.6% → GPT-4 기반 SOTA 대비 +3.0% 향상
- 프롬프트 민감성 극복 및 성능 향상 전략
- Schema 구조, 예시 순서, mask 전략 등 다양한 프롬프트 변형을 조합해 search space 확장
- Question similarity, masked question similarity 기반의 동적 few-shot 예시 선택
- Confidence 기반 filtering + LLM 기반 selection으로 정확도와 해석 가능성 확보
- 실제 SQL 실행 기반의 평가 구조 도입
- 단순 문자열 비교가 아닌 SQL 실행 결과 기준 평가 (EX, VES)
- 쿼리 실행 속도 및 정확도 기반 필터링 → 현실적인 NL2SQL 성능 평가 구조 설계
❗️한계점:
- 높은 비용 및 다단계 API 호출
- Schema linking, SQL generation, MCS까지 최소 3~4회 GPT 호출, 프롬프트 당 20개 쿼리 샘플링 → 추론 비용 매우 큼
- 에러 분석에서 Schema Linking 오차 비중 큼
- 실패 케이스 중 20% 이상이 테이블/컬럼 선택 오류
- 복잡한 DB에서는 사람이 봐도 ambiguous한 경우 존재 → 향후 계층 기반 schema modeling 필요
- 결과 해석의 주관성
- MCS에서 LLM이 "가장 좋은 SQL"을 선택하지만, 실행 결과가 동일해도 SELECT 항목 차이 등으로 오답 처리되는 경우 있음
- Zero-shot 또는 Compact Prompt와의 비교 미흡
- LLMLingua 등 프롬프트 압축 모델과의 비용-성능 비교는 생략됨
📌 총평:
MCS-SQL은 LLM의 prompt sensitivity 문제를 오히려 장점으로 전환하여, 다양한 프롬프트 기반 후보를 탐색하고 정확한 SQL 쿼리를 선택하는 혁신적 방법을 제시함.
특히, 복잡한 다중 테이블 DB 환경(BIRD)에서 탁월한 성능을 입증하며 실제 NLIDB 구축에 현실적인 기여를 합니다.InstructMol: Multi-Modal Integration for Building a Versatile and Reliable Molecular Assistant in Drug Discovery
He Cao, Zijing Liu, Xingyu Lu, Yuan Yao, Yu Li. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- 약물 개발을 위한 다중 모달 LLM 프레임워크 InstructMol 제안
InstructMol은 분자 그래프, 분자 서열(SELFIES), 그리고 자연어 간의 정렬을 통해,
**약물 개발(drag discovery)**에 특화된 다기능적이고 신뢰할 수 있는 분자 어시스턴트를 지향.
LLM 기반 분자 어시스턴트로는 최초로 instruction tuning 기반의 two-stage 학습 체계를 도입. - 두 단계 학습 전략 (Alignment Pretraining → Instruction Tuning)
- 1단계 (정렬 사전학습): 330K 분자-텍스트 쌍을 활용해 Graph encoder 출력과 언어 임베딩 정렬
- 2단계 (Instruction Tuning): LoRA 기반 경량 튜닝을 통해 화합물 특성 예측 / 설명 생성 / 반응 예측 등 다양한 downstream 태스크에 적용 가능
- 다양한 약물 발견 관련 태스크에서 SOTA 수준의 성능
- 물성 예측 (HOMO/LUMO, BBBP, HIV 등): 전문가 모델 성능에 근접
- 분자 설명 생성: ChEBI-20 기준 GPT-3.5 및 기존 LLM보다 월등한 BLEU/ROUGE/METEOR 성능
- 화학 반응 예측 (Forward / Retrosynthesis / Reagent): 대부분의 LLM/전문가 모델 대비 월등한 Exact Match 및 FTS 기록
- 경량 튜닝 + 모듈화 구조
- LoRA 기반 tuning으로 전체 파라미터의 약 1.4%만 학습 (100M 미만)
- 개별 태스크 별 LoRA adapter 사용 가능 → 다양한 태스크에 빠르게 확장/적용 가능
- 기존 OpenChemCrow (GPT-4 기반 에이전트) 대비 안정성 우수
- ChemCrow는 프롬프트 민감도가 높고, 민감한 물질에 대해 응답 거절
- InstructMol은 동일 조건에서 정답률, 화학적 타당성, 응답 일관성에서 높은 신뢰도 보임
❗️한계점:
- 도메인 특화 LLM 아키텍처의 부재
현재 기반 LLM은 Vicuna-7B와 같은 범용 모델이므로, 화학 지식에 최적화된 사전학습 LLM 부재가 한계로 작용 - 데이터 규모의 제약
학습 데이터는 약 300K 수준이며, 전문 모델들이 사용하는 1억 개 이상 규모의 분자 데이터에는 미치지 못함 - 단순한 정렬 구조 (Linear Projector)
vision-language 분야에서 활용되는 복잡한 alignment 구조 대신 단순 선형 투사를 사용 → 더 복잡한 상호작용 학습에는 제약 - 반응 예측의 복잡성 증가 시 성능 저하
다중 반응물 / 조건의 복잡성이 증가하면 정답 분자 구조 생성 정확도 감소
→ 일부 예측에서 ground-truth와의 misalignment 존재 (예: Retrosynthesis)
📌 총평:
InstructMol은 범용 LLM을 경량 instruction tuning 방식으로 분자-텍스트 다중모달 학습에 적응시킨, 실용적이며 확장 가능한 분자 어시스턴트 프레임워크입니다.
특히 낮은 자원으로도 SOTA 성능을 확보하면서, 다양한 분자 기반 태스크를 하나의 모델로 통합한 점에서 탁월한 기여를 합니다.Ambiguity-aware Multi-level Incongruity Fusion Network for Multi-Modal Sarcasm Detection
Kuntao Li, Yifan Chen, Qiaofeng Wu, Weixing Mai, Fenghuan Li, Yun Xue. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- 다중 수준 불일치 학습 + 모호성 기반 융합 구조 제안 (AMIF)
기존 멀티모달 풍자(sarcasm) 검출 연구는 주로 텍스트-이미지의 교차 모달 정렬에만 집중했으며,- (1) 텍스트/이미지 각각의 단일 모달 불일치 정보를 간과하고
- (2) **모달 간 모호성(ambiguity)**이 결과에 미치는 영향 또한 고려하지 않음.
이에 따라, 본 논문은 텍스트, 이미지, 텍스트-이미지 세 수준에서 불일치를 모두 추출하고,
이들 사이의 **정보 간격(ambiguity)**에 따라 가중치를 할당하는 새로운 네트워크인 AMIF를 제안함.
- Multi-level Incongruity Learning (MIL)
- UGIE(Unimodal Gating Incongruity Extracting): 텍스트와 이미지 각각에서 내부적 불일치 정보 추출 (e.g., 어조 반전, 비꼬기 표현)
- CIGR(Cross-modal Incongruity Graph Reasoning): 텍스트-이미지 간 국소(local)/전역(global) 수준의 불일치 추론을 그래프 기반으로 수행
→ 교차 모달 상의 fine-grained 불일치를 정교하게 포착
- Ambiguity-based Incongruity Fusion (AIF)
- 세 수준의 불일치 표현(mt, mc, mv)을 결합하기 전,
- **모달 간 모호성(ambiguity)**을 VAE 기반 KL divergence로 계산하여 각 모달의 신뢰도를 정량화
- Modality-wise Attention Mechanism을 통해 각 수준에 적응형 가중치 부여
- 실험 결과: SOTA 모델들을 압도하는 성능
- Twitter 기반 benchmark에서 Accuracy 90.1%, F1-score 88.09%로
- 최근 대표 모델 DMSD-CL, SEF, DGP 대비 F1 +1.72%p 이상 향상
- 특히 text-only/image-only 성능을 모두 뛰어넘음
- 정교한 Ablation Study & t-SNE 시각화로 구성 요소 효과 검증
- UGIE / CIGR / IFCL / AIF / AG 모듈 각각 제거 시 성능 하락
- AMIF가 최종 feature 공간에서 가장 분류 경계가 명확함(t-SNE 시각화)
- Hyperparameter (λ, λ_IFCL, CIGR step 등)에 따른 변화도 분석
❗️한계점:
- 외부 지식(external knowledge) 미활용
풍자 표현은 종종 문화/사회적 배경 지식을 필요로 하는데, 본 모델은 오직 이미지+텍스트 정보에만 기반 - 텍스트 내 구문 정보(syntax) 미활용
CIGR는 주로 의미적 의미론(semantic representation) 추론에 집중하며, 텍스트 내 문법/구문 구조는 무시 - 모델 복잡도 및 학습 비용
UGIE + CIGR + IFCL + AIF 등으로 구성되어 구조가 복잡하며, 추론/훈련 시 다소 무겁다는 점은 실제 적용 시 고려 필요
📌 총평:
AMIF는 ‘풍자’라는 복잡하고 미묘한 표현을 다루기 위해, 다양한 수준의 불일치 정보와 모달 간 신뢰도 차이를 고려한 다중 전략적 모델링을 성공적으로 구현하였습니다.
특히 CIGR와 VAE 기반 ambiguity-guided fusion은 다른 멀티모달 감성/풍자 모델에도 확장 적용 가능성이 높음.더보기✅ 기여점:
- 프랑스 행정문서 전용 언어모델 AdminBERT 제안
행정문서는 비표준화된 포맷, 특수 도메인 용어, OCR 노이즈 등으로 인해 기존 PLM들이 잘 작동하지 않음. 본 논문은 이 문제를 해결하기 위해 프랑스어 행정문서에 특화된 AdminBERT 언어모델을 제안함. - AdminSet & AdminSet-NER 데이터셋 공개
- AdminSet: 2020–2022년 사이 수집된 50M 문서 조각 (16GB, 약 28억 단어), 프랑스 지방정부 및 중앙정부 문서 포함
- AdminSet-NER: 2023년 수집된 문서에서 인물(PER), 기관(ORG), 지역(LOC)을 수작업으로 어노테이션한 프랑스 최초의 행정 NER 데이터셋 (814 문서)
- 다양한 모델과의 비교 실험
- CamemBERT, NERmemBERT, GLiNER, Mixtral-7x8B 등과 비교
- AdminBERT-16GB가 **NER F1-score 80.11%**로 최고 성능
- 일반 도메인 성능도 비교적 양호 (WikiNER 기준 F1 92%)
- 노이즈 환경 고려한 사전처리 및 평가
OCR 후의 실제 노이즈를 포함한 상태로 학습/평가를 진행
→ 현실적인 적용 가능성 고려 - 공개 배포
HuggingFace를 통해 모델 및 데이터셋을 모두 공개함
❗️한계점:
- 토크나이저 성능 저하 문제
프랑스어 행정명(예: Commune d’Ollioules 등)이 CamemBERT 기반 토크나이저로는 과도하게 쪼개짐 → entity span 단위 예측 어려움 - PER/ORG 성능 높지만 LOC 성능 낮음
LOC 엔티티가 수량도 적고 문맥에 따라 ORG와 혼동 가능 → LOC F1-score 53~58% 수준 - 도메인 다양성 제한
데이터는 대부분 2020–2022년, COVID 기간 중 수집되어 도메인 언어 다양성은 다소 부족할 수 있음 - 범용성 한계
행정 도메인에 특화되었지만, 범용 도메인에서는 기존 NERmemBERT보다 성능 낮음 (WikiNER F1: 92% vs 99%)
📌 총평:
AdminBERT는 프랑스어 행정문서의 구조적 복잡성과 도메인 특수성에 맞춘 첫 PLM이며, NER 태스크에 특화된 강력한 성능을 보여줍니다. 특히 OCR 노이즈를 포함한 실제 문서 처리에 초점을 맞췄다는 점에서 실무 활용 가능성이 높습니다.
ELITR-Bench: A Meeting Assistant Benchmark for Long-Context Language Models
Thibaut Thonet, Laurent Besacier, Jos Rozen. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- 현실적인 롱컨텍스트 평가를 위한 새로운 벤치마크 제안
기존 롱컨텍스트 LLM 벤치마크는 Wikipedia 기반 QA 등 비현실적이고 일반적인 태스크에 집중됨.
본 논문은 실제 회의 도우미 시나리오를 기반으로, ASR 기반 회의 전사 데이터를 활용해 장문-노이즈-대화형 QA 태스크로 구성된 새로운 벤치마크 ELITR-Bench를 제안. - 노이즈 레벨에 따른 성능 강건성 평가 구조 도입
ASR 오류를 시뮬레이션하여 20%~100%의 Word Error Rate(WER) 수준의 노이즈 전사본을 생성.
이를 통해 **LLM의 현실적 시나리오 대응 능력(강건성)**을 정량적으로 비교 가능. - QA + Conversation 설정 모두 포함한 이중 모드 제공
- ELITR-Bench-QA: 독립형 질문 271개와 정답 수록
- ELITR-Bench-Conv: 이전 질문/답변을 참조해야만 답변 가능한 대화형 질문 설정 포함
→ LLM의 multi-turn 추론 능력을 평가 가능
- 12개의 롱컨텍스트 LLM 벤치마킹 (GPT-4/4o, Phi-3, LLaMA-3.1 등)
- GPT-4/4o가 모든 설정에서 가장 높은 평균 점수(8.4/10 이상)
- LLaMA-3.1과 Phi-3는 깨끗한 전사에서는 GPT-3.5를 능가하나, 노이즈 증가 시 성능 급감
- LLaMA-2 기반 모델들은 multi-turn 설정에서 오히려 성능 감소 → 이전 질문에 영향을 많이 받음
- GPT-4 기반 자동 채점 평가 신뢰도 검증
- 전문가(Gold Human), 크라우드소싱(Silver), Prometheus(오픈모델)와 비교
- GPT-4는 사람과의 상관도 0.82로 높았지만, 실제로는 3단계(저/중/상) 분류에 가깝게 평가하는 경향
❗️한계점:
- 한정된 도메인과 언어 (NLP 관련 영어 회의)
벤치마크는 ELITR corpus의 **NLP 관련 회의(8개 test, 10개 dev)**로 구성됨. 다양한 산업/언어 확장 필요 - GPT-4 평가 편향 가능성
평가 기준 모델이 GPT-4 기반이기 때문에, 동일 모델 또는 유사 모델에 대해 평가 편향 가능성 존재 - LLM 세대별 fine-tuning 데이터 차이 고려 미흡
최신 오픈모델(Phi-3, LLaMA-3.1)은 대화 기반 fine-tuning이 잘 되어 있어 multi-turn에 강인
반면 LLaMA-2 계열은 multi-turn 질문에 대해 혼란을 느끼는 경향 - 질문과 답변 간 위치 관련한 fine-grained 분석 부족
“Lost in the middle” 문제(문서 중간 정보가 무시되는 현상)는 일부 모델에서만 나타남 (Vicuna-7B 등)
📌 총평:
ELITR-Bench는 롱컨텍스트 LLM의 실사용 가능성과 한계를 평가하기 위한 강력하고 정밀한 벤치마크입니다.
특히 ASR 노이즈 반영, multi-turn 대화 대응, 정제된 평가 메커니즘을 포함해 현실적 시나리오와의 정합성이 뛰어납니다.Positive Text Reframing under Multi-strategy Optimization
Shutong Jia, Biwei Cao, Qingqing Gao, Jiuxin Cao, Bo Liu. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- 긍정적 재구성(Positive Reframing)이라는 새로운 문체 전환 태스크 정식화
기존 Sentiment Transfer는 단순히 긍/부정 감정만 뒤집는 방식이지만, 긍정적 재구성은 부정적인 문장을 긍정적인 관점에서 재서술하면서 원래 의미를 보존하는 것이 핵심.
→ 심리학 기반 표현 전환을 언어 생성 모델에 적용. - Multi-Strategy Optimization Framework (MSOF) 제안
세 가지 최적화 단계로 구성된 포괄적 프레임워크 설계:- ✅ 강화 학습 기반 훈련 단계: 긍정 감정 강화(Positive Sentiment Reward) + 의미 보존 강화(Content Preservation Reward)
- ✅ 다양한 디코딩 전략 적용: Beam Search, Top-k, Top-p, Typical Sampling 등
- ✅ 다차원 재순위 결정(Multi-dimensional Re-ranking): 전략 일치도, 의미 유사도(BLEU), 문장 유창성(GPT-2 PPL) 기반 후보 문장 평가
- 전략 조건 제시 하의 제어형(Controlled) 및 비제어형(Unconstrained) 모두 지원
- 6가지 심리학 기반 전략(Growth Mindset, Impermanence 등)을 활용해 컨트롤러블 재구성 모델링
- Strategy-BERT라는 개별 전략 분류기를 만들어 전략 일치도 평가 지표로 활용
- 새로운 평가 지표 RTQE 제안
기존 BLEU/ROUGE는 단순 복사에 유리 → 원문과 생성문 사이의 ‘긍정적 재구성 관계’를 평가하는 BERT 기반 이진 분류 지표(RTQE) 도입- RoBERTa-Large 기반 분류기 성능: F1 95.98%, Accuracy 97.41%
- T5와 BART 기반 대규모 실험 및 Human 평가
- MSOFTop-k 모델이 모든 automatic metric (BLEU, ROUGE, BScore, ∆TextBlob, RTQE, PPL 등)에서 SOTA
- Human 평가에서도 Meaning, Fluency, Positivity 모두 기존 대비 개선 (T5 기준 평균 +0.3 이상)
❗️한계점:
- 훈련/추론 비용 증가
MSOF는 강화학습 기반 reward + 후처리 candidate re-ranking 구조로 인해 기존 모델 대비 시간·메모리 소모가 큼 - 데이터 레이블 편향과 노이즈 존재
사용한 긍정 재구성 데이터셋(Ziems et al., 2022)은 전략 분포 불균형, 일부 문장 레이블 오류가 존재 → 모델 학습에 영향을 줄 수 있음 - LLM 대비 hallucination 방지 성능은 낮음
GPT-3.5와 비교 실험 결과, MSOF가 BLEU/RTQE는 우위지만, LLM은 더 긍정적이지만 과장된 표현 생성 경향 - 다국어 데이터 부재
본 논문은 영어 기반 데이터셋에만 한정되어 있으며, 다국어 또는 한국어 적용 가능성은 미확인
📌 총평:
MSOF는 '문장을 긍정적으로 바꾸되 의미를 유지하라'는 복합적 요구를 충족하는 SOTA 프레임워크로, 학습-디코딩-재선택 전 과정을 통합적으로 최적화했다는 점에서 큰 의의가 있습니다.
특히 기존 sentiment transfer 대비 심리학적 응용과 제어 가능성을 강화했다는 점이 참신합니다.RAM2C: A Liberal Arts Educational Chatbot based on Retrieval-augmented Multi-role Multi-expert Collaboration
Haoyu Huang, Tong Niu, Rui Yang, Luping Shi. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- HTS 기준(휴머니즘, 교육 전문성, 안전 윤리)에 부합하는 교육 대화 생성 프레임워크 제안
기존 LLM 기반 교육 대화는 인간적 공감, 교육적 피드백, 윤리적 필터링이 미흡했음.
이를 해결하기 위해 RAM2C는 **다중 역할·다중 전문가 협업 구조(M2C)**에 Retrieval-Augmented Generation을 결합한 교육 특화 자동 대화 생성 프레임워크를 제안. - RAM2C 구조 요약
- T-Group: 교사 역할 → 교육적 피드백 중심
- P-Group: 심리학자 역할 → 정서적/심리적 적절성 검토
- E-Group: 윤리/안전 전문가 → 민감 표현 필터링
세 그룹이 순차적으로 응답을 수정하고 재구성하며, 각 역할은 **서로 다른 지식 베이스에 기반한 검색 확장(RAG)**을 수행함.
- Group-Reflection 기반 Retrieval 정교화 제안
기존 RAG는 벡터 유사도 기반으로 문서 검색 → 교육적 참조가 낮은 문서 반환 우려
→ RAM2C는 다수 전문가가 검색 문서를 평가/투표하여 교육적 가치가 높은 문서만 사용 → 검색 신뢰도 향상 - RAM2C로 생성된 교육 대화 데이터를 기반으로 DPO 방식 미세조정 수행
RAM2C 기반 GLM-4가 생성한 응답을 바탕으로 Qwen1.5-4B, MiniCPM-2B, ChatGLM3-6B 모델을 미세조정
→ HTS 3가지 기준 모두에서 원본 모델 대비 높은 평가 점수 확보 - 사람 평가 기반 HTS 지표와 상세 평가 기준 정립
- Humanized Communication: 정서적 피드백, 개별화, 문화 존중 등
- Teaching Expertise: 개방형 유도 질문, 문학적 표현, 발문 다양성 등
- Safety & Ethics: 혐오 표현 방지, 보편 가치 유도, 문화 다양성 고려 등
실험 결과, RAM2C 모델이 GLM-4 대비 HTS 평균 5~10%p 이상 향상
❗️한계점:
- RAM2C 구조의 복잡성과 연산 비용
RAG + 다중 전문가 협업 구조로 인해 학습/추론 비용이 높음 - 영어 및 타 과목으로의 확장 실험 부족
현재는 중국어 기반 문학 수업 시나리오에 국한됨. 역사·정치·다국어 확장 필요 - Expert 역할/프롬프트 설계의 일반화 미검증
역할별 프롬프트 구성이나 지식베이스 구성 방식이 일반화 가능한가에 대한 분석 부족 - E-Group(윤리 전문가) 기여 미미
실험 결과 E-Group 제거해도 안전성(S) 성능 하락폭이 크지 않았음 → 기본 LLM의 안전성 필터 영향 추정
📌 총평:
RAM2C는 교육적 품질을 다차원적으로 고려한 최초의 자동 생성 프레임워크로,
LLM의 역할 수행 능력, 협업 생성 능력, 검색 증강 능력을 통합적으로 활용한 설계입니다.
경량 모델에 고품질 교육 대화 능력을 주입하는 목적에 매우 적합한 방법론입니다.SURE: Mutually Visible Objects and Self-generated Candidate Labels For Relation Extraction
Yuxuan Feng, Qian Chen, Qianyou Wu, Xin Guo, Suge Wang. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- 관계 추출(Relation Extraction, RE)을 위한 새로운 파이프라인 모델 SURE 제안
기존 RE 모델들은 엔티티 간 관계 예측 시, 후보 레이블 없이 “채워 넣기(FITB)” 방식으로 정답을 생성함.
SURE는 교육 심리학의 "객관식(MCQs)이 주관식보다 더 효과적"이라는 원리를 차용해, 후보 관계 레이블들을 명시적으로 제공하는 CLMs(Candidate Label Markers) 기법을 도입. - CLMs + M-DOS의 2단계 구조 도입
- Stage 1: 기존 RE 모델이 각 엔티티 쌍에 대해 가장 유력한 관계 레이블 top-n, 가장 가능성 낮은 bottom-m을 **후보(CLMs)**로 생성
- Stage 2: 생성된 CLMs들을 입력에 추가하고 모델이 최종 관계를 선택하게 함
→ “생성” 대신 “선택”으로 전환된 학습 패러다임
- M-DOS(Mutual Directional Object Self-attention)
- 기존 PL-Marker는 여러 엔티티가 있을 경우, object 간 상호작용이 부족했음
- SURE는 모든 object entity 쌍 간 서로 볼 수 있도록 attention을 재설계하여 관계 예측 성능 향상
- 세 가지 RE 벤치마크에서 SOTA 성능 달성
- ACE04, ACE05, SciERC 세 데이터셋에서 F1 기준 1.1%~2.7% 향상
- 특히 PL-Marker 대비 ACE04에서 1.5%, SciERC에서 2.7% strict-F1 상승
- 속도 개선 및 효율 유지
- PL-Marker 수준의 빠른 inference 속도 유지하면서도, PURE보다 2배 빠르고 성능은 높음
- 정성 평가 및 Ablation 실험으로 구성 요소의 기여 분석
- PL-Marker 대비 colleague_of 관계 등 간접적 관계 추론이 가능
- CLMs, M-DOS, 순서 학습 등 각각의 요소가 성능에 독립적으로 기여함을 실험적으로 입증
❗️한계점:
- 학습 시 두 번의 모델 실행 필요 (2-stage)
Stage 1에서 CLMs 생성을 위해 먼저 inference 수행 → 학습 비용이 증가
→ Stage 2만 사용하는 비율을 조정하여 학습 효율 개선 가능 - 추론 시에는 CLMs 미사용
학습 중에는 MCQ 방식이지만, 추론 시에는 CLMs 없이 정답을 예측함
→ inference 일관성 이슈는 존재 - Relation label space가 크거나 복잡할 경우 확장성 불확실
많은 레이블이 있을 경우, top-n/bottom-m CLM 생성의 품질이 떨어질 수 있음
📌 총평:
SURE는 RE 문제를 생성 중심에서 선택 중심으로 전환한 혁신적인 구조로, CLMs + M-DOS 조합을 통해 관계 추론의 정밀도와 속도를 모두 향상시킨 강력한 파이프라인 모델입니다.
기존 PL-Marker, PURE보다 명확히 뛰어난 성능과 직관적인 설계가 돋보이며, 교육적 인지이론 기반의 접근이라는 점도 신선합니다.TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data
Yihong Liu, Chunlan Ma, Haotian Ye, Hinrich Schütze. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- Transliterated 데이터 전용 mPLM 사전학습 없이 활용 가능한 프레임워크 TRANSMI 제안
기존 접근법은 비라틴 문자(예: 한자, 아랍어, 키릴 문자 등)를 라틴 문자로 변환(transliteration)한 후에는 새로운 서브워드가 생기므로 사전학습을 새로 하거나 추가 훈련이 필요함.
TRANSMI는 기존 mPLM의 토크나이저와 임베딩을 그대로 활용하여 추가 학습 없이 적용할 수 있게 함. - TRANSMI의 3단계 구성: Transliterate → Merge → Initialize
- (1) Transliterate: 기존 mPLM의 vocab에 있는 서브워드를 라틴 문자로 변환
- (2) Merge: 변환된 단어들을 기존 vocab에 병합 (min/max/avg 방식 지원)
- (3) Initialize: 기존 임베딩을 복사하거나 평균 등으로 초기화
→ 이를 통해 새로운 서브워드 처리 가능하면서 기존 성능도 보존
- 사전학습 없이 transliteration 성능 대폭 향상
- XLM-R, Glot500, FURINA에 TRANSMI 적용 → 3~34% 향상 (문장 검색, 분류, 시퀀스 라벨링 전반)
- 특히 Max-Merge 모드가 가장 좋은 성능을 보이며, high-resource 언어군에서 강세
- Low-resource 언어군에서는 Min-Merge가 더 강인 (transliteration 스코어 낮은 rare word 보존)
- Tokenization 품질과 처리 길이 개선
- 원래 토크나이저는 라틴 변환 시 의미없는 분절 발생
- TRANSMI 수정 후에는 linguistic unit 기반의 더 짧고 의미있는 분절 확보
- 비변환 스크립트에 대한 성능 유지
- 라틴으로 변환되지 않은 원래 스크립트에 대해서도 기존 mPLM과 동일하거나 유사한 성능 유지
❗️한계점:
- 다의어(transliteration ambiguity)에 대한 처리 한계
예: 중국어 "太阳"과 "太陽" 모두 "taiyang"으로 변환됨 → 단일 표현으로 매핑할 경우 문맥 오해 가능 - 라틴 기반 언어에서도 tokenization 변화로 인해 약간의 성능 감소
→ 영어 기반 zero-shot 전이에서 영향 줄 수 있음 - Uroman만 사용
언어 특화 transliteration 도구를 사용하지 않음 (예: tones 미포함된 Chinese, long vowels 미보정된 Arabic 등) - SentencePiece 기반 토크나이저에만 적용됨
BPE 기반 WordPiece 등에도 적용 가능하나 본 논문에선 다루지 않음
📌 총평:
TRANSMI는 "사전학습 없이 기존 mPLM으로도 transliterated 데이터를 잘 처리할 수 있다"는 점을 증명하는 매우 실용적이고 효과적인 프레임워크입니다.
모든 과정이 단순하며, 추가 훈련 없이 성능 향상이 가능하다는 점에서 low-resource NLP 연구 및 다국어 데이터 정규화 처리에 매우 유용합니다.Two-stage Incomplete Utterance Rewriting on Editing Operation
Zhiyu Cao, Peifeng Li, Qiaoming Zhu, Yaxin Fan. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- 불완전 발화 재작성(IUR)을 위한 두 단계 기반 TEO 프레임워크 제안
기존 IUR 연구들은 대체(replacement)와 삽입(insertion)을 구분하지 않고 단일 문장 생성 방식으로 처리했으나, 본 논문은 인간의 글쓰기처럼 편집 연산 기반으로 처리하는 TEO (Two-stage Editing Operation) 프레임워크를 제안함. - 1단계: 편집 연산(Editing Operation) 생성
- [D] 삭제, [R] 대체, [I] 삽입 등 세 가지 연산으로 구성
- 예: “It is he who acted” → [D] he [R] Ben Affleck [I] as Batman
- BART 모델 기반으로 연산 순서를 고려한 시퀀스 생성 방식
- 2단계: 편집 연산 기반 재작성
- 생성된 편집 연산과 원래 문맥(Context)을 이용해 최종 발화를 생성
- 훈련/추론 불일치 문제 (exposure bias) 해결을 위해 적대적 노이즈 삽입 전략 (perturbation) 사용
- 랜덤 삽입/삭제/대체를 통해 모델 강건성 증가
- 세 개의 데이터셋에서 SOTA 달성 (영어 TASK, 중국어 REWRITE & RES200K)
- REWRITE 기준 EM: 73.5%, F1: 91.0
- 이전 최고 성능 모델(MIUR, Locate-Fill, XSS 등) 대비 모든 지표에서 상회
- GPT-4와 비교 실험에서도 BLEU, ROUGE, EM 모두 우세
- TEO-Gold, TEO-RFIS, TEO-T5 등 다양한 ablation 실험 제공
- Gold 편집 연산 사용 시 성능 극대화 (EM 86.3%)
- 삽입만 2단계에서 처리(T-RFIS) 시 성능 하락 → 두 연산 동시 고려 필요
- 편집 연산 없이 재작성만 하는 경우(BARTbase)보다 일관된 성능 우위
- Human 평가 및 사례 분석을 통해 유창성·정확성 입증
- BARTbase는 더 유창한 문장 생성 능력이 있으나 맥락 부합도가 떨어짐
- TEO는 불연속 삽입, 중첩된 지시어 해석 등 복잡한 발화에도 강건
❗️한계점:
- 편집 연산 표현 방식이 단일 구조에 한정
다양한 템플릿이나 구조를 고려하면 더 정교한 연산 학습 가능성 존재 - 1→2단계 상호 작용 부족
현재는 단방향(one-way) 구조로, 2단계에서 얻은 정보로 1단계를 보완하는 역전파는 없음 - 삽입 위치 예측 불확실성
1단계에서는 삽입 텍스트만 제공되므로, 위치 선정 오류가 성능 저하의 주원인 - REWRITE/RES200K 중심 구조 → 다도메인 적용은 미검증
뉴스, SNS, 전화 발화 등 다양한 대화체 스타일에 대한 일반화 실험 필요
📌 총평:
TEO는 편집 연산을 명시적으로 학습하고 이를 기반으로 불완전 발화를 재작성하는 첫 번째 실용적이고 강력한 two-stage 구조입니다.
coreference, ellipsis와 같은 복합 언어 현상 처리에서 매우 우수한 성능을 보였으며, 범용 대화 시스템의 기저 처리기로서도 확장성 높음.QuickLLaMA: Query-aware Inference Acceleration for Large Language Models
Jingyao Li, Han Shi, Sitong Wu, Chuanyang Zheng, Zhenguo Li, Xin Jiang, Hong Xu, Jiaya Jia. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- Query-aware Long Context Inference 프레임워크 QLLM 제안
기존 LLM들은 긴 문맥에서 관련 없는 정보에 주의를 분산하거나 슬라이딩 윈도우 방식으로 성능과 시간 효율을 절충하는 방식이었음.
QLLM은 사용자 질의에 따라 context에서 관련된 메모리 블록만 동적으로 조회함으로써, 훈련 없이 성능 향상을 달성. - Query-aware Context Lookup 메커니즘 설계
- Query tokens와 Context tokens 간의 유사도를 기반으로 relevance score 계산
- 상위 메모리 블록만 GPU로 로딩 → 불필요한 정보 배제
- Memory blocks는 고정된 윈도우로 분할되며, 대표 토큰(Representative Tokens)을 추출하여 효율적인 인덱싱 수행
- Zero-training 방식으로 다양한 LLM에 통합 가능
LLaMA3-8B, Mistral-7B 모델에 사전 학습 없이 적용 가능하며, 기존 대비 추론 정확도 향상 + 메모리 및 시간 효율 개선 달성 - 다양한 롱컨텍스트 벤치마크에서 SOTA 달성
- ∞-Bench (214K tokens), LongBench (31K), BABILong (1024K), Needle-in-a-Haystack 등에서
- Sliding window 기반 방법 (Infinite, Stream), 메모리 기반 InfLLM 대비 최대 7.17% 성능 향상
- Needle-in-a-Haystack: LLaMA3에서 100% 정확도
- 메모리 및 시간 효율성 우수
- 100K token 입력 시 25초, 22GB 메모리 내에서 처리 가능 (A800 GPU 기준)
- Sliding window 방식 대비 계산량 급증 없이 처리 가능
- 추론 성능을 높이는 주요 요소에 대한 ablation 분석
- Query-weight β가 중요하며, β=1(Mistral), β=4(LLaMA3)일 때 성능 최고
- Representative tokens, memory block 크기, block 개수 조절 시 성능 민감도 분석 수행
❗️한계점:
- 질의 중심의 응용에만 효과적
Query를 명시적으로 포함하지 않는 task에는 적용이 어렵거나 불필요함 - 최적의 메모리 블록 세분화 방식 미정립
블록을 고정 길이로 나누지만, 문서의 의미 단위에 따라 동적 분할이 필요할 수 있음 - Inference 단계에서만 동작
Pretraining이나 Fine-tuning 기반 Task에서는 일관성 문제 존재 가능성 - Document-level multi-turn QA나 Retrieval에는 한계
단일 질의 기반으로 최적화되어 있어 복잡한 multi-hop QA나 Retrieval 문맥에는 추가 보완 필요
📌 총평:
QuickLLaMA는 훈련 없이 적용 가능한 Query-aware Long Context 처리 기법으로, 다양한 롱시퀀스 벤치마크에서 강력한 성능 향상을 실현한 실용적 기여를 담고 있습니다.
특히, 기존 sliding window 또는 단일 메모리 캐시 방식 대비 효율성과 정확도를 동시에 향상시켰다는 점에서 현실적인 롱컨텍스트 처리에 매우 적합한 구조입니다.SVD-GCL: A Noise-Augmented Hybrid Graph Contrastive Learning Framework for Recommendation
Liping Wang, Shichao Li, Hui Wang, Yuyan Gao, Mingyao Wei. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- SVD(Truncated Singular Value Decomposition) 기반 저차원 초기 임베딩 생성
기존 GNN 기반 추천 시스템은 고차원·희소·노이즈 데이터에 취약함.
SVD-GCL은 TSVD를 도입하여 중요 정보만 남기고, 노이즈를 제거한 초기 사용자-아이템 임베딩을 생성함으로써 학습 효율성과 표현력을 향상시킴. - Gaussian 기반 노이즈 증강을 통해 contrastive view 다양성 확보
- 기존에는 dropout 기반 augmentation을 사용했으나, 이는 구조 손상 가능성 존재
- 본 모델은 forward diffusion에서 착안한 Gaussian 노이즈를 임베딩에 1스텝 추가하여 데이터 다양성 확보 + 그래프 구조 보존 달성
- Cross-layer Graph Contrastive Learning 구조 설계
- 여러 encoder layer의 중간 임베딩과 최종 임베딩 간 cross-layer contrastive learning 수행
- 기존 SimGCL, SGL 등은 view 간 redundancy 문제 있음
- SVD-GCL은 이 문제를 해결하며 contrastive signal과 추천 임베딩을 동시에 최적화
- 가볍고 빠른 구조로 높은 추천 정확도와 학습 효율 확보
- SimGCL, SGL-ED 등 기존 GCL 모델보다 학습 시간 짧고 성능은 더 우수
- LightGCN 기반의 간단한 GNN 구조 + TSVD 기반 저차원 임베딩으로 학습 속도 향상
- 세 가지 대규모 데이터셋에서 SOTA 성능 입증
- Yelp2018, Douban-Book, Amazon-Kindle에서 Recall@20 및 NDCG@20 모두 최고 성능 기록
- 특히 Amazon-Kindle의 희소한 환경에서도 2~3%p 높은 성능
❗️한계점:
- TSVD의 계산량 증가
데이터 규모가 커질수록 TSVD 계산 비용이 커짐 → 초대형 그래프에는 병렬 최적화 필요 - 노이즈 제어 민감도 존재 (β, ε 파라미터)
노이즈 크기를 조절하는 파라미터(β, ε)가 성능에 민감 → 실험적으로 조정 필요 - 다양한 graph augmentation 기법과의 통합은 미실험
Gaussian noise 외에 다른 강화 방식(CLP, view masking 등)과의 복합 적용 여부는 향후 과제 - Sequence-aware 또는 Knowledge-aware recommendation 미지원
단순한 bipartite user-item 그래프 구조에 한정되어 있음
📌 총평:
SVD-GCL은 TSVD 기반 embedding + noise-injected augmentation + cross-layer contrastive learning을 통합한 실용적이고 강력한 GCL 추천 프레임워크입니다.
특히 구조 간소화, 계산 효율, 성능 향상의 균형이 잘 잡혀 있어, 산업계 적용 가능성도 높습니다.MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL
Bing Wang, Changyu Ren, Jian Yang, Xinnian Liang, Jiaqi Bai, LinZheng Chai, Zhao Yan, Qian-Wen Zhang, Di Yin, Xing Sun, Zhoujun Li. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- 다중 에이전트 기반의 Text-to-SQL 프레임워크 MAC-SQL 제안
기존 LLM 기반 Text-to-SQL 방식은 복잡한 쿼리 생성, 대규모 DB 처리, 오류 수정 능력 부족 등의 한계가 존재.
MAC-SQL은 이를 해결하기 위해 Decomposer, Selector, Refiner로 구성된 3개의 LLM 기반 에이전트를 협업시키는 새로운 프레임워크를 제안함. - 각 에이전트의 역할 명확화 및 협력 기반 추론 수행
- Selector: 불필요한 스키마를 제거하고 질문과 관련된 테이블/컬럼만 선택하여 DB를 축소
- Decomposer: 복잡한 질의를 sub-question과 sub-SQL로 분해하여 단계별 reasoning 수행 (few-shot CoT 방식)
- Refiner: 실행 오류를 분석하고 SQL 쿼리를 자동 수정
- SQL-Llama 7B: 오픈소스 Text-to-SQL 모델 공개
- CodeLlama-7B를 기반으로 3가지 agent task(Selector, Decomposer, Refiner)에 맞춰 fine-tuning
- 성능은 GPT-4 대비 43.94 EX (vs. 46.35)로 매우 근접한 수준 달성
- BIRD 및 Spider 데이터셋에서 SOTA 달성
- BIRD dev/test 기준 MAC-SQL+GPT-4: 59.39% EX, 67.68% VES로 기존 모델 대비 최고 성능
- Spider dev/test 기준 EX 86.75 / 82.80으로 기존 GPT-4 기반 모델과 유사한 성능
- Ablation Study 및 Error 분석을 통해 각 구성 요소 기여 입증
- Selector, Decomposer, Refiner 각각 제거 시 성능 최대 5%p 하락
- 주요 에러 유형: gold error, semantic mismatch, schema linking 오류 등 분포 분석 제공
❗️한계점:
- 에이전트 프롬프트 최적화 미완성
현재 사용된 프롬프트는 hand-crafted이며 최적은 아님. 자동 프롬프트 튜닝이 향후 필요함. - Refiner의 오류 탐지 범위 한계
Refiner는 SQL이 실행되기만 하면 잘못된 의미라도 수정하지 않음 → semantic correctness 판단 어려움 - 복잡한 시스템 구조로 인한 비용 증가
각 단계마다 LLM 호출이 필요하므로, 특히 GPT-4 기반 시스템 사용 시 비용/속도 문제 존재 - GPT 계열에 의존한 상한선 설정
SOTA 성능은 GPT-4를 이용한 결과이며, 오픈소스 모델만으로는 아직 SOTA에는 도달하지 못함
📌 총평:
MAC-SQL은 Text-to-SQL 분야에서 LLM의 한계를 극복하기 위해 다중 역할 기반 에이전트 협업 구조를 설계한 획기적인 시스템입니다.
특히 Selector → Decomposer → Refiner라는 사고 분해·최적화·검증 구조는 인간형 추론 절차와 유사하며, 복잡 쿼리 처리 성능 향상에 크게 기여합니다.Exploring Concept Depth: How Large Language Models Acquire Knowledge and Concept at Different Layers?
Mingyu Jin, Qinkai Yu, Jingyuan Huang, Qingcheng Zeng, Zhenting Wang, Wenyue Hua, Haiyan Zhao, Kai Mei, Yanda Meng, Kaize Ding, Fan Yang, Mengnan Du, Yongfeng Zhang. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 논문 요약:
🔍 핵심 문제의식:
대형 언어 모델(LLM)은 탁월한 성능을 보이지만, 어떤 개념이 어느 층(layer)에서 학습되는지, 특히 개념의 난이도와 층 깊이 간의 관계는 명확히 밝혀지지 않았음.
이 논문은 Concept Depth라는 개념을 도입하여, 개념 복잡도가 높을수록 LLM의 더 깊은 층에서 학습된다는 가설을 실험적으로 검증함.
🎯 기여점:
1. Concept Depth라는 새로운 해석 지표 제안
- 개념의 난이도를 기준으로 단순(Fact), 중간(Emotion), 고난이도(Reasoning)로 분류하고,
- 각 층별로 선형 프로브(linear probe)를 학습하여 어떤 층에서 어떤 개념이 잘 분리되는지를 분석함.
2. 다양한 모델/데이터셋을 이용한 대규모 계층 분석
- Gemma, LLaMA, Qwen 시리즈 등 총 9개 모델
- 9개 데이터셋: Cities, CommonClaim, Counterfact (사실), STSA, IMDb, Sarcasm, HateEval (감정), StrategyQA, Coinflip (추론)
- 각 층별 representation을 binary classifier로 probe → 정확도 상승/수렴 위치 분석
3. LLM 사이즈/계열에 따른 일관성 검증
- 동일 계열(Gemma, LLaMA, Qwen)의 서로 다른 크기 모델들 간 비교 → 모델이 커질수록 정확도 증가 & 수렴 지점 앞당겨짐
- 서로 다른 계열(7B 기준) 간 비교 → 유사한 정확도지만, 수렴층 위치는 다름 → 계열별 표현 방식 차이 있음
4. 노이즈/양자화에 대한 개념 깊이의 강건성 평가
- 입력에 랜덤 노이즈를 추가하거나 모델을 8bit/16bit로 양자화 시,
→ 개념 학습 시점이 지연되고, 수렴 속도 저하됨
→ 개념 표현은 noise와 precision에 민감함을 실험적으로 증명
⚠️ 한계점:
- 복잡한 개념의 대표성 부족
Reasoning 계열이 단 2개 (StrategyQA, Coinflip)에 집중되어 있어 다양한 고난이도 개념 커버리지는 미흡 - 선형 프로브만 사용한 제한적 해석
non-linear probe, attention visualization 등 다양한 해석 방법과의 비교가 없음 - 매우 대형 모델(>30B) 또는 GPT 계열 미포함
공개 오픈모델에만 실험을 한정하여 진정한 emergent behavior에 대한 논의는 제한적임 - 다국어 모델 또는 multilingual 개념 학습에 대한 확장 부재
🔎 왜 이 논문이 인정받았는가?
- 기존 연구들은 "LLM은 어느 층에서 무엇을 배우는가?"를 파편적으로 분석했으나,
본 논문은 이를 "개념 난이도에 따른 층별 학습 현상(Concept Depth)"이라는 하나의 통일된 프레임으로 정리했음. - 또한 다양한 LLM 계열, 파라미터 수, 개념 유형, 노이즈 조건을 실험에 포함시켜 결과의 일반성과 견고함을 확보.
- 모델 해석성과 관련된 후속 연구에 매우 강력한 기반을 제공함 (예: Layer Freezing, Selective Quantization, Mixture-of-Depth 등).
💡 후속 연구 아이디어:
>> 연구주제:
"한국어 LLM에서 개념 깊이(Concept Depth)의 다국어적 특성과 층별 일관성 분석"
- 필요성:
Ko-LLM의 구조는 영어 기반 모델과 유사하지만, 층별 표현 양상과 개념 인코딩 방식은 언어별로 다를 가능성이 큼.
특히 형태소 기반 문법, 어순 유연성 등은 개념 표현의 위치에 영향을 줄 수 있음. - 방법론:
- KLUE/AIHub 기반 개념 수준 분류: fact (지명), emotion (리뷰), reasoning (상황판단)
- KoAlpaca, KoRWKV, Ko-OpenChat 등 다양한 한국어 모델들에 대하여 probing 실험 설계
- 층별 representation 추출 후 logistic probe 학습 (정확도/수렴점/점프점 기록)
- 언어별 (한국어 vs 영어) probe 결과 비교
- 벤치마크:
- 층 수에 따른 학습 위치 차이 분석
- 파라미터 증가에 따른 Concept Depth shift
- multilanguage GPT-3.5 vs KoGPT 비교
- 예상 결과:
- 한국어 모델은 emotion task에서 상대적으로 shallow layer에 집중될 가능성
- reasoning task는 전언어 공통으로 deep-layer 특성
- 개념 종류마다 최적 depth가 다르며, pruning이나 tuning 대상층 선택에 직접 활용 가능
Knowledge Graph Entity Typing with Curriculum Contrastive Learning
Hao Wang, Minghua Nuo, Shan Jiang. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- 새로운 KGET 모델 CCLET 제안
CCLET은 Knowledge Graph Entity Typing(KGET) 과제를 위해 구조 정보 + 텍스트 의미 정보를 통합하고,
학습 난이도를 조절하는 Curriculum Contrastive Learning(CCL) 전략을 도입하여 점진적이고 견고한 학습을 가능하게 한 모델이다. - Enhanced-MLP 기반 정보 융합 구조 설계
- LightGCN으로 얻은 구조 임베딩(구/군/도 등 엔티티 간 관계)을
- BERT 기반의 의미 임베딩(엔티티 이름, 설명 등)과 잔차 연결 + 배치정규화 + 비선형변환 방식으로 융합
- 결과적으로 semantic + structural 통합 표현을 효과적으로 학습
- Curriculum Contrastive Learning 전략 도입
- 훈련 초기에는 노이즈가 적은 샘플로 학습을 시작
- 이후 epoch 수 증가에 따라 점진적으로 노이즈를 증가시켜 강건한 표현 학습 유도
- intra-view / inter-view contrastive loss를 모두 고려한 새로운 손실 함수 제안
- SOTA 성능 달성 (FB15kET, YAGO43kET)
- FB15kET: Hit@1 = 70.2%, MRR = 77.0% (기존 최고 SSET 대비 +1~2%)
- YAGO43kET: MR 기준 기존 모델 대비 68 포지션 향상, 대규모 데이터셋에서도 경쟁력 확보
- 학습 시간은 기존 SSET 대비 최대 75% 단축
- 정량/정성적 평가 모두 우수
- ablation 실험을 통해 구조, 의미, contrastive, curriculum 요소 각각의 효과 검증
- 사례 분석에서도 소수 클래스 또는 희귀 타입 추론에서 성능 우수
❗️한계점:
- 대규모 데이터셋에서는 다소 성능 저하
YAGO43kET처럼 타입 수가 많고 관계 수가 적은 경우, semantic 정보의 redundancy로 인한 과적합 발생 가능성 - semantic 정보 활용 최적화 미흡
entity-cluster-type 정보를 모두 BERT에 입력할 경우 오히려 성능 저하 → 의미 정보의 정제가 필요 - 모든 구조가 선형적
fusion 구조(MLP) 및 contrastive strategy가 비교적 단순 → 향후 더 복잡한 구조 도입 가능
📌 총평:
CCLET은 정보 융합과 훈련 커리큘럼을 contrastive learning으로 통합한, KGET 분야의 대표적인 구조적-의미적 하이브리드 모델이다.
특히 실세계 KGs에서 중요한 불완전 타입 보완, 노이즈 환경 대응, 소규모 학습 가속화 측면에서 실용적 기여도가 높다.Adapters Selector: Cross-domains and Multi-tasks LoRA Modules Integration Usage Method
Yimin Tian, Bolin Zhang, Zhiying Tu, Dianhui Chu. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- 다중 LoRA 어댑터 선택을 위한 Adapter Selector 프레임워크 제안
기존 PEFT 기법은 여러 task/domain에 대해 개별 adapter를 만들지만, 이를 효율적으로 통합하는 방법은 부족했음.
본 논문은 “Selector”라는 선택자를 학습시켜 입력 문장에 맞는 LoRA adapter를 자동으로 선택하는 방법을 제안함. 이를 통해 하나의 LLM에 다양한 도메인/태스크 대응 어댑터를 유연하게 조합 가능. - K-means 기반 대표 샘플 추출 + 선택자 학습 구조 도입
- 각 task/domain 데이터셋에서 sentence embedding + K-means clustering을 통해 대표 샘플을 추출
- 이를 바탕으로 Selector는 입력 문장의 도메인 및 태스크를 예측하도록 학습됨
- 대표 샘플 수 및 거리 계산 방법 (L2/IP/COS)에 따른 정확도 차이도 정량 분석
- 추론 단계에서 Selector + Adapter 동적 결합
- Selector는 입력 → domain/task 예측
- 해당 정보를 바탕으로 adapter dictionary에서 해당 LoRA adapter 불러오기
- 추론 후 모델과 selector 분리 → 효율적인 반복 사용 가능
- 실험 결과: 기존 MFTCoder, MoE-LoRA 대비 높은 정확도
- Med/Legal/Finance 세 분야의 12개 task 실험
- Selector 정확도는 대부분 90~100% 수준, 특히 정보추출/MC/분류 태스크에 강함
- LLM embedding layer 기반의 selector가 m3e보다 평균 1%p 이상 성능 우수
- 다양한 파라미터 설정(r=4/8, α=16/32) 및 LoRA 변형(rsLoRA, DoRA 등) 비교 제공
- Selector 업데이트 전략 및 실험 포함
- 새로운 task 추가: 기존 selector 성능 유지하면서 새로운 adapter 반영 가능
- ambiguous task 간 불균형 조정: mix/balance/delete 전략 실험 → delete 전략이 가장 효과적
- 실제 멀티도메인 확장성과 유지보수성 강조
❗️한계점:
- 추론 시 selector + adapter 조합으로 인해 속도 지연 발생
프리필 토큰과 3-token 수준의 디코딩 오버헤드는 미미하나, 대규모 배치 처리에는 영향 가능 - 실제 다도메인 태스크 구분이 애매할 경우 selector 학습 한계 존재
QA vs Generation 등 유사 task 간 경계가 모호한 경우 정확도 하락 가능성 있음 - LoRA 외 PEFT 방법의 통합 실험은 제한적
대부분 실험은 LoRA 계열 중심으로 진행되었으며, Prompt-tuning이나 Prefix-tuning과의 통합은 향후 과제
📌 총평:
AS(Adapters Selector)는 다중 도메인·다중 태스크에 대해 서로 다른 LoRA 모듈을 하나의 LLM에 통합하여 유연하고 효율적인 추론을 가능하게 하는 실용적 PEFT 통합 전략입니다.
특히 selector 학습 + adapter dictionary 결합 방식은 확장성, 유지관리, 정확도 측면에서 매우 유리하며, 학습 없이 새로운 어댑터 추가가 가능한 점도 강력한 장점입니다.XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser
Xianfu Cheng, Hang Zhang, Jian Yang, Xiang Li, Weixiao Zhou, Fei Liu, Kui Wu, Xiangyuan Guan, Tao Sun, Xianjie Wu, Tongliang Li, Zhoujun Li. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- XFormParser 프레임워크 제안
OCR을 통해 얻은 반구조적 폼(form) 문서에서 다국어 + 멀티모달 입력을 기반으로 **Semantic Entity Recognition (SER)**과 **Relation Extraction (RE)**을 통합적으로 처리하는 경량화된 문서 분석 프레임워크 XFormParser를 제안. - 효율적인 모델 아키텍처 설계
- Backbone: LayoutXLM 기반 멀티모달 프리트레인 모델 사용
- SER: Fully-connected MLP 기반 entity classifier
- RE: Bi-LSTM + Biaffine 구조 기반 관계 추출 디코더
- 학습 과정에서 hard → soft label로 전이하는 warm-up soft label 기법 도입
- InDFormSFT: 산업용 다국어 폼 SFT 데이터셋 구축
- 중국어 + 영어 기반 562개의 실제 산업 시나리오 문서
- GPT4o 보조 생성 + 휴먼 검증 방식으로 라벨링
- 기존 공개 폼 데이터셋(FUNSD, XFUND)에 비해 실제 산업적 다양성과 관계 복잡성 강화
- 다국어 + 제로샷 + 산업 전이 성능 실험을 통해 강력한 성능 입증
- Language-specific, Multi-language, Zero-shot 세 설정에서
- 기존 SOTA 모델 (LayoutXLM, LiLT, GOSE 등) 대비 SER에서 +6.53%, RE에서 +14.64% F1 향상
- 특히 중국어와 포르투갈어 같은 어려운 언어에서도 안정적 성능 확보
- Ablation 실험을 통해 각 구성 요소의 효과 검증
- SER/RE 멀티태스크 → 단일 태스크보다 성능 상승
- RE 디코더 제거 → F1 최대 11%p 하락
- soft label warm-up 미적용 → RE 성능 하락
- epoch별 soft-label 시작 지점 설정 → 최적값 존재 (30 epoch 부근)
❗️한계점:
- 언어 다양성 부족
InDFormSFT는 중국어/영어 2개 언어에 국한, XFUND 8개 언어 전체로 확장되지 않음 → 향후 다국어 증강 필요 - 멀티모달 대형 모델(M-LLM)과의 비교 미포함
GPT-4o, GPT-4V 등 최신 멀티모달 모델과 비교 부재 → 상한선 성능 분석 미흡 - 모델 경량화 및 추론 최적화 미실시
문서 프론트엔드 배포 목표에 비해 모델 압축, Pruning, Quantization 등 성능 개선 기법 미도입
📌 총평:
XFormParser는 멀티모달 문서 이해 모델의 핵심 태스크인 SER+RE를 통합하고, 다양한 언어와 산업 시나리오에 적용 가능한 경량 문서 파서로 설계된 실용적 시스템입니다.
특히 실제 산업 문서를 반영한 InDFormSFT와 warm-up soft-label 전략은 산업 응용과 전이 학습 관점에서 의미 있는 진보로 평가됩니다.Debiasing by obfuscating with 007-classifiers promotes fairness in multi-community settings
Ingroj Shrestha, Padmini Srinivasan. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- 다중 커뮤니티(multi-community) 기반 공정성 정의 및 새로운 편향 제거 알고리즘 제안
기존 텍스트 분류 편향 제거 연구는 대부분 단일 소수 커뮤니티(예: African American, AE)에 집중. 본 논문은 **다중 커뮤니티(예: AE, Hispanic, Asian, White)를 모두 고려하는 새로운 '공정성 정의'**를 도입.
→ 핵심 조건: "편향은 줄이되, 어느 커뮤니티의 성능도 떨어뜨리지 말 것". - False Positive 인스턴스를 ‘007-classifier’로 오브퓨스케이션하여 훈련 데이터에 추가
- 기존 분류기의 False Positive(FP) 사례에 대해, 의미 없는 단어 대체를 반복하여 분류기가 판단을 바꾸도록 유도
- 이렇게 생성된 synthetic instance를 학습 데이터에 추가하여 모델 재학습 → FP 감소 유도
- 다양한 obfuscation 모델(007-classifier)을 실험
- 자기자신 (OBFTC)
- 유사 도메인 (OBFMIDAS, OBFNULI)
- 타 도메인 (sentiment classifier, OBFSC)
→ black-box / white-box 설정 모두 가능
- 3개 dataset, 5개 모델 (MLP, DistilBERT, BERT, RoBERTa, BERT-large)에 대해 실험
- DWMW17, FDCL18, HatEval19에 대해 평균 6.3%~13.7% 편향 감소,
- 기존 편향 제거 baseline (PS, DiffT, SMOTE, CDA)들은 FPR 혹은 F1을 크게 희생
- 본 알고리즘은 FPR 감소 + F1 유지 혹은 개선
- 공정성 기준으로 viability 정의 및 분석 수행
- 편향 감소 ≥ 4%, FPR 증가 없음, F1 감소 ≤ 5%인 경우 viable
- 실험 결과: 기존 baseline은 대부분 기준 미달, obfuscation 기반 방법은 90% 이상 viable
❗️한계점:
- 편향 제거 대상 속성이 race/ethnicity에 한정
성별, 종교 등 다른 편향 속성에는 적용되지 않음 (후속 연구 필요) - 텍스트 의미 보존 없이 무작위 치환
문장 자연스러움/의미 유지보다 모델 반응 변화 유도에 집중 → human-facing task에는 부적합 - MLM 기반 대형 모델(BERT-large 등)의 경우 편향 제거가 상대적으로 어려움
→ 일부 모델은 FP 수가 적거나 구조가 커서 효과가 제한적 - 다중 클래스 분류에는 미확장
본 논문은 binary toxic/non-toxic 분류에 한정
📌 총평:
“Obfuscation은 공격이 아니라 공정성 확보를 위한 방어에도 사용할 수 있다”는 패러다임 전환을 이끈 독창적 연구입니다.
- 간단한 pre-processing 기반 기법
- 다양한 모델과 데이터에 적용 가능
- 다중 커뮤니티 상황에서도 “모두에게 공정한” 편향 제거가 가능함을 실험적으로 증명
SyntheT2C: Generating Synthetic Data for Fine-Tuning Large Language Models on the Text2Cypher Task
Zijie Zhong, Linqing Zhong, Zhaoze Sun, Qingyun Jin, Zengchang Qin, Xiaofan Zhang. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- Text-to-Cypher(Task2C) 태스크를 위한 최초의 대규모 SFT 학습용 합성 데이터 생성 프레임워크 제안
대부분의 LLM은 Knowledge Graph(KG) 데이터에 접근하기 위해 Cypher 쿼리를 생성해야 하나, Cypher 질의에 대한 고품질 QA 데이터가 부족한 문제를 해결하기 위해, synthetic Question-Cypher pair 데이터셋 MedT2C를 생성함. - 2단계 파이프라인으로 구성된 데이터 생성 전략:
- (1) LLM-based Prompting Pipeline (P1): GPT-4o를 활용한 few-shot prompting으로 질문 카테고리 분류 → 각 카테고리에 대해 다채롭고 의미론적으로 풍부한 질문/쿼리 생성
- (2) Template-Filling Pipeline (P2): Neo4j 쿼리 템플릿을 기반으로 복잡한 Cypher 구문을 생성 → 문법적 다양성과 복잡도 확보
- 5단계 자동 평가 + 인간 검증 기반의 고품질 필터링 과정 제안
- Grammatical, Semantic, Entity, Schema, Coherence Validator를 구성하여 오류를 사전에 제거
- 이 검증 과정을 거친 결과 MedT2C 3,000개 샘플 중 98% 이상이 수작업 평가에서도 통과
- 의료 지식그래프 기반으로 데이터 생성 → 공개 가능성 확보
- 중국어(LHY) + 영어(Hetionet) 기반 Neo4j 그래프에서 질문/쿼리 샘플 생성
- Cypher 쿼리 생성에 중요한 스키마, 엔티티, 릴레이션 메타데이터 자동 추출 및 프롬프트 활용
- 다양한 LLM(InternLM, Qwen2, LLaMA3, GPT-3.5)에 대해 SFT 실험 수행
- SFT 전후 Cypher 생성 품질을 GPT-4o 평가자 기준 비교 → 명확한 품질 향상 입증
- 실행 정답 정확도 Execution Result Accuracy는 최대 +11.8% 향상
- 스케일링 및 어블레이션 실험 통해 프레임워크의 견고성 입증
- MedT2C 사이즈의 1/16~16배까지 확장 실험 → 일정 수준 이후 과적합 경향
- 각 파이프라인/밸리데이터 단독 적용 시 성능 저하 → 전체 통합 구조의 중요성 입증
❗️한계점:
- 템플릿 기반 pipeline은 새로운 데이터베이스에 적용 시 수작업 수정 필요
- 기존 템플릿을 수정하거나 비활성화하는 방식으로 대응 가능하나 자동화 필요
- GPT-4o 기반 prompting은 비용과 접근성 제한
- Zero-shot 기반 고품질 generator 모델의 필요성 존재
- Text-to-SQL 등 다른 질의 언어에 대한 일반화 미검증
- Cypher 중심 설계 → SQL, SPARQL 등으로의 확장성은 향후 과제
📌 총평:
SyntheT2C는 실제 Cypher query가 필요한 Text-to-Cypher(Task2C) 태스크에 대해, 데이터 부족 문제를 해결하고, LLM의 Cypher 작성 능력을 효과적으로 향상시키는 최초의 통합 프레임워크입니다.
RAG+KG 시스템 구축, 질의 응답 에이전트, Neo4j 기반 추천 시스템 등 다양한 응용 가능성이 높습니다.Language Models Encode the Value of Numbers Linearly
Fangwei Zhu, Damai Dai, Zhifang Sui. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 주요 기여:
- LLM 내부에 수치값이 선형적으로 인코딩되어 있는가?
이 논문은 LLMs가 입력된 숫자의 값을 내부 hidden state에 어떻게 표현하는가를 탐구함.
구체적으로, 숫자 두 개의 덧셈 문제를 구성한 synthetic 데이터셋을 바탕으로, linear probe를 사용해 숫자 a, b, 결과 o를 hidden state에서 복원 가능함을 보임. - 선형 프로브로 숫자값 회복 가능 → 선형 인코딩 가설 뒷받침
- Pearson 상관계수(ρ), 결정계수(R²), AAcc(근사 정확도), MSE 등의 지표에서 높은 수치 확보
- 특히 중간 layer에서 가장 정밀한 숫자 인코딩 존재
- Nonlinear MLP probe를 사용해도 linear probe보다 유의미한 개선 없음 → 숫자값은 거의 선형적으로 표현됨
- 수치 인코딩은 position에 따라 유지됨
- 숫자 토큰 직후 위치들에서도 숫자값이 유지됨 (persistent)
- 마지막 토큰에서는 precision이 낮아지며, 모델이 계산 결과를 별도로 저장하는 듯한 구조적 패턴 관찰됨
- 수치 표현은 계산 결과에 직접적으로 영향 미침 (causal evidence)
- 특정 layer에서 특정 토큰의 hidden state를 patch하면 모델의 결과값이 변화함 → 계산 과정에 사용되고 있음을 증명
- 수치 방향 벡터(d)로 residual stream을 수정하면 모델 출력이 원하는 방향으로 shift됨 (예: 더 큰 숫자 예측)
- 부분 숫자 인코딩 분석 → 토큰 길이에 따라 정확도 감소
- 숫자가 길어질수록(L>6자리) 정확하게 인코딩하기 어려움
- 그러나 Mistral-7B는 긴 숫자에서도 정확도가 덜 감소함 → 수치 처리 능력과 수치 인코딩 정밀도는 정비례
- 정량적 평가 외에도 직접 계산에 활용 가능성 탐색
- probe로 얻은 숫자값을 직접 덧셈하면 모델 출력보다 더 정확한 결과 확보 가능 (logMSE, error margin 낮음)
- 이는 모델 계산 오류를 내부 representation으로 보정할 수 있는 가능성 제시
❗️한계점:
- 곱셈·나눗셈 등 복잡한 산술 문제는 미포함
실험은 대부분 덧셈/뺄셈에 국한, 5자리 곱셈에서도 모델이 실패함 - 선형 probe의 추정치는 근사값
완전한 수치 복원은 불가능하며, 일정 오차 존재함 → 실제 내부 표현은 floating-point 유사할 가능성 - 모델 스케일링에 따른 효과 제한적
LLaMA-2 13B가 7B보다 성능 우수하지 않음 → scaling보다 아키텍처가 수치 표현에 더 큰 영향 - GPT 계열과 같은 폐쇄형 모델 미분석
open-source 계열(LLaMA, Mistral)에 한정되어 있음
📌 총평:
이 논문은 LLM 내부에서 숫자가 어떻게 ‘의미’가 아닌 ‘값’으로 저장되는지를 실증적으로 밝힌 매우 정제된 probing 연구입니다.
특히 수치 인코딩이 선형적이며 실제로 계산에 사용됨을 causal하게 입증한 점은 모델 해석성 연구와 수치 연산 강화 모델 개발에 중대한 시사점을 제공합니다.FinDABench: Benchmarking Financial Data Analysis Ability of Large Language Models
Shu Liu, Shangqing Zhao, Chenghao Jia, Xinlin Zhuang, Zhaoguang Long, Jie Zhou, Aimin Zhou, Man Lan, Yang Chong. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- 재무 데이터 분석(금융 데이터 중심) 능력을 종합적으로 평가하는 최초의 LLM 벤치마크 제안
기존 금융 벤치마크들은 지식 기반 QA, 요약 등 정형 NLP에 치중했으나, **실제 재무 분석가의 업무 흐름(Core–Analytical–Technical)**을 반영하는 종합적인 벤치마크는 부재.
→ FinDABench는 총 **6개의 서브태스크 / 3가지 인지 차원(Core, Analytical, Technical)**으로 구성되어 LLM의 수치 계산력, 보고서 해석력, 데이터 기반 판단력을 평가. - 15,200개 학습 샘플 + 8,900개 평가 샘플 포함한 고품질 데이터셋 구축
- 전문 재무분석가 및 컴공 석박사 팀이 참여하여 다국어(중국어/영어) 기반 재무 보고서 및 표/차트/SQL 기반 분석 데이터를 수작업 주석
- 모든 데이터는 GPT-4 기반 사전 초안 → 수작업 검토 + inter-annotator agreement 평균 72.36% 확보
- 3가지 인지 능력 정의 및 대응 태스크 설계
- Core Ability: 지표 계산(1-1), 감성 리스크 태깅(1-2)
- Analytical Ability: 재무 보고서 기반 사기 탐지(2-1), 마크다운 표 구조화(2-2), 차트 기반 인사이트 생성(2-3)
- Technical Ability: NL2SQL 기반 시각화 분석 생성(3-1)
→ 각각 Generation, Extraction, Classification 태스크로 구성됨
- 45개 LLM에 대한 광범위 평가 (GPT, LLaMA, Baichuan, ChatGLM, Qwen 등)
- GPT-4: 전체 평균 32.37% (Zero-shot 기준)로 최고, SFT된 일반모델 대비 약 2배 성능
- 가장 성능이 높은 Financial LLM: Qwen-7B-FinDA (SFT 모델)
- LLaMA2, Alpaca 등 기존 open LLM은 대부분 5~10% 이하 → 도메인 지식 기반 학습 필요성 확인
- Sub-task 별 성능 분석 + 모델 타입별 제약 분석 수행
- Markdown 표 생성 (2-2), NL2SQL(3-1)은 거의 모든 모델에서 저조 → 복잡 reasoning/구조 이해 부족
- Fraud Detection, 감성태깅은 상대적으로 안정적으로 수행 가능
❗️한계점:
- 태스크 범위 제한
실제 금융 애널리스트 업무에서 중요한 시계열 추론, 대규모 다문서 분석, 멀티턴 질의, 기업 간 비교 등의 기능은 미포함 - 평가지표가 전통적 NLP 기준 중심
BLEU, ROUGE, EM 등은 금융 데이터 분석에서 중요한 reasoning quality를 충분히 반영하지 못함 → 실무 기반 평가 필요 - 대부분 중국어 중심 데이터 구성
한국어 및 기타 언어 LLM에 대한 평가 및 언어간 transfer 학습 가능성은 아직 미검증
📌 총평:
FinDABench는 실세계 재무 데이터 분석에서 LLM이 실제로 ‘유용한가’를 처음으로 실질적으로 평가할 수 있는 벤치마크를 제시하며, 향후 금융용 LLM 연구의 기준점이 될 가능성이 높습니다.
특히 구조적 데이터 이해 + 수치 reasoning + 분석적 텍스트 생성이 결합된 태스크 설계는 차트 기반 QA, 보고서 해석, 투자 판단 보조 시스템 등과 직결됩니다.Swift Cross-Dataset Pruning: Enhancing Fine-Tuning Efficiency in Natural Language Understanding
Binh-Nguyen Nguyen, Yang He. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- SCDP: 새로운 Cross-Dataset 데이터 셀렉션 기법 제안
기존의 데이터 프루닝 기법은 단일 데이터셋에서만 작동하거나, 모델 학습 기반 EL2N/Forgetting Score를 요구해 비용이 높음.
SCDP는 TF-IDF + Geometric Median 기반의 Frequency Distance (FD) 스코어를 통해 신속하고 라벨/모델 비의존적인 데이터 선택 방식을 제안함. - Frequency Distance (FD) 스코어 도입
- 각 샘플의 TF-IDF 벡터와 전체 데이터셋의 geometric median 간의 거리를 측정
- 멀리 떨어진 샘플일수록 정보 다양성이 높다고 간주
- FD는 단순하고 계산량이 작으며, Sentence-BERT 등 고비용 임베딩보다 실험적으로 우수함
- Dataset Size-Adaptive Pruning 전략 제안
- 소형 데이터셋: FD가 가장 큰 샘플(=가장 중심에서 멀리 떨어짐)을 유지
- 대형 데이터셋: FD score를 stratum으로 나눈 후 stratified sampling 수행 → 데이터 분포를 고르게 반영
- 이를 통해 작은 데이터셋은 다양성 보존, 큰 데이터셋은 대표성 확보
- 6개 NLU 데이터셋에서 대규모 실험 수행
- RTE, MRPC, CoLA, SST-2, SWAG, QNLI 등 다양한 task에서 10%~70%까지 pruning 실험
- 전체 평균적으로 Random보다 1.2~2.5% 성능 향상,
- EL2N, AUM, CCS 등 SOTA pruning 기법들 대비 모든 데이터셋에서 더 높은 정확도
- 성능 외에도 시간 효율 우수 (Figure 1)
- EL2N, CCS는 수십 분~1시간 이상 소요되는 반면, SCDP는 수초 단위로 실행 가능
- 빠른 데이터 전처리, 실시간 샘플링 등에 유리
❗️한계점:
- 이론적 정당화 부족
TF-IDF와 geometric median의 결합이 왜 효과적인지는 이론보다는 실험적 관찰에 근거 - 생성 태스크에는 적용되지 않음
본 논문은 전부 분류 기반 NLU 태스크에 국한됨. Text Generation이나 Multimodal Task 적용 미확인 - 지금은 수치 기반 점수만 사용
학습 손실 기반 동적 정보(예: forgetting, margin 등)는 활용하지 않음 → hybrid화 가능성은 열려 있음
📌 총평:
SCDP는 모델 독립적이며 초고속 실행이 가능한 cross-dataset 데이터 프루닝 프레임워크로, 실용성과 범용성을 동시에 만족하는 기술적 기여를 제시합니다.
TF-IDF + Geometric Median이라는 단순한 조합이 고성능을 낼 수 있음을 보여준 점이 특히 인상적이며, 이후 클러스터링, 도메인 선택, 데이터 증강 전 필터링 등 다양한 영역에 쉽게 확장 가능합니다.SLARD: A Chinese Superior Legal Article Retrieval Dataset
Zhe Chen, Pengjie Ren, Fuhui Sun, Xiaoyan Wang, Yujun Li, Siwen Zhao, Tengyi Yang. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- 중국 입법 실무를 위한 ‘상위 법조문(Superior Legal Articles)’ 검색 데이터셋 최초 제안
기존 법률 검색 연구는 유사 판례 또는 법조문-문제 대응에 집중되어 있었고, “현행 조문의 상위 법령 조항을 찾는” 특화된 검색 문제는 부재.
SLARD는 현행 시·구급(지방) 조문 → 상위(성/국가급) 조문 검색이라는 새로운 retrieval 태스크를 정의하고, 그를 위한 고품질 벤치마크를 제시. - 실제 입법 체계 기반의 수작업 주석 데이터셋 구축
- 2,627개의 쿼리 조문과 9,184개의 상위 조문 후보로 구성 (성급 2,976건, 국가급 6,208건)
- 각 쿼리 조문은 2단계 수작업 주석 프로세스를 거쳐 상위 조문과 매핑됨
- 32개 법령 분야(예: 환경, 농업, 수자원 등)에서 고르게 샘플 수집됨
- 상위 조문 검색을 위한 명확한 태스크 정의
- 입력: 지방 조문(q)
- 후보: 상위 법령의 조문 집합 D = {d₁, ..., dₙ}, 각 dᵢ는 {aᵢ₁, aᵢ₂, ..., aᵢⱼ}
- 출력: q에 대해 가장 관련 높은 상위 조문 Top-k 반환
- 다양한 법률 검색 베이스라인 모델 비교 평가
- Sparse: BM25, docT5query
- Dense: Chinese-BERT-WWM, RoBERTa, Lawformer
- Retrieval-oriented: DPR, RetroMAE, ColBERT
- LLM 기반: HyDE, Query2doc (with BM25/DPR)
→ Best R@1 = 59.66% (RetroMAE, Setting 2), but most < 50% → 여전히 매우 어려운 태스크
- 후보 범위에 따른 검색 난이도 분석 (4개 설정)
- 전체 후보(9,184) vs 동일 법령 소속 후보 vs 성급 vs 국가급
- 후보 수가 줄어들면 성능이 상승하나, 국가급 조문 검색은 여전히 매우 어렵고 정밀도 낮음
- LLM 3종 성능 평가: Qwen, ChatGLM, Baichuan
- 모두 성능은 BM25나 Dense Retriever보다 낮음
- Baichuan2-7B가 상대적으로 가장 우수, MRR@5 = 24.36% (전체 기준)
- → LLM은 상위 조문에 대한 사전 지식 부족, 향후 SFT 필요성 제시
❗️한계점:
- 법령 변경에 대한 동적 대응 미지원
현재 버전은 고정된 법령 기준으로 구축되어 있으며, 실무 적용 위해서는 동적 업데이트 시스템 필요 - 몇몇 법령 분야 불균형 존재
예: 헌법/문화/노동 등 일부 도메인은 데이터가 적음 → 일반화 성능 평가 어려움 - 입력 쿼리는 ‘조문’ 단위로만 제한
실제 입법 실무에서는 다문서, 다조문 간 비교가 일반적이나, SLARD는 단일 조문 기준으로 설계됨
📌 총평:
SLARD는 입법 지원을 위한 ‘상위 법령 조문 검색’이라는 새로운 실용적 태스크를 정의하고, 이를 위해 수천 개의 수작업 주석 조문 데이터를 제공한 최초의 공개 벤치마크입니다.
특히 기존 IR/LLM 모델들이 국가급 상위 법령 조문 검색에 실패하는 현상은 매우 실질적인 문제점을 드러냅니다.Compress to Impress: Unleashing the Potential of Compressive Memory in Real-World Long-Term Conversations
Nuo Chen, Hongguang Li, Jianhui Chang, Juhua Huang, Baoyuan Wang, Jia Li. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- 기존 retrieval-based memory 시스템을 대체하는 새로운 compressive memory 프레임워크 COMEDY 제안
- Retrieval, Memory DB, Retriever 모델 완전 제거
- 단일 LLM이 세션 기억 추출 → 압축 메모리 구성 → 메모리 기반 응답 생성까지 모두 수행
- 구조적으로 간단하고, end-to-end 처리 가능하여 latency, 모듈 오류, 불일치 문제를 해소
- 3단계 구조의 압축 메모리 기반 프레임워크
- Task 1: Session-Level Memory Summarization → 각 세션에서 요약 정보 추출
- Task 2: Memory Compression → 수십 개의 세션 기억을 통합하여 유저 프로필, 관계 변화, 핵심 이벤트만 남긴 압축 메모리 생성
- Task 3: Memory-Grounded Response Generation → 압축 메모리를 바탕으로 응답 생성
- 세 Task는 모두 instruction tuning + LLM + human annotation을 혼합하여 고품질 학습/검증 수행
- 중국어 장기 대화 기반 최대 규모 실사용 데이터셋 Dolphin 구축 (총 10만+ 샘플)
- 실제 유저와 AI 캐릭터 간 15회 이상 장기 대화 세션 기반
- GPT-4 Turbo 기반 초안 + 수작업 교정 → 세 Task별 고품질 데이터 확보
- 세션 수, 토큰 수, 다양한 캐릭터(3,998명), 평균 13+ turns 등 실제성 강조
- DPO 기반 fine-tuning 도입 → 메모리 정합성 높은 응답 생성 유도
- GPT-4 Turbo를 통해 memory와 aligned/disaligned 응답을 생성하여 (Yw, Yl) 쌍 구축
- COMEDY-13B에 Direct Preference Optimization 적용하여 consistency/memorability 향상
- 다양한 실험으로 성능 우수성 입증
- Task 1 & 2 (자동 지표): BLEU-2 35 이상, F1 36~37로 session memory 및 압축 메모리 생성 모두 우수
- Task 3 (인간 평가): Coherence, Memorability, Humanness 등 5개 기준 모두에서 GPT4-Retrieval보다 우수
- COMEDY-13B DPO, COMEDY-GPT4가 특히 뛰어남
- Retrieval 기반 방법들과의 상세 비교 제공
- Retrieval 기반 ChatGPT, GPT-4, LLaMA 등 대비 평균 순위 더 높음
- Top-1 응답 비율 기준 GPT-4 Retrieval 22.83% vs COMEDY-13B DPO 29.82%, GPT-4 29.00%
- Retrieval 실패가 흔한 loose-form 대화 상황에서도 COMEDY는 기억 기반 응답 유지
❗️한계점:
- 장기 대화 모델의 전체 성능은 여전히 한계
Coherence/Consistency 평균 점수 < 2.0 → 현실적 장기대화 처리 어려움 여전 - 영어/다국어 확장 실험 없음
Dolphin은 전부 중국어 기반이며, 다국어 기반 compressive memory 학습은 미검증 - 일부 Task (e.g., memory summarization)에서 자동화된 평가 기준의 해석 어려움
BLEU 등 전통 지표는 요약의 질을 충분히 포착하지 못할 수 있음
📌 총평:
COMEDY는 기존의 retrieval-heavy long-term memory 접근법을 완전히 탈피하여, 단일 LLM으로 요약, 압축, 응답을 통합 처리하는 ‘One-for-All’ compressive memory 대화 프레임워크입니다.
데이터 규모(Dolphin), 모델 성능, 효율성, 인간 평가에서 모두 강력한 성과를 보였으며, 현실 장기 대화 시스템에서 매우 실용적인 기반이 될 수 있음을 입증했습니다.Refined Evaluation for End-to-End Grammatical Error Correction Using an Alignment-Based Approach
Junrui Wang, Mengyang Qiu, Yang Gu, Zihao Huang, Jungyeul Park. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 주요 기여:
- End-to-End GEC 평가를 위한 정렬 기반 평가 프레임워크(jp-errant) 제안
기존 GEC 평가 도구(특히 errant)는 시스템 출력과 골드 표준 간 문장 경계 불일치에 취약.
본 논문은 **문장 정렬(sentence alignment)**을 통해 preprocessing 단계에서 발생하는 경계 차이를 해결하며 현실적인 raw text 기반 GEC 평가를 가능하게 하는 jp-errant 프레임워크를 제안함. - 정렬 알고리즘 개선 (joint preprocessing + pattern matching + Jaro-Winkler distance 확장)
- 문장 경계가 다른 시스템 출력과 정답 간 정렬 문제를 해결하기 위해, 공백 무시 + 접두사/접미사 유사도 기반 동적 정렬 알고리즘 설계
- 기존 Gale-Church 알고리즘을 일반화하여 m:n 문장 정렬 확장 + 속도 개선
- 정렬 후 어노테이션 재인덱싱 자동화
- 정렬 과정에서 연결된 문장의 edit 위치를 자동으로 재계산
- 기존 errant 포맷(m2)의 구조를 유지하면서도 오류 없이 정확한 edit alignment 수행
- spaCy 대신 stanza 기반 POS 태깅 도입 → 다국어 확장성 강화
- errant는 spaCy 기반이라 언어 확장성이 제한됨
- jp-errant는 stanza 기반 tagging을 채택하여 중국어/한국어 등 다국어 대응 가능성 확보
- 한국어/중국어 GEC 평가에 대한 다국어 사례 실험 제공
- 기존 한국어 도구(KAGAS), 중국어 도구(ChERRANT)와 비교
- jp-errant는 기존 방식 대비 에러 탐지 정확도(F0.5) 향상, 특히 한국어에서는 큰 개선폭 관측
- 언어별 error type 구분 없이도 일관된 어노테이션 구조 유지
- 공식 평가 시스템(GECTOR, T5)에 적용하여 SOTA 평가값 재현 가능
- CoNLL14, BEA19 기반 GEC 시스템(GECTOR, T5)에 적용 시 기존 errant 평가값과 매우 유사한 F0.5 score 재현
- 시스템 예측 기반 sentence boundary로도 robust한 평가 가능 (현실성 강조)
❗️한계점:
- 언어별 에러 유형 분류(classification) 미포함
현재는 언어 공통적 오류 유형(M/U/R 기반)만 제공하며, 한국어에 특화된 에러 유형은 추후 확장 예정 - GEC 외 다른 평가 지표(M2, GLEU 등)와 통합 미실현
M2나 GLEU 등 기존 GEC 메트릭에 정렬 기반 joint preprocessing을 적용하는 실험은 향후 과제로 남음 - POS 태깅 오류의 평가 영향에 대한 정량 분석 부족
stanza vs spaCy tagging 차이에 따른 오류 유형 오분류에 대한 정확한 영향도 분석은 추후 연구 필요
📌 총평:
jp-errant는 GEC 평가에서 가장 큰 실용적 문제였던 문장 경계 미일치 문제를 해결하며, 현실적인 raw text 기반 평가를 가능하게 하는 정렬 기반 평가 프레임워크입니다.
다국어 확장성(stanza 기반), 기존 포맷 호환성(m2 유지), 에러 유형 어노테이션 정합성까지 보장하면서도, GECTOR, T5 등 주요 GEC 시스템에서 기존 평가 도구 수준의 재현력을 입증합니다.LLMs on interactive feature collections with implicit dynamic decision strategy
Juyeon Heo, Vihari Piratla, Kyunghyun Lee, Hyonkeun Joh, Adrian Weller. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- 고비용 외부 시스템 없이도 LLM이 스스로 의사결정 구조를 생성하고 조정할 수 있게 만드는 새로운 프롬프트 전략: DDS (Dynamic Decision Strategy) 제안
기존 Chain-of-Thought(CoT), Plan-and-Solve(PS) 방식은 탐색 경로를 외부 시스템이나 명시적 로직에 의존.
본 논문은 하나의 프롬프트 안에서 LLM이 문제 해결을 위한 초기 구조화 → 가설 설정 및 조정 → 해결까지 자율적으로 진행하도록 하는 DDS 전략을 설계함. - 문제 해결을 위한 2단계 전략 구성
- Initial Decision Tree Construction: 문제 정의 → MECE 원칙 기반 문제 구조화 → 초기 가설 우선순위 설정
- Dynamic Hypothesis Refinement: 정보 획득 → 가설 평가 및 경로 조정(하강, 병렬 이동, 후퇴, 재구조화 등)
- 20-Questions 게임, 비즈니스 컨설팅, 의학 진단 등 3가지 시나리오에서 성능 검증
- 20Q 게임: DDS는 평균 4턴만에 정답 도출, 기존 CoT/PS는 6턴 이상 → 검색 공간을 가장 효율적으로 축소
- Business Cases (실제 Kellogg MBA 케이스 기반): 평균 점수 DDS > IOQ > CoTQ > IO
- Medical Diagnosis: DDS는 6개 기준 중 5개에서 최고점, 특히 진단 정밀도, 합리적 추론, 위험성 회피 능력에서 우수
- DDS 프롬프트만으로도 시스템 수준 성능 향상 가능
- 별도의 외부 모델이나 코드 없이도 prompting 설계만으로 GPT-4의 전략적 사고/진단/문제 해결 능력 향상
- 인간 전문가(컨설턴트, 의사) 평가에서도 높은 일관성과 설명 가능성 확보
- 다양한 ablation 실험과 사람 기반 정성 평가 진행
- IO/CoT 방식에 D(초기 구조화), H(동적 가설 수정)을 각각 붙여 비교 → D+H 모두 있는 DDS가 일관되게 최고 성능
- 비즈니스/의료 전문가와 인터뷰 통해 DDS가 실제 컨설팅·진료 문법과 유사하게 작동함을 확인
❗️한계점:
- Case 1 (Business)에서는 DDS가 다소 낮은 성능
- 표면적 원인에 머무르고, 제품 간 cannibalization 문제 등 심층 분석은 미도달
- self-evaluation 능력이 한계일 수 있음 → Fine-tuning 또는 메타프롬프트 개선 필요
- 모든 실험은 GPT-4 기반에서 수행됨
- 다른 오픈소스 LLM들(Mistral, LLaMA 등)에 대한 일반화 실험 부족
- DDS 프롬프트 구성은 구조가 복잡하고 생성비용이 다소 높을 수 있음
- Prompt 길이 및 단계별 안내 설계는 실제 배포에서 최적화가 필요함
📌 총평:
COMEDY는 ‘탐색 기반 대화’에서 LLM이 스스로 구조를 만들고 조정하도록 유도하는 고급 프롬프트 전략을 제안하여, 문제 해결 효율성과 설명 가능성을 동시에 향상시킨 획기적 연구입니다.
특히 의료 및 비즈니스처럼 정보 요청이 제한된 인터랙티브 환경에서 뛰어난 성능을 보여 도메인 LLM 설계 없이도 현실 적용 가능한 프롬프트 전략이라는 점에서 가치가 큼.더보기✅ 기여점:
- 외부 지식을 활용한 Follow-up Question Generation(FQG) 프레임워크 제안
기존의 FQG는 표면적인 문맥 연관성에 머무르며, 깊이 있는 질문이나 정보 확장은 어려웠음.
본 논문은 "Recognition → Selection → Fusion"의 3단계 구조를 통해 Wikipedia 기반 지식그래프 + LLM을 결합하여 정보성 있고 탐색적인 후속 질문을 생성하는 새로운 파이프라인을 제안. - Recognition 단계: Topic + Keyword 추출 후 재순위 기반 위키 검색
- 주어진 Q&A 문맥에서 LLM이 핵심 주제(Topic)와 세부 키워드(Keywords) 추출
- Elasticsearch로 Wikipedia 문서 검색 후 T5 기반 Re-ranker로 재정렬하여 가장 관련성 높은 문서 선택
- Selection 단계: LLMGraph로 KG 구성 + 중요도 + 의미 유사도 기반 엔티티 선별
- KG에서 중심 노드를 기준으로 PageRank, Random Walk로 노드 중요도 계산
- BERT 임베딩으로 문맥과 노드 정의 간 의미 유사도 측정
- 이 두 요소를 합쳐 가장 관련성 높은 지식 노드 선택, 해당 엔티티 정의를 배경지식으로 사용
- Fusion 단계: LLM을 이용해 KG 지식을 문맥 기반으로 확장하여 연결성 강화
- Wikipedia 정의를 바탕으로 LLM이 그 뒤를 이어 쓰기 → 내재 지식 + 외부 지식 융합
- 이후 Q, A, 외부 지식을 모두 포함한 프롬프트로 후속 질문 생성
- FOLLOWUPQG 벤치마크 실험에서 SOTA 성능 달성
- Topic Consistency, Mutual Information, Distinct-1/2, TTR 등 자동 지표에서 전반적 우위
- 특히 Mutual Info 가장 낮고, TTR 가장 높아 정보량 높고 다양성이 큰 질문 생성
- GPT-3.5, ChatGLM, LLaMA3, Qwen2 등과 비교
- Human 평가: 복잡성(Complexity), 관련성, 정보성에서 전 모델 중 최고 성능
- Complexity 최소 +18% 향상
- 사용자 투표에서 전체 선호도 42.8%로 압도적 우세 (GPT-3.5는 12.4%)
- Ablation 분석 및 β 가중치 튜닝 실험 제공
- Re-ranker, KG selection, LLM knowledge, Fusion 각각 제거 시 성능 급감
- β=1일 때 KG 노드 선택 품질이 가장 높았음 → "노드 중요도 + 의미 유사도"를 동등하게 고려하는 것이 최적
❗️한계점:
- Wikipedia 기반 지식에 의존 → 도메인 특화 정확도 제한
법률, 의료 등 특수 분야에서는 정확한 외부 지식 확보가 어려울 수 있음 - KG 실시간 구축 및 추론 속도 문제
- LLMGraph + Fusion 구성은 상호작용형 시스템에서 지연 요소가 될 수 있음
- 다국어 실험 부재
모든 실험은 영어로 진행됨 → 한국어 등에서 의미 유사도 및 KG 구성 정확도는 별도 검증 필요
📌 총평:
이 논문은 FQG 문제에 대해 "깊이 있는 정보 탐색 + 창의적인 발화 생성"이라는 인간 수준 질문 능력을 LLM + 외부지식 기반으로 실현한, 구조적으로 완성도 높은 프레임워크를 제시합니다.
Follow-up QA, 대화형 튜터 시스템, 정보추론 기반 chatbot 등 다양한 응용 분야에서 탐색형 인터페이스의 정밀도와 정보량을 동시에 향상시킬 수 있는 접근법입니다.TaCIE: Enhancing Instruction Comprehension in Large Language Models through Task-Centred Instruction Evolution
Jiuding Yang, Shengyao Lu, Weidong Guo, Xiangyang Li, Kaitong Yang, Yu Xu, Di Niu. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- TaCIE: 기존 Self-Instruct 및 EVOL-Instruct의 한계를 보완한 새로운 instruction evolution 프레임워크 제안
- 기존 방법은 seed instruction을 단순 반복/확장하여 난이도 조절 실패 및 도메인 편향 문제를 유발
- TaCIE는 **Instruction을 세 가지 요소로 분해(Background / Objective / Constraint)**하여 세밀하게 진화시킴
- 이후 Depth Evolution (난이도 증가) 또는 **Task Fusion (복합화)**을 통해 instruction을 체계적으로 발전시킴
- Instruction Sampling 전략 고도화
- 각 seed instruction의 uncertainty score를 계산해, informative instruction을 중심으로 evolution 진행
- Depth Evolution은 높은 uncertainty seed 중심, Task Fusion은 낮은 uncertainty seed를 병합
- Sampling은 domain, 사용 빈도 등 metadata를 고려한 확률 기반 방식으로 정교하게 수행
- Cross-domain Fusion을 포함한 진화 전략 설계
- 두 개 instruction을 서로 다른 도메인 간 병합 시 Root domain 선택 규칙을 적용
- 결과적으로 생성된 instruction은 정보량과 논리 복잡도가 높은 형태로 구성됨
- 총 143,917개의 evolved instruction 생성 → 99.94% 성공률
- GPT-4o 기반 evolver로 6차에 걸친 다단계 진화 진행
- Instruction pool의 다양성은 기존 대비 12% 향상 (embedding 분포 균일성 기준)
- 다양한 LLM에 적용 가능하고, 타 방법 대비 성능 우수
- LLaMA-3-8B, Mistral-7B, Qwen2-7B 등 다양한 base 모델에 적용
- MT-Bench, IFEval, GSM8K, HumanEval에서 모두 EVOL-Instruct, Instruction Fusion 대비 우수
- 특히 수학, 코드 태스크에서의 개선폭이 큼 (GSM8K +8%, HumanEval +10% 이상)
- Ablation 분석: Cross-domain Fusion이 더 효과적임을 입증
- 단일 도메인 Task Fusion보다 cross-domain fusion에서 consistently 높은 성능 향상 확인
- 예: LLaMA-3-8B 기준 HumanEval +3%p 상승
- 전 과정 프롬프트 템플릿 및 구현 코드 공개 → 재현성 우수
- 프롬프트 예시: Decomposition, Depth Evolution, Task Fusion 모두 포함
- 코드 및 데이터: https://github.com/XpastaX/TaCIE
❗️한계점:
- Multi-turn 대화에 대한 instruction evolution은 미포함
- 현재 instruction은 단발형 작업 지시에 초점 → 다중 턴 대화에 대한 진화 설계는 향후 과제
- GPT-4o 의존도가 높음 → API 비용 발생 (총 $2,000 수준)
- 하지만 향후 LLM API 비용 감소 트렌드를 고려할 때 실용성 있음
- 진화된 instruction의 해석 가능성은 자동 검증 불가
- 정확한 판단을 위해 여전히 human evaluation 일부 필요
📌 총평:
TaCIE는 기존 instruction evolution 기법이 안고 있던 '제한된 난이도 조절', '도메인 편향', '복잡성 증가 실패'를 근본적으로 해결한 매우 강력한 프레임워크입니다.
특히 task decomposition → uncertainty 기반 sampling → task-centered evolution이라는 일관된 구조 덕분에 fine-tuning 성능 뿐만 아니라, transferability와 도메인 일반화 능력도 동시에 확보하였습니다.LLaMA-E: Empowering E-commerce Authoring with Object-Interleaved Instruction Following
LLaMA-E: Empowering E-commerce Authoring with Object-Interleaved Instruction Following
Kaize Shi, Xueyao Sun, Dingxian Wang, Yinlin Fu, Guandong Xu, Qing Li. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기🎯 기여점:
- Object-Interleaved Instruction Set 구성
- Ads generation, Query-enhanced Title Rewriting, Product Classification, Intent Speculation, General Q&A 등 5가지 작업 유형을 포함
- 각 작업에는 Seller<S>, Customer<C0/C1>, Platform<P0/P1> 등 객체 feature가 의도적으로 삽입됨
- Instruction Expansion via GPT-3.5-turbo
- 전문가가 만든 300개 seed instruction을 기반으로 GPT-3.5를 활용해 instruction과 response를 다변화하여 총 12만 쌍의 instruction-response 데이터 생성
- LLaMA-E 모델 개발
- LLaMA 7B, 13B, 30B를 기반으로 LoRA를 활용한 PEFT 방식 fine-tuning
- instruction set을 통해 전자상거래 문맥에 특화된 LLM 구축
- 종합적인 평가 체계 설계
- 생성(ads, title): BLEU, ROUGE, PPL
- 분류(classification, intent): Macro Precision/Recall/F1
- Q&A: BLEU, ROUGE, BERTScore
- 총합 지표: Geometric Mean(GM)
- SOTA 성능 확보
- 전체 지표 평균 GM 기준으로 GPT-3.5와 대등하거나 더 우수한 성능
- 일반 LLaMA 및 GPT-Neo/T5 대비 문맥 적합도 및 도메인 정밀도에서 우위
- Zero-shot 일반화 성능 검증
- 시나리오 기반 광고 생성, 제품 추천 등 훈련되지 않은 태스크에서도 높은 일관성과 시나리오 이해력 입증
- Human 평가에서도 높은 자연스러움 및 상품 강조력 획득
- “Buy now”, “Perfect gift” 등 persuasive 문장 사용 능력 탁월
❗️한계점:
- 영어 외 다국어 확장 실험 부재
- 한국어, 다국어 플랫폼 적용을 위한 multilingual fine-tuning 미수행
- 멀티모달 정보 미활용
- 전자상거래에서는 이미지가 중요하지만 본 연구는 텍스트만 사용
- 실시간 정보 변화 대응 불가
- 계절별 유행/트렌드와 같은 변화에 대응하는 continual learning 구조 미탑재
- 대규모 모델 추론에 대한 경량화 연구는 미비
- 실사용을 위한 edge device 적응성/최적화 필요
📌 총평:
LLaMA-E는 전자상거래 특화 LLM 개발의 선도 사례로, instruction 디자인만으로 LLM이 실제 업무에 맞는 작문 능력을 갖추게 할 수 있음을 실증한 논문입니다.
특히 object-interleaved instruction이라는 아이디어는 e-commerce뿐 아니라 교육, 의료, 법률 등 다양한 시나리오 기반 분야로의 확장 가능성이 큽니다.LLMTreeRec: Unleashing the Power of Large Language Models for Cold-Start Recommendations
LLMTreeRec: Unleashing the Power of Large Language Models for Cold-Start Recommendations
Wenlin Zhang, Chuhan Wu, Xiangyang Li, Yuhao Wang, Kuicai Dong, Yichao Wang, Xinyi Dai, Xiangyu Zhao, Huifeng Guo, Ruiming Tang. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 기여점:
- 시스템 콜드스타트(System Cold-Start) 문제를 해결하기 위한 LLM 기반 프레임워크 LLMTreeRec 제안
- 기존 추천 시스템은 대규모 사용자-아이템 상호작용 학습에 의존 → 콜드스타트 시 효과 급감
- LLMTreeRec은 훈련 없이, LLM이 언어 기반 지식과 아이템 트리 탐색만으로 제로샷 추천을 수행
- 트리 기반 아이템 구조화 (Item Tree Construction)
- 모든 아이템을 카테고리 → 서브카테고리 → 키워드 기반 계층 트리로 분류
- 각 리프 노드(leaf node)는 50개 이하의 아이템으로 제한 → LLM 입력 토큰 절감 (최대 85%)
- Chain-of-Recommendation 전략
- 단일 세션에서 유저 프로파일 추론 → 트리 탐색 → 리프 노드에서 top-k 아이템 추천
- 탐색은 DFS 방식으로 진행되며, k값을 조정해 다양성과 효율성 균형 조절
- GPT-3.5 / GPT-4 기반 구현 및 실험
- MIND (뉴스), Amazon Movies&TV 데이터셋 사용
- GPT-4 기반 LLMTreeRec이 기존 학습 기반 모델(FM, DeepFM, NRMS 등)의 20% 학습 성능과 대등하거나 상회
- 산업 적용: Huawei 추천 시스템에 성공적 배포
- 실사용 환경 A/B 테스트에서 NDCG@10 25.64% 향상 → 높은 산업 실용성 입증
🧪 실험 결과:
모델MIND Recall@20Amazon Recall@20FM (20% 학습) 0.0125 0.0020 NRMS (20% 학습) 0.0525 0.0660 LLMTreeRec (GPT-4) 0.0509 0.0964 LLMTreeRec (GPT-3.5) 0.0296 0.0120 - GPT-4 버전은 학습 기반 추천 시스템을 초월하는 성능 확보
- LLM-Ranker 방식 대비 Recall/NDCG 모두 우수
- 트리 기반 탐색으로 토큰 사용량 최소화 (단계별 소비 분석 제공)
💡 분석 및 추가 기여:
- 하이퍼파라미터 k 분석:
- k ↑ → 정확도 향상, 다양성 감소
- k ↓ → 탐색 노드 증가, 다양성 증가
- 프롬프트 설계 실험:
- Interest 기반 프롬프트가 Relevance, Action, Recommendation보다 성능 우수 (최대 2배)
❗️한계점:
- 리프 노드 내부 후보셋이 커지면 hallucination 위험
- LLM이 실제 존재하지 않는 아이템을 생성하거나 인덱싱 오류 발생
- 다중 사용자 프로파일 / 멀티모달(이미지 등) 미포함
- 텍스트 중심 모델 한계 존재
- 비정형/동적 아이템 카탈로그에 대한 적응성은 향후 과제
📌 총평:
LLMTreeRec은 훈련 없이도 강력한 추천 성능을 확보할 수 있음을 입증한 산업 친화적 제로샷 LLM 추천 프레임워크입니다.
특히, 대규모 아이템 공간을 효율적으로 다루기 위해 제안된 트리 탐색 전략은 다른 도메인(의료, 교육, 법률 등)에도 적용 가능성이 높습니다.Distilling Rule-based Knowledge into Large Language Models
Distilling Rule-based Knowledge into Large Language Models
Wenkai Yang, Yankai Lin, Jie Zhou, Ji-Rong Wen. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기✅ 논문 요약:
🔍 핵심 아이디어:
기존 LLM 학습은 대부분 **예제를 통한 간접적인 규칙 학습(learn-from-examples)**에 기반합니다. 하지만 이 방식은 복잡한 규칙을 학습하거나 샘플이 부족한 환경에서는 일반화가 어렵다는 단점이 있습니다.
이에 대해 본 논문은 **“사람처럼 규칙 설명만 보고도 과제를 학습하는 방식(learn-from-rules)”**을 LLM에도 도입하고자 하며,
이를 위해 Rule Distillation이라는 새로운 학습 프레임워크를 제안합니다.
🎯 주요 기여:
- 🧠 Rule Distillation 프레임워크 제안
- 기본 아이디어:
텍스트 형태의 규칙 RT와 입력 x에 대해 base LLM이 생성한 응답을 in-context signal로 삼아, target LLM이 동일한 행동을 하도록 로그잇/은닉 상태 정렬 학습 수행 - 두 가지 정렬 방식:
- Llogits: 출력 확률 분포(KL Divergence) 정렬
- Lhidden: 은닉 상태(MSE) 정렬 → rule 이해 과정을 모사
- 최종 손실 함수:LRD=Llogits+αLhiddenL_{RD} = L_{logits} + \alpha L_{hidden}
- 기본 아이디어:
- 🧪 세 가지 실험 과제 구성
- Arithmetic Task: 새로운 연산자 “@@@”를 학습 (a + b + 1)
- Safety Task: jailbreak prompt에도 불구하고 유해 질문을 거부하고 정상 질문은 응답
- Sentiment Task: 환경 정책 관련 질문은 부정, 다른 정책은 긍정 응답 생성
- 🧬 Rule Distillation vs 기존 방법 비교 실험
- Baseline:
- Instruction Tuning (with/without rule)
- In-context learning (few-shot)
- Base-ICL, Base-ICL-FS 등
- 결과 요약:
- Arithmetic: 일반화 세트에서도 Rule-Distill이 타 방법보다 15~50% 정확도 향상
- Safety: 평균 정확도 82.4%로 Inst-Tune 대비 +18%
- Sentiment: 64-shot에서 평균 78.2%로 Inst-Tune 대비 +8% 이상
- Baseline:
- 💡 추가 분석
- 은닉 상태 distillation 중요성 입증 (ablation): Lhidden 제거 시 학습 실패
- 모델 스케일 실험 (7B, 13B, 33B): Rule-Distill은 모델 크기에 따라 성능이 상승
- 64-shot 이상은 오히려 과적합 → 최적 샷 수 제한 필요
- 🧑🏫 실제 규칙 이해 강화 전략 제안
- base LLM의 rule 이해력이 낮을 경우, RT 포함 예제를 먼저 학습시켜 teacher 성능 개선
- 이후 distillation 진행 (Rule-Distill-Enhanced)
❗️한계점:
- 다중 규칙 동시 학습 또는 연속 학습(continual learning)에 대한 실험 부재
- task rule이 없는 테스트 시, 예제 기반 학습보다 성능이 떨어질 가능성
- 복잡한 multi-hop reasoning이나 멀티모달 규칙 학습은 미포함
📌 총평:
이 논문은 LLM이 “예제를 통해 규칙을 암묵적으로 배우는 방식”에서 벗어나, “규칙 그 자체를 파라미터에 내재화”하는 새로운 학습 패러다임을 실현한 대표적 사례입니다.
특히 in-context signal을 이용한 knowledge distillation 구조는 향후 도메인 규칙 주입, 안전성 제어, 소수 예제 일반화 등 다양한 영역에 응용될 수 있는 확장성 높은 기법입니다.Towards the Machine Translation of Scientific Neologisms
Towards the Machine Translation of Scientific Neologisms
Paul Lerner, François Yvon. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기기여점:
- 신조어(Neologism) 번역이라는 새로운 MT 문제 제기
- 기존 병렬 코퍼스 기반 MT 시스템이 다룰 수 없는 과학 신조어 번역 문제를 처음으로 본격적으로 다룸.
- “정의(definition)”를 활용해 신조어를 생성하거나 번역하는 문제를 설정함.
- Definition 기반 텍스트 생성 실험
- LLM이 프랑스어 정의(FR)를 입력으로 받아 해당 신조어(FR)를 생성하는 방식(DEF setting)을 제안함.
- 정의와 영어 원어(EN term)를 함께 사용하는 혼합 세팅(DEF+TERM)이 가장 좋은 성능을 보임.
- In-Context Learning 예시 선택 전략 제안
- 단순 random/domain 기반이 아니라, co-hyponym (공통 상위어를 가진 용어), derivational paradigm (유사 조어법) 기반 예시 선택이 더 효과적임을 보임.
- 특히 low-frequency 신조어일수록 이 전략의 성능 향상이 큼.
- 형태소 분석 기반 신조어 생성 평가 체계 구축
- 생성된 신조어가 기존 조어 규칙 (접두사/접미사, 복합어 등)에 얼마나 부합하는지를 자동 평가함.
- BLOOM-7.1B는 적절한 조어법을 생성하는 경향이 있으나, native compound나 의미 변이(semantic neology)에는 약함.
- BPE tokenizer의 한계 분석
- Prefixation 단어는 BPE 토크나이징에서 과도하게 분절되어, 신조어 생성에 부정적인 영향을 줌.
- Word fertility (단어당 토큰 수)가 많을수록 Exact Match 성능이 낮아짐.
왜 이 논문이 accept되었는가:
- 기존 MT 연구에서 다루지 않았던 '신조어 번역'이라는 근본적 문제를 매우 명확하게 정의하고 접근하였음.
- 실험 세팅이 체계적이며 정의 기반 생성 → 형태소 기반 분석 → ICL 전략 → 토크나이저 분석까지 전체 흐름이 탄탄함.
- **두 개의 공공 신조어 테사우루스(FranceTerme, TERMIUM)**를 활용하여 재현 가능성과 범용성을 갖춘 점.
- BLOOM, CroissantLLM, mBART 등 다양한 공개 모델을 실험에 포함시킨 현실적인 벤치마킹.
- 단순 BLEU 또는 semantic 유사도보다 정확한 용어 생성(EM/F1)과 형태소 정합성 평가라는 task에 맞는 평가를 제시한 점.
한계점:
- 언어쌍이 EN-FR에 한정됨
- 프랑스어는 형태론적 자원이 풍부하고 조어 전통이 있는 언어라서 일반화에는 한계가 있음.
- 저자들도 언급했듯, 중저자원 언어에서의 재현성 검증은 필요함.
- 정의가 주어지는 것을 전제로 함
- 현실적인 MT 시나리오에서는 문서 내에서 정의를 자동으로 추출해야 하는데, 이 논문에서는 주어졌다고 가정함.
- 형태론적 변이에 민감한 평가 지표에 의존
- Exact Match나 형태소 정합성 평가만으로는 실제로 번역된 term이 사용자에게 유용한지, 수용 가능한지는 알기 어려움.
- 의미론적 유사성 평가도 병행할 필요가 있음.
- Prefixation에서 BPE tokenizer의 한계는 구조적 문제이므로 해결 방안이 명확하지 않음
- 단순한 후처리 방식이나 character-level decoding 실험이 부재함.
논문이 다루는 문제 정의, 방법론의 참신함, 실험 설계의 일관성 덕분에 COLING에서 accept되었을 가능성이 큽니다.
특히 정의 기반 신조어 생성이라는 작업 정의는 향후 scientific NLP에서 매우 유용하게 응용될 수 있습니다.HyperIDP: Customizing Temporal Hypergraph Neural Networks for Multi-Scale Information Diffusion Prediction
Haowei Xu, Chao Gao, Xianghua Li, Zhen Wang. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기기여점:
- 미시적/거시적 정보 확산 예측을 통합한 최초의 하이퍼그래프 기반 모델 제안
- 기존 연구들은 정보 확산을 거시적(전체 확산 규모 예측) 혹은 미시적(다음 확산 유저 예측)으로 분리해 다룸.
- HyperIDP는 양자 예측을 하나의 모델 내에서 동시에 다룰 수 있는 multi-scale diffusion prediction 프레임워크를 설계.
- 시간적 하이퍼그래프를 통한 상호작용 모델링
- 정보 확산 과정을 시간 순서에 따라 하이퍼그래프 형태로 구성하여, cascade 간의 상호작용 및 변화 양상을 정밀하게 반영.
- Social homophily를 GNN 기반으로 학습하여 사용자 간 유사성 기반 영향력을 모델링함.
- 협력-경쟁(cooperative-adversarial) 다중손실 학습 도입
- shared representation을 통해 두 예측 과제를 협력적으로 학습하면서도, 과제 간 간섭을 방지하는 adversarial 요소를 추가한 loss 설계.
- 두 과제의 feature space가 너무 겹치거나 한쪽에 치우치지 않도록 조절.
- 하이퍼그래프 기반 Neural Architecture Search (NAS)
- 기존 NAS가 그래프에 최적화되어 있는 문제를 해결하기 위해, vertex aggregation, hyperedge aggregation, temporal aggregation 등을 포함한 하이퍼그래프 전용 search space를 구성.
- DARTS 기반 differentiable NAS 방식으로 연속 공간에서 효율적으로 최적 구조 탐색.
- 세 가지 실제 데이터셋(Android, Christianity, Douban)에서 SOTA 성능 달성
- macroscopic (MSLE), microscopic (Hits@k, MAP@k) 모두에서 모든 비교 모델을 능가함.
- 특히 기존 GNN NAS (GraphNAS, Random, Bayesian 등)보다도 **검색 비용(Search Cost)**이 훨씬 낮음 (Figure 4 참조).
왜 이 논문이 accepted되었는가:
- “미시-거시 통합 정보 확산 예측”이라는 문제 정의가 참신하며 실제 SNS/뉴스/바이럴 마케팅 등 여러 응용에 직결됨.
- 시간적 하이퍼그래프 모델링 + NAS라는 구조적/기술적 강점이 강하게 부각됨.
- 다중 과제 학습에서 공유 표현의 장점과 한계를 동시에 해결하려는 **협력-적대적 학습 방식(coop+adv loss)**이 이론적 설득력과 실험적 효과를 동시에 보여줌.
- 다양한 베이스라인 + 세밀한 ablation 실험 구성이 실증적 기여를 뒷받침함.
한계점:
- 초기 하이퍼그래프 구성 정확도에 민감함
- cascade나 사용자 정보가 결측/노이즈일 경우 모델 성능이 크게 저하될 수 있음 (Limitations에서 언급).
- NAS의 연산 복잡도
- differentiable NAS라 하더라도, 여전히 large-scale 데이터에서는 시간/자원 소모가 큼.
- 특히 복잡한 구조나 더 많은 task를 포함하면 확장성 문제 발생 가능.
- 실시간성 고려 부족
- 시간적으로 cascade가 실시간 확산 중인 상황에서의 예측(incremental prediction)에 대한 논의는 부족함.
- 모든 구성요소가 서로 영향을 미치므로 재현성과 일반화가 어려울 수 있음
- NAS 결과 구조는 데이터셋 의존성이 강하기 때문에, 새로운 도메인 적용 시 다시 탐색이 필요.
이 논문은 정보 확산 예측이라는 실용적 주제를 multi-task learning, hypergraph modeling, NAS라는 최신 기법들과 통합하여 효과적으로 해결한 점에서 높은 평가를 받은 것으로 보입니다. 구조적으로 완성도가 높고, 다양한 분야(NLP, 소셜컴퓨팅, 추천시스템)에서 후속 활용 가능성이 큽니다.
Enhancing multi-modal Relation Extraction with Reinforcement Learning Guided Graph Diffusion Framework
Rui Yang, Rajiv Gupta. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기기여점:
- 강화학습 기반 그래프 확산(RL-guided Graph Diffusion) 프레임워크 제안
- 멀티모달 관계 추출(Multi-Modal Relation Extraction, MMRE)에서 텍스트-이미지 융합 정보를 효과적으로 다루기 위한 설명 가능성 있는 모델 구조 제안.
- 강화학습 기반 coarse-grained graph 구조 조정 + fine-grained feature diffusion이라는 2단계 그래프 정제 전략.
- Cross-Modal Graph (CMG) 생성
- CLIP을 활용해 텍스트와 이미지를 동일 임베딩 공간에서 scene graph 형태로 구성.
- 텍스트-비전 통합 scene graph를 하나의 CMG로 연결하여 다양한 inter-/intra-modal 관계를 포착.
- RL Agent를 통한 그래프 구조 최적화
- 강화학습 에이전트가 node 삭제, edge 삭제/추가 등의 액션을 통해 불필요한 noise를 제거하고 중요한 연결을 강화.
- Accuracy와 그래프 복잡도 간 trade-off를 고려한 보상 함수 설계 (λ·정확도 − µ·복잡도).
- Diffusion 기반 edge weight 미세 조정
- 강화학습이 조정한 그래프 위에서, 노드 간 feature similarity를 기반으로 edge weight를 미세하게 조정하여 fine-tuning 수행.
- 낮은 중요도를 가지는 edge는 제거되어 더 간결한 refined graph 생성.
- GNN 기반 최종 관계 추출 + 성능 향상
- 정제된 그래프(G′)를 GNN에 입력해 관계 레이블 예측.
- 두 개의 MMRE 벤치마크 데이터셋(MRE, MORE)에서 기존 SOTA 모델(MOREformer, MKGformer 등) 대비 F1 기준 최대 +10%p 이상 성능 향상.
- 설명 가능성(interpretability) 강화
- 강화학습을 통한 구조 변화 및 Diffusion을 통한 가중치 조정 과정을 시각화 및 사례 연구로 제시.
- 추출된 관계의 근거를 그래프 기반으로 명확히 설명 가능.
왜 이 논문이 accepted되었는가:
- 멀티모달 관계 추출이라는 실질적이고 어려운 과제에 대해 설명 가능한 강화학습 기반 그래프 구조 조정이라는 매우 참신한 접근을 적용.
- 기존의 Transformer/attention 기반 모델들이 학습 과정이 불투명하다는 한계를 극복하고자, 노드와 엣지의 중요도를 명시적으로 조정하는 방식이 이론적, 실험적으로 설득력 있음.
- Coarse + Fine 조정의 2단계 프로세스가 구조적으로 매우 잘 정리되어 있고, 강화학습의 보상 설계, Diffusion 세부 구현, GNN 추론까지 일관된 파이프라인을 구성.
- 실험적으로도 기존 MMRE 강자(MOREformer, MEGA, VisualBERT 등) 대비 모든 지표에서 우수, 특히 복잡한 MORE 데이터셋에서 강한 성능을 보임.
- Ablation 및 Training trend 분석, case study 등 실험 구성이 꼼꼼하며, 모델의 구성 요소 각각의 기여도를 잘 보여줌.
한계점:
- 동적 멀티모달 데이터(예: 영상) 미지원
- 현재는 정적인 이미지-텍스트 조합만 다루며, 영상처럼 시간 축을 가진 멀티모달 데이터에 대한 일반화 여부는 미검증.
- RL 기반 학습의 계산 비용
- 강화학습과 Diffusion을 함께 수행함에 따라 학습 비용과 복잡도가 높고, 대규모 데이터셋 적용 시 스케일링 문제가 발생할 수 있음.
- 에이전트 설계 및 보상 함수 튜닝의 민감도
- λ/µ, γ, τ 등의 하이퍼파라미터가 성능에 큰 영향을 미치며, 상황에 따라 재튜닝이 필요할 수 있음.
- CMG 생성 과정이 CLIP 기반에 의존적
- CLIP 기반으로 feature를 통합하나, 다른 multimodal encoder 사용 시 성능 변화에 대한 검증이 부족함.
이 논문은 기존의 멀티모달 관계 추출 모델들이 주로 end-to-end 블랙박스 처리에 의존하던 한계를 넘어, 설명 가능한 구조적 조정 방식을 강화학습 기반으로 제안한 점이 가장 큰 강점입니다.
Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding
Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding
Cheng Wang, Yiwei Wang, Bryan Hooi, Yujun Cai, Nanyun Peng, Kai-Wei Chang. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기기여점:
- LLM 사전학습 데이터 탐지 문제에 contrastive decoding 기법 최초 적용
- 기존 membership inference(MIA) 기법들은 주로 텍스트 단독 혹은 비회원(non-member) prefix만 사용했으나, 이 논문은 회원(member) + 비회원 prefix의 분포 차이를 활용하는 contrastive 방식을 도입.
- subtle한 distributional shift도 contrastive하게 비교하면 의미 있는 membership 정보로 증폭됨을 보임.
- 새로운 membership scoring 함수 설계
- score = (LL(x|비회원 prefix) - γ * LL(x|회원 prefix)) / LL(x)
- shift 방향과 강도 둘 다 반영하며, γ는 contrast 강도를 조절하는 하이퍼파라미터.
- Gray-box 접근만으로도 높은 성능 확보
- CON-RECALL은 token probability만 필요하고 reference model 없이도 작동해 현실 적용성 높음.
- Open-source 모델뿐 아니라 일부 API 모델에서도 사용 가능함.
- WikiMIA 및 MIMIR benchmark에서 SOTA 달성
- WikiMIA에서 기존 최고 성능 모델 ReCall 대비 AUC 기준 평균 6.6%p, TPR@5%FPR 기준 30.8%p 개선.
- 다양한 모델 사이즈 (1.4B ~ 30B)와 다양한 sequence length (32, 64, 128)에서도 일관된 성능.
- 텍스트 변형에도 강건함 (robustness)
- 랜덤 삭제, 동의어 치환, GPT 기반 패러프레이징에도 강건함을 실험으로 입증 (표 3).
- 회원 데이터 없이도 유사 데이터 생성 가능성 입증
- GPT-4o로 역사적 사건을 요약 후 일부 제거 → 대상 모델로 이어쓰기 유도 → pseudo-member 생성 가능.
- 실제 member를 모를 때도 추정된 member data로 우수한 성능 확보함.
왜 이 논문이 accepted되었는가:
- LLM training data 탐지라는 시의성 있는 문제를 기존보다 정확하고 실용적으로 해결.
- 기존 MIA 기법의 단점을 정확히 지적하고, 정교하면서도 계산 효율적인 새로운 scoring 방식 제안.
- 다양한 실험 구성 (AUC, TPR, ablation, robustness, member approximation 등)이 논리적이고 탄탄함.
- 사전 학습 데이터 유출, 개인정보 포함 우려, 평가셋 contamination 등의 실제적인 위협을 방지하는 데 기여 가능.
- 공개 코드도 포함되어 reproducibility 측면에서도 긍정적임.
한계점:
- 완전한 black-box 모델에는 적용 불가
- token probability access가 전제되므로, 단순 응답만 반환하는 API(ex. ChatGPT)에는 적용 불가.
- prefix 선택의 품질에 따라 성능이 좌우됨
- 좋은 member/non-member prefix를 선택해야 하며, 현재는 수작업 또는 정적 선택에 의존함.
- 자동화된 prefix 선택 전략은 future work으로 남아 있음.
- 고도화된 adversarial 회피 기법에는 아직 미검증
- 예를 들어, 고의적으로 LL 분포를 조작한 적대적 변형(adversarial paraphrase)에 대한 성능은 미탐색.
이 논문은 LLM 시대에서 점점 더 중요해지는 "학습 데이터의 투명성과 보안" 문제를 정면으로 다룬 의미 있는 연구입니다.
LogiGraph: Logical Reasoning with Contrastive Learning and Lightweight Graph Networks
LogiGraph: Logical Reasoning with Contrastive Learning and Lightweight Graph Networks
Xiang Li, Chen Shi, Yong Xu, Jun Huang. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기기여점:
- 그래프 기반 논리 추론 모델 LogiGraph 제안
- 기존 GCN 기반 논리추론 모델의 한계(파라미터 증가, 비효율적 학습, oversmoothing)를 해결하기 위해 **경량화된 GCN 구조(lightweight GCN)**를 도입.
- conjunction(접속사)과 punctuation(구두점)을 기반으로 두 개의 그래프(conjunctive / structural)를 구성해 텍스트의 논리적 연결 구조를 이중적으로 표현함.
- 대조학습(contrastive learning) 기반 부정 논리 구조 학습 도입
- 원본 문장을 삭제, 부정, 조건 반전 등의 방식으로 변형한 negative logical samples을 생성.
- 대조학습을 통해 모델이 논리적 반대 관계를 명확히 인식할 수 있도록 유도하여 추론 일반화 성능 향상.
- 그래프 추론 과정과 cross-attention을 결합한 정답 예측 설계
- 각 그래프의 전체 노드 표현을 집계한 뒤, context/question과 cross-attention으로 연결하여 논리 기반의 선택지를 평가.
- ReClor 및 LogiQA 데이터셋에서 SOTA 달성
- ReClor: 65.0% (이전 최고 Logiformer: 63.5%)
- LogiQA: 44.42% (이전 최고 Logiformer: 42.50%)
- 다양한 백본 모델 (RoBERTa, ALBERT, DeBERTa)에서도 일관된 성능 우위.
- GCN 모듈 구성 요소 제거에 대한 정량적 분석
- feature transformation, activation function, symmetric normalization, self-loop 등을 제거하면 정확도 향상 + 파라미터/추론 속도 개선 확인.
왜 이 논문이 accepted되었는가:
- 기존 논리 추론 모델의 한계를 정확히 진단하고, 경량화된 구조로 실용성과 정확도 모두를 높인 점.
- PLM 기반 MRC 모델들이 잘 다루지 못하는 **explicit 논리 관계(causal, comparative 등)**를 conjunction 기반 그래프 구조로 정형화 및 추론 가능하게 만든 점.
- 기존 GCN의 성능 저하 요인을 제거하고도 더 높은 성능을 달성한 실험 설계의 정밀도.
- 대조학습으로 논리적 부정 구조를 학습하는 아이디어가 논리적 일반화 측면에서 강력함.
- 다양한 ablation 및 백본 모델 교체 실험을 통해 모델 설계 결정의 타당성을 철저히 검증했다는 점.
한계점:
- 고사양 GPU 리소스 의존
- RoBERTa-large 기준 A10(22GB), DeBERTa/ALBERT 확장 시 A100 이상 필요. 학습/추론 모두 메모리 요구량이 큼.
- 미시적 해석 가능성 부족
- 모델 구조상 각 노드나 엣지가 왜 중요했는지에 대한 해석이 어려움 → reasoning 과정을 black-box로 만들 수 있음.
- 그래프 구성 기반이 규칙적(keyword list, NLTK 기반)이라 정밀한 syntax-aware parsing을 포함하지 않음
- 문법적 구조까지 반영한 고급 graph construction으로 확장 가능성이 있음.
Explaining Relationships Among Research Papers
Explaining Relationships Among Research Papers
Xiangci Li, Jessica Ouyang. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기기여점:
- 연구 논문 간 관계 설명을 위한 LLM 기반 프롬프트 기법 제안
- 기존 인용문 생성 연구는 주로 개별 논문에 대한 단일 인용문 생성을 다뤘으나, 이 논문은 여러 논문 간 관계를 서술형 문장으로 설명하며 문단 단위로 통합된 related work 생성을 시도.
- 자연어 기반 논문-논문 관계 feature를 LLM 프롬프트에 적용
- “faceted summary” (논문 목적, 방법, 기여 등 요약), “enriched citation usage”, “논문 간 관계”를 LLM이 이해할 수 있는 형태로 자연어로 구성하고, 이를 이용해 인용문과 전환 문장을 함께 생성.
- “Main idea”를 통한 구조적 구성 가이드 도입
- 인간이 제공한 주제 요약(main ideas)을 기반으로 관련 논문 간 내러티브를 구성하게 유도 → 단순 나열이 아닌 조직화된, 주제 중심적 related work section 생성 가능.
- human-in-the-loop 평가 설계
- 27명의 저자(또는 전문가)들에게 본인 논문의 관련연구 섹션을 대상으로 7개 변형된 시스템 출력물을 평가하게 함 → 실제 도메인 전문성이 반영된 평가.
- 다양한 feature ablation 실험 및 정량/정성 평가 수행
- 각 구성 요소(main idea, TAIC, usage, relationship 등)가 성능과 품질에 어떻게 영향을 주는지 분석.
- human 평가뿐 아니라 ROUGE, writing style (dominant/reference, discourse role 등) 기준으로도 비교.
- 새로운 문체 지표와 인간 선호도 간 상관 분석 제시
- reference-type citation, transition sentence 비율이 높을수록 human preference와 상관 높음 → LLM 생성물의 평가 기준 제시 가능.
왜 이 논문이 accepted되었는가:
- 자동 related work generation의 실질적, 미해결 과제인 논문 간 관계 설명과 서술적 문단 생성을 최초로 정면 돌파.
- 단순 end-to-end가 아닌 해석 가능한 feature 기반 접근을 설계하고, 이를 multi-stage prompting 방식으로 구현.
- LLM 한계 (사실 오류, 길이 제한, 문체 미숙 등)를 정면으로 다루며, 각 구성 요소의 기여도를 실험적으로 입증.
- 실제 연구자 대상 human evaluation을 통해 실제 논문 작성을 보조할 수 있는 실용적 가능성을 보여줌.
- 기존 연구에 대한 포괄적 정리(meta study 수준)와 체계적 실험 설계로 학술적·공학적 기여도 모두 확보.
한계점:
- LLM 기반 생성의 사실 오류 문제 여전
- 일부 인용 설명은 부정확하거나 논문 내용을 과장하는 경향이 있음. human 평가에서 주요 지적 사항.
- “Main idea”는 수작업으로 제공됨
- 자동화되지 않았기 때문에 완전한 자동 생성 시스템은 아님. fully-automatic 성능은 현저히 낮음.
- 학문 분야의 다양성 부족
- 실험 대상 논문 다수가 NLP 분야에 치우침 → 생물학, 의학 등 타 분야로 일반화 가능성은 검증되지 않음.
- 입력 길이 제한 문제
- GPT-4의 context limit으로 인해 여러 문단으로 나눠서 생성 → 전체 문맥 유지 어려움.
- 중간 feature 품질에 대한 정량 평가 부족
- faceted summary, usage 등 중간 산출물의 정확도에 대한 추가적인 human 검증은 이루어지지 않음.
From Generalist to Specialist: A Survey of Large Language Models for Chemistry
From Generalist to Specialist: A Survey of Large Language Models for Chemistry
Yang Han, Ziping Wan, Lu Chen, Kai Yu, Xin Chen. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기기여점:
- 화학 분야에 특화된 LLMs에 대한 종합적인 조사
- 기존 LLMs가 화학 관련 작업에서 부족한 이유를 분석하고, 이를 해결하기 위한 도메인 특화 지식과 멀티모달 데이터를 통합하는 방법론을 제시.
- LLMs의 화학 도메인 적용 문제 3가지 제시
- 도메인 지식 부족: 일반 웹 데이터를 기반으로 훈련된 LLM들이 화학 분야의 특수한 지식을 효과적으로 다루지 못하는 문제.
- 멀티모달 데이터 부족: 화학에서는 분자 구조, 3D 구조, 스펙트럼 등 다양한 형태의 데이터가 필요하지만, 기존 LLM은 이를 제대로 처리하지 못함.
- 화학 도구 미활용: LLM이 최신 화학 도구(예: 분자 구조 검색, 반응 예측 등)와 통합되지 않음으로써 성능이 제한됨.
- 화학 LLM을 위한 새로운 접근법 제시
- 화학 도메인 지식: 화학 관련 대규모 텍스트를 활용한 연속적인 pre-training 방법론 제시.
- 멀티모달 통합: 1D SMILES, 2D 그래프, 3D 구조 등 다양한 화학 데이터를 LLMs에 통합할 수 있는 기술 소개.
- 화학 도구와의 통합: 지식 검색(PubChem 등), 기계학습 모델(반응 예측 모델 등), 로봇 실험 등 화학 관련 도구들을 LLM과 결합하여 화학 실험 자동화 및 연구 가속화 가능성 탐구.
- 현재 사용되는 화학 LLM 벤치마크 소개
- ChemLLMBench 등 기존의 화학 LLM을 평가할 수 있는 다양한 벤치마크를 소개하고, 이러한 벤치마크가 화학 작업에서 LLM의 성능을 어떻게 평가하는지 설명.
- 미래 연구 방향 제시
- 데이터: 더 다양한 화학 데이터셋 수집 필요.
- 모델: 멀티모달 데이터를 처리할 수 있는 모델의 발전과 Chain-of-Thought (CoT) 추론 능력을 향상시킬 필요.
- 응용: LLM을 화학 실험 디자인 및 자동화에 적용할 수 있는 연구 확대.
왜 이 논문이 accepted되었는가:
- 화학 분야에 특화된 LLM에 대한 포괄적이고 체계적인 조사를 제공하며, 기존 모델들의 한계를 정확히 진단하고 그 해결책을 제시함.
- 화학 도메인에 특화된 방법론, 즉 도메인 지식 강화, 멀티모달 데이터 통합, 화학 도구와의 결합을 통해 LLM을 화학 분야에 최적화하려는 접근이 새롭고 실용적임.
- 화학 관련 데이터셋 및 벤치마크에 대한 구체적인 설명과 향후 발전 방향을 제시하여, 연구자들이 화학 LLM의 발전을 추적하고 응용할 수 있도록 돕는 데 기여.
- 기존 화학 관련 LLM 연구와 차별화되는 전문적인 LLM 적용 방법을 설명하며, 후속 연구를 위한 방향을 명확히 제시.
한계점:
- 화학 도메인에 대한 데이터의 한계
- 화학 관련 데이터를 구축하는 데 있어 어려움이 있으며, 특히 화학 스펙트럼 데이터와 같은 복잡한 데이터는 아직 충분히 활용되지 않음.
- 멀티모달 데이터 처리의 복잡성
- 3D 구조와 같은 복잡한 데이터의 효율적인 처리 방법이 아직 완벽히 해결되지 않음. 멀티모달 데이터 간의 정확한 정렬과 통합 방법에 대한 추가 연구가 필요.
- 화학 도구와의 완전한 통합 부족
- 화학 도구와 LLMs의 완전한 통합이 이루어지지 않았으며, 실제 실험을 자동화하거나 실시간으로 데이터를 처리하는 데 필요한 기술적 발전이 요구됨.
- 벤치마크의 한계
- 화학 LLM을 평가하는 기존 벤치마크는 여전히 초기 단계에 있으며, 더 포괄적이고 정밀한 평가 지표 개발이 필요.
Latent Space Interpretation for Stylistic Analysis and Explainable Authorship Attribution
Latent Space Interpretation for Stylistic Analysis and Explainable Authorship Attribution
Milad Alshomary, Narutatsu Ri, Marianna Apidianaki, Ajay Patel, Smaranda Muresan, Kathleen McKeown. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기기여점:
- 저자 특성 해석을 위한 새로운 접근법 제안
- 기존의 latent space에서 학습된 저자 특성을 설명할 수 없는 문제를 해결하기 위해, 문서의 스타일을 해석 가능한 형태로 설명하는 latent space 해석 방법을 제시.
- 저자 임베딩을 클러스터링하여, 각 클러스터의 중심을 스타일 분포로 매핑하고, 이를 이용해 문서의 스타일을 설명하는 방식.
- 스타일 기능 자동 추출 및 생성
- 대형 언어 모델(LLM)을 사용하여 스타일 기능을 생성하고, 이를 문서의 스타일 설명으로 변환하는 과정 제시.
- 생성된 스타일 설명을 단축하고, 유사한 스타일을 묶어서 주요 특징을 추출하는 방법.
- 스타일 해석을 통한 예측 정확도 향상
- 스타일 기능을 문서에 맞게 정리한 후, 이를 기반으로 저자 추론 정확도를 20% 향상시킨 결과를 보임.
- 모델의 예측을 설명하는 것이 예측의 신뢰도와 정확성을 높이는 데 기여.
- 스타일 설명의 유용성 검증
- 실험을 통해, 스타일 설명이 저자 추론 작업에서 실질적으로 도움이 되는지 평가.
- 인간 평가를 통해 스타일 설명이 작문 스타일을 잘 반영하고, 예측에 대한 신뢰도를 높였음을 입증.
- 모델 예측과 해석 공간 간의 일치 평가
- 해석 가능한 스타일 공간과 원래의 latent space에서 예측이 얼마나 일치하는지 평가하여, 예측 정확도가 크게 향상되었음을 보임.
왜 이 논문이 accepted되었는가:
- 스타일 분석 및 설명 가능성에 대한 새로운 접근법을 제시하며, 기존의 black-box 모델에 비해 해석 가능한 방법을 제공한 점에서 중요한 기여를 했음.
- 스타일 기능을 자동으로 추출하고 대형 언어 모델을 활용하여 문서의 스타일을 명확히 설명하는 방법론이 독창적이고 실용적임.
- 인간 평가를 통해 스타일 설명이 실제로 저자 추론 정확도를 향상시킨다는 실험 결과를 제시하여, 기술적 실용성을 입증했음.
- 해석 가능한 공간을 이용한 예측 정밀도 향상 실험은 해당 모델의 응용 가능성을 크게 확장시킬 수 있음을 시사.
한계점:
- 스타일 기능 추출의 일관성 문제
- LLM을 활용한 스타일 설명 생성 과정에서 일관성이 부족할 수 있으며, 이는 다양한 프롬프트 변형을 통해 해결할 수 있지만, 단일 프롬프트에서의 변동성은 여전히 문제.
- 스타일 기능의 복잡성
- 스타일 설명이 길고 중복되는 경우가 많아, 모델에서 중복을 제거하고 유용한 정보를 추출하는 추가적인 연구가 필요.
- 모델 확장성 부족
- 단일 저자 추론 모델에 대한 실험만 진행되었기 때문에, 다양한 장르나 도메인에서 다양한 모델에 대한 적용성 검증이 부족함.
- 한정된 평가 데이터
- 실험에 사용된 데이터셋이 특정 포럼에서 나온 텍스트에 국한되어 있어, 다양한 장르와 도메인에 대한 일반화에는 한계가 있을 수 있음.
Read Before Grounding: Scene Knowledge Visual Grounding via Multi-step Parsing
Read Before Grounding: Scene Knowledge Visual Grounding via Multi-step Parsing
HaiXiang Zhu, Lixian Su, ShuangMing Mao, Jing Ye. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기기여점:
- Scene Knowledge Visual Grounding (SK-VG) 문제를 해결하는 ReadVG 제안
- 기존의 시각적 텍스트와 간단한 질의 기반 시각적 연결을 넘어서, 장면 지식을 활용하여 복잡한 관계를 파악하고 정확한 타겟 위치를 로컬라이징하는 방법을 제시.
- 장면 지식과 질의 표현을 활용하여 시각적 설명 생성 및 멀티모달 모델의 정확도를 향상시킴.
- LLM 기반 다단계 파싱 기법
- LLM을 이용해 장면 지식에서 타겟 객체를 식별하고, 이를 기반으로 간결하고 정보 밀도가 높은 시각적 설명을 생성하는 멀티 단계 파싱 알고리즘을 제안.
- 이 방식은 복잡한 시각적 지식을 간소화하고 멀티모달 모델이 정확하게 타겟을 로컬라이즈할 수 있도록 지원.
- 제로샷(Zero-shot) 방식
- 추가 훈련 없이 사용 가능한 제로샷, 플러그 앤 플레이 방식으로, 장면 지식과 질의 표현을 결합하여 시각적 타겟 로컬라이징의 정확도를 크게 개선.
- 실험적 성과
- ReadVG는 기존 모델들에 비해 SK-VG 작업에서 성능을 크게 향상시켰으며, **무려 79%**의 성능 향상을 보임.
- 특히, 멀티모달 모델이 시각적 텍스트를 잘 처리할 수 있도록 도와주어, 기존 방법들이 실패한 장면 지식 기반 시각적 로컬라이징에서 뛰어난 성능을 발휘.
- 모듈화된 접근 방식
- 읽기 모듈과 시각적 설명 생성 모듈을 통해 다양한 LLM 기반 모델과 잘 결합할 수 있도록 설계, 비주얼 그라운딩 모델의 성능을 높이는 데 기여.
왜 이 논문이 accepted되었는가:
- **시각적 지식 기반 시각적 그라운딩(SK-VG)**의 어려움을 해결하는 혁신적 접근법을 제시한 점. 기존의 단순한 텍스트-이미지 연결을 넘어, 장면 지식을 활용한 복잡한 관계 추론을 성공적으로 수행함.
- 제로샷 방식으로 기존 모델들을 추가 훈련 없이 향상시키는 점에서 실용적인 활용 가능성을 높임.
- 다단계 파싱 기법을 통해 시각적 설명을 간결하고 정확하게 생성, 멀티모달 모델이 더 정확하게 타겟을 로컬라이징할 수 있도록 도왔음.
- 광범위한 실험과 사례 연구를 통해 기존 방법들에 비해 월등한 성능 향상을 입증함.
한계점:
- 복잡한 장면 지식에 대한 처리 한계
- 복잡한 장면 지식이 포함된 경우, 특히 다수의 개체와 관계가 복잡하게 얽힌 장면에서 여전히 성능이 제한적일 수 있음.
- 다수의 객체가 포함된 장면에서 시각적 설명이 제대로 추출되지 않거나 중복된 정보를 처리하는 데 어려움이 있을 수 있음.
- 모델의 일반화 가능성 제한
- 영화 장면을 기반으로 한 데이터셋을 사용했기 때문에, 다양한 유형의 시각적 그라운딩 문제에 대한 일반화 가능성에는 한계가 있을 수 있음. 특히 일상적인 이미지나 실험적인 장면에 대한 적용 가능성에 대한 추가 검토가 필요.
- LLM의 텍스트 이해 한계
- LLM이 비표준적이거나 복잡한 언어 표현을 처리할 때 오류 발생 가능성이 있음. 이는 모델의 신뢰성에 영향을 미칠 수 있음.
Cross-Refine: Improving Natural Language Explanation Generation by Learning in Tandem
Cross-Refine: Improving Natural Language Explanation Generation by Learning in Tandem
Qianli Wang, Tatiana Anikina, Nils Feldhus, Simon Ostermann, Sebastian Möller, Vera Schmitt. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기기여점:
- NLE 개선을 위한 CROSS-REFINE 접근법 제안
- CROSS-REFINE는 두 개의 LLM(생성자와 비평자)을 사용하여, **자연어 설명(NLE)**을 개선하는 새로운 방법론을 제시.
- 생성자는 초기 설명을 생성하고, 비평자는 그에 대한 피드백과 제안을 제공하여, 생성자가 자신의 설명을 개선할 수 있도록 지원하는 방식.
- SELF-REFINE와의 비교
- 기존 SELF-REFINE 방식은 자기 피드백을 통해 설명을 개선하는 방식으로, 주로 대형 LLM에서만 효과적이었다.
- 반면, CROSS-REFINE은 두 개의 LLM을 사용하여, 피드백과 제안을 외부에서 제공함으로써, 모든 크기의 LLM에서 효과적으로 설명을 개선할 수 있음.
- 다양한 NLP 작업에서 검증
- ECQA, e-SNLI, HealthFC와 같은 다양한 데이터셋을 사용하여 CROSS-REFINE의 효과를 검증.
- 자동 평가와 사용자 평가를 통해 CROSS-REFINE이 SELF-REFINE을 초과하는 성능을 보였음.
- 피드백과 제안의 중요성
- 피드백과 제안은 설명 개선에 중요한 역할을 하며, 이를 통해 NLE의 품질을 높이는 데 기여.
- 제안이 없으면 설명의 품질이 상당히 저하되는 결과를 보임.
- 언어와 모델 간의 차이를 넘어서
- 독일어를 포함한 이중언어 데이터셋에서 CROSS-REFINE이 SELF-REFINE보다 더 나은 성과를 보임.
- 언어 모델의 크기나 훈련 데이터의 도메인에 관계없이 CROSS-REFINE은 다양한 상황에서 성능을 발휘.
왜 이 논문이 accepted되었는가:
- NLE 생성에서의 혁신적인 접근을 제시하며, 기존 방법론인 SELF-REFINE의 한계를 넘어서, 두 개의 LLM을 활용하여 설명 품질을 개선하는 방법을 성공적으로 개발.
- 자동 평가와 사용자 평가를 통해, CROSS-REFINE이 다양한 NLP 작업에서 상관성을 높이고, 신뢰성 있는 결과를 도출함을 입증.
- 다양한 언어 모델과 데이터셋에서 검증을 수행하여 일반화 가능성을 보였으며, 실용적이고 확장 가능한 방법론임을 입증.
한계점:
- 도메인 지식 부족 시 성능 저하
- 의료와 같은 특화된 도메인에서는 CROSS-REFINE과 SELF-REFINE 모두 성능이 저조하며, 도메인 특화 지식이 부족한 경우 설명 품질이 떨어짐.
- 긴 텍스트에서의 복잡성
- 길고 복잡한 텍스트를 처리할 때, 피드백과 제안을 효과적으로 제공하기 어려운 점이 있음.
- 기계적 한계로 인해 긴 문장이나 복잡한 문맥을 잘 처리하지 못하는 경우가 발생.
- 모델의 크기와 언어 지원의 한계
- 모델 크기나 언어 지원의 한계로 인해, 모든 언어와 모든 도메인에 적용하기 어렵다는 점. 특히, 기술적 제약이 있는 작은 모델에서는 성능이 저조할 수 있음.
BiLD: Bi-directional Logits Difference Loss for Large Language Model Distillation
BiLD: Bi-directional Logits Difference Loss for Large Language Model Distillation
Minchong Li, Feng Zhou, Xiaohui Song. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기기여점:
- BiLD loss 제안
- Bi-directional Logits Difference (BiLD) loss는 LLM distillation을 위한 새로운 손실 함수로, 기존의 KL loss를 개선하여 logit 내부의 순위 정보를 활용하고 long-tail noise를 필터링하는 데 초점을 맞춤.
- BiLD는 top-k teacher 및 student logits를 사용하여 로짓 차이를 계산하고, 이를 기반으로 KL divergence를 최소화함으로써 학생 모델이 중요한 지식을 더 잘 학습하도록 유도.
- long-tail noise 해결
- 기존의 logits distillation 방식들이 long-tail 부분의 잡음을 제대로 처리하지 못했던 문제를 해결. BiLD는 top-k logits를 사용하여 불필요한 정보를 걸러내고, 주요 지식에 집중할 수 있도록 함.
- 효율적인 distillation
- BiLD는 top-8 logits만을 사용해도 SFT, vanilla KL loss, 기타 5가지 distillation 방법을 능가하는 성능을 보여줌. 이는 작은 모델에서도 효과적으로 distillation을 수행할 수 있다는 점에서 실용적인 모델 압축 방법을 제시.
- 다양한 실험 데이터셋에서 성능 검증
- 13개의 NLP 데이터셋(SuperGLUE, PIQA, HellaSwag 등)에서 BiLD를 테스트한 결과, 기존 방법들을 모두 초과하는 성능을 기록. 특히 BLOOM-7B와 같은 큰 모델에서 BLOOM-1B, Qwen-0.5B와 같은 작은 모델로 distillation 시에도 탁월한 성과를 보임.
- 모델 성능 향상
- BiLD loss는 top-k logits만을 사용하여 logits 차이를 기반으로 학습을 진행하고, 모델의 주요 동작을 더 잘 모방하게 만드는 결과를 보여줌.
왜 이 논문이 accepted되었는가:
- logits distillation을 새로운 방식으로 접근하여 long-tail noise와 logits의 순위 정보를 활용하여 모델 성능을 크게 향상시킨 점이 매우 혁신적.
- 작은 모델에서도 효율적인 distillation을 할 수 있다는 점에서 실용적인 모델 압축 방법을 제시.
- 다양한 데이터셋과 실험을 통해 성능을 검증하며, BiLD가 기존의 방법들을 성능 면에서 초과하는 결과를 도출한 점이 큰 기여.
한계점:
- 긴 로짓 벡터 처리의 한계
- long-tail noise를 필터링하는 과정에서, 일부 long-tail 지식을 잃을 수 있는 가능성이 있음. long-tail distribution의 지식을 더 잘 활용할 수 있는 방법을 찾는 것이 향후 과제.
- 복잡한 모델 및 계산 리소스
- top-k logits를 처리하는 과정에서 계산 비용이 증가할 수 있으며, k 값이 커질수록 시간 복잡도가 급격히 증가함. 이는 모델 크기가 커질수록 계산 비용이 커짐을 의미.
- 도메인 특화 모델의 적용 한계
- 의료와 같은 특화된 도메인에서는 long-tail logits에 중요한 정보가 포함될 수 있기 때문에, 모델이 일부 지식을 잃을 수 있는 문제는 여전히 존재.
Too Late to Train, Too Early To Use? A Study on Necessity and Viability of Low-Resource Bengali LLMs
Too Late to Train, Too Early To Use? A Study on Necessity and Viability of Low-Resource Bengali LLMs
Tamzeed Mahfuz, Satak Kumar Dey, Ruwad Naswan, Hasnaen Adil, Khondker Salman Sayeed, Haz Sameen Shahgir. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기기여점:
- Bengali 언어 모델의 필요성 평가
- Bengali는 주요한 인도-아리안 언어로, 널리 사용되고 있지만 저자원 언어로 분류됩니다. 이 연구는 Bengali 전용 LLM이 필요할지 여부를 탐구하고, 기존의 다국어 LLM이 Bengali 언어 처리에서 얼마나 효과적인지를 비교합니다.
- Bengali에서의 LLM 성능 비교
- LLaMA-3, GPT-4 등의 큰 모델과 fine-tuned BanglaT5, BanglaBERT 등의 소형 모델을 비교하며, 번역, 요약, 문장 유사성, 질문 응답 등 다양한 Bengali NLU 및 NLG 작업에서 성능을 분석합니다.
- LLaMA-3와 GPT-4는 **자연어 이해(NLU)**에서 뛰어난 성능을 보였으나, Bengali 문법 생성 작업에서는 불규칙한 성능을 보였습니다.
- Bengali 스크립트의 토큰화 문제
- 기존 LLM들이 Bengali 텍스트의 토큰화에서 비효율적인 결과를 보였습니다. 특히 BPE(Bite Pair Encoding) 토크나이저가 Bengali 스크립트에 대해 지나치게 세분화된 토큰화를 수행, **O(n²)**의 복잡도로 인해 비효율적인 계산을 야기하며 성능 저하를 초래했습니다.
- 기존 데이터셋의 문제
- Bengali NLP 작업에 자주 사용되는 기계 번역 데이터셋이 스타일적 편향을 지니고 있어, BLEU, ROUGE 등의 평가 지표가 왜곡되었습니다. 이 문제는 기계 번역을 통한 데이터셋 생성에서 발생한 스타일적 편향을 해결해야 할 필요성을 강조합니다.
- Bengali 전용 LLM의 필요성
- 연구 결과는 Bengali 전용 LLM이 성능을 향상시킬 수 있는 가능성을 보여주었지만, 고품질의 pretraining 및 instruction-tuning 데이터셋 부족이 문제로, 현재로서는 Bengali 전용 모델 훈련에 충분한 자원이 부족함을 지적합니다.
왜 이 논문이 accepted되었는가:
- Bengali LLM에 대한 연구가 부족한 현황에서, Bengali 텍스트 처리의 어려움과 이를 해결하기 위한 Bengali 전용 LLM 개발 필요성을 강조한 점에서 큰 기여가 있었음.
- 기존 LLM들이 Bengali에서 겪는 문제점(토큰화 문제, 불완전한 스크립트 생성)을 실험적으로 분석하고, 이들 문제를 해결하기 위한 향후 연구 방향을 제시함.
- Bengali 스크립트 처리 및 데이터셋의 편향을 명확히 드러내어, 향후 모델 개선을 위한 실용적인 시사점을 제시했음.
한계점:
- Bengali LLM 개발에 대한 자원 부족
- Bengali 전용 LLM 훈련에 필요한 고품질 데이터셋 부족과 막대한 훈련 비용이 주요 장애물로 지적되었습니다.
- 저자원 언어로서의 Bengali에 적합한 high-quality datasets가 현재 부족하여, 효율적인 훈련을 위한 대체 방법을 모색해야 할 필요성이 강조되었습니다.
- BPE 토크나이저의 비효율성
- BPE 토크나이저가 Bengali 스크립트에 대해 지나치게 세분화된 토큰화를 수행하고 있어, 성능을 최적화하기 위한 개선이 필요합니다.
- 기계 번역 데이터셋의 편향
- 기계 번역을 통한 Bengali 데이터셋이 스타일적 편향을 포함하고 있어, 데이터셋 편향 문제를 해결해야 하는 과제가 존재합니다.
Do language models practice what they preach? Examining language ideologies about gendered language reform encoded in LLMs
Julia Watson, Sophia S. Lee, Barend Beekhuizen, Suzanne Stevenson. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기기여점:
- LLMs의 언어 이데올로기 분석
- 이 논문은 **언어 모델(LLM)**이 생성하는 텍스트에서 언어 이데올로기를 분석하고, 특히 성별 언어 개혁(gendered language reform)에 대한 메타언어적 발언을 통해 표현된 가치들을 연구합니다.
- 성별 중립적인 언어(예: congressperson, singular they)의 사용을 다루며, LLM이 보수적이거나 진보적인 메타언어적 가치를 어떻게 반영하는지를 실험적으로 분석합니다.
- 정치적 편향 확인
- LLM은 언어 사용의 자연스러움이나 정확성에 대해 메타언어적 발언을 할 때, 보수적인 가치와 더 유사한 언어를 사용하는 경향이 있음.
- 성별 중립적인 언어 사용이 긍정적인 특성으로 간주되는 경우가 진보적인 관점에서만 발생하며, 보수적인 메타언어적 요구에서는 더 적은 성별 중립적인 언어를 사용합니다.
- 내부 일관성 분석
- LLM은 메타언어적 문맥에 따라 성별 중립적 언어를 사용할 때 일관성의 차이를 보이며, 명시적인 메타언어적 문맥이 제공될 때 성별 중립적인 언어를 더 자주 사용하는 경향을 보입니다.
- 이는 모델의 일관성 부족을 나타내며, 사용자가 기대하는 언어와 모델이 실제로 생성하는 언어 사이의 불일치를 초래할 수 있습니다.
- 언어 모델의 사회적 영향
- 이 연구는 LLM이 내포하는 언어 이데올로기가 사회적 변화와 사회적 약자(예: 비이진자)에게 미치는 영향을 이해하는 데 중요한 기여를 합니다. 특히, 성별 중립적인 언어의 사용이 사회적 가치와 어떻게 일치하는지 분석하며, Linguistic justice(언어 정의) 문제에 대한 새로운 통찰을 제공합니다.
왜 이 논문이 accepted되었는가:
- LLMs의 언어 이데올로기에 대한 중요성을 강조하며, 모델의 메타언어적 발언이 사회적 가치를 어떻게 반영하는지에 대한 심도 있는 분석을 제공함.
- 보수적 언어 이데올로기와 진보적 언어 이데올로기가 LLM의 언어 생성에 어떻게 영향을 미치는지를 실험적으로 입증함.
- 내부 일관성 문제를 지적하고, 성별 중립적 언어 사용에서의 불일치가 사회적 영향을 미칠 수 있음을 경고함.
- 실험적 방법론을 사용하여 실용적 가치(ex: 비이진자에 대한 언어 사용)를 높이는 방안을 제시함.
한계점:
- 메타언어적 문맥에 대한 의존
- 메타언어적 문맥에 따라 언어 모델의 일관성이 달라지며, 이로 인해 모델의 예측과 실제 텍스트 간 불일치가 발생할 수 있습니다. 이는 사용자에게 혼동을 줄 수 있습니다.
- 성별 언어 개혁에만 한정된 분석
- 성별 언어 개혁에 대한 연구가 영어와 미국 정치적 배경에 한정되어 있어, 다른 언어나 다른 문화권에서의 적용 가능성에 대한 추가적인 연구가 필요합니다.
- 정확한 데이터셋 평가의 부족
- 기계 번역에 의존한 데이터셋에서 발생하는 스타일적 편향 문제를 완전히 해결하지 못함. 이는 모델 학습에 중요한 영향을 미칠 수 있습니다.
T-MES: Trait-Aware Mix-of-Experts Representation Learning for Multi-trait Essay Scoring
T-MES: Trait-Aware Mix-of-Experts Representation Learning for Multi-trait Essay Scoring
Jiong Wang, Jie Liu. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기기여점:
- 다중 특성 자동 에세이 채점 (Multi-trait AES) 방법론 제시
- T-MES는 미리 훈련된 언어 모델을 사용하여, 각 에세이에 대해 여러 특성(예: 내용, 문장 유창성, 언어 사용 등)을 동시에 평가하는 Mix-of-Experts 아키텍처를 기반으로 한 새로운 에세이 채점 방법을 제안.
- 다양한 전문가 네트워크를 통해 각 특성에 맞는 에세이 표현을 학습하고, 이를 기반으로 효율적인 다중 특성 채점을 실현함.
- 정규화 기법 도입
- 스코어링 전문가의 다양화를 위한 정규화 기법을 도입, 이를 통해 각 전문가가 특정 특성에 집중하도록 유도.
- 다양한 특성 간의 상호 연관성을 학습하기 위해 두 가지 특성 상관 학습 전략을 제시. 이를 통해 다중 특성 간의 협업 능력을 향상시킴.
- 효율성 개선
- 기존의 다중 특성 채점 시스템은 각 특성에 대해 별도의 네트워크를 사용해야 했지만, T-MES는 단일 모델로 여러 특성을 처리하면서 계산 효율성을 크게 향상시킴.
- 훈련 효율성과 추론 시간을 개선하여, 실시간 채점에서 효율적인 성능을 보임.
- 광범위한 실험 및 비교
- ASAP와 ASAP++ 데이터셋을 사용하여, 기존 베이스라인 모델들(예: BERT, LSTM-CNN 기반 모델)과 비교한 결과, T-MES는 모든 특성에 대해 상위 성능을 달성.
- QWK(Quadratic Weighted Kappa) 평가 지표에서 기존 모델들보다 우수한 성과를 기록, 특히 특성 간 협업 능력에서 큰 차이를 보였음.
- 모델의 확장성 및 플러그-앤-플레이 특성
- T-MES는 모든 Transformer 기반 언어 모델에서 사용할 수 있으며, 단일 모델로 다중 특성 채점을 가능하게 함.
왜 이 논문이 accepted되었는가:
- 다중 특성 채점에서의 효율성과 정확성을 동시에 개선한 점에서 큰 기여를 했음.
- Mix-of-Experts 모델을 활용한 새로운 에세이 채점 프레임워크는 특성 간 협업을 촉진하며, 기존 방식보다 더 나은 모델 성능을 발휘.
- 정규화 기법을 도입하여 모델의 다양성을 증가시키고, 다중 특성 간 상관성을 학습하는 방법을 제시함으로써 모델의 사회적 활용 가능성을 높였음.
- 효율성과 계산 성능 면에서 기존 방법들보다 뛰어난 결과를 보였고, 실용적이고 확장 가능한 모델임을 입증함.
한계점:
- 제한된 데이터셋
- Voice와 같은 일부 특성에 대해서는 샘플 수가 적어 성능이 저조하게 나왔으며, 데이터의 다양성 부족이 문제로 지적됨. 향후에는 더 다양한 에세이 샘플을 포함한 연구가 필요함.
- 에세이의 구조적 정보 부족
- 에세이의 구조적 요소(예: 문장 레벨, 단락 레벨의 정보)가 고려되지 않아, 문장별/단락별 특성 정보를 반영하는 방법이 향후 연구로 남아 있음.
- 모델 크기와 파라미터 문제
- DualTrans 모델은 매우 큰 파라미터 수를 가지며, 상위 성능을 기록하지만, 자원 소모가 크고 효율성 면에서는 T-MES보다 열세인 경우가 있음.
A Graph Interaction Framework on Relevance for Multimodal Named Entity Recognition with Multiple Images
Jiachen Zhao, Shizhou Huang, Xin Lin. Proceedings of the 31st International Conference on Computational Linguistics. 2025.
aclanthology.org
더보기기여점:
- 다중 이미지 상황에서의 MNER을 위한 새로운 프레임워크 제안
- 기존의 단일 이미지 기반 MNER 방법들이 다중 이미지에서 발생할 수 있는 불필요한 이미지를 필터링하는 데 한계가 있었음. 이 논문은 Relevance 기반 이미지 판별자를 사용하여 이미지와 텍스트 간의 연관성을 학습하고 이를 기반으로 효과적인 다중 이미지 MNER을 제시함.
- 인간 선호 기반 강화 학습
- 인간의 직관을 모델에 통합하여, 이미지 텍스트 쌍이 연관성이 있는지 판별하는 강화 학습 기법을 도입. 이를 통해, 기존의 유사도 계산 방식에서 발생할 수 있는 문제를 해결하고, 이미지의 relevance를 명확히 판별.
- 이질적인 그래프 구조 활용
- 이미지와 텍스트 간의 연관성을 그래프 형태로 모델링하고, 그래프 트랜스포머를 사용하여 정보 상호작용을 촉진함. 이를 통해 이미지와 텍스트 간의 멀티모달 상호작용을 강화하고, 정확한 개체명 인식을 수행.
- 기존 방법과 비교한 성능 향상
- 다양한 기존 방법들과 비교하여, 제안된 방법이 다중 이미지 기반 MNER에서 상위 성능을 보였으며, 효율성과 정확성 모두에서 개선된 결과를 도출함.
왜 이 논문이 accepted되었는가:
- 다중 이미지를 다루는 MNER에서 발생할 수 있는 불필요한 이미지 문제를 해결하고, 이미지와 텍스트 간의 연관성을 정확히 파악하는 새로운 방법론을 제시함.
- 강화 학습을 통해 인간의 직관을 모델에 반영함으로써, 기존 방법들이 다루지 못했던 미묘한 연관성을 잘 학습하도록 돕는 점에서 혁신적임.
- 그래프 트랜스포머를 활용한 정보 상호작용은 모델의 성능을 크게 향상시켰고, 실험적 결과가 이를 잘 뒷받침함.
- 다양한 기존 모델들과 비교하여 성능 우위를 보였으며, 효율성 또한 개선된 점이 높은 평가를 받음.
한계점:
- 불완전한 이미지 영역 고려
- 이미지 내에서 불필요한 영역이 여전히 존재하며, 전체 이미지에 대해 연관성을 파악하는 방식은 세부적인 영역별 중요성을 충분히 반영하지 못하는 한계가 있음.
- 강화 학습 기반 모델의 복잡성
- 강화 학습을 사용하여 이미지 텍스트 쌍의 relevance를 학습하는 과정이 복잡하고 시간 소모적일 수 있으며, 모델의 훈련 효율성을 개선할 필요가 있음.
- 다양한 텍스트 및 이미지 도메인에 대한 확장성
- 제안된 방법이 특정 도메인(예: 소셜 미디어)에서 잘 작동할 수 있지만, 다양한 도메인(예: 뉴스 기사, 학술 논문 등)에 대해 동일한 성능을 보장할 수 있는지에 대한 검증이 부족함.
반응형 - LLM 평가의 편향성 문제를 실증 분석