카테고리 없음

2025 Coling (3)

minty_y 2025. 3. 23. 17:22
반응형

A Testset for Context-Aware LLM Translation in Korean-to-English Discourse Level Translation

 

A Testset for Context-Aware LLM Translation in Korean-to-English Discourse Level Translation

Minjae Lee, Youngbin Noh, Seung Jin Lee. Proceedings of the 31st International Conference on Computational Linguistics. 2025.

aclanthology.org

더보기

기여점:

  1. 한국어-영어 담화 수준의 기계 번역 평가 데이터셋 개발
    • 본 논문은 한국어-영어 번역에서 발생할 수 있는 담화 수준의 복잡한 언어 현상(예: 어휘적 모호성, 제로 아나포라, 속어, 관용 표현, 비유적 언어, 암시)을 평가할 수 있는 기계 번역 테스트셋을 소개합니다. 이 데이터셋은 단일 문장보다는 문맥을 고려한 다중 문장 번역에 중점을 두고 설계되었습니다.
  2. 복잡한 언어적 현상에 대한 평가
    • 단일 문장 번역에서 벗어나, 담화적 언어 현상을 평가하는 기계 번역 모델성능 한계를 분석합니다. 특히, 문맥적 정보가 필요한 제로 아나포라(Zero Anaphora)와 같은 언어적 현상에서 LLM의 번역 성능을 검토합니다.
  3. 세부적인 언어 현상별 평가 기준 설정
    • 본 연구는 각 언어 현상에 대해 3점 척도(3-point scale)로 평가할 수 있는 기준을 설정하였으며, 문맥적 번역을 정확히 반영하는 모델이 우수한 평가를 받을 수 있도록 유도합니다. 또한, 각 언어 현상에 대해 자동 평가 지표인간 평가를 비교 분석합니다.
  4. 시험 방법론 및 번역 절차
    • **제로샷 프롬프트(Zero-shot Prompting)**와 **단계별 프롬프트(CAP)**를 비교하여, 기계 번역 모델문맥을 인식하고 문맥 기반 번역에서 성능을 향상시킬 수 있는 방법론을 제시합니다. CAP(Context-Aware Prompting) 프레임워크는 단계별 추론을 통해 속어, 비유적 언어, 암시와 같은 어려운 언어 현상에 대해 더 나은 번역을 생성할 수 있습니다.
  5. 실험 결과
    • GPT-4oGoogle Translate비교 평가한 결과, GPT-4oZero-shot 프롬프트 방식에서 Google Translate보다 더 나은 성능을 보였고, 특히 Slang, Idiom, Figurative Language 등의 복잡한 언어 현상에서는 CAP 프레임워크Zero-shot보다 성능을 더 크게 향상시켰음을 보여줍니다.

왜 이 논문이 accepted되었는가:

  • 문맥 기반 번역에서 발생하는 복잡한 언어적 현상다양한 평가 기준을 통해 평가한 점이 기계 번역의 성능 평가에서 중요한 기여로 평가되었습니다. 특히, 기계 번역의 문제점을 해결하는 프롬프트 방법론(CAP)을 제시한 점에서 중요한 기여를 했습니다.
  • 다양한 언어 현상을 포함한 테스트셋을 구축하여, 단일 문장 번역이 아닌 다중 문장 번역의 성능을 평가하는 데 필요한 새로운 평가 방법을 제시한 점에서 우수한 연구로 인정받았습니다.

한계점:

  1. 제한된 언어와 도메인
    • 본 연구는 한국어-영어 번역에 집중되어 있으며, 다른 언어 쌍이나 다양한 도메인에서의 적용 가능성에 대한 연구가 부족합니다. 다양한 언어다양한 도메인에서의 성능을 평가할 필요가 있습니다.
  2. 자동 평가 지표의 한계
    • 자동 평가 지표문맥적 번역에 대한 세밀한 평가를 제공하지 못할 수 있으며, 특히 속어암시와 같은 복잡한 언어 현상에 대해서는 인간 평가가 필수적일 수 있습니다.
  3. 테스트셋의 규모
    • 테스트셋의 크기가 상대적으로 적어, 더 많은 언어 현상을 포함하고 더 많은 문장을 사용하여 일반화 가능성을 높일 필요가 있습니다.

Exploring Unified Training Framework for Multimodal User Profiling

 

Exploring Unified Training Framework for Multimodal User Profiling

Minjie Qiang, Zhongqing Wang, Shoushan Li, Guodong Zhou. Proceedings of the 31st International Conference on Computational Linguistics. 2025.

aclanthology.org

더보기

기여점:

  1. 멀티모달 사용자 프로필 생성 방법론 제안
    • 본 논문은 사용자 프로필텍스트이미지를 결합하여 생성하는 멀티모달 사용자 프로파일링의 새로운 방법론을 제시합니다. 특히, Yelp Open Dataset을 활용하여 사용자 리뷰상품 이미지를 결합해 다양한 속성(별점, 선호하는 음식, 예산 범위 등)을 포함한 사용자 프로필을 생성하는 시스템을 제안합니다.
  2. 공동 훈련 프레임워크(UNIFIED Joint Training Framework)
    • 텍스트와 이미지의 정보를 통합하는 공동 훈련 프레임워크를 개발하여, 다중 텍스트 기반 훈련과 이미지 기반 훈련을 결합하여 향상된 사용자 프로필을 생성합니다.
    • 멀티모달 학습단일 모달 학습의 효과를 결합할 수 있는 두 가지 훈련 방식 (Multimodal ParadigmUnimodal Paradigm)을 비교 분석하고, 훈련 데이터 부족 문제를 해결하기 위한 방법론을 제시합니다.
  3. 텍스트와 이미지의 상호작용 모듈
    • Text-Guided Attention(TGA) 모듈을 도입하여, 텍스트와 이미지 간의 상호작용을 학습하고, 두 가지 모달리티를 통합하여 사용자 프로필을 생성하는 데 효과적으로 활용합니다.
    • 이미지 캡션을 생성하여 이미지와 텍스트 간의 관계를 보완하고, 이를 훈련에 반영하는 방식이 모델 성능 향상에 기여했습니다.
  4. 성능 평가
    • Flan-T5, LLaMA, ChatGLM 등 다양한 모델을 활용하여 기본적인 멀티모달 사용자 프로필 생성 모델과 통합 훈련 방식이 성능을 크게 향상시키는 결과를 도출하였습니다.
    • Text + Image 모델의 성능이 Text-only 모델보다 우수하며, 통합 훈련을 통해 모든 모델에서 성능 향상이 있음을 보여주었습니다.
  5. 다양한 훈련 방법
    • Fusion Training, Text Training, Masked Image Training 등 다양한 훈련 기법을 실험하여, 멀티모달 사용자 프로필 생성 시 이미지와 텍스트상호작용을 강화하는 방법론이 모델 성능을 크게 개선했음을 입증했습니다.

왜 이 논문이 accepted되었는가:

  • 멀티모달 사용자 프로필 생성에 대한 새로운 접근법을 제시하며, 텍스트와 이미지를 결합하여 사용자 프로필을 더욱 정교하게 생성할 수 있는 방법을 소개한 점에서 기계 학습 및 사용자 프로파일링 연구에 중요한 기여를 했습니다.
  • 공동 훈련 프레임워크멀티모달 데이터를 효율적으로 처리하고, 훈련 데이터가 적은 경우에도 성능을 향상시키는 방법을 제공하여 실용적인 가치를 가지고 있습니다.
  • 텍스트와 이미지통합적으로 처리하는 모델이 기존 모델들보다 우수한 성능을 보였으며, 실험적 결과를 통해 이 모델의 실용성을 입증했습니다.

한계점:

  1. 훈련 시간 및 자원 소모
    • 멀티모달 학습훈련 시간계산 자원을 많이 소모하며, 특히 이미지와 텍스트를 동시에 처리해야 하기 때문에 대규모 데이터셋에서 훈련 비용이 증가할 수 있습니다.
  2. 다양한 도메인과 언어의 확장성
    • Yelp Open Dataset에 기반한 연구로 다양한 도메인다국어 환경에서의 일반화 가능성을 검토해야 합니다. 현재는 영어 중심의 데이터에 한정되어 있으므로, 다른 언어나 도메인에 대한 확장이 필요합니다.
  3. 이미지 캡션의 한계
    • 이미지 캡션을 사용하여 이미지 정보를 통합하는 방식이 모든 종류의 이미지에 대해 항상 효율적이지 않다는 한계가 있을 수 있습니다. 비정형적 이미지에 대해서는 더 개선된 접근법이 필요합니다.

Language Models over Large-Scale Knowledge Base: on Capacity, Flexibility and Reasoning for New Facts

 

Language Models over Large-Scale Knowledge Base: on Capacity, Flexibility and Reasoning for New Facts

Qiyuan He, Yizhong Wang, Jianfei Yu, Wenya Wang. Proceedings of the 31st International Conference on Computational Linguistics. 2025.

aclanthology.org

더보기

기여점:

  1. LM을 대규모 지식베이스로 활용하기 위한 연구
    • 이 연구는 **대형 언어 모델(LM)**이 **대규모 지식베이스(KB)**를 어떻게 처리할 수 있는지에 대한 가능성을 평가합니다. 기존의 사전 훈련된 언어 모델들이 얼마나 효과적으로 세계 지식저장하고, 질문 응답(QA) 및 추론(reasoning) 작업에서 새로운 사실을 추론할 수 있는지 조사했습니다.
  2. 모델 크기와 저장 용량
    • 모델 크기(예: LLaMA-2 7B와 13B)와 관련된 저장 용량 문제를 다루며, 더 큰 모델대규모 지식더 효율적으로 저장하고, 저장된 지식유연하게 접근할 수 있다는 점을 강조합니다. 그러나 크기가 커짐에 따라 추론 성능수익성은 점차 감소한다는 결과도 도출되었습니다.
  3. 지식 추론 및 응용
    • 모델이 저장된 지식자연어로 묻는 질문에 대해 얼마나 잘 응답할 수 있는지, 또한 지식에서 누락된 사실추론하는 능력에 대해 평가했습니다. 결과적으로, 모델은 기본적인 추론(예: 직접 추론)에서 성능 향상을 보였지만, 역추론(inverse reasoning)에서는 한계를 보였습니다.
  4. Importance Sampling을 통한 학습 최적화
    • **중요 샘플링(Importance Sampling)**을 통해 학습 과정에서 어려운 샘플에 더 많은 중요도를 부여하여 모델의 훈련 속도수렴 속도를 개선하는 방법을 도입했습니다. 이를 통해 모델이 어려운 지식더 빠르게 학습하도록 유도했습니다.
  5. Wikidata를 통한 실험
    • Wikidata를 사용하여 대규모 지식(46M triplets)을 기반으로 훈련한 결과, LLaMA-2 13B 모델이 최고의 성능을 보였으며, T5 모델은 상대적으로 더 작은 모델에서도 우수한 성과를 기록했습니다. **긴꼬리 지식(long-tail knowledge)**의 경우, 모델 크기에 관계없이 더 어려운 학습 사례로 나타났습니다.

왜 이 논문이 accepted되었는가:

  • 언어 모델을 대규모 지식베이스로 활용하는 가능성체계적으로 평가하고, 대형 언어 모델세계 지식저장하고 추론할 수 있는 방법론을 제시했습니다.
  • Importance Sampling 기법을 통해 훈련 속도성능 최적화를 도입하고, 대규모 지식을 다루는 모델에서 성능 향상을 입증한 점에서 실용적인 기여를 했습니다.
  • 지식 추론 및 누락된 사실 추론에 대한 모델 성능을 정밀하게 분석하여, 추론 성능 향상을 위한 향후 연구 방향을 제시했습니다.

한계점:

  1. 역추론의 한계
    • 역추론(inverse reasoning)에서 모델이 저장된 지식을 기반으로 정확한 추론을 하지 못하는 한계가 있었습니다. 특히 역추론이 더 어려운 지식에 대해 효과적이지 않음을 확인했습니다.
  2. 모델 크기와 학습 최적화
    • LLaMA-2-7B와 같은 소형 모델큰 모델보다 효율적이지 않음을 확인했지만, T5 모델의 경우 작은 크기에서도 뛰어난 성능을 보였다는 결과가 나왔습니다.
  3. 다양한 도메인에서의 확장성 부족
    • 이 연구는 Wikidata와 같은 정형화된 지식에 초점을 맞추었으므로, 다양한 도메인에서의 적용 가능성확장성에 대한 추가적인 연구가 필요합니다.

Bridging Modality Gap for Effective Multimodal Sentiment Analysis in Fashion-related Social Media

 

Bridging Modality Gap for Effective Multimodal Sentiment Analysis in Fashion-related Social Media

Zheyu Zhao, Zhongqing Wang, Shichen Li, Hongling Wang, Guodong Zhou. Proceedings of the 31st International Conference on Computational Linguistics. 2025.

aclanthology.org

더보기

기여점:

  1. 멀티모달 감정 분석을 위한 새로운 프레임워크 제시
    • 본 논문에서는 패션 관련 소셜 미디어에서 이미지텍스트를 결합한 감정 분석을 위한 새로운 멀티모달 프레임워크를 제시합니다. 이 프레임워크는 모달리티 갭(modality gap)을 해소하여 패션 이미지텍스트에서 얻은 정보를 효과적으로 통합하고, 정확한 감정 분류를 가능하게 합니다.
  2. 모달리티 갭 해결을 위한 의사 데이터 생성
    • 의사 데이터 생성을 통해 이미지와 텍스트 간의 정보 밀도 차이를 해소하는 두 단계 프레임워크를 제안합니다. 이미지 설명속성 설명언어 모델을 통해 생성하고, 이를 Stable Diffusion 모델을 사용하여 가상 이미지를 생성하는 방식으로 모달리티 갭을 좁힙니다.
  3. 멀티모달 융합 접근법
    • 속성이미지 표현에 가이드를 제공하는 역할로 사용하고, 자기 적응형 어댑터를 통합하여 잘못 생성된 의사 데이터가 감정 예측에 미치는 영향을 최소화합니다. 이 융합 방식을 통해 텍스트, 속성, 의사 이미지 데이터를 효과적으로 통합하여 감정 분류의 정확도를 높였습니다.
  4. 실험 결과
    • Fashion-Related Social Media 데이터셋에서 기존 모델들보다 뛰어난 성능을 보였으며, 의사 데이터 생성 방법이 모달리티 갭을 좁히는 데 효과적임을 입증했습니다. 실험에서는 Fusion, Addition, Attention 방법을 포함한 다양한 멀티모달 융합 방법을 비교하였고, 우리 모델이 가장 높은 성능을 기록했습니다.
  5. 기존 방식과의 비교
    • Concatenation, Addition, Attention 방식과 비교한 결과, 자기 적응형 어댑터의사 데이터 생성이 결합된 방식이 정확도(ACC), 정밀도(P), 재현율(R), F1에서 우수한 성과를 보였으며, 기존의 단일 모달 및 멀티모달 방식을 모두 능가하는 성능을 기록했습니다.

왜 이 논문이 accepted되었는가:

  • 모달리티 갭을 해결하는 혁신적인 접근법인 의사 데이터 생성멀티모달 융합을 통해 패션 관련 소셜 미디어에서 감정 분석 성능을 크게 향상시킨 점이 중요하게 평가되었습니다.
  • 자기 적응형 어댑터속성 기반 이미지 가이드를 통해 잘못 생성된 의사 데이터를 필터링하며, 정확한 감정 예측을 수행하는 방법론을 제시한 점에서 기존 모델들에 비해 뛰어난 성과를 보였습니다.
  • 실험적 검증을 통해 다양한 모달리티 융합 방법에 대한 비교와 함께 실제 데이터셋에서의 성능을 입증한 점에서 실용적인 기여를 했습니다.

한계점:

  1. 속성 라벨링 문제
    • 속성 라벨링이 일부 감정 분석 데이터셋에서는 부족하거나 AI 라벨링 오류가 포함되어 있어 모델 성능에 영향을 미칠 수 있습니다. 향후 속성 값 추출(Attribute Value Extraction, AVE) 방법을 개선할 필요가 있습니다.
  2. 이미지 품질
    • 의사 이미지 생성 과정에서 복잡한 배경이나 저해상도 이미지에서 감정 예측 성능이 저하되는 문제가 발생할 수 있으며, 이를 해결하기 위한 이미지 품질 개선 연구가 필요합니다.
  3. 멀티모달 훈련 자원 소모
    • 멀티모달 모델의 훈련은 계산 자원시간이 많이 소모되며, 이를 최적화하는 효율적인 훈련 기법을 추가로 연구할 필요가 있습니다.

Quality Beyond A Glance: Revealing Large Quality Differences Between Web-Crawled Parallel Corpora

 

Quality Beyond A Glance: Revealing Large Quality Differences Between Web-Crawled Parallel Corpora

Rik van Noord, Miquel Esplà-Gomis, Malina Chichirau, Gema Ramírez-Sánchez, Antonio Toral. Proceedings of the 31st International Conference on Computational Linguistics. 2025.

aclanthology.org

더보기

기여점:

  1. 웹 크롤링을 통한 평행 코퍼스 품질 평가
    • 웹 크롤링을 통해 수집된 대규모 평행 코퍼스의 품질을 평가한 연구로, 기계 번역(NMT) 시스템에서의 데이터 품질이 성능에 미치는 영향을 분석합니다. 다양한 웹 크롤링 평행 코퍼스(CCAligned, CCMatrix, MaCoCu, ParaCrawl)에 대해 자동화된 평가수동 평가를 통해 코퍼스의 품질을 평가했습니다.
  2. 평행 코퍼스의 노이즈 분석
    • 자동화된 문서 정렬언어 식별에서 발생할 수 있는 노이즈 문제(예: 잘못 정렬된 문장 쌍)를 탐구하였고, CCMatrixCCAligned고품질의 문장 쌍 비율이 매우 낮다는 결과를 도출했습니다. MaCoCuParaCrawl은 상대적으로 더 높은 품질을 보였으며, MaCoCu-V2향상된 품질을 기록했습니다.
  3. 품질이 NMT 성능에 미치는 영향
    • 코퍼스 품질NMT 모델성능에 미치는 영향을 분석한 결과, 고품질 코퍼스를 사용한 모델은 정확도(EM)BLEU 점수에서 더 높은 성능을 보였으며, 데이터 크기성능 향상에 중요한 역할을 한다는 사실을 밝혔습니다.
  4. 새로운 품질 평가 지표 도입
    • 언어 모델 평가에서 내용이 일관되지 않거나 잘못된 번역을 검출할 수 있는 새로운 품질 평가 지표를 도입하여 교차 언어 데이터셋의 품질을 더 정확하게 측정할 수 있게 했습니다.
  5. 수동 평가자동화된 평가를 통한 종합적인 분석
    • 기계 번역 품질 평가를 위한 수동 및 자동 평가 방식을 비교하여, 기계 번역 시스템 성능 향상에 있어서 코퍼스 품질의 중요성을 강조했습니다.

왜 이 논문이 accepted되었는가:

  • 웹 크롤링을 통한 평행 코퍼스 품질 평가기계 번역NLP 연구에서 중요한 기여를 했기 때문에 데이터 품질의 중요성을 강조하며, 기계 번역 모델에서 품질 좋은 데이터의 활용이 성능 향상에 결정적인 역할을 한다는 점을 입증했습니다.
  • 자동화된 평가수동 평가병행하여 정확한 데이터 품질을 측정하고, 다양한 코퍼스의 차이점을 실험적으로 입증한 점이 큰 기여로 평가되었습니다.
  • MaCoCu-V2ParaCrawl과 같은 고품질 코퍼스기계 번역 성능에 긍정적인 영향을 미친다는 중요한 결론을 도출하여, 품질 개선을 위한 필요성을 뒷받침했습니다.

한계점:

  1. 코퍼스 품질의 일반화 한계
    • 웹 크롤링 데이터다양한 도메인에 걸쳐 있으며, 다양한 언어 쌍에서 일관된 품질 평가를 하기에는 한계가 있을 수 있습니다. 또한, 특정 도메인에 대해서는 고품질을 보장할 수 없으므로, 다양한 도메인에서의 추가 연구가 필요합니다.
  2. 평가 지표의 한계
    • 자동화된 평가 지표만으로는 모든 유형의 번역 오류를 감지하는 데 한계가 있으며, 특히 기계 번역에서의 의미 왜곡이나 문맥에 맞지 않는 번역을 완벽히 평가하기에는 부족할 수 있습니다.
  3. 다양한 데이터셋 및 모델 적용 한계
    • 다양한 언어다양한 모델에 대해 고품질 코퍼스의 성능을 일반화하는 데 어려움이 있을 수 있으며, 추가적인 다양한 언어 쌍모델에서의 연구가 필요합니다.

Does Vision Accelerate Hierarchical Generalization in Neural Language Learners?

 

Does Vision Accelerate Hierarchical Generalization in Neural Language Learners?

Tatsuki Kuribayashi, Timothy Baldwin. Proceedings of the 31st International Conference on Computational Linguistics. 2025.

aclanthology.org

더보기

기여점:

  1. 비전 정보가 계층적 일반화에 미치는 영향 연구
    • 본 연구는 비전 정보신경망 언어 모델(Neural Language Models, LMs)의 계층적 일반화(hierarchical generalization)에 미치는 영향을 조사합니다. 이는 인간의 언어 습득에서 시각적 정보가 어떻게 구문적 규칙 학습을 촉진하는지에 대한 질문을 다룹니다.
  2. 문제 정의 및 실험 설계
    • 계층적 일반화선형 일반화(linear generalization)를 비교하여, 모델이 문맥적 규칙을 어떻게 학습하는지 평가합니다. 실험은 이미지-텍스트 쌍을 사용해, 문장 구조를 이해하고 예측할 수 있는 능력을 평가합니다.
  3. 실험 방법
    • NATURALARTIFICIAL 설정을 통해 시각적 정보의 유무에 따른 학습 성능 차이를 평가합니다. NATURAL은 현실적인 이미지와 캡션을 사용하며, ARTIFICIAL은 규칙적으로 생성된 단순화된 이미지-캡션 쌍을 사용합니다.
  4. 시각적 정보가 계층적 일반화를 촉진하는 조건
    • NATURAL 설정에서는 시각적 정보가 효율적인 언어 습득에 도움이 되지 않는 경향이 있었으며, 반면 ARTIFICIAL 설정에서는 시각적 정보가 계층적 언어 일반화를 촉진하는 효과를 보였습니다. 이는 시각적 입력이 주어진 학습 환경에서 어떻게 다르게 작용하는지 보여줍니다.
  5. 기타 결과
    • Vision-Language 모델계층적 규칙을 학습할 때, 시각적 정보잘 정리된 환경에서 더 효과적으로 일반화를 돕는다는 결과가 나왔습니다. Vision encoder에 따라 일반화 성능이 달라졌으며, GPT-2와 같은 사전 훈련된 언어 모델은 시각적 입력에 민감하지 않았습니다.

왜 이 논문이 accepted되었는가:

  • 시각적 정보신경망 언어 모델구문적 일반화에 미치는 영향을 실험적으로 분석하여 시각적 입력언어 학습에 중요한 역할을 할 수 있다는 중요한 기여를 했습니다.
  • 시각적 데이터계층적 일반화를 촉진하는 효과를 보인 ARTIFICIAL 설정에서의 성과가 실험적으로 검증되어 시각적 입력효용성을 실질적으로 입증했습니다.
  • 다양한 모델을 실험하고 Vision encoder의 차이가 성능에 미치는 영향을 비교하여, 시각적 입력을 효과적으로 활용할 수 있는 모델 설계 방향을 제시한 점에서 중요한 기여를 했습니다.

한계점:

  1. 실제 환경에서의 한계
    • NATURAL 설정에서 시각적 정보언어 습득에 대한 효과가 제한적이라는 결과는, 비정형적 이미지복잡한 시각적 정보가 모델 학습에 부정적인 영향을 미칠 수 있음을 시사합니다.
  2. 모델 설계의 한계
    • Vision encoder언어 모델 간의 조화가 중요한데, 기존 모델들이 시각적 입력을 효과적으로 활용하는 데 한계가 있음을 보여주었습니다. 고급 시각 정보 처리가 필요한 부분에 대한 모델 개선이 요구됩니다.
  3. 훈련 자원
    • Vision-Language 모델의 훈련은 대규모 자원긴 시간을 소모하며, 학습 효율성을 높일 수 있는 방법이 필요합니다.
 

Charting the Future: Using Chart Question-Answering for Scalable Evaluation of LLM-Driven Data Visualizations

James Ford, Xingmeng Zhao, Dan Schumacher, Anthony Rios. Proceedings of the 31st International Conference on Computational Linguistics. 2025.

aclanthology.org

더보기

기여점:

  1. LLM 기반 차트 생성 평가를 위한 자동화 프레임워크 제안
    • 이 논문은 **LLM이 생성한 데이터 시각화(차트)**의 품질을 평가하기 위한 VQA(Visual Question Answering) 기반 프레임워크를 제안함. 기존의 평가 방식은 주관적이고 확장성이 부족했지만, VQA는 자동화된 방식으로 데이터 정확성뿐 아니라 **시각적 전달력(communicative clarity)**까지 함께 평가 가능하게 함.
  2. ChartQA 및 PlotQA 벤치마크와 LLM 차트 비교 실험 수행
    • OpenAI의 GPT-3.5 Turbo 및 Meta의 LLaMA 3.1 70B 모델이 생성한 차트를 VQA 모델(UniChart, MatCha)로 평가. 원래의 인간 제작 차트보다 LLM 생성 차트의 정확도는 낮지만, few-shot prompting을 통해 성능이 크게 향상됨을 입증함.
  3. VQA 기반 자동 평가의 유효성 검증
    • 사람이 평가한 결과와 VQA 결과를 비교하여, VQA 기반 자동 평가는 실제 품질 차이를 반영할 수 있다는 점을 실험적으로 입증. 특히, chart title, axis label, bar 타입, 색상, 날짜, 오버랩 등의 오류를 VQA가 잘 포착함.
  4. 효율적이고 반복 가능한 평가 파이프라인 설계
    • 제안된 프레임워크는 차트를 생성하고 → 질문을 적용해 → 자동으로 품질을 측정하며 → 빠른 모델 개선을 가능하게 하는 스케일 가능한 평가 전략을 제시함.

왜 이 논문이 accept되었는가:

  • LLM의 시각화 생성 능력에 대한 정량적 평가 기법을 제안하여, 지속 가능한 모델 개선 사이클을 가능하게 한 점이 COLING에서 높게 평가됨.
  • 평가의 핵심이 되는 VQA 질문셋을 실험적으로 연결하고, 인간 평가와의 상관관계 분석까지 포함한 체계적인 실험 설계가 돋보임.
  • 실제 모델과 데이터셋(GPT, LLaMA, ChartQA, PlotQA, UniChart, MatCha)을 활용해 실용적 유효성을 확보함.

한계점:

  1. VQA 모델의 성능 의존성
    • 평가의 정확성은 VQA 모델의 성능에 달려 있으며, VQA 모델이 복잡한 시각 요소나 모호한 질문에 약한 경우 평가 자체가 부정확해질 수 있음.
  2. 평가 질문과 차트 시각 요소 간의 정렬 문제
    • 사용된 VQA 질문은 기존 데이터셋(ChartQA, PlotQA) 기반이기 때문에, LLM이 생성한 차트의 실제 시각 특성과 정확히 대응하지 못할 수 있음. 이는 향후 커스텀 질문셋 개발의 필요성을 시사.
  3. 실험 범위 제한
    • ChartQA와 PlotQA의 일부 샘플만을 사용하였기 때문에, 실제 복잡한 시각화(복합 축, 인터랙티브 요소 등)에 대한 일반화는 제한됨.
 

ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild

Ahmed Masry, Megh Thakkar, Aayush Bajaj, Aaryaman Kartha, Enamul Hoque, Shafiq Joty. Proceedings of the 31st International Conference on Computational Linguistics: Industry Track. 2025.

aclanthology.org

더보기

기여점:

  1. ChartGemma: 차트 이미지 기반 시각 지시 학습 모델 제안
    • 기존 차트 이해 모델은 데이터 테이블 기반 학습에 의존하거나 이미지-텍스트 정렬이 약한 백본을 사용함.
    • ChartGemma차트 이미지 자체에서 직접 생성된 시각 지시 데이터를 활용해 학습되어, 시각적 패턴과 텍스트적 의미를 동시에 반영할 수 있음.
  2. 다양한 시각 스타일을 반영한 대규모 차트 코퍼스 구축
    • PlotQA, Statista, WebCharts 등에서 122,857개 차트 이미지 수집, 정제된 프롬프트로 Gemini Flash 1.5를 통해 지시-응답 쌍을 생성.
    • Chain-of-thought reasoning, summarization, fact-checking, chart-to-markdown, program-aided design 등 다양한 태스크를 포함한 학습 데이터 구성.
  3. 경량이면서 성능 우수한 모델 아키텍처
    • PaliGemma(10B pretraining) 기반의 **ChartGemma (3B)**는 작은 규모에도 불구하고 SOTA 수준의 성능을 보이며, 빠른 수렴훈련 안정성을 확보함.
  4. 5개 벤치마크에서의 강력한 성능
    • ChartQA, ChartFC, ChartCheck, Chart2Text, OpenCQA에서 ChartGemma는 대부분의 경우 경쟁 모델을 능가하거나 유사한 성능을 보임.
    • 특히 fact-checking과 summarization에서는 인간 평가 및 GPT-4 평가에서 모두 ChartInstruct-LLaMA2를 능가.
  5. Open-domain 차트 요약에서도 우수한 일반화 능력 입증
    • WebCharts에서 수집된 복잡하고 다양한 차트를 기반으로 한 평가에서 ChartGemma가 더 사실적이고 정보성이 높은 출력을 생성함.

왜 이 논문이 accepted되었는가:

  • 차트 이미지 기반의 instruction-tuning이라는 새로운 학습 패러다임을 제시하여, 실제 차트 사용 환경과의 domain gap을 줄였음.
  • 기존 모델 대비 훨씬 작은 파라미터 수로도 SOTA를 달성, 산업 응용성에서 큰 장점.
  • 정량 평가 + 인간 평가 + GPT-4 평가 + 오류 분석까지 포함한 탄탄한 실험 설계로 신뢰도 확보.
  • 차트 요약, QA, fact-checking 등 멀티태스크 학습 구조를 잘 설계했고, 다양한 시각 스타일에 대해 범용성이 높음.

한계점:

  1. 입력 해상도 제한
    • 현재 모델은 448x448 해상도로만 입력을 받으며, 더 고해상도 차트에서는 텍스트 인식 정확도가 낮아짐. 896x896 지원 모델은 GPU 리소스가 더 많이 필요함.
  2. 코드 생성 오류
    • Program-aided design 태스크에서 코드 내 미정의 변수 사용, 실행 불가능한 코드 생성 문제가 간헐적으로 발생.
  3. 복잡한 시각 스타일 차트에 대한 일반화 성능 저하
    • 특히 컬러풀하고 비정형적 시각 스타일 차트(e.g. WebCharts)에서는 여전히 일부 정보 손실 및 오류 발생.
  4. 프로프라이어터리 LLM 기반 데이터셋
    • Gemini Flash 1.5를 사용해 instruction 데이터를 생성하였기 때문에, 상업적 응용에서의 라이선스 제약이 있을 수 있음.
 

Bengali ChartSumm: A Benchmark Dataset and study on feasibility of Large Language Models on Bengali Chart to Text Summarization

Nahida Akter Tanjila, Afrin Sultana Poushi, Sazid Abdullah Farhan, Abu Raihan Mostofa Kamal, Md. Azam Hossain, Md. Hamjajul Ashmafee. Proceedings of the First Workshop on Challenges in Processing South Asian Languages (CHiPSAL 2025). 2025.

aclanthology.org

더보기

기여점:

  1. Bengali ChartSumm 데이터셋 구축
    • 4,100개의 차트 이미지와 그에 대응하는 Bengali 제목, 차트 메타데이터, 요약 텍스트를 포함하는 최초의 벤치마크형 Bengali 차트 요약 데이터셋 제안.
    • 기존의 영어 ChartSumm 데이터셋(Rahman et al., 2023)을 기반으로 번역 및 추가 전처리하여 Bengali로 변환, Bengali NLP의 리소스 결핍 문제를 해결하고자 함.
  2. 다국어 및 Bengali 전용 모델에 대한 성능 분석
    • mT5, BanglaT5, Gemma (2B) 등 LLM들을 사용하여 Bengali chart-to-text summarization 태스크를 실험하고 성능 비교 수행.
    • 모델 입력 포맷과 프롬프트 디자인에 따라 구조적 fine-tuning을 수행하고, 다양한 **평가 지표(BLEU, ROUGE, CER, WER)**로 성능을 분석.
  3. 정제된 어노테이션 및 언어 전처리 과정
    • 전문 annotator 팀(19명 중 선발된 5명)이 기계 번역된 Bengali 텍스트를 수동으로 수정하여 자연스럽고 문화적으로 적절한 요약을 작성.
    • Bengali 언어 특성에 맞춘 정규화 처리(Nukta 처리, 숫자 표현 통일, 띄어쓰기 정제 등)를 수행.
  4. 다양한 차트 유형에 기반한 데이터 확장 계획
    • 현재는 bar chart, line chart 중심이지만, 차후 pie, bubble, mixed chart 등으로 확장할 계획.
    • 또한 OCR 기술 접목, 인터랙티브 차트 요약, 음성 및 챗봇 기반 차트 질의응답으로 확장성 고려.
  5. 양적 및 질적 평가 기반 실험 구성
    • BLEU, ROUGE-L, CER, WER 기준으로 mT5가 전반적으로 가장 좋은 BLEU/CER/WER 성능을 보이고, BanglaT5는 unigram recall(ROUGE-1) 기준 우수.
    • Gemma는 상대적으로 성능이 낮았으나, 영어 기반으로도 Bengali 학습이 가능함을 보이는 베이스라인 역할을 함.

왜 이 논문이 accepted되었는가:

  • 저자원 언어(Bengali)에 대한 실질적 기여: 기존에 존재하지 않던 Bengali chart summarization 벤치마크를 구축함으로써, 해당 도메인의 기초 인프라를 제공.
  • 다국어 LLM 적용 가능성 검토: 다양한 multilingual 모델을 실험에 포함시켜 저자원 언어에 대한 현실적 성능 한계와 가능성을 분석함.
  • 기계 번역 후 수작업 보정 방식의 정제된 어노테이션 전략과 윤리적 보상 체계로 데이터 품질 및 신뢰도를 높임.
  • 시각+언어 통합 태스크를 Bengali 언어에서 다룬 선구적 연구로, 이후 Multimodal Bengali NLP 연구의 출발점이 될 수 있음.

한계점:

  1. 한정된 차트 유형 (bar, line)
    • Pie, mixed-type, stacked, radar 등 다양한 차트 유형이 미포함되어 있음. 복잡한 시각 구조에 대한 모델 성능을 평가할 수 없음.
  2. 텍스트 중심 입력 설계 (이미지 직접 활용 아님)
    • 차트 이미지를 직접 입력하지 않고, OCR 기반 메타데이터(숫자, x/y label 등)를 모델 입력으로 사용. 이는 Vision-Language 기반 방법과는 결이 다름.
  3. Gemma 모델의 낮은 성능
    • 영어 기반 open-weight 모델(Gemma-2B)이 Bengali에서 제대로 fine-tune되지 않아 성능이 낮음. 학습량 부족 및 프롬프트 설계 이슈가 존재할 수 있음.
 

Language Models over Large-Scale Knowledge Base: on Capacity, Flexibility and Reasoning for New Facts

Qiyuan He, Yizhong Wang, Jianfei Yu, Wenya Wang. Proceedings of the 31st International Conference on Computational Linguistics. 2025.

aclanthology.org

더보기

기여점:

  1. 대규모 지식 삼중항(Wikidata) 기반 학습을 통한 LM의 지식 저장 성능 분석
    • Wikidata의 4,600만 개의 (주어, 관계, 객체) 형태의 트리플을 학습해, LM이 지식 저장소 역할을 할 수 있는지를 평가.
  2. 3가지 핵심 능력 평가 프레임워크 제안
    • (1) Storage Capacity: 얼마나 잘 외우는가?
    • (2) Query Flexibility: 자연어 질의에 얼마나 잘 응답하는가?
    • (3) Reasoning for Missing Facts: KB에 없는 정보를 유추할 수 있는가?
  3. 효율적인 학습을 위한 중요도 기반 샘플링 (Importance Sampling)
    • 학습 중 예측 오류가 큰 샘플에 더 높은 weight를 부여하여, 어려운 지식 중심의 학습을 유도 → 수렴 속도 향상
  4. 추론 성능 분석 (일반, 역방향, 합성 추론)
    • 일부 일반 추론은 가능하나, **역추론 (inverse reasoning)**과 **합성 추론 (compositional reasoning)**에서는 성능이 제한적임.
    • 추론 성능은 저장된 지식량과 비례하지 않음: 모델 크기를 늘려도 추론 성능이 유의미하게 향상되지 않음.
  5. 모델 크기 비교 실험
    • LLaMA-2 (7B vs 13B), T5-base vs T5-large 비교
    • 13B 모델이 7B 대비 저장 용량은 향상되지만, 추론 능력은 거의 차이 없음
  6. FreebaseQA 등 외부 데이터셋 평가 포함
    • Wikidata로 학습한 LM이 FreebaseQA처럼 범용 QA에서도 성능이 유지되거나 향상됨을 보임 → 일반 성능 저하 없음

왜 이 논문이 COLING 2025에 accept되었는가:

  • LM을 structured KB로 전환하는 프레임워크를 명확하게 정의하고, storage / flexibility / reasoning이라는 세 가지 축으로 체계적인 실험을 수행함.
  • 모델 크기, 지식 빈도, 질의 형태, 추론 유형에 따라 결과를 상세히 분리해 실험 설계의 정교함이 돋보임.
  • 단순한 probing이 아닌, reasoning 기반 missing fact completion, importance sampling 최적화, 다양한 벤치마크 평가 포함 등 실제 활용 가능성을 고려한 연구.

>> 한계점:

  1. 추론 능력의 한계
    • LMs는 저장된 지식 기반으로 일부 추론은 수행하지만, **역추론(inverse)**과 **합성 추론(compositional)**은 여전히 미흡함.
  2. 지식 수정/삭제 불가
    • AlKhamissi et al. (2022)의 LMs-as-KB 기준 중 ‘지식 편집’, ‘일관성 유지’, ‘설명 가능성’ 등은 본 연구에서 다루지 않음.
  3. 모델 다양성 부족
    • T5, LLaMA-2 중심으로만 실험이 이뤄졌으며, 최신 모델(LLaMA-3.1, GLM-4, GPT-4 등)에 대한 실험은 future work로 남겨둠.
 

Commonsense Subgraph for Inductive Relation Reasoning with Meta-learning

Feng Zhao, Zhilu Zhang, Cheng Yan, Xianggan Liu. Proceedings of the 31st International Conference on Computational Linguistics. 2025.

aclanthology.org

더보기

기여점:

  1. CSML (Commonsense Subgraph Meta-Learning) 모델 제안
    • 기존 GNN 기반 KG 모델이 인덕티브 관계 추론(Inductive Relation Reasoning) 시 구조 정보만 활용하고, 개체 의미 정보 손실 문제가 있었던 점을 해결.
    • 개체로부터 추출한 **상위 개념(concept)**을 활용하여 commonsense subgraph를 구축하고, 이를 구조 subgraph와 통합하여 추론에 구조 + 의미 정보 동시 활용.
  2. Meta-learning 기반 few-shot 추론 구조 설계
    • 개체에 연관된 concept을 meta-information으로 간주하고, few-shot 관계 추론을 위해 meta-learning 프레임워크 적용.
    • concept 정보는 새로운 개체라도 재사용 가능하기 때문에 inductive 조건을 만족함.
  3. 양방향 서브그래프 학습 구조
    • 구조 서브그래프(GNN 기반 subgraph)와 개념 기반 commonsense 서브그래프를 각각 학습한 뒤, 두 정보를 합쳐 더 풍부하고 견고한 표현을 학습.
  4. 다양한 설정에서 SOTA 성능 달성
    • FB15k-237 및 NELL-955의 세 가지 variant (v1–v3) 모두에서 기존 SOTA 모델(GraIL, CoMPILE, Meta-iKG 등)을 성능 상으로 압도.
    • 특히 few-shot 추론 실험에서 CSML은 Hits@10 기준 최대 +6% 향상을 기록.

왜 이 논문이 accepted되었는가:

  • 인덕티브 KG 추론에서 구조적 한계를 극복하고, 의미 기반 정보를 활용한 추론 강화 기법을 명확하게 제안했기 때문.
  • concept-level 추상화 + meta-learning이라는 상위 추론 구조 설계가 이론적으로 정당하고, 실험 결과가 이를 강력히 뒷받침함.
  • 성능 향상뿐 아니라 low-resource/few-shot 환경에서의 일반화가 잘 되는 모델을 제안했고, 시각화 및 분석까지 포함한 체계적 실험 구성이 뛰어났음.

한계점:

  1. concept 정보의 외부 의존성
    • 모델의 성능은 개체와 연결된 개념 정보의 품질에 민감하며, 이는 데이터셋에 따라 달라짐.
    • 예: FB15k-237의 개념 정보는 Wikidata에서 추출해야 하며, 도메인 특이성 있을 수 있음.
  2. GNN + Meta-learning 구조의 계산 복잡도
    • 구조 그래프와 commonsense subgraph를 이중 학습하고 meta-update까지 수행해야 하므로, 계산량이 크고 추론 속도가 느릴 수 있음.
  3. commonsense가 매우 희소하거나 존재하지 않는 데이터셋에 적용 어려움
    • 특정 도메인에서는 개체에 연결된 concept이 존재하지 않거나 의미 불분명할 수 있음 → 일반화에 한계.

Leveraging Explicit Reasoning for Inference Integration in Commonsense-Augmented Dialogue Models

 

Leveraging Explicit Reasoning for Inference Integration in Commonsense-Augmented Dialogue Models

Sarah E. Finch, Jinho D. Choi. Proceedings of the 31st International Conference on Computational Linguistics. 2025.

aclanthology.org

더보기

기여점:

  1. 명시적(common) vs. 암묵적(implicit) 추론 방식 비교를 통한 대화 응답 생성 품질 향상 분석
    • 기존 대화 시스템은 commonsense를 내부 attention에 의해 암묵적으로 활용하는 경향이 있음. 본 논문은 **추론을 명시적으로 분리(생성 → 선택 → 통합)**하는 접근이 응답 품질을 얼마나 개선하는지를 실험적으로 분석.
  2. 세 단계로 분리된 명시적 추론 프레임워크 제안 (ConvoSense-E)
    • (1) Commonsense 생성: T5 기반 ConvoSenseGenerator 사용, 10종의 사회적 commonsense 유형별 추론 생성
    • (2) 추론 선택: GPT-3.5로 대화 문맥에 적합한 추론을 선택
    • (3) 응답 생성: 선택된 추론을 바탕으로 GPT-3.5가 적절한 응답 생성
  3. 암묵적 추론 방식(ConvoSense-I), Doctor, GPT baseline과 비교 실험
    • Reflect 데이터셋 기반, 100개 대화 문맥에 대해 3가지 품질 특성 + 종합 품질을 MTurk로 평가
    • ConvoSense-E가 전반적인 품질, 특이성, 흥미도에서 가장 높은 평가를 받음
  4. Commonsense 유형별 성능 영향 분석
    • Attribute, Subsequent 유형의 추론이 응답 품질을 가장 많이 향상시키는 반면, Cause, Reacto 등은 효과가 제한적임
  5. 사람 응답자의 품질 평가 설명을 GPT로 요약하여 응답의 핵심 특성 분석
    • 주요 품질 특성은 지원적(supportive), 흥미로움(engaging), 구체성(specific), 공감(empathy), 자연스러움(natural)
    • ConvoSense-E 응답은 특히 구체성, 공감성, 지원성 측면에서 더 많이 언급됨

왜 이 논문이 accepted되었는가:

  • 기존 LLM 기반 대화 응답 생성은 대부분 “end-to-end blackbox”로 작동해 commonsense 통합이 비직관적이었으나, 본 연구는 추론의 흐름을 분리하고 명시화함으로써 더 낫고 설명가능한 대화 응답을 생성하는 새로운 방법론을 실증함.
  • 실험이 풍부한 사용자 평가 기반이며, Commonsense 유형, 품질 요소별 분해 평가, prompt 품질 영향 분석까지 포함하여 완결도 높음.
  • 특히 기존 SOTA였던 Doctor 모델이 GPT baseline보다 못한 결과를 보이며, 정교한 프롬프트 설계와 추론 구성 전략이 LLM 응답 품질에 미치는 영향을 잘 보여줌.

>> 한계점:

  1. GPT-3.5 기반 실험에 치중
    • 다른 모델(LLaMA 등)에서는 성능이 불안정했으며, 명시적 reasoning이 범용적으로 적용 가능한지는 추가 연구가 필요함.
  2. 단일 추론 선택 방식의 제한성
    • 한 응답에 1개의 추론만 선택하도록 설계 → 상황에 따라 복수의 추론이 통합될 필요가 있을 수 있음.
  3. 사회적 commonsense에만 초점
    • 물리적 commonsense, 속성 기반, 시간적 상식 등 다양한 유형의 추론은 고려하지 않음
  4. 정적(single-turn) 평가만 수행
    • 실제 대화에서는 연속적인 맥락 유지가 중요하므로, 추후 multi-turn dialogue 시스템으로 확장 필요

Generating Commonsense Reasoning Questions with Controllable Complexity through Multi-step Structural Composition

 

Generating Commonsense Reasoning Questions with Controllable Complexity through Multi-step Structural Composition

Jianxing Yu, Shiqi Wang, Hanjiang Lai, Wenqing Chen, Yanghui Rao, Qinliang Su, Jian Yin. Proceedings of the 31st International Conference on Computational Linguistics. 2025.

aclanthology.org

더보기

기여점:

  1. 질문 생성(QG)에 reasoning complexity를 제어할 수 있는 프레임워크 제안
    • 단순 정보 매칭 기반 질문 생성이 아닌, multi-hop reasoning, commonsense 기반 추론, contextual 이해가 필요한 복잡한 질문 생성을 목표로 함.
    • 기존 QG 모델의 한계인 복잡도 제어 불가능, 일관성 부족, 표면적 매칭 문제를 해결함.
  2. 질문을 reasoning step별로 분해하여 구성하는 ‘조립형(Composable)’ QG 전략
    • 텍스트 및 commonsense knowledge로부터 triple (h, r, t) 기반 sub-question들을 생성하고, 이를 점진적으로 조합하여 1~4단계 난이도의 복잡한 질문을 생성.
    • BART + Prefix Tuning, GPT-3 prompting, ConceptNet 기반 soft template, AMR 트리 기반 난이도 측정 등을 통합적으로 활용.
  3. 복잡도 조절 및 품질 확보를 위한 Voting Verifier 설계
    • 질문이 (1) 정답과 일치하는지 (Answer Consistency), (2) 정해진 reasoning step 만큼의 추론을 요구하는지 (Reasoning Difficulty), (3) 문맥과 관련이 있는지 (Context Correlation)를 검증.
    • UNICORN, BiDAF, DeBERTa-v3-large 등을 활용한 다중 기준 앙상블 평가기로 high-quality 질문 선택.
  4. 실험을 통한 성능 검증
    • Cosmos QA, MCScript 2.0 기반 실험에서 BLEU, METEOR, ROUGE, QAScore 모두에서 기존 SOTA 모델들(SGSH, KGQG, CRQG 등) 대비 8~12% 이상 성능 향상
    • 복잡도 제어 정확도에서도 baseline 대비 84.3% → 최고 성능 (기존 모델 평균 20%대)

왜 이 논문이 accepted되었는가:

  • 기존 QG는 multi-hop이나 commonsense를 다룬다 해도 복잡도나 reasoning step을 명시적으로 제어할 수 있는 구조가 부족했는데, 본 논문은 이를 체계적인 sub-question 조합 모델로 해결함.
  • 질문 품질, 추론 깊이, 문맥 일치도 등 평가 항목을 통합적으로 다루며, automatic + human 평가 모두에서 우수한 성과를 보임.
  • 특히 **“control over reasoning steps”**라는 연구 문제를 모듈화, 조립식 모델링으로 해결했다는 점에서 창의성과 실용성이 높게 평가됨.

>> 한계점:

  1. 초기 sub-question 생성의 품질에 의존
    • 트리플 추출 및 LLM 기반 commonsense 정보가 부정확할 경우, 전체 조합 품질도 저하됨.
  2. 언어적 오류 (예: 시제, 동사 일치 등)
    • grammar 오류 발생 가능성이 있으며, 자동 문법 수정 모듈은 아직 포함되어 있지 않음.
  3. 추론 그래프의 한계적 구조 다양성
    • reasoning 구조는 사전 정의된 2~4hop 구조로 제한되어 있으며, 보다 창의적이거나 열린 형태의 질문 생성을 다루지 않음.

DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation

 

DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation

Minzhi Li, Zhengyuan Liu, Shumin Deng, Shafiq Joty, Nancy Chen, Min-Yen Kan. Proceedings of the 31st International Conference on Computational Linguistics. 2025.

aclanthology.org

더보기

기여점:

  1. LLM 평가 능력 향상을 위한 구조화된 평가 프레임워크(DnA-Eval) 제안
    • 기존 LLM 평가 방식은 단일 프롬프트로 전체 응답 품질을 평가하여 과정 해석 불가능성 및 일관성 부족 문제가 있었음.
    • DnA-Eval은 Decomposition(분해) 단계에서 평가 기준(aspects)을 설정하고 각 항목별로 응답을 비교 평가한 후, Aggregation(집계) 단계에서 중요도 가중치를 통해 전체 점수를 계산하는 루브릭 기반 평가 체계를 구성.
  2. Pedagogy에서 영감을 받은 평가 프로토콜 구성
    • 교육 평가에 사용되는 루브릭을 모델 평가에도 적용. 평가 기준(예: 정확성, 관련성, 창의성 등)을 명시하고, 각 응답에 대해 세부 항목별 평가 + 중요도 가중 평균 → 최종 판단 방식.
  3. 외부 계산기 도입을 통한 수치 집계 안정성 확보
    • LLM의 수치 계산 능력 한계를 보완하기 위해, aspect-wise 점수에 대해 외부 계산 모듈을 사용하여 가중 평균 수행. → GPT-4의 수학적 불안정성 문제 회피.
  4. GPT 및 오픈모델 전반에서 평가 성능 향상 실증
    • GPT-3.5, GPT-4, LLaMA2-13B, Mistral-7B 모두에서 기존 방식 대비 최대 +39.6% 정확도 향상.
    • 특히 MTBench, LLMBar, InstruSum, FairEval 등 다양한 메타 평가 벤치마크에서 일관되게 성능 향상.
  5. 중간 생성 결과(평가 기준, 가중치) 분석을 통해 해석 가능성 제공
    • LLM이 생성한 평가 기준(aspects)과 가중치(weight)를 별도로 저장/분석 가능하여, 평가 과정을 투명하게 설명 가능.

왜 이 논문이 accepted되었는가:

  • LLM을 평가자로 활용할 때의 불투명성과 일관성 부족 문제정교한 프레임워크로 체계적으로 해결했다는 점에서 큰 기여.
  • 단순 Chain-of-Thought(CoT) 방식보다도 더 효과적이고 안정적이며, 실험적으로 뒷받침된 메타 평가 시스템을 제안했음.
  • 평가의 정밀도뿐만 아니라, 평가 이유 제공 가능성, 편향 탐지 가능성, 멀티 모델 비교 시 해석력 향상 등 다양한 활용성을 보여줌.

한계점:

  1. 추가적인 비용 및 연산 자원 소모
    • 평가 항목별 점수 및 가중치 계산으로 인해 프롬프트 수 증가(5배 이상), API 호출량 증가 → GPT-4 기준 direct scoring: $14.77 → DnA-Eval: $51.36
    • 오픈 모델에서는 무료지만 연산 시간 증가
  2. 일정한 항목 수 고정
    • 실험에서는 항목 수를 3개로 고정했으며, 과제에 따라 이상적 항목 수가 다를 수 있음. → 동적 항목 설정에 대한 실험은 미흡.
  3. human 평가 정답의 불확실성
    • 인간 평가자 간에도 의견이 갈리는 경우가 있어, 정답(label)의 절대성에 의문이 있음.
    • 실제로 GPT-4는 인간이 동점으로 판단한 응답에서 미세한 차이를 발견해 우위를 판별하는 사례도 있었음 (super-human 평가 가능성).

Towards Faithful Multi-step Reasoning through Fine-Grained Causal-aware Attribution Reasoning Distillation

 

Towards Faithful Multi-step Reasoning through Fine-Grained Causal-aware Attribution Reasoning Distillation

Zheng Chu, Jingchang Chen, Zhongjie Wang, Guo Tang, Qianglong Chen, Ming Liu, Bing Qin. Proceedings of the 31st International Conference on Computational Linguistics. 2025.

aclanthology.org

더보기

기여점:

  1. FARD: 인과 구조 기반의 체계적인 다중 단계 추론 지식 증류 기법 제안
    • 기존의 Chain-of-Thought(CoT) 방식은 reasoning step 간의 의존성이 명확하지 않고, 일관성이 부족하며, verification이 어렵다는 문제점 존재.
    • FARD는 **[근거 명시 + 인과 구조 기반 citation reasoning]**을 distillation 대상으로 활용하여 정확성, 해석력, 일반화 성능을 모두 향상시킴.
  2. Fine-grained Attribution Reasoning + Causal Dependency Regularization
    • reasoning을 premise 추출, self-questioning, attribution-based reasoning, answer 생성으로 분해. 각 step은 citation 기반으로 연결되어 DAG 형태의 인과 그래프로 표현됨.
    • attention이 올바른 인과 경로에 집중되도록 정규화(loss에 포함) → reasoning consistency 강화.
  3. 검증 가능한 step-level trajectory 제공
    • reasoning 과정 중 각 단계에 citation이 포함되어 있어, 후속 검증/오류 수정 가능성이 증가. → hallucination 및 오류 감지에 효과적.
  4. 범용 reasoning 성능 향상
    • 수학 reasoning (GSM8K), 일반 reasoning (StrategyQA, Logical Deduction, Date Understanding) 모두에서 SOTA distillation 기법보다 우수한 성능.
    • 특히 **perturbed input (GSM-Plus)**에서도 강한 견고성(PDR 감소, ASP 증가) 확보.
  5. 체계적인 실험 및 분석
    • 3종 student 모델(LLaMA2-7B, 13B, Mistral-7B) × 9개 벤치마크 (in/out-of-domain) × SOTA distillation 기법과 비교.
    • Ablation 분석으로 attention 정규화, self-questioning, filter 전략 각각의 기여도 정량 분석.

>> 왜 이 논문이 accept되었는가:

  • 단순한 CoT을 넘어, citation 기반 인과 reasoning의 구조화를 통해 distillation의 faithfulness + generalization 문제를 동시 해결함.
  • reasoning trajectory를 검증 가능한 구조로 바꾸고, attention pattern 정규화를 도입한 점에서 방법론적으로 참신함.
  • 특히 저자원 환경, 작은 모델의 추론 능력 향상이라는 practical need에 적합하며, GPT 등 대형 모델의 수학 reasoning 능력을 distill해 재사용 가능.

>> 한계점:

  1. 교사 모델 단일성
    • LLaMA3-70B만 사용되었고, 다양한 LLM으로의 일반화는 future work로 남겨짐.
  2. DAG 기반 reasoning이 복잡한 오픈도메인 질의에서는 제한 가능성
    • citation 기반 DAG 표현은 논리적 수학문제에는 적합하지만, open-ended commonsense QA나 논증 과제에는 적응이 어려울 수 있음.
  3. 후속 검증 시스템 부재
    • attribution reasoning은 post-verification에 유리하지만, 본 논문에서는 오류 수정 시스템까지는 구현하지 않음. (후속 연구 예정)
  4. step 수가 많아질수록 성능 저하
    • 6단계 이상 reasoning에서는 정확도 감소 경향 확인됨. 모델의 base 능력과 추론 복잡도 간 trade-off 존재.

CEGRL-TKGR: A Causal Enhanced Graph Representation Learning Framework for Temporal Knowledge Graph Reasoning

 

CEGRL-TKGR: A Causal Enhanced Graph Representation Learning Framework for Temporal Knowledge Graph Reasoning

Jinze Sun, Yongpan Sheng, Lirong He, Yongbin Qin, Ming Liu, Tao Jia. Proceedings of Bridging Neurons and Symbols for Natural Language Processing and Knowledge Graphs Reasoning @ COLING 2025. 2025.

aclanthology.org

더보기

기여점:

  1. 인과 표현 학습 기반의 TKGR 프레임워크 제안
    • 기존 Temporal Knowledge Graph Reasoning(TKGR) 모델은 **스푸리어스 상관(spurious correlation)**이나 잡음에 의한 추론 오류가 자주 발생.
    • 본 논문은 인과 관계만 분리하여 학습하고, 추론 시 인과 요인만을 사용하는 CEGRL-TKGR 프레임워크 제안.
  2. 표현 분리: 인과 요인(Causal) vs 교란 요인(Confounding)
    • 각 엔티티 및 관계 임베딩을 **인과 요인(C)**과 **교란 요인(N)**으로 분리 학습
    • mutual information 최소화 및 contrastive log-ratio loss 사용 → 표현 disentanglement 수행
  3. Causal Intervention 기반 추론 설계
    • Pearl의 do-calculus를 응용하여, confounding 영향을 제거한 P(Y|do(C)) 계산
    • 인과 표현만으로 링크 예측 수행 → 노이즈에 강인한 모델 설계
  4. Time-Gap-aware 디코더
    • 시간 간격 정보를 반영한 디코더 설계로, 이벤트 간 시계열 간격을 모델링
    • 빈도 기반 모델이 놓치기 쉬운 비정기적 이벤트 예측 성능 강화
  5. 6개 실제 TKGR 데이터셋에서 SOTA 달성
    • ICEWS14/18/05-15, YAGO, WIKI, GDELT 전부에서 이전 모델보다 높은 MRR, Hits@10 기록
    • 특히 CEGRL-TKGR은 noisy TKG 환경에서도 견고성 입증됨

왜 이 논문이 accepted되었는가:

  • 인과 추론을 Graph Representation Learning에 접목시킨 최초의 TKGR 모델로, 기존 GNN 기반 모델이 가지는 데이터 편향 문제를 해소
  • 추론 과정의 해석 가능성 향상 (disentangled features + causal graph) → 신뢰도와 확장성에서 강점
  • 도메인 일반화와 노이즈 견고성 확보 측면에서 실용성이 높음 → 산업/정책 예측 등 고신뢰 환경에 적합

>> 한계점:

  1. 시간 민감하지 않은 그래프에는 미적용
    • 모든 실험이 TKG 기반이므로, 일반 정적 Knowledge Graph나 비시계열 상황에서는 효용성 미확인
  2. 하이퍼파라미터 튜닝 비용 큼
    • λ1, λ2, λ3 (disentanglement intensity, causal intervention strength 등) 조절이 모델과 데이터셋에 민감
  3. 추론 해석성에 대한 사용자 중심 평가 부재
    • 실제 reasoning path를 사용자 입장에서 해석 가능한 형태로 시각화/제시하는 기능은 미비

If I feel smart, I will do the right thing: Combining Complementary Multimodal Information in Visual Language Models

 

If I feel smart, I will do the right thing: Combining Complementary Multimodal Information in Visual Language Models

Yuyu Bai, Sandro Pezzelle. Proceedings of the First Workshop of Evaluation of Multi-Modal Generation. 2025.

aclanthology.org

 

더보기

기여점:

  1. 멀티모달 맥락에서 상보적인 정보 통합 능력 평가
    • 이 논문은 기존 VLM(Vision-Language Models)이 이미지와 텍스트가 각각 제공하는 상보적 정보를 얼마나 잘 결합하는지를 평가하기 위해 BD2BB 벤치마크를 활용함.
    • 실험은 두 가지 설정으로 진행됨:
      (1) 다지선다형 문제 형식(MC)
      (2) 개방형 텍스트 생성(Open-ended generation)
  2. BLIP-2가 상보 정보 통합에서 가장 뛰어난 성능 보임
    • 다지선다 실험에서 BLIP-2는 75.7% 정확도로, 인간 성능(79%)에 근접.
    • 생성 실험에서는 BERTScore 기준으로 49.5% 정확도, 인간 평가 기준으로 77% 응답이 타당하다고 평가됨.
  3. 다양한 VLM 모델 간 성능 비교
    • BLIP-2 외에도 MAPL, FROMAGe, IDEFICS를 함께 비교.
    • BLIP-2만이 실제로 이미지와 텍스트를 함께 고려하여 응답을 생성하는 경향을 보였으며, 나머지 모델들은 편향(bias)이나 낮은 이해도로 인해 성능 저조.
  4. 프롬프트 설계의 중요성과 grounding 능력 분석
    • 특정 프롬프트가 grounding률(이미지 속 객체를 응답에 언급하는 비율)에 영향을 미침을 실증.
    • grounding률은 accuracy와 항상 일치하지 않으며, 프롬프트 설계를 통해 modality 간 주의 분배 제어 가능.
  5. 오류 분석 및 모달리티 별 기여 분석
    • BLIP-2는 단일 모달(텍스트 or 이미지)보다 멀티모달 입력 시 명확한 성능 향상을 보였으며, 5% 정도의 샘플은 상보 정보 통합 없이는 정답 추론 불가능.

왜 이 논문이 accepted되었는가:

  • "상보적 멀티모달 정보 통합 능력"이라는 새로운 평가 프레임을 정립하고, 기존 VLM의 한계를 정량적/정성적으로 검증했기 때문.
  • 다지선다 + 자유 생성, 자동 + 인간 평가, 정확도 + grounding률, 오류 분해 + 프롬프트 영향 분석다층적 실험 설계로 강력한 신뢰도 확보.
  • 특히 BLIP-2가 instruction tuning과 COCO 이미지 학습 경험을 통해 실제 언어-시각 통합 능력을 획득했음을 입증함으로써 후속 학습 설계에도 시사점 제공.

>> 한계점:

  1. 모델과 언어 제한
    • 영어 및 4개 모델(BLIP-2, MAPL, FROMAGe, IDEFICS)만 포함되어 있어 일반화 어려움.
  2. 프롬프트 의존성
    • 성능과 grounding률이 프롬프트에 민감하며, 보편적 최적 프롬프트를 정의하지 못함.
  3. 훈련 데이터 편향 가능성
    • BLIP-2는 COCO 이미지로 사전학습되어 BD2BB 이미지와 유사한 데이터에 익숙할 수 있음 (학습된 편향 가능성).
  4. 작은 규모의 인간 평가
    • human evaluation은 6명, 200 샘플 수준의 소규모 설정으로, 통계적 강건성은 제한적임.
반응형