분류 전체보기
-
Understanding LLM Scientific Reasoning through Promptings and Model’s Explanation on the Answers논문 리뷰 2025. 7. 10. 13:21
연구에서는 다음과 같은 7가지 Prompt Engineering 기법을 테스트했습니다.Direct Answer (Zero-Shot): 추가적인 예시나 지침 없이 질문에 직접 답변하도록 요구하는 Baseline 기법입니다.Chain-of-Thought (CoT): 3개의 예시를 제공하여 모델이 단계별 추론 과정을 명시적으로 보여주도록 안내하는 기법입니다.Zero-Shot CoT: 예시 없이 "Let's think step by step"과 같은 지침을 추가하여 모델이 단계별 추론을 시도하도록 유도하는 기법입니다.Self-Ask: 복잡한 문제를 해결하기 위해 모델 스스로 관련 중간 질문을 생성하고 답변하며 최종 답변에 도달하도록 하는 기법입니다. Multi-hop 문제 해결에 적합합니다.Self-Consis..
-
VLMEvalKit 환경세팅(Gemma3)LLM Eval 2025. 6. 4. 14:59
pip install git+https://github.com/huggingface/transformers@v4.49.0-Gemma-3!pip3 install -q -U datasets==2.18.export TRANSFORMERS_NO_FLASH_ATTN=1 https://github.com/open-compass/VLMEvalKit/blob/main/docs/en/Quickstart.md VLMEvalKit/docs/en/Quickstart.md at main · open-compass/VLMEvalKitOpen-source evaluation toolkit of large multi-modality models (LMMs), support 220+ LMMs, 80+ benchmarks - open..
-
Multimodal Chart Retrieval:A Comparison of Text, Table and Image Based Approaches논문 리뷰 2025. 5. 29. 15:10
기여점멀티모달 차트 검색 문제 제기 및 비교 평가이미지 기반 차트를 텍스트 질의를 통해 검색하는 과제를 설정하고, 다음 네 가지 방법을 비교:(a) OCR 후 텍스트 기반 검색(b) 차트 디렌더링(DEPLOT) → 테이블 검색(c) 이미지 이해 모델(PALI-3) 직접 사용(d) (b)와 (c)를 결합한 접근TABGTR 모델 제안테이블 구조 임베딩을 활용한 텍스트 검색 모델을 새롭게 제안.NQ-TABLES 벤치마크에서 R@1 48.88%로 기존 대비 성능 향상.모델 효율성과 정확도 비교DEPLOT 기반 접근은 PALI-3보다 정확도가 높고 파라미터 수는 10배 적음 (300M vs 3B).다만, 복잡한 차트에는 DEPLOT이 성능 저하를 보임.결합 방식의 시너지 효과단일 모델보다 PALI-3 + DEPL..
-
ubuntu wifi 무선랜설치카테고리 없음 2025. 5. 23. 17:07
https://csj000714.tistory.com/908 [Network] Ubuntu 무선 랜카드 세팅(NEXT-1305AC-AT, rtl88x2BU): Window Linux 호환가능💡 본 문서는 'Linux Ubuntu 무선 랜카드 세팅(NEXT-1305AC-AT, rtl88x2BU)'에 대해 정리해놓은 글입니다. 윈도우, 리눅스 호환가능한 랜카드인 NEXT-1305AC-AT를 구매하고, 이를 설치하여 세팅한 과정에 대해csj000714.tistory.comhttps://github.com/morrownr/88x2bu-20210702 GitHub - morrownr/88x2bu-20210702: Linux Driver for USB WiFi Adapters that are based on th..
-
GLaMM: Pixel Grounding Large Multimodal Model논문 리뷰 2025. 5. 21. 16:24
Background and MotivationLarge Multimodal Models (LMMs) extend Large Language Models into the vision domainEarly LMMs generated ungrounded textual responses based on holistic imagesRecent region-level LMMs allow visually grounded responsesLimitations include single-object references, need for manual region input, and lack of dense pixel-wise groundingProposed Model: GLaMMGLaMM is the first model..