'AI' 태그의 글 목록

ML & DL

Embedding | 딥러닝 임베딩에서 Cosine Similarity를 사용하는 이유(with FaceNet, ArcFace )

2026.03.22

딥러닝 기반 얼굴 인식이나 텍스트/이미지 임베딩을 다루다 보면 거의 항상 등장하는 개념이 있다.바로 Cosine Similarity(코사인 유사도)다.FaceNet, ArcFace 같은 얼굴 인식 모델뿐 아니라 CLIP, SBERT 같은 최신 임베딩 모델들도 대부분 코사인 기반으로 유사도를 계산한다. 단순히 “벡터 유사도 계산 방법 중 하나”라서 사용하는 것이 아니라, 딥러닝 임베딩 공간의 구조와 매우 잘 맞기 때문에 사실상 표준처럼 사용된다. 왜 딥러닝에서 코사인 유사도가 많이 사용되는지, 그리고 FaceNet과 ArcFace가 왜 cosine 기반 loss를 사용하는지까지 딥러닝 관점에서 자세히 정리해 보려고 한다. 먼저 딥러닝 모델이 얼굴이나 문장을 어떻게 표현하는지부터 이해할 필요가 있다.얼굴 인..

ML & DL

LLM | Agent란?

2026.01.22

Agent를 간단하게 정의하면 LLM 시스템을 '답변기'에서 '판단 시스템'으로 바꾸는 구조라고 할 수 있다. LLM을 활용한 시스템을 접하면 대부분 RAG를 접하게 되는데https://iambeginnerdeveloper.tistory.com/338 LLM | RAG(Retrieval-Augmented Generation)란?Large Language Model(LLM)은 뛰어난 생성 능력을 가졌지만 근거가 없는 내용을 “그럴듯하게” 만들어내는 Hallucination(환각) 문제가 존재한다.이 문제를 해결하고 기업 문서, PDF, 내부 지식 기반의 정확iambeginnerdeveloper.tistory.comRAG와 같은 문서를 검색해 답변 정확도를 높이는 방식은 직관적이고 효과적이다. 1. RAG..

논문 리뷰

[논문 리뷰] Omni-Scale Feature Learning for Person Re-Identification, Kaiyang Zhou et al.,2019

2025.12.28

Omni-Scale Feature Learning for Person Re-Identification, Kaiyang Zhou et al.,2019 를 읽고 요약, 정리한 내용입니다.◼️ Abstract Instance-level의 recognition 문제로서, person 재식별(ReID)은 차별적인 특징에 의존하는데, 이는 서로 다른 spatial scales를 포착할 뿐만 아니라 multiple scale의 임의의 조합을 캡슐화한다.본 논문에서는 both homogeneous(동질의)와 heterogeneous(여러 다른 종류들로 이루어진) 스케일의 feature를 omni scale feature라고 부른다. 본 논문에서는 omni scale feature 학습을 위해 새로운 Deep ReID ..

ML & DL

LLM | LangChain이란

2025.12.01

ChatGPT를 비롯한 LLM(대형 언어 모델)의 등장은 개발 패러다임 자체를 바꿔 놓았다.이제는 코드를 작성하거나 문서를 요약하는 일을 넘어서 서비스 운영, 정보 검색, 의사 결정 보조까지 모델이 참여할 수 있다. 하지만 현실적인 문제는 많다.“모델이 사내 문서를 검색하게 하고 싶다.”“LLM이 계산·데이터베이스·외부 API를 이용하도록 하고 싶다.”“문서를 유사도 기반으로 검색한 뒤 답변하게 하고 싶다.”“대화형 서비스니까 사용자의 이전 맥락을 기억해야 한다.”이런 기능은 GPT API만으로는 만들기 어렵기 때문에 LangChain이 등장하게 되었다.LangChain은 LLM을 기반으로 실질적인 애플리케이션을 만들 수 있게 해주는 프레임워크이다. 단순히 챗봇을 넘어서 “지능형 도구”를 만들기 위한 표..

ML & DL

LLM | RAG(Retrieval-Augmented Generation)란?

2025.11.27

Large Language Model(LLM)은 뛰어난 생성 능력을 가졌지만 근거가 없는 내용을 “그럴듯하게” 만들어내는 Hallucination(환각) 문제가 존재한다.이 문제를 해결하고 기업 문서, PDF, 내부 지식 기반의 정확한 답변을 만들기 위한 기술이 있는데, 바로 RAG(Retrieval-Augmented Generation)이다. 1️⃣ RAG란?말 그대로 Retrieval(검색) + Generation(생성) 의 조합으로 LLM이 “모르는 내용”을 추측해 말하는 대신 외부 지식베이스(문서, Database, PDF, 소스코드 등)에서 관련 정보를 검색하여 그 실제 내용을 LLM 입력(prompt)에 추가해 답변을 생성하는 구조이다.LLM이 답변을 생성할 때,관련 정보를 외부 지식 베이스에..

논문 리뷰

[논문 리뷰] Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference et al., 2017

2025.11.16

Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference, Benoit Jacob et al., 2017 을 읽고 요약, 정리한 내용입니다. ◼️ Abstract모바일·엣지 기기에서 모델을 정수 연산만으로 추론하도록 만드는 8비트 양자화 스킴과, 그에 맞춘 양자화-인지 학습(시뮬레이티드/페이크 양자화) 절차를 제안한다.정확도를 최대한 유지하면서도 지연 시간과 전력/메모리를 크게 줄이는 것이 목표이다.MobileNet 계열에서도 정확도–지연시간 균형이 개선됨을 ImageNet/COCO에서 보여준다.모든 연산을 float 대신 int8(+ 일부 int32 누적)로 바꿔도 정확도를 거의 잃지 않게, 학..

논문 리뷰

[논문 리뷰] MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications, Andrew G. Howard et al., 2017

2025.09.11

MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications, Andrew G. Howard et al., 2017 을 읽고 요약, 정리한 내용입니다. ◼️ Abstract모바일 및 임베디드 비전 애플리케이션을 위해 MobileNet이라 불리는 효율적인 모델 계열을 제안.MobileNet은 깊이별 분리 합성곱을 사용하는 간결한 아키텍처에 기반하여, 가벼운 심층 신경망을 구축.지연 시간과 정확도 사이의 균형을 효율적으로 조절할 수 있는 두 가지 단순한 전역 하이퍼파라미터를 도입. 이 하이퍼파라미터들은 문제의 제약에 따라 해당 애플리케이션에 알맞은 모델 크기를 선택하도록 해 줌.자원–정확도 절충에 관한 광범위한 실험을 제..

논문 리뷰

[논문 리뷰] Lost and Found: Overcoming Detector Failures in Online Multi-Object Tracking, Lorenzo Vaquero et al., 2024

2025.08.30

Lost and Found: Overcoming Detector Failures in Online Multi-Object Tracking, Lorenzo Vaquero et al., 2024 을 읽고 요약, 정리한 내용입니다.github : https://github.com/lorenzovaquero/BUSCA ◼️ Abstract문제Tracking-by-Detection 방식은 프레임마다 detection→association을 하지만 객체 가림 등으로 인해 detector가 객체를 놓치는 프레임에서 tracker가 추적을 못해 track이 멈추거나 끊김제안기존 online tracking-by-detection tracker 위에 얹어 쓰는 plug-in 식 모듈로 과거 결과를 수정하지 않고 미래 프..

ML & DL

FiftyOne | 데이터셋 시각화 및 분석 도구, FiftyOne 설치, FiftyOne 사용법

2025.04.06

FiftyOne은 컴퓨터 비전 분야의 데이터셋을 효과적으로 관리하고 분석할 수 있도록 돕는 오픈소스 툴이다.해당 툴을 사용하면 이미지 및 비디오 기반 데이터셋을 시각화하고 모델 예측 결과를 평가하며 잘못된 라벨을 쉽게 탐지할 수 있다. 1. FiftyOne 설치fiftyOne 설치apt install libcurl4 opensslapt install libcurl4-openssl-devpip install fiftyonepip install fiftyone-db-ubuntu2204 quickstartimport fiftyone as foimport fiftyone.zoo as fozdataset = foz.load_zoo_dataset("quickstart")print(dataset)sample = da..

논문 리뷰

[논문 리뷰] YOLOv10: Real-Time End-to-End Object Detection, Ao Wang, et al., 2024

2024.09.29

YOLOv10: Real-Time End-to-End Object Detection, Ao Wang, et al., 2024 를 읽고 요약, 정리한 글입니다.github : https://github.com/THU-MIG/yolov10 ◼️contrbution- 기존 YOLO 아키텍쳐는 NMS에 대한 의존성이 높아 정확도는 향상시키지만 latency를 초래함.- 본 논문은 NMS 없는 YOLO 모델을 만들기 위해 이중 할당 전략을 제안하여 중복 예측 문제를 해결함.- 본 논문은 계산 중복을 줄이기 위해 lightweight classification head, spatial-channel decoupled downsampling, rank-guided block design을 포함한 아키텍쳐를 제안함. ..

티스토리툴바