대학원에 다니면서 졸업 논문을 준비하는 입장에서 가장 큰 벽 중 하나가 GPU다. 모델 하나 학습 돌리려면 최소 RTX 3090 정도는 필요한데, 개인 장비가 없으면 실험 자체가 막힌다. 학교 공용 서버는 대기열이 길고, AWS 같은 메이저 클라우드는 가격이 무섭다. 그렇다고 Colab 무료 티어로 졸업 논문 실험을 돌리기엔 세션 끊기는 문제부터 메모리 한계까지 어느 것 하나 만만치 않다.그래서 한동안은 학습 데이터를 줄이거나 모델을 작게 잡는 식으로 우회했다. 하지만 졸업 논문 실험은 결국 정공법이 필요했고, 그 과정에서 알게 된 게 AirCloud(AIEEV의 분산형 GPU 클라우드)다. 직접 써보니 같은 처지의 대학원생들에게 공유할 만한 가치가 있다 싶어 후기를 남긴다. https://www.aie..
비디오와 언어를 다루는 논문을 한 편이라도 읽어본 사람이라면 거의 무조건 마주치는 이름이 있다. MSR-VTT.CLIP4Clip이든, X-CLIP이든, 최근의 InternVideo든, 성능 비교표 어딘가에는 항상 MSR-VTT의 R@1, R@5, R@10 숫자가 박혀 있다.이 데이터셋은 처음부터 검색(retrieval)용으로 만들어진 게 아니라 영상을 보고 자연어로 설명을 만들어내는 task인 비디오 캡셔닝(video captioning) 데이터셋이었다. MSR-VTT란?MSR-VTT(Microsoft Research Video to Text)는 2016년 CVPR에서 Microsoft Research가 공개한 비디오-언어 데이터셋이다. 이름 그대로 "비디오와 텍스트를 잇는 다리"를 만들기 위해 설계됐다..
"한빛미디어 서평단 활동을 위해서 책을 협찬받아 작성된 서평입니다." 📌 책의 핵심 메시지"AI는 더 이상 '대화 상대'가 아니라, 내 컴퓨터에 상주하며 직접 일하는 '동료'다."이 책은 챗봇과 대화하던 시기를 지나, AI 에이전트가 직접 파일을 만들고 웹을 검색하고 이메일을 보내는 시대로 넘어가는 흐름의 한가운데서, 오픈소스 프로젝트 오픈클로(OpenClaw) 를 활용해 누구나 자기만의 'AI 집사'를 만들 수 있다는 메시지를 전한다.저자는 단순히 "AI에게 질문하는 법"을 가르치지 않는다. 대신 에이전트에게 이름을 짓고, 성격을 부여하고, 일을 맡기고, 자동화를 거는 과정을 마치 새 팀원을 온보딩하듯이 단계별로 안내한다. 책을 덮을 때쯤이면 매일 아침 브리핑을 건네는 AI 집사 한 명이 내 컴퓨터..
https://console.runpod.io/ https://console.runpod.io/ console.runpod.iorunpod란 비싼 gpu를 직접 구매하지 않고 필요할 때만 빌려 쓸 수 있는 서비스로 클라우드 gpu 렌탈 플랫폼이다.저렴한 gpu 비용과 다양한 선택지가 있다는 장점이 있다. 이 플랫폼의 또 다른 장점으로는 생성한 파드를 ssh를 통해서 접속하고 vscode에 연결해서 사용할 수 도 있다. runpod vscode ssh 연결하기 먼저 위 페이지에서 회원가입, 선불 크레딧 결제를 한 후 ssh 연결을 위해 public key를 등록 해 줘야 한다.우선 ssh로 접속을 하려는 pc의 터미널에서 ssh key를 발급을 받아야 한다.ssh-keygen해당 명령어를 사용해 ssh ..
https://iambeginnerdeveloper.tistory.com/354 Render | render로 fastapi 배포하기, render fastapi deploy사이드 프로젝트로 기능 개발을 하면서 localhost:8000로 화면을 확인하고 동작을 확인해 왔지만 기능 개발이 어느정도 된 것 같아 배포를 해 보고자 했다.가장 좋은 건 fastapi가 항상 구동되는 서버iambeginnerdeveloper.tistory.com이전에 사이드 프로젝트를 무료 툴인 렌더를 통해서 배포를 했었고 https://www.talk-report.com/ 톡리포트 — KakaoTalk Chat Analyzer www.talk-report.com해당 사이트는 이전에 https://iambeginnerdevelo..
한빛미디어 서평단 활동을 위해서 책을 협찬 받아 작성된 서평입니다. 요즘 AI로 뭔가를 만들어보고 싶다는 욕구가 부쩍 늘었다. 코딩을 몰라도 게임을 만들 수 있다는 말, 솔깃하지 않을 수 없다.이 책은 그 욕구를 슬쩍 건드린다.10년 차 게임 기획자가 AI 도구들을 팀원 삼아 혼자서 뱀서라이크 게임을 완성하는 과정을 보여주는 책이다. 📚 책의 핵심 메시지👉 AI를 팀원처럼 활용해, 게임 개발을 해 보지 않은 사람도 게임 하나를 처음부터 끝까지 완성한다.챗GPT로 캐릭터 에셋을 만들고, 코덱스로 복잡한 시스템을 코딩하고, Lami.ai로 음원을 뽑아내는 분업 구조가 특징이다.다루는 주요 흐름은 다음과 같다.게임 기획 및 콘셉트 설정AI 도구별 역할 분담 (챗GPT / 코덱스 / Lami)유니티(Un..
사이드 프로젝트로 기능 개발을 하면서 localhost:8000로 화면을 확인하고 동작을 확인해 왔지만 기능 개발이 어느정도 된 것 같아 배포를 해 보고자 했다.가장 좋은 건 fastapi가 항상 구동되는 서버가 있을 때 해당 서버를 사용해서 배포하는 거지만 쉽지 않기 때문에 보통은 aws같은 도구를 사용한다. aws도 서버를 사용하려면 당연히 비용을 지불해야 하기 때문에 비용 부담을 덜고자 무료 툴을 알아봤다.그러다가 알게 된 게 Render이다.Render는 github 레포지토리와 연동해서 코드를 자동으로 빌드하고 배포해 주는 클라우드 플랫폼이다.별도의 복잡한 서버 관리 없이 코드만 github에 push 하면 된다. 그러면 별도의 도커 설정 없이 python 환경을 사용해 fastapi를 배포할 ..
딥러닝 기반 얼굴 인식이나 텍스트/이미지 임베딩을 다루다 보면 거의 항상 등장하는 개념이 있다.바로 Cosine Similarity(코사인 유사도)다.FaceNet, ArcFace 같은 얼굴 인식 모델뿐 아니라 CLIP, SBERT 같은 최신 임베딩 모델들도 대부분 코사인 기반으로 유사도를 계산한다. 단순히 “벡터 유사도 계산 방법 중 하나”라서 사용하는 것이 아니라, 딥러닝 임베딩 공간의 구조와 매우 잘 맞기 때문에 사실상 표준처럼 사용된다. 왜 딥러닝에서 코사인 유사도가 많이 사용되는지, 그리고 FaceNet과 ArcFace가 왜 cosine 기반 loss를 사용하는지까지 딥러닝 관점에서 자세히 정리해 보려고 한다. 먼저 딥러닝 모델이 얼굴이나 문장을 어떻게 표현하는지부터 이해할 필요가 있다.얼굴 인..
요즘 개발 환경이 빠르게 바뀌면서 단순히 코드를 자동완성 해 주는 수준을 넘어 이제는 AI가 직접 개발 작업을 수행하는 Agent 기반 개발 도구들이 등장하고 있다. 클로드 코드, 코덱스 등등 유명한 것이 많지만 구글에서 출시한 Antigravity라는 도구를 사용 해 보려고 한다. antigravity는 프롬프트로 프로젝트를 설명하면 AI Agent가 코드 생성, 실행, 테스트까지 수행해 준다. 실제로 간단한 백엔트 프로젝트 정도는 몇분도 안돼서 생성이 되는 것을 확인할 수 있다. 이런 툴 사용도 요즘엔 당연히 요구되는 역량이기 때문에 이번에 antigravity를 설치해서 사용 해 봤다. 1. 설치https://antigravity.google/download Google AntigravityGoog..
Airflow에서 DockerOperator를 사용해 외부 Docker 컨테이너를 실행하려고 할 때, 다음과 같은 에러를 만날 수 있다. PermissionError(13, 'Permission denied') Failed to establish connection to Docker host unix://var/run/docker.sock여기서 핵심은 docker_url="unix://var/run/docker.sock" 즉, Airflow 컨테이너 내부에서 호스트의 Docker 소켓에 접근해야 한다. Airflow는 DockerOperator를 통해 호스트의 Docker 데몬과 통신한다.일반적으로 다음과 같이 설정한다.DockerOperator( task_id="run_container", ..