728x90
반응형

분류 전체보기 37

[강화학습] 동적 계획법 - 반복 정책 평가 (Iterative Policy Evaluation)

최적 정책을 구하는 3가지 방법 이 글을 읽기 전에 이전에 포스팅한 Bellman Equation을 읽고 본다면 이해가 더 잘될것이다.2024.10.04 - [Data Science/강화학습] - [강화학습] 벨만 방정식 (Bellman equation) [강화학습] 벨만 방정식 (Bellman equation)Bellman Equation  벨만 방정식은 강화학습에서 필요한 가장 중요한 식 중 하나이다.벨만 방적식은 현재 state와 이후 state들의 가치함수 ($  \nu_{\pi }(s), q_{\pi }(s, a) $) 사이의 관계를 식으로 나타낸 것j-codingbox.tistory.com  앞으로 세 포스팅은 위 주제에 관한 내용을 다루어볼 예정이다.최적 정책을 구한다는 것은 강화학습의 궁극..

헤더 반응형으로 만들기 - 모바일 버전 헤더 만들기

헤더 반응형으로 만들기   접속하는 유저들 절반 이상은 모바일 환경에서 접속할 것이다.아시겠지만 모바일 버전에서는 마우스 hover 이펙트가 적용될 수 없다.그리고 화면 픽셀도 다르기 때문에 PC 버전으로 만든 웹을 모바일 환경에서 볼 때 UI가 굉장히 깨져 보일게 된다.그렇기 때문에 모바일 버전, 웹을 반응형으로 만드는 것은 필수라고 생각한다. 반응형으로 헤더를 변경하는 방법은 아래 포스팅으로 정리를 했었다.2024.09.28 - [LAB/LAB 홈페이지 제작] - 헤더 반응형으로 만들기 - React 에서 Tailwindcss 적용 헤더 반응형으로 만들기 - React 에서 Tailwindcss 적용TailwindCss로 반응형 헤더 만들기 내 목표는 교수님 명함에TailwindCss로 반응형 헤더 ..

[강화학습] 벨만 방정식 (Bellman equation)

Bellman Equation  벨만 방정식은 강화학습에서 필요한 가장 중요한 식 중 하나이다.벨만 방적식은 현재 state와 이후 state들의 가치함수 ($  \nu_{\pi }(s), q_{\pi }(s, a) $) 사이의 관계를 식으로 나타낸 것이다.수식은 다음과 같다. 수식이 조금 긴데 차근차근 알아보도록 하자.   State-value function에서의 Bellman Equation $  \nu_{\pi }(s)\doteq E_{\pi }[G_{t}|S_{t}=s] $ $ = E_{\pi }[R_{t+1} + \gamma G_{t+1}|S_{t}=s] $ $ = \sum_{a}^{}\pi (a|s)\sum_{s'}^{}\sum_{r}^{}p(s', r|s, a) [r + \gamma E_{..

[강화학습] 가치함수(Value Function)

Value Function(가치함수) value function(가치함수) : agent가 계산하는 값으로 각 state가 얼마나 가치있는지를 계산하는 함수이다.정책 π를 따를 때, 상태 s로부터 예상되는 장기 보상의 누적값이다.여기서 중요한 점은 "장기 보상의 값"이라는 것이다. 이는 reward(보상)과는 다른 의미이다. Reward : 즉각적인 보상ex) 야구 게임을 할 때 희생 번트를 하는 것은 그 번트를 하는 타자가 1루에서 아웃 될 확률이 매우 높다. 그래서 번트를 하는 action은 낮은 reward를 가지게 될 수 있다. Value Function : 장기적 관점의 누적 보상 (가치 판단)ex) 희생 번트는 reward는 낮을 수 있지만 장기적으로 보았을 때 출루되어있는 선수들이 진로할 수..

[강화학습] 결정론적 vs 확률론적 환경 (Deterministic vs Stochastic Environment)

Deterministic vs Stochastic Environment  이전 포스팅에서는 Policy를 결정론적, 확률론적으로 구분하여 설명했었다.2024.10.02 - [Data Science/강화학습] - [강화학습] 결정론적 vs 확률론적 정책 (Deterministic vs Stochastic Policy) [강화학습] 결정론적 vs 확률론적 정책 (Deterministic vs Stochastic Policy)Deterministic vs Stochastic Policy  이전 포스팅을 읽은 후 이 글을 보면 도움이 될 것이다.2024.09.25 - [Data Science/강화학습] - [강화학습] 강화학습이란? 기초, Overview [강화학습] 강화학습이란? 기초, Overvij-codi..

[강화학습] 결정론적 vs 확률론적 정책 (Deterministic vs Stochastic Policy)

Deterministic vs Stochastic Policy  이전 포스팅을 읽은 후 이 글을 보면 도움이 될 것이다.2024.09.25 - [Data Science/강화학습] - [강화학습] 강화학습이란? 기초, Overview [강화학습] 강화학습이란? 기초, OverviewWhat is Reinforcement Learning? 강화학습의 사전적 정의는순차적 의사결정 문제에서 누적 보상을 최대화 하기 위해 시행착오를 통해 행동을 교정하며 학습하는 과정 이다.처음 이 말을 들었을 때는j-codingbox.tistory.com2024.10.01 - [Data Science/강화학습] - [강화학습] MDP(마르코프) 환경과 동역학(dynamics) [강화학습] MDP(마르코프) 환경과 동역학(dyna..

[강화학습] MDP(마르코프) 환경과 동역학(dynamics)

강화학습은 MDP(Markov Decision Process) 환경에서 적용되는 알고리즘이다  이전 포스팅 참고한 후 글을 읽으면 이해에 도움이 될 것이다.2024.09.25 - [Data Science/강화학습] - [강화학습] 강화학습이란? 기초, Overview [강화학습] 강화학습이란? 기초, OverviewWhat is Reinforcement Learning? 강화학습의 사전적 정의는순차적 의사결정 문제에서 누적 보상을 최대화 하기 위해 시행착오를 통해 행동을 교정하며 학습하는 과정 이다.처음 이 말을 들었을 때는j-codingbox.tistory.com  강화학습은 MDP 환경이 깨지면 더이상의 학습을 이어갈 수 없다.그럼 MDP 환경이란 무엇인가? MDP는 state S 에서 action ..

헤더 반응형으로 만들기 - React 에서 Tailwindcss 적용

TailwindCss로 반응형 헤더 만들기 내 목표는 교수님 명함에TailwindCss로 반응형 헤더 만들기  내 목표는 교수님 명함에 우리 홈페이지 URL이 들어간 QR 코드를 만들어드리는 것이 목표이다.그러기 위해서는 접근성이 좋은 모바일 버전의 웹 UI가 필수이다.반응형으로 만드는것은 꼭 필요한 일이지만 동시에 매우 귀찮은 일이긴 하다.그 중에서 헤더는 반응형이라기 보다는 적응형 웹 개발에 어울리다는 말이 맞는것 같다. PC 버전에서의 헤더는 메뉴들이 일자로 나열되어 있는 경우들이 많다. 화면이 그만큼 여유롭게 크기 때문이다.하지만 모바일 버전은 대부분 햄버거 모양의 이모티콘을 사용한다. 만드는 과정을 포스팅 해보고자 한다.   React 화면 크기 감지 - resize 이벤트 resize 이벤트는..

[강화학습] 강화학습이란? 기초, Overview

What is Reinforcement Learning? 강화학습의 사전적 정의는순차적 의사결정 문제에서 누적 보상을 최대화 하기 위해 시행착오를 통해 행동을 교정하며 학습하는 과정 이다.처음 이 말을 들었을 때는 와닿지가 않을 것이다.그래서 아래 그림과 함께 본다면 이해에 도움이 될것이다. 일단 강화학습은 x값(독립변서), y값(종속변수)이 따로 존재하지 않는다.오직 보상값만 존재하게 된다.이때 보상값이란 인공지능(agent)이 환경(Environment)에서 어떠한 행동(Action)을 했을 때의 결과값을 목표값(Goal)을 기준으로 좋은 action 이었는지, 나쁜 action 이었는지 판단할 수 있는 가중치 라고 할 수 있다. 이 말은 위의 그림을 풀어서 설명한 것과 같다.조금 더 설명을 해보자면..

[강화학습] gymnasium - box2d install 오류 해결

[강화학습] gymnasium - box2d install 오류 해결 * 필자는 Window10 환경에서 gymnasium 라이브러리를 설치했습니다. 강화학습을 위해 gymnasium 라이브러리를 다운로드 중pip install gymnasiumpip install gymnasium[classic-control]pip install gymnasium[box2d] pip install gymnasium[box2d] 에서 오류가 뜰 수 있다.크게 swig 에러, C++ build tool 에러 두 개가 있다.두 오류가 모두 떠본 사람으로서 해당 오류를 트러블슈팅 하고자 한다.   SWIG err Building wheel for box2d-py (setup.py) ... error error: subpr..

728x90
반응형