Reinforcement Learning with TensorFlow & OpenAI Gym
Reinforcement는 다양한 분야에서 쓰는 개념! (강아지 훈련 등)
학습의 본질
1. 우리는 과거 경험으로부터 배운다.
- 아이들이 놀 때 배우고 놀지 않는다.
- 그냥 환경과 직접적인 상호작용을 할 뿐이다.
2. 긍정적인 칭찬과 부정적인 비판이 지금의 우리를 만들었다.
3. Reinforcement learning: 상호작용으로부터 배우는 전산적 접근법(computational approach)
Reinforcement
- Environment 안에 Actor가 있다.
- Actor가 Environment 안에서 action을 할 때마다 환경 속에서의 상태(internal state)가 변하게 된다.
- action을 취하다 보면 보상을 받을 수도 있다.
Reinforcement Learning은 역사가 깊다. (Machine Learning, Tom Mitchell, 1997)
- 이것을 화려하게 부활시킨 것이 딥마인드 관련 논문
- Atari Breakout Game (2013, 2015)
이세돌 선수가 알파고한테 졌었는데 이 때 알파고가 바로 RL의 알고리즘!
구글 데이터센터에서는 열을 식힐 때 딥마인드 AI를 활용한다.
RL을 어디에 적용할 수 있을까?
- 로봇공학: 관절의 움직임을 RL로 제어할 수 있다.
- 비즈니스: 재고관리에 RL 적용 가능
- 재무: 주식을 사고 파는 것도 RL을 적용해서 결정할 수 있다.
- 온라인마켓/미디어: 사용자들에게 보여줄 컨텐츠/광고 결정 가능
누가 이 강의를 들으면 좋은가?
- RL을 공부하고자 하는 의지가 있는 사람
- 수학이나 컴퓨터에 대한 배경지식이 별로 없어도 따라올 수 있도록 강의를 구성하려 한다.
(Q=r+Q 를 이해할 수 있을 정도의 수학실력이면 괜찮다.)
- 블랙박스처럼 RL을 조금 이해하면서 쓰고싶은 사람
- TensorFlow와 Python을 쓰고 싶은 사람
영상 확인: https://www.youtube.com/watch?v=dZ4vw6v3LcA
'영상 리뷰 > 공부·교육 영상 리뷰' 카테고리의 다른 글
홍콩과기대 김성훈 교수님의 OpenAI GYM 게임 실습 (0) | 2023.01.13 |
---|---|
홍콩과기대 김성훈 교수님의 OpenAI GYM 게임 (0) | 2023.01.13 |
정승제가 말하는 명문대를 가면 좋은 이유 (ft. 정승제사생팬) (0) | 2023.01.13 |
빠른 대학원 졸업을 위한 상타 연구논문 주제 (ft. 꾹이TV) (0) | 2023.01.12 |
석사 논문, 박사 논문을 빨리 쓰는 방법 (ft. 연하남-연구하는 남자) (0) | 2023.01.12 |
댓글