'PPO' 태그의 글 목록

Notice

Link

« 2026/08 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Tags more

Archives

Today

Total

관리 메뉴

목록PPO (1)

스택큐힙리스트

강화 학습. PPO를 사용하여 물체 주위를 주행하기

저는 산업용 로봇을 신경망으로 운전할 수 있도록 연구 중입니다. 지금까지는 잘되고 있습니다. OpenAI 기반 PPO 알고리즘을 사용하여, 다음과 같은 보상 전략을 사용하여 쉽게 지점에서 지점으로 주행할 수 있습니다:나는 대상과 위치 사이의 정규화된 거리를 계산합니다. 그리고 그것과의 거리 보상을 계산합니다. rd = 1-(d/dmax)^a각 시간 단계마다, 저는 에이전트에게 계산된 벌칙을 부여합니다. yt = 1-(t/tmax)*ba와 b는 조정해야하는 하이퍼파라미터입니다.내가 말한대로, 이것은 지점에서 지점으로 운전하려면 정말 잘 작동합니다. 하지만 무언가 주위를 돌아다니려면 어떻게 될까요? 제 일상적인 일에서, 충돌을 피하기 위해 물체 주위를 운전해야 할 필요가 있습니다. 물체가 가장 가까운 경로의..

카테고리 없음 2023. 3. 29. 11:50

이전 Prev 1 Next 다음

목록PPO (1)

스택큐힙리스트

티스토리툴바