반응형
Notice
Link
목록PPO (1)
스택큐힙리스트
강화 학습. PPO를 사용하여 물체 주위를 주행하기
저는 산업용 로봇을 신경망으로 운전할 수 있도록 연구 중입니다. 지금까지는 잘되고 있습니다. OpenAI 기반 PPO 알고리즘을 사용하여, 다음과 같은 보상 전략을 사용하여 쉽게 지점에서 지점으로 주행할 수 있습니다:나는 대상과 위치 사이의 정규화된 거리를 계산합니다. 그리고 그것과의 거리 보상을 계산합니다. rd = 1-(d/dmax)^a각 시간 단계마다, 저는 에이전트에게 계산된 벌칙을 부여합니다. yt = 1-(t/tmax)*ba와 b는 조정해야하는 하이퍼파라미터입니다.내가 말한대로, 이것은 지점에서 지점으로 운전하려면 정말 잘 작동합니다. 하지만 무언가 주위를 돌아다니려면 어떻게 될까요? 제 일상적인 일에서, 충돌을 피하기 위해 물체 주위를 운전해야 할 필요가 있습니다. 물체가 가장 가까운 경로의..
카테고리 없음
2023. 3. 29. 11:50