Deep Reinforcement Learning based Automated UAV Path Planning Model for Worker Safety Monitoring in Construction

Dohyeong Kim; Yuna Jung; Dongmin Lee

doi:10.55785/JCAR.2.4.17

Preview

Research Article

Journal of Construction Automation and Robotics. 29 December 2023. 17-24
https://doi.org/10.55785/JCAR.2.4.17

Deep Reinforcement Learning based Automated UAV Path Planning Model for Worker Safety Monitoring in Construction

건설현장 근로자 안전 모니터링을 위한 심층강화학습 기반 UAV 경로탐색 자동화 모델 개발

Dohyeong Kim¹

Yuna Jung²

Dongmin Lee³^*

김 도형¹

정 윤아²

이 동민³^*

¹Ph. D. Student, School of Architecture & Building Sciences, Chung-Ang University

²Undergraduate Research Student, School of Architecture & Building Sciences, Chung-Ang University

³Corresponding Author, Member, Assistant Professor, School of Architecture & Building Sciences, Chung-Ang University

¹중앙대학교 대학원 건축공학과 박사과정

²중앙대학교 대학원 건축공학과 학부연구생

³교신저자․정회원․중앙대학교 건축공학과 조교수

^{*Corresponding Author}

ABSTRACT

Unmanned aerial vehicles (UAVs) have emerged as an effective solution to address the limitations of labor-intensive safety monitoring at construction sites. However, UAV-based monitoring methods exhibit reduced path-planning efficiency in dynamic construction environments. To overcome this limitation, this study develops an automated UAV path-planning model based on deep reinforcement learning (DRL). The model autonomously learns to navigate towards randomly moving workers while avoiding obstacles in a simulated construction space, employing a reward-punishment system. A case study compares the effectiveness of the proposed model in ever-changing dynamic construction environments with that of a GPS navigation algorithm, similar to existing UAV path-planning approaches. The results demonstrate that the model can identify flight paths to monitor workers more quickly than the GPS navigation algorithm in dynamic environments where workers move randomly. This suggests that DRL-based automated UAV path-planning holds significant potential for the application of UAVs in worker safety monitoring at dynamic construction sites.

Keywords

Construction Safety Monitoring

Unmanned Aerial Vehicle

Deep Reinforcement Learning

Path Planning

최근 UAV 기반의 건설현장 안전 모니터링 방법이 기존 인력 기반 모니터링의 한계점을 해결하는 유용한 대안으로 부상하고 있다. 그러나 UAV 기반 건설현장 안전 모니터링 방법은 동적인 건설 환경에서 경로탐색 효율이 저하한다. 이러한 한계점을 해결하기 위해, 본 연구는 심층강화학습 기반 UAV 경로탐색 자동화 모델을 개발한다. 제안한 모델은 가상의 건설 현장 공간에서 장애물을 회피하며 무작위로 움직이는 근로자를 향한 경로 생성을 자동화하는 방법을 강화학습 내의 보상과 처벌 시스템을 통해 스스로 학습한다. 저자들은 사례 연구를 통해 경로탐색 자동화 모델이 기존 UAV의 경로탐색과 유사한 GPS 내비게이션 알고리즘에 비해 지속적으로 변화하는 동적인 건설 환경 상황에서 더 효과적인 경로탐색을 하는지 비교하였다. 비교 결과, 제안한 모델은 여러명의 근로자가 무작위적으로 움직이는 동적 환경에서 GPS 내비게이션 알고리즘보다 더 빠르게 근로자를 탐색할 수 있는 비행경로를 탐색하고, 모니터링 할 수 있었다. 이는 동적인 건설현장에서 UAV를 근로자 안전 모니터링에 적용함에 있어 심층강화학습 기반의 경로탐색 자동화 모델이 뛰어난 잠재력을 가지고 있음을 시사한다.

키워드

건설 안전 모니터링

무인 비행 장치

심층강화학습

경로탐색

MAIN

1. 연구의 배경 및 목적
2. 선행 연구 조사 및 분석
2.1 기존 건설현장 안전 모니터링 방법
2.2 UAV 기반 건설 안전 모니터링의 잠재력
2.3 심층강화학습을 통한 UAV 경로탐색 자동화
3. 심층강화학습 기반 UAV 경로탐색 자동화 모델 개발
3.1 연구의 목적
3.2 심층강화학습 기반 UAV 경로탐색 자동화 모델 학습 프레임워크
4. 사례 연구
4.1 사례 연구 시나리오
4.2 사례 연구 결과
5. 결 론

1. 연구의 배경 및 목적

우리나라 건설업 사고사망만인율(1만명 당 사고사망자 비율)은 1.75‱로, 전 산업의 사고사망만인율 0.43‱에 비해 4배 이상 높고, 미국(0.97) 일본(0.79) 싱가포르(0.29) 등 주요 선진국과 비교해도 월등히 높다(Ministry of Employment and Labor of South Korea, 2022). 또한, 대부분의 건설 사망사고 형태는 작업절차 기준 미수립, 추락위험방지 미조치, 안전조치 미실시 등 기본적인 안전사고 수칙만 준수했다면 예방할 수 있는 사고로 나타났다(Korea Safety Education Association, 2022). 정부에서는 중대재해 감축 로드맵, 중대 재해 처벌법 시행 등 법 제정을 통해 안전사고 근절 대책에 나섰으나, 그 효과에 대해서는 아직 의견이 다분하다. 근본적으로 건설현장에서 안전사고가 많이 발생하는 이유는, 동적으로 위험요인이 바뀌는 건설현장에서 근로자의 안전의식이 저하되기 때문인데, 현재는 안전관리자가 근로자들을 한명 한명 모니터링하고 문제점을 피드백하거나 아차사고사례를 바탕으로 작업 전 안전 점검회의(Tool Box Meeting, TBM)를 통해 근로자의 안전의식을 높이는 방식을 취하고 있다. 그러나 소수의 안전관리자가 다수의 근로자를 모니터링하는 안전관리 방식은 복잡한 대형 건설현장의 안전사고 예방에는 비효율적이며, 아차사고사례를 매일 아침에 근로자에게 교육하는 방식은 시시각각 변하는 위험요인에 근로자가 유연하게 대처할 수 없는 한계점이 있다.

이러한 인력 위주 근로자 안전 모니터링의 한계점을 극복하기 위해, 최근 무인 비행장치(Unmanned Aerial Vehicle, UAV)를 활용한 건설 안전 모니터링 방법이 새로운 근로자 모니터링 방법의 유용한 대안으로 주목받고 있다. UAV는 카메라 모듈 및 센서 등을 장착하여 실시간으로 현장 내 정보를 수집할 수 있으며, 건설현장의 복잡한 바닥 환경과 주행 장애물을 회피하며 비행할 수 있다. UAV는 현장관리자의 직접적인 현장 방문을 줄여 시간 및 인적 자원 투입을 효과적으로 줄이고, 접근 공간의 제약 없이 근로자 안전 모니터링을 가능하게 할 수단으로서 큰 잠재력을 가지고 있다.

그러나 건설현장 내 수많은 중장비와 근로자들의 움직임은 물론, 매일 진행되고 변화하는 건설현장의 동적인 작업 환경은 높은 수준의 물리적 불확실성을 초래하며, 이는 때때로 UAV 운용에 있어 걸림돌이 된다. 현재 대한민국 내 건설현장에서의 UAV 운용은 초경량 비행장치 조종자 증명서를 보유한 관리자가 직접 조종하도록 규정하고 있는데(Ryu and Kim, 2022), 조종자는 건설현장의 환경을 직접 확인하고 장애물(벽, 기둥, 임시 구조물 등)을 인지하며 UAV 경로를 탐색해야 한다. 이에 따라, 여전히 UAV를 이용해 근로자의 안전을 모니터링하는 것은 노동 집약적이고, 많은 시간과 노력을 요구한다. 따라서, 건설현장의 환경을 스스로 인지하여 UAV의 경로를 자동으로 탐색할 수 있는 기술이 근로자의 안전 모니터링을 위해서 필요하다.

현재 UAV의 경로탐색 및 자율주행과 관련된 연구들은 UAV에 부착된 LiDAR(Light Detection and Ranging)를 통해 주변 장애물을 인지하고, GPS(Global Positioning System) 정보를 바탕으로 현 위치를 파악한 후, 목적지까지의 최단 경로를 탐색하는 접근법을 사용한다. 그러나 이러한 기존 접근법들은 건설현장에 존재하는, 예측이 어렵고 다변성을 가진 장애물(예: 근로자, 이동하는 건설장비, 또 다른 UAV, 가설시설물 등)이 있을 시 경로탐색의 효율이 크게 하락한다. 따라서, 동적인 건설현장의 환경을 이해하고 최적의 비행경로를 자동으로 탐색하는 ‘UAV 경로탐색 자동화 알고리즘’의 개발이 필요하다.

본 연구의 목적은 UAV의 근로자 안전 모니터링을 위한 경로탐색 자동화를 위해 심층강화학습(Deep Reinforcement Learning) 기법의 잠재력을 평가하는 것이다. 강화학습(Reinforcement Learning)은 에이전트(agent)가 현재의 상태를 인식하여 스스로 선택할 수 있는 행동 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 기계학습(Machine Learning) 방법론 중 하나이다. 심층강화학습은 기존 강화학습에 대규모 데이터에서 복잡한 패턴을 학습시키기 위해 심층학습(Deep Learning)을 결합한 방식이다. UAV의 경로탐색 자동화에 심층강화학습을 적용하기 위해서는 가상의 시뮬레이션 환경이 필요하며, 본 연구에서는 인간 근로자 객체가 무작위로 이동하는 가상의 동적 건설현장 환경을 Unity를 활용하여 구현하였다. 그러한 가상의 건설현장 환경에 LiDAR 센서가 부착된 가상의 UAV를 배치 시킨 후, UAV가 동적 건설현장 환경 내에서 다양한 비행경로를 탐색하고 학습하면서 스스로 최적의 비행 전략(예: 최적 비행경로탐색, 장애물의 실시간 탐지 및 회피, 목표 위치 인식)을 학습할 수 있는지 테스트하였다.

2. 선행 연구 조사 및 분석

2.1 기존 건설현장 안전 모니터링 방법

건설 프로젝트에서 현장 안전 모니터링은 안전관리자가 현장을 돌아다니면서 근로자의 안전 규정 준수 여부 등을 직접 모니터링하고, 파악된 안전 문제를 일대일로 피드백하거나, TBM 시 아차사고를 바탕으로 일대다수 형태로 피드백하는 것이 일반적이다. 그러나 이러한 인력 위주의 안전 모니터링은 1) 현장 사무실로부터 멀리 떨어진 작업 장소, 2) 건설현장의 큰 규모, 3) 매일 변화하는 안전 위험 요인, 4) 인력 접근이 어려운 장소, 5) 부족한 안전관리 인력 등의 문제로 인해 한계점에 부딪히곤 한다(Levitt and Samelson, 1993; Fang et al., 2018).

이러한 인력 위주의 현장 안전관리에 대응하고자 건설현장에서 CCTV(Closed Circuit Television)를 활용하여 원격으로 현장의 안전 상태를 파악하고자 하는 노력이 지속되고 있으나, CCTV는 그 촬영 위치가 고정되어, 시시각각 변하는 현장 상황 속에서 모니터링 대상이 CCTV의 시야각 밖에 있을 시 모니터링이 불가능한 문제가 있다(Lee et al., 2018).

한편, 근로자 안전 모니터링을 위해 UWB(Ultra-wideband) (Pittokopiti and Grammenos, 2019) 및 관성측정장치(IMU, Inertial Measurement Unit) (Khan et al., 2021) 등의 센서를 활용한 사례도 있었다. 그러나 설치 및 모니터링 비용의 증가와 더불어, 장치를 근로자의 몸에 부착하여 관리해야 하는 문제가 있었다. 이에 따라, 근로자들이 그 번거로움과 불편함을 이유로 그 사용을 꺼린다는 현실적인 한계가 있었다(Kim et al., 2019). 따라서, 작업 근로자의 작업을 방해하지 않으면서도 현장의 다양한 위험 상황을 모니터링할 수 있는 효과적인 안전 모니터링 수단이 필요하다.

2.2 UAV 기반 건설 안전 모니터링의 잠재력

Irizarry et al.(2012)의 연구는 UAV가 현장을 비행하면서 안전관리자에게 실시간으로 현장 내 벌어지는 상황이 담긴 사진 및 동영상 저장물을 제공하는 방법을 연구하였다. Alizadehsalehi et al.(2018)의 연구는 한발 더 나아가, BIM(Building Information Modelling)을 통해 사전 파악된 현장 내 잠재위험에 대해 UAV가 실시간으로 사진 및 동영상을 전송, 안전 상태를 파악하는 방법론을 제안하였다. 이와 더불어, Yu et al.(2023)의 연구는 Point Cloud 기반의 현장 환경 모델을 토대로 현장 안전을 모니터링하기 위한 UAV의 최적 비행경로를 수립하는 방법론을 제시하였다.

그러나 이러한 방법론들은 지속해서 변화하는 동적인 건설현장 환경에 적용되기 어렵다는 한계가 있다. Irizarry et al.(2012)의 연구 및 Alizadehsalehi et al.(2018)의 연구는 현장 내 안전 상태를 UAV로 모니터링하기 위해 UAV를 조종하기 위한 인력이 필요하다는 한계가 있으며, Yu et al.(2023)의 UAV 최적 비행경로 수립은 Point Cloud 현장 환경 모델을 기반으로 하고 있어, 현장 환경이 변화하면 모델의 재구축이 오래 걸리며, 이에 따라 현장 환경의 변화에 따른 현장 내 안전 변화를 적시에 모니터링하기 어렵다는 한계가 있다. 즉, UAV를 통해 건설현장 내 안전 모니터링을 지속적으로 수행하기 위해서는 조종인력의 필요성을 대체할 수 있는 자율비행 기술과 더불어, UAV가 동적인 건설현장 환경에서도 빠르게 비행경로를 스스로 탐색할 수 있어야 한다.

2.3 심층강화학습을 통한 UAV 경로탐색 자동화

최근 딥러닝(Deep Learning) 기술이 UAV의 자율비행과 자율 경로탐색의 수단으로서 잠재력을 인정받는다. 딥러닝은 크게 감독 학습(Supervised Learning), 비감독 학습(Unsupervised Learning), 그리고 강화학습으로 나뉠 수 있으며, 이 중 감독 학습이 UAV의 자율비행 경로탐색을 위해 활발히 사용되고 있다. 감독 학습은 실험 환경에서 최적의 비행을 보여주는 조종사의 비행 방식을 모방함으로써, 인공지능(AI, Artificial Intelligence) 모델이 비행 방법을 배울 수 있다. 이 접근 방식은 모방 학습(Imitation Learning) 또는 행동 복제(Behavior Cloning)로도 알려져 있다.

그러나 AI 모델이 참조할 수 있는 최적의 비행 데이터셋을 구축하기 위해서는 제어된 비행 환경의 구축 및 많은 테스트 비행이 선행되어야 한다. 그러나 공정 변화에 따라 물리적 환경이 시시각각 변화하는 건설현장에서는 충분한 비행 데이터셋을 구축하기 어려워 모방 학습을 건설 현장의 UAV 경로탐색에 활용하기는 어렵다.

이에, 강화학습은 건설현장 환경 내에서 UAV의 경로탐색 자동화를 위한 유용한 접근법이 될 수 있다. 강화학습은 에이전트가 환경과 상호작용하며 얻어진 데이터를 토대로 자신의 현재 상태를 파악하고, 이를 기반으로 취할 수 있는 행동(action) 중 보상(reward)을 극대화하는 방향으로 행동 혹은 그 순서를 취사선택하는 순차적 의사 결정을 위한 방법이다. 이 접근 방식은 선행 지식의 유무와 관계없이 미지의 환경에서 시행착오를 통해 각 상황에서 행동에 대한 보상 또는 처벌을 통해 행동의 가치(value)를 학습하며, 각 상황에서 목표를 달성하기 위해 취해야 할 행동을 지속적으로 결정하는 특성을 가진다. 결과적으로, 강화학습을 통해 학습한 AI 모델은 사전 정의된 규칙, 경로, 행동에 기반한 움직임이 아닌 목표를 달성하기 위해 각 상황에서 취할 행동을 지속해서 결정함으로써 갑작스러운 변수를 상대로 일반적으로 더 나은 적응성을 보인다.

심층강화학습(Deep Reinforcement Learning, DRL)은 기존 강화학습에 심층학습(Deep Learning)을 결합한 방법론을 의미한다. 즉, DRL은 강화학습에 대규모 데이터셋으로부터 복잡한 패턴을 학습할 수 있는 인공 심층신경망을 적용한 것으로, 데이터셋으로부터 학습한 패턴들은 policy(정책) 네트워크 및 가치 함수(value function) 네트워크 등의 심층신경망의 형태로 모델링되어 구축된다. 이는 연속적이고 고차원적인 상태 공간에서 특히 유용하며, 공간 내에서 지속적으로 위치, 속도, 목적지가 변화하는 자율주행 등에 특히 유용하다. 이러한 특성에 따라, 지속적으로 변화하고 많은 변수를 가지고 있는 건설현장 내에서 UAV의 다양한 경로를 탐색하고 최적의 경로를 찾아내는 것이 DRL을 통해 가능할 것으로 판단된다. 그러나 동적인 건설현장의 환경 생성의 어려움과 강화학습 모델 연동의 어려움으로 인해 아직 건설분야에서 DRL을 이용한 UAV의 경로탐색 연구는 거의 진행되지 않았다.

3. 심층강화학습 기반 UAV 경로탐색 자동화 모델 개발

3.1 연구의 목적

본 연구의 목적은 UAV가 건설현장 환경을 인지하며 자율 비행할 수 있도록 DRL 기반의 UAV 경로탐색 자동화 모델을 제안하고 테스트하는 것이다. 본 연구의 범위는, 단순화된 건설 안전모니터링 시나리오에서 DRL 접근법이 UAV의 자율비행에 도움을 줄 수 있는지 그 잠재력을 평가해보는 것이다. 특히, 움직이는 근로자들, 변화하는 환경, 그리고 다수의 목표 지점을 통과해야 하는 목표를 주었을 때, UAV의 최적 비행경로를 탐색할 수 있는지 평가해보고자 하며, 기존 UAV 기반 건설 안전 모니터링 연구들과 유사한 경로탐색 방법인 GPS 내비게이션 알고리즘과 비교하여 그 성능을 평가해보고자 하였다.

3.2 심층강화학습 기반 UAV 경로탐색 자동화 모델 학습 프레임워크

본 연구는 건설현장 근로자 안전 모니터링을 위한 UAV 경로탐색 자동화 모델을 게임엔진 기반 DRL 환경을 통해 학습시키는 프레임워크(Fig. 1)를 제안한다.

본 프레임워크는 Unity 게임 엔진을 기반으로 작성되었다. Unity는 가상환경에서 인터랙티브 콘텐츠를 만들기 위한 게임 엔진으로, DRL 환경 구축을 위한 Unity Machine Learning Agent Toolkit(ML-Agents)을 제공한다. 이러한 게임엔진 및 툴킷을 통해, 제안하는 프레임워크는 다음과 같이 구성된다: ML-Agents를 통한 DRL 환경의 생성(Fig. 1-A), DRL 기반 UAV 경로탐색 자동화 모델의 훈련(Fig. 1-B).

https://cdn.apub.kr/journalsite/sites/ksarc/2023-002-04/N0410020402/images/ksarc_02_04_02_F1.jpg

Figure 1.

Framework for the DRL-based automated UAV path planning model training for worker safety monitoring

3.2.1 심층강화학습 환경의 생성

Unity는 DRL에 사용되는 물리적 객체로서 1) 무작위로 이동하는 근로자들, 2) 건설현장을 모방한 장애물, 3) 학습의 대상(Agent)인 UAV를 가상환경 속에 3D 모델로 구현한다.

또한, Unity로 구현된 가상 3D 모델에서 DRL을 수행하기 위한 학습시나리오(training scenarios)가 설정되었다. 학습시나리오는 UAV를 통한 건설현장 근로자 안전 모니터링 시나리오를 단순화 한 것으로, 1) 근로자는 현장 내에서 무작위로 움직임, 2) UAV는 LiDAR 센서를 통해 주변 환경을 인지하며 근로자를 찾아다님, 3) UAV는 근로자를 찾으면 촬영 후 다른 근로자를 찾아 나섬, 3단계로 구성되었다.

더불어, 건설현장의 무작위적인 동적 환경을 구현하기 위해, 근로자들의 속도 및 방향과 관련된 변수(variables)들이 무작위로 변화하도록 구성하였다.

이렇게 구성된 가상 3D 모델과 학습시나리오, 변수들은 Unity를 통해 3D 시뮬레이션 환경으로 재구축된다. 또한, ML-Agents는 이렇게 구축된 3D 시뮬레이션 환경상에서 행해지는 객체들 간의 상호작용 과정에서 DRL을 수행한다.

3.2.2 심층강화학습 환경

3D 시뮬레이션과 ML-Agents를 통해 구축된 DRL 환경은 1) 학습의 대상(agent)인 가상 자율비행의 객체인 UAV, 그리고 2) agent를 둘러싼 가상 3D 건설현장 환경(environment)으로 이루어져 있다.

DRL에서 agent가 수행하기 위한 action을 선택하는 규칙인 policy는, 그 최적화된 값을 찾기 위해 1) value 기반 알고리즘과 2) policy 기반 알고리즘으로 나뉜다. 본 연구에서는 policy 기반 알고리즘 중 하나인 PPO(Proximal Policy Optimization) 알고리즘을 사용한다. PPO 알고리즘은 agent가 환경과의 상호작용을 통해 학습하며 최적의 policy를 찾아가는 데 사용된다. PPO 알고리즘은 policy 업데이트를 제한하는 클리핑 기능을 사용, 에피소드의 수행에 따라 학습을 점진적으로 이루어지게 하여 학습의 안정성과 효율성을 높인다. 이에 따라 PPO 알고리즘은 자율주행 및 자율비행 등의 도메인에서 높은 성능과 낮은 계산 복잡성을 보이며 널리 사용된다(Shim et al., 2018; Jung, 2020).

본 연구 또한 PPO 알고리즘을 기반으로, 건설현장 근로자 안전 모니터링을 위한 경로탐색 자동화를 구현하기 위해 Fig. 2와 같은 DRL 시나리오를 구성하였다. 먼저, agent는 가상의 LiDAR 센서를 통해 주변 객체를 탐색한다(Fig. 2-state(s)). LiDAR 센서를 통한 주변 객체 탐색을 제외하고, agent는 장애물 및 목표 근로자의 위치를 알 수 없다. 이를 통해 agent는 특정 시점에서 인지할 수 있는 주변 환경의 정보집합인 state를 부여받는다. 이 state는 UAV의 방향, 속도, 주변 객체들과의 거리 등 정보의 집합이다.

https://cdn.apub.kr/journalsite/sites/ksarc/2023-002-04/N0410020402/images/ksarc_02_04_02_F2.jpg

Figure 2.

DRL scenarios in the virtual 3D environment

Agent는 또한 state를 기반으로 reward를 부여받게 된다. Agent는 UAV와 주변 장애물과의 거리가 가까우면 벌점을 부여받으며(negative reward), 만일 UAV와 장애물 간에 충돌이 발생하였다면(즉, 거리가 0이 된다면) DRL 에피소드가 종료되고 최대 벌점이 부과된다. 반대로, UAV가 모니터링 대상인 근로자와 상호작용 할 수 있을 정도로 가깝다면 UAV는 정지하여 해당 근로자와 상호작용한다. 해당 상호작용은 안전 모니터링을 단순화한 것으로, UAV가 모든 근로자와 상호작용을 마치면 에피소드가 종료되고, agent는 이에 걸린 시간과 반비례하여 보상을 받는다(positive reward). 에피소드가 끝난 후, 해당 에피소드에서 얻은 보상과 벌점은 합산되며, agent는 다음 에피소드 진행 시 더 나은 보상을 얻을 수 있는 방향으로 policy 네트워크와 가치 함수 네트워크를 업데이트한다.

이러한 에피소드가 누적됨에 따라 agent는 최상의 reward를 얻을 수 있는 최적의 policy, 즉 현장 내 장애물들을 회피하며 모든 근로자를 안전 모니터링할 수 있는 최적의 비행경로를 탐색할 수 있는 방향으로 학습된다.

4. 사례 연구

개발된 DRL 기반 UAV 경로탐색 자동화 모델이 지속적으로 변화하고 동적인 건설현장 상황에서 뛰어난 적응성을 보여준다는 것을 보여주기 위해, 이 모델과 기존 경로탐색 알고리즘(내비게이션 알고리즘)을 동적인 건설현장 환경에서 경로탐색 성능을 비교하였다.

비교를 위해 사용한 내비게이션 알고리즘은 개발 모델과 달리 목표(근로자)의 GPS 위치와 목표와의 거리를 실시간으로 제공받으며, Unity의 경로탐색 모듈인 NavMesh를 통해 주위 지형을 분석하여 agent로부터 목표까지의 경로를 실시간으로 분석하여 agent에 제공한다. 이는 기존 UAV 기반 현장 안전 모니터링 연구들이 모니터링 대상의 위치를 사전에 및 실시간으로 인지하고 모니터링을 수행하는 것과 유사한 방식으로, UAV 기반 현장 안전 모니터링에 있어 개발한 모델과 기존 연구를 비교하기 적합하기에 사용하였다.

4.1 사례 연구 시나리오

본 사례 연구는 실제 건설현장에서 UAV가 자동화된 경로탐색 수행 시 직면하는 도전을 시뮬레이션하는 환경을 만들고자 하였으며, 동시에 근로자의 움직임과 장애물의 배치와 같은 변수들을 제어하고자 하였다. 먼저 동적인 건설현장 환경의 구축을 위해, 평지 상에 구조체를 만들고, 이를 13개의 벽체로 공간을 구분함과 동시에 장애물로서 기능하도록 하였다. 해당 구조체 상에 11명의 근로자 모델을 배치하였으며, 근로자들은 스크립트에 따라 무작위로 움직인다. 상세히는, 근로자들은 2초마다 또는 벽(장애물)에 충돌할 때마다 무작위로 방향을 바꿔 전진한다. 이를 통해 건설현장 내 환경에 무작위성을 부여하며, 추가적으로 근로자들의 움직임 속도를 다양하게 실험하여 환경의 무작위성이 증가함에 따라 UAV의 자율적인 경로탐색의 성능을 관찰하였다.

3.2.2장에서 설명한 시나리오에 따라, DRL 학습 시 agent는 장애물과 충돌하면 negative reward(‑3)를 받고 에피소드가 종료되며, 모니터링 목표에 도달하면 positive reward(+5)를 받는다. 또한, agent는 가장 가까운 목표를 기준으로 그 거리에 반비례한 positive reward를 받으며, 역시 장애물과의 거리에 반비례한 negative reward를 받는다. 모든 목적지에 도달하면 에피소드가 종료되고, 총 보상에 따라 policy 네트워크 및 가치 함수 네트워크가 업데이트된다.

DRL로 훈련된 시스템의 성능을 평가하기 위해, 1) DRL로 훈련된 경로탐색 자동화 모델과 2) GPS 내비게이션 알고리즘이 동일 환경에서 6m/s의 속도로 비행하는 agent가 환경 내 모든 11명의 근로자에 도달하는 데 걸리는 시간이 측정된다. 제안한 경로탐색 자동화 모델의 주위 환경의 무작위적인 변화에 대한 적응성과 반응성을 테스트하기 위해, 사례 연구는 근로자의 속도 및 진행 방향의 변화(variables)는 1) 2m/s의 근로자 속도와 2초마다 변화하는 진행 방향(Scenario 1), 2) 4m/s의 근로자 속도와 2초마다 변화하는 진행 방향(Scenario 2), 3) 8m/s의 근로자 속도와 0.5초마다 변화하는 진행 방향(Scenario 3), 3가지 시나리오에 근거하여 수행되었다.

4.2 사례 연구 결과

Table 1은 개발된 DRL 환경을 통해 훈련된 경로탐색 자동화 모델이 탑재된 UAV Agent(RLU)와 GPS 내비게이션이 탑재된 UAV agent(GNU)가 3가지 시나리오를 각각 10번씩 수행한 결과이다.

Table 1.

Case study results

	Scenario 1		Scenario 2		Scenario 3
	Flight time for finishing an episode
	RLU	GNU	RLU	GNU	RLU	GNU
1st	1m 21s	1m 29s	29s	1m 12s	38s	1m 44s
2nd	1m 16s	1m 25s	41s	1m 18s	44s	1m 8s
3rd	1m 18s	1m 34s	42s	45s	35s	1m 18s
4th	2m 37s	1m 21s	51s	1m 3s	29s	1m 23s
5th	1m 26s	1m 54s	47s	58s	53s	1m 12s
6th	1m 40s	1m 26s	32s	1m 6s	29s	1m 27s
7th	1m 7s	1m 19s	38s	1m 1s	40s	1m 16s
8th	1m 16s	1m 29s	35s	52s	47s	1m 31s
9th	1m 11s	1m 33s	47s	1m 16s	36s	1m 27s
10th	1m 8s	1m 37s	39s	1m 5s	44s	1m 29s
Mean value	1m 26s	1m 31s	40.5s	1m 4s	39.5s	1m 25s

시나리오의 종료에 걸리는 시간의 평균값(mean value)에 있어, Scenario 1의 경우 RLU는 GNU보다 5초 빠른 소요 시간을 보여주었으며(4.1% 향상), Scenario 2는 23.5초 빠른 소요 시간을 보여주었다(36.9% 향상). 특히 Scenario 3에서 RLU는 평균 39.5초의 소요 시간, GNU는 평균 1분 25초의 소요 시간을 보여주며(52.7% 향상), RLU와 GNU는 평균 두 배 이상의 소요 시간 차이를 보여주었다. 이를 통해, 현장의 무작위성이 올라갈수록 RLU는 GNU보다 모니터링 속도가 향상되는 경향을 파악할 수 있었다.

이러한 사례 연구 결과는, 기존의 GPS 내비게이션이 아닌, DRL에 기반한 인공지능 AI가 탑재된 UAV가 무작위적이고 동적인 건설현장 내 근로자 모니터링에 필요한 자동화된 경로탐색 수행에 있어 더욱 효과적인 것을 보여주었다 할 수 있다.

5. 결 론

본 연구는 건설현장 내 근로자 안전 모니터링에 있어, UAV의 완전 자동화된 경로탐색이라는 목표에 있어, 게임엔진을 사용한 DRL을 통해 경로탐색 자동화 모델을 훈련하는 시스템을 제안하였다. 또한, 사례 연구를 통해 DRL을 통해 훈련된 인공지능 AI는 기존의 GPS 기반 내비게이션보다 지속적으로 변화하고 동적인 건설현장 상황에서 주위 상황을 파악하고 안전 모니터링을 수행하기 위한 최적의 비행경로를 찾는데 더 뛰어난 적응성을 보여줌을 가상환경에서의 여러 시나리오를 통해 보여주었다. 이를 통해, 건설현장에서 UAV를 근로자 안전 모니터링에 적용하기 위해 제기된 문제들, 예를 들어 사전에 결정되어야 하는 경로와 불완전한 자율주행 등을 해결하는 데 DRL 기반의 경로탐색 자동화 모델이 뛰어난 잠재력을 가지고 있음을 보였다.

본 연구가 제안한 근로자 안전 모니터링을 위한 UAV의 자동화된 경로탐색은, 현장에서 사진, 영상, 센서 등의 정보를 수집하기 위한 방법론이며, 이러한 수집된 정보의 분석은 여전히 안전관리자의 몫이라는 한계가 있다. 만일 이렇게 수집된 정보가 정보를 자동으로 분석하는 연구와 결합되면 더욱 막대한 파급력을 가져올 수 있다. 가령, 컴퓨터 비전 기술은 현장으로부터 얻어진 영상을 자동으로 분석하여 정보를 얻어낼 수 있어 최근 주목받고 있으며, 실제 현장 적용 단계에 있다. Khan et al.(2023)이 제안한 연구는 컴퓨터 비전을 통해 현장 영상을 분석하여 안전수칙 준수 여부를 판단하고 안전 상태를 파악하는 방법론을 보여주었다. 만일 이러한 방법론이 자동화된 UAV와 결합될 경우, UAV를 통해 수집된 영상은 컴퓨터 비전 기술을 통해 자동적으로 분석되어 인간의 개입 없이 현장 안전 상태의 모니터링을 완전히 자동화할 수 있을 것이다.

본 연구는 Unity 게임엔진 내 가상 3D 환경 내에서만 학습 및 사례 연구를 진행하였다. 이는 현장 내 LiDAR 센서를 통해 감지하기 힘든 장애물, UAV의 비행에 영향을 미칠 정도의 강풍, 너무 빠른 객체 등의 예기치 못한 문제들이 존재하지 않는 통제된 시뮬레이션 환경에서만 수행되었음을 의미한다. 따라서 실제 UAV에 개발된 자동화 경로탐색 인공지능 AI를 적용하기 위해서는 실제 건설현장 환경에서의 테스트 및 이를 통한 학습 과정의 개선이 이루어져야 할 것이다. 이를 위해선 Ubuntu ROS 및 Gazebo와 같이 실제 UAV 모듈에 인공지능 모델을 탑재하기 위한 기술적 방법론들이 수반되어야 한다.

더불어, 시뮬레이션 환경에서 UAV의 비행은 비행 고도가 고려되지 않았으며, 근로자 안전 모니터링을 수행하기 위한 사진 또는 동영상의 촬영은 근접 상호작용으로 단순화되었다. 따라서 실제 UAV를 통한 근로자 안전 모니터링과의 reality gap을 줄이기 위해, 이후 연구는 UAV의 항공역학적 움직임과 안전 모니터링 수행을 위한 더욱 복잡한 과정 등을 추가적으로 고려하고자 한다. 또한, 비행 고도의 고려는 필연적으로 건축물에 존재하는 층간 이동의 필요성으로 이어지며, 따라서 하나의 UAV로 별개의 층을 층간 이동하며 모니터링 하기 위해서는 층간 이동을 수행할 수 있는 방법론에 관한 추가적인 연구가 필요하다.

Acknowledgements

이 연구는 2023년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(2022R1G1A1012897, No. RS-2023-00217322).

References

Alizadehsalehi, S., Yitmen, I., Celik, T., and Arditi, D. (2018). The effectiveness of an integrated BIM/UAV model in managing safety on construction sites. International Journal of Occupational Safety and Ergonomics, 26, pp. 829-844. 10.1080/10803548.2018.150448730043680

Fang, W., Ding, L., and Luo, P. E. D. H. (2018). Falls from heights: A computer vision-based approach for safety harness detection. Automation in Construction, 91, pp. 53-61. 10.1016/j.autcon.2018.02.018

Irizarry, J., Gheisari, M., and Walker, B. N. (2012). Usability assessment of drone technology as safety inspection tools. Journal of Information Technology in Construction. 17(12), pp. 194-212.

Jung, W. (2020). Build reinforcement learning AI process for cooperative play with users. Journal of Korea Game Society, 20(1), pp. 57-66. 10.7583/JKGS.2020.20.1.57

Khan, M., Khalid, R., Anjum, S., Khan, N., and Park, C. (2021). IMU based smart safety hook for fall prevention at construction sites. 2021 IEEE Region 10 Symposium, Jeju, Korea, pp. 1-6. 10.1109/TENSYMP52854.2021.9550944

Khan, N., Zaidi, S. F. A., Yang, J., Park, C., and Lee, D. (2023). Construction work-stage-based rule compliance monitoring framework using computer vision (CV) technology. Buildings, 13(8), 2093 p. 10.3390/buildings13082093

Kim, D., Liu, M., Lee, S., and Kamat, V. R. (2019). Remote proximity monitoring between mobile construction resources using camera- mounted UAVs. Automation in Construction, 99, pp. 168-182. 10.1016/j.autcon.2018.12.014

Korea Safety Education Association. (2022). Let's learn about safety rules at construction sites. [Korea Safety Education Association]. Naver Blog, https://post.naver.com/viewer/postView.naver?volumeNo=34163402&memberNo=19462446 (Accessed November 16, 2023)

Lee, J. H., Park, J. H., and Jang, B. T. (2018). Design of robot based work progress monitoring system for the building construction site. International Conference on Information and Communication Technology Convergence (ICTC), Jeju, Korea, pp. 1420-1422. 10.1109/ICTC.2018.8539444

Levitt, R., and Samelson, N. (1993). Construction safety management (Second edition). John Wiley & Sons, New York. pp. 23-44.

Ministry of Employment and Labor of South Korea. (2022). Announcement of the status of industrial accident deaths in 2021. Press release (March 15). https://www.moel.go.kr/common/downloadFile.do?file_seq=20220301130&bbs_seq=13330&bbs_id=12 (Accessed November 11, 2023).

Pittokopiti, M., and Grammenos, R. (2019). Infrastructureless UWB based collision avoidance system for the safety of construction workers. 2019 26th International Conference on Telecommunications (ICT), Hanoi, Vietnam, pp. 490-495. 10.1109/ICT.2019.8798845

Ryu, U., and Kim, Y. (2022). A study on the dual control platform for drone field training. Journal of Platform Technology, 10(2), pp. 20-26.

Shim, W. I., Park, T. H., and Kim, K. J. (2018). Comparison of policy optimization reinforcement learning for simulated autonomous car environment. Proceedings of the Korean Society of Information Sciences, pp. 833-835.

Yu, L., Huang, M. M., Jiang, S., Wang, C., and Wu, M. (2023). Unmanned aircraft path planning for construction safety inspections. Automation in Construction, 154(105005), pp. 1-19. 10.1016/j.autcon.2023.105005

Journal of Construction Automation and Robotics ISSN:2800-0552(Print) 2951-116X(Online) 건설자동화·로보틱스 논문집

Preview

Deep Reinforcement Learning based Automated UAV Path Planning Model for Worker Safety Monitoring in Construction

ABSTRACT

MAIN

Figure 1.

Framework for the DRL-based automated UAV path planning model training for worker safety monitoring

Figure 2.

DRL scenarios in the virtual 3D environment

Table 1.

Case study results

Acknowledgements

References