4차 산업기술은 다양한 분야의 산업 프로세스 최적화, 로봇 및 자동화 시스템을 이용한 무인화 등에 있어서 핵심적인 역할을 해 오고 있으며, AI(Artificial Intelligence)는 4차 산업 기술 중 가장 대표적인 핵심어라 할 수 있다. 국내외 환경 분야에서도 이러한 시대적 흐름에 맞춰 4차 산업형 기술을 적용해 환경 모니터링 및 관리, 지능형 서비스 제공, 새로운 형태의 가치 창출 등이 추진되고 있다. 우리나라도 인공지능, 사물인터넷, 빅데이터와 같은 4차 산업혁명의 핵심 기술들을 환경 분야에 적극적으로 접목하고 있으며, 환경부는 △빅데이터 △IoT △AI △드론 기술을 바탕으로 데이터 통합, 예측 기반의 환경관리 효율화, 모니터링 고도화를 추진하고 있다. 또한 탄소중립 실현과 정온한 환경 추구라는 새로운 형태의 사회적 요구에 따라 많은 기업에서 ESG 경영 또한 추구하고 있다.
그러나 사회경제적으로 매우 민감할 수 있는 환경 분야에 있어서는, 응용하고자 하는 분야에 대한 전문적 지식(도메인 지식)과 융합되지 않고 단순하게 적용되는 AI 기술은 자칫 잘못된 결정으로 귀결될 위험이 있다. 특히 정제되지 않은 데이터가 사용될 경우 이러한 현상이 심화될 수 있는데, 이는 데이터의 면밀한 분석과 전처리(preprocessing)의 필요성을 강조하는 데이터 중심의 AI 개발이 4차 산업기술 응용에 필수적이라는 것을 의미한다. AI 연구의 대가로 알려진 앤드류 응(Andrew Ng) 스탠포드대 교수는 모델 중심의 AI(Model-Centric AI)에서 데이터 중심의 AI(Data-Centric AI)로 나아가야 하는 것을 강조하면서 모델 기반의 AI는 한계가 있음을 강조하였다. 모델 중심의 AI(Model-Centric AI)란 데이터를 최대한 수집한 후 고정된 데이터 속에서 모델을 개선하는 방식인 반면, 데이터 중심의 AI(Data-Centric AI)란 고정된 모델에서 데이터를 지속적으로 보정하는 방식이다. 4차 산업형 스마트 기술은 빅데이터와 같은 대량의 데이터가 존재하고 이를 활용할 수 있는 분야에서 먼저 발전해 왔다. 그러나 데이터 중심의 AI(Data-Centric AI) 관점에서는 단순한 대량의 데이터보다는 양질의 데이터가 성능 개선에 더욱 효율적이라는 것이 입증되고 있다. 일례로 철강산업에서 불량품 선별을 위해 AI를 적용해 테스트한 결과, 초기 정확도 76.2%에서 모델 중심의 AI(Model-Centric AI)는 성능 개선에 실패하였으나 데이터 중심의 AI(Data-Centric AI)는 정확도를 93.1%로 크게 향상했다.
양질의 데이터란 머신러닝에 적절하게 사용될 수 있는 형태로 중요한 현상에 대한 특이적인 정보를 포함하며 적절한 크기로 수집된 데이터를 말한다. 따라서 데이터를 정확하게 이해하고 신뢰성 높은 데이터 분석을 위해 도메인 지식의 함양이 필수적이라 할 수 있다. AI 모델을 개발하기 위해서는 데이터 수집부터 전처리, 모델 설계 그리고 학습 및 평가 등 여러 과정을 거쳐야 하는데 단계별로 도메인 지식이 기반이 돼 수행돼야 활용성과 정확도를 향상할 수 있다.
많은 환경 기술 분야는 자연환경에 그대로 노출된 경우가 대부분이고 지역적인 환경 특성으로 인해, 측정되는 데이터의 형태가 복잡하고 큰 변폭을 나타내는 특징으로 인해 양질의 데이터 축적이 어려운 경우가 많다. 그러나 이는 역설적으로 다양한 문제점 해결을 위한 기술개발 및 산업 발전에 기여할 수 있는 환경을 제공할 수 있는 블루오션 분야라고 사료된다. 따라서 △생명 △화학 △수학 △물리 등의 기초과학을 비롯해 화공, 기계, 전자 등의 공학 및 사회과학적인 분야를 포괄하는 융합적인 특성이 매우 강한 환경분야에서 다양한 핵심 과학분야의 전문지식 함양을 바탕으로 4차 산업 시대를 선도할 창의적인 기술 개발과 인재 양성이 매우 필요한 시점이라 할 수 있다.
저작권자 © 포항공대신문 무단전재 및 재배포 금지