시연장에서는 완벽했다. 토마토를 따는 로봇 팔이 한 치 오차 없이 잘 익은 열매만 골라 집어냈고, 객석에서 박수가 나왔다. 그런데 같은 로봇을 실제 비닐하우스에 들여놓으면 이야기가 달라진다. 잎에 가려 보이지 않는 열매를 지나치고, 살짝 무른 완숙 토마토를 으깨고, 줄기 사이에서 팔이 엉킨다. 자율주행 농기계도 마찬가지다. 평탄한 시험 포장에서는 직선으로 잘 달리다가, 비 온 뒤 질척한 흙에서는 바퀴가 헛돈다. 현장에서 농기계와 농업 로봇을 들여다보는 사람이라면 이 간극이 낯설지 않다. 시연과 현장 사이의 이 거리가, 오늘 내가 합성데이터 이야기를 꺼내는 이유다.
이건 인상이 아니라 숫자로 확인된 격차다. 한 딸기 수확 로봇 실측에서, 고립돼 드러난 열매는 성공률 100%였지만 안 익은 열매에 둘러싸인 군집에서는 20%까지 떨어졌다. 또 다른 현장 로봇에서도 가림·장애물·군집이 겹치자 37.5%로 주저앉았다. 시연장의 깔끔한 한 알과 실제 밭의 뒤엉킨 군집은, 로봇에게 전혀 다른 난이도인 것이다.
지난 6월 29일 국민보고회에서 배경훈 부총리 겸 과학기술정보통신부 장관은 피지컬 AI를 국가전략산업으로 지정하고 앞으로 3년을 골든타임으로 선언했다. 농업은 제조·안전·돌봄과 함께 대표 적용 분야로 호명됐다. 눈여겨볼 대목은 데이터 전략이다. 정부는 데이터 확보의 두 축으로 현장의 실데이터를 최대한 모으는 것과 시뮬레이션 환경에서 합성데이터를 만들어내는 것을 나란히 제시했다. 합성데이터를 국가 전략의 한 축으로 명시한 것은 정확한 방향이다.
장관은 이 데이터 부족을 언어모델 10만 년 대 피지컬 AI 1만 시간에 빗댔다. 비유이긴 하지만, 데이터가 절대적으로 모자라다는 진단은 정확하다. 농업은 그 부족이 한층 까다롭다. 흔히 농사는 1년에 한 철이라 여기지만, 실제로는 이모작·삼모작이 있고 시설재배는 사철 돌아가며 엽채류는 한 해에도 여러 번 거둔다. 문제는 회전 속도가 아니라 다양성이다. 작물과 품종, 생육 단계, 기상과 토양의 조합은 끝이 없고, 정작 학습이 절실한 데이터일수록 특정 기상에서의 생육, 병해가 번지는 순간 원할 때 다시 나타나 주지 않는다. 노지에서는 더욱 그렇다.
부족을 마주하면 현장은 흔히 한쪽으로 기운다. '그러니 진짜 데이터를 더 모아야 한다, 합성은 어디까지나 보조'라는 쪽이다. 농업 로봇을 현장에서 들여다보는 사람으로서, 나는 오히려 반대라고 본다. 부족이 클수록, 검증을 거친 합성데이터는 보조가 아니라 1차급 학습 자산이 된다. 정부가 합성데이터를 전략의 한 축으로 세운 것도 바로 이 지점을 가리킨다.
이유는 세 가지다. 첫째, 부족한 만큼 합성이 불가피하다. 앞서 말한 그 무수한 조합 즉 품종과 생육 단계, 기상과 토양을 현장에서 일일이 손으로 채우는 것은 물리적으로 불가능하다. 더구나 우박 피해나 병해 확산처럼 정작 대비가 절실한 상황은 원한다고 밭에서 다시 일어나 주지 않는다. 반면 시뮬레이션은 그 조합과 상황을 필요한 만큼 만들어낸다. 규모를 만들 유일한 길이다.
둘째, 합성데이터는 현실의 밭이 줄 수 없는 정답표를 공짜로 준다. 로봇 손가락이 완숙 딸기를 쥘 때 걸린 힘이 정확히 몇 뉴턴인지, 잎 뒤에 숨은 열매가 3차원 공간에서 어느 각도로 달려 있는지, 바퀴 밑 흙의 마찰이 얼마인지. 실제 하우스에서는 측정조차 어렵거나 라벨을 다는 데 막대한 비용이 드는 정보를, 시뮬레이션은 처음부터 알고 있다. 어떤 차원에서는 합성이 진짜 밭보다 정확하다.
셋째, 기술의 최전선은 합성데이터를 만들어내는 능력 자체를 모델 안에 심고 있다. 정부가 3년 안에 만들겠다고 한 '월드모델'이 그것이다. 작물이 자라고 흙이 눌리고 열매가 흔들리는 물리와 인과를 이해하는 모델은, 곧 그럴듯한 농장 데이터를 스스로 찍어내는 생성기이기도 하다. 밭의 디지털 트윈이다. 데이터를 모으는 시대에서, 데이터 생성기를 만드는 시대로 넘어가는 중이다.
다만 정직하게 말해야 한다. 합성의 힘은 균일하지 않다. 작물의 배치, 이랑의 모양, 흔한 생육 상황에서는 압도적이다. 반대로 로봇 손끝이 무른 열매에 닿는 순간의 미끄러짐, 줄기가 휘어지는 변형, 젖은 점토에 바퀴가 빠지는 접지 같은 영역에서는 아직 물리엔진이 현실을 정확히 흉내 내지 못한다. 장관이 테니스공과 탁구공의 마찰계수와 탄력계수로 짚은 그 어려움이, 바로 합성의 한계가 드러나는 지점이다. 진단은 정확했다. 다만 밭은 하필 이런 어려운 영역들로 가득하고, 그 빈자리는 현장을 직접 보는 사람만이 안다.
그래서 합성데이터는 반드시 현장이 검증해야 한다. 시연장의 로봇이 무너진 이유는 시뮬레이션이 '진짜 같지 않아서'가 아니라, 그 시뮬레이션이 실제 밭과 한 번도 맞춰지지 않았기 때문이다. 검증되지 않은 합성데이터는 로봇에게 잘못된 손놀림을 가르친다. 그런 데이터를 대량으로 먹일수록, 로봇은 현실에서 통하지 않는 동작을 더 자신 있게 배운다. 으깬 토마토가 더 많아질 뿐이다. 양이 많을수록 위험하다.
품질이 기준에 못 미치면 자동으로 처음으로 되돌아가는 순환 구조다. 농업 로봇의 합성데이터에서, 이 브레이크는 구체적인 모습을 얻는다. 시뮬레이션이 만든 데이터를 실제 밭의 결과와 대조하고, 어긋나면 다시 보정하게 만드는 검증 루프다. 정부가 전략으로 가리킨 합성데이터를 현장에서 진짜 자산으로 바꾸는 장치가 이것이다.
핵심은 합성이냐 현장이냐를 가르는 데 있지 않다. 어느 영역에서 합성을 믿어도 되는지를 등급으로 판정하고, 믿을 수 없는 영역에서는 소수의 현장 데이터로 시뮬레이션을 보정한 뒤, 그래도 미달이면 강제로 되돌리는 구조를 갖추는 것이다. 이 검증 층이 있으면 합성데이터는 진짜 1차급 자산이 된다. 없으면, 그것은 밭에서 작물을 망가뜨리는 대량의 오답일 뿐이다.
그 검증을 누가 하느냐도 중요하다. 한국의 밭에서 자란 한국 작물의 물리 데이터를, 그 신뢰도까지 외국 모델에 맡긴다면 데이터 주권은 절반에서 멈춘다. 한국형 AI 모델과 농림위성, 국산 NPU로 이어지는 국산 데이터체인이 이 검증의 두뇌를 맡아야 하는 이유다. 마침 농촌진흥청(농진청)과 국립농업과학원은 전국의 시험연구 포장과 영농 현장 데이터를 동시에 쥐고 있다. 합성데이터를 검증할 실측 자산이 이미 그 안에 있다는 뜻이다. 이 데이터를 검증의 기준점으로 삼는다면, 정부가 그린 합성데이터 전략은 농업 현장에서 가장 먼저 작동할 수 있다.
[참고자료]
· 과기정통부, 피지컬 AI·AI 데이터센터 전략 국민보고회 발표 (2026.6.29.)
· 농림축산식품부, 농업·농촌 인공지능 대전환(AX) 전략 (2026.3.11. 제5회 과학기술관계장관회의)
· 인공지능행동계획 실행과제 43(농산업의 AI 대전환·과제 12(피지컬 AI·휴머노이드)
· 김철현, 간호과정(ADPIE) 기반 AI Ready Data 수집 체계 프레임워크
· "Selective Harvesting Robotics: Current Research, Trends, and Future Directions", Current Robotics Reports (2021) : 고립 열매 100% vs 안 익은 군집 20% 수확 성공률 실측
· "A small autonomous field robot for strawberry harvesting", ScienceDirect/Elsevier (2024) : 가림·장애물·군집 조건 성공률 37.5%
· "Intelligent robots for fruit harvesting: recent developments and future challenges", Precision Agriculture (2022) : 가림(occlusion)이 인식률을 낮춰 수확 성공률↓·손상률↑
※ 외부 필진 기고는 CBS노컷뉴스의 편집방향과 다를 수 있습니다.
김철현 (주)카라멜라 CSO · 국립농업과학원 현장명예연구관(AI 특임 전문위원)