불가능 같지만 가능해요! 진짜보다 진짜 같은 합성데이터,
그게 말이 돼? 🤔 |
|
|
불가능 같다고요? 가능합니다!
데이터클리닉의 목표
👉 ‘현실적인 합성데이터 생성’으로 건강한 AI 프로덕트 만들기
솔직히 좀 어려웠지만...
수없이 많은 시행착오를 겪어오며 기술력을 갖춘 지금은
자신 있게 가능하다고 말씀드릴 수 있습니다. 😉
해병대는 대한민국을 지키고,
데이터클리닉은 해병대의 데이터를 지킵니다! 🫡
데이터클리닉은 해병대 군 감시 체계를 위한 합성데이터를 생성했어요.
실제 사례를 보며 현실적인 합성데이터 생성의 비밀을 알아볼게요! |
|
|
해병대의 나쁜 데이터, 데블이
데이터 품질 관리 보고서 😫 |
|
|
해병대의 목표
😎 해상의 위험 상황에 대비하는 감시 체계 구축!
그러나 현실은...
- 계절, 시간대
- 날씨: 눈/비 환경, 극심한 안개 환경 등
- 북한군 전투기, 전함, 드론, 삐라, 오물폭탄 등
- 자연 현상: 높이에 따라 1~7급으로 나누어지는 파도
현실적으로 발생하기 어려운 조건들이죠? 😂
촬영 데이터 자체가 매우 한정적이었어요.
특히 기존 실제 데이터는 '깊은 바다'가 아닌, '해안가'에서 촬영한 이미지였고요. 🌊 |
|
|
해병대의 건강한 데이터, 페블이
데이터 품질 관리 보고서 😘 |
|
|
합성데이터로 생성한 이미지 대공개!
데이터클리닉은 선박/항공기 위치, 기후, 시간대 등...
다양한 변수를 반영한 합성데이터를 생성했어요.
날씨가 흐리고 날이 어두워지는 시간대의 선박, 헬기를 담은 모습입니다.
합성데이터가 아닌 실제 모습 같죠? |
|
|
태풍이 몰아치는 날도 표현했어요!
이전보다 파도의 높이도 더 높게 조정하여 1~7급의 황천을 표현했죠. |
|
|
TTA(한국정보통신기술협회)에서 진행한 비주얼 튜링 테스트 결과는?
비주얼 튜링 테스트란?
검사자에게 실제 이미지와 합성 이미지를 무작위로 보여줘요.
‘이게 실제일까, 합성일까?’를 구분하게 하는 방식이에요.
검사자 한 명당 50점에 가까울수록 실제에 가깝다는 뜻!
두 명 모두 합쳐서 💯점이 됩니다.
결과는 놀라웠습니다.
TTA 소속 검사자 두 명이 테스트를 진행한 결과,
한 명은 50점, 다른 한 명은 49점을 기록!
검사자분들의 평가: 합성데이터가 아닌 줄 알았어요.
실제 사진인지, 합성 데이터인지 구별하기 힘들 정도로 퀄리티가 좋네요! 😮
페블러스의 합성데이터 정확도 검증 평가
구성비 중첩률 평균 92% 실제 해상 작전과 거의 동일한 수준의 ‘상황 다양성’을 확보했어요.
구문 정확성 평균 99.9%
AI가 학습할 때 객체를 혼동하거나 오인식할 가능성이 거의 없다는 뜻!
의미 정확성 평균 97.7%
‘이 이미지는 선박인가? 항공기인가?’를 확실히 구분할 수 있어요.
|
|
|
진짜 같은 합성 데이터 생성의 비결?
1️⃣ 데이터 다이어트
무조건 데이터 많으면 끝? ❌
오히려 중복 데이터만 늘어나요.
정제에 더 많은 리소스를 사용해야 해요.
합성데이터 생성 전,
데이터 속 불필요한 요소들을 반드시 깔끔하게 정리해야 합니다!
2️⃣ 데이터 레플리카
'개인정보 보호가 필요한 데이터들로 합성데이터를 어떻게 만들지?
민감한 정보라 유출되면 안 되는데... 😥'
👉데이터 레플리카가 있습니다!
원본의 패턴, 맥락을 그대로 반영하지만,
민감한 정보는 제외한 '쌍둥이' 데이터를 말해요.
3️⃣ 듀얼 거버넌스 엔진
아무리 사실적인 합성데이터라도 이걸 놓치면 큰일나요!
👉 AI 데이터로 인해 개인정보 침해, 윤리성을 위배하는 상황
❌ 이를 예방하기 위해 전 세계적으로 AI 규제 법안이 나타나고 있어요.
새롭게 출시할 데이터 클리닉 2.0의 듀얼 거버넌스 엔진?
- 국제 표준 EU AI Act, ISO/IEC 25012, 5259 기준을 준수하고 학습
- 규제 리스크를 완벽 대비할 수 있어요!
|
|
|
합성데이터 생성으로
AI 모델 성능 80% 높이는 비결이 궁금하다면?
여기에 다 있습니다. 👊 |
|
|
2025년 11월 18일에 개최하는 ‘데이터클리닉 웨비나’에 다 있습니다.
🗣️연사
- 페블러스 이정원 부대표님
- 대구디지털혁신진흥원(DIP) 김건욱 센터장님
대구디지털혁신진흥원과 연계된 대구 소재 기업들이
데이터 품질 개선으로 AI 성능을 올린 사례와 노하우!
단순히 합성데이터만 만드는 솔루션 🆚 합성데이터 생성의 본질을 이해하고, 데이터 진단부터 정제까지 전 과정을 자동화하는 솔루션.
데이터클리닉은 후자!
웨비나에서는 정확한 합성데이터 생성을 통해,
퀄리티 높은 AI 프로덕트를 만드는 노하우들을 알려 드릴게요. |
|
|
🚀 AI 기반 데이터 혁신, 지금 페블러스와 함께 하세요! |
|
|
페블러스는 AI와 데이터 분석을 통해 다양한 산업의 문제를 해결하고,
더 나은 의사결정을 지원합니다.
📌 페블러스에 대해 더 알고 싶거나, 협업 및 파트너십을 논의하고 싶다면
언제든지 연락 주세요!
페블러스 드림 |
|
|
|