페블러스

PROJECT
솔루션에 기반한 AI 데이터의 품질평가와 가상데이터 생성

딥러닝 AI의 성능은 모델 디자인과 데이터셋의 품질 모두에 영향을 받습니다. 페블러스 는 <데이터 클리닉> 솔루션을 통해 데이터 중심적 관점으로 AI 개발에 접근합니다. <데이터 클리닉>의 첫번째 기능인 <데이터 이미징>은 비정형 다차원 데이터를 관찰가능하고 유용한 연산이 가능한 형태로 변환합니다. 두번째 <데이터 진단> 단계에서 데이터 이미징을 바탕으로 데이터의 품질을 평가합니다. 데이터의 내재적인 특성과 작업 의존적 특성들에 대해서 데이터 과학적인 지표에 근거하여 <데이터 진단 리포트>를 생성합니다. 이를 통해 고객은 데이터의 현황(예를 들어, 커버리지, 밀도, 편향 등)을 파악하고 데이터 개선 방안을 제안받습니다. 마지막으로 <데이터 개선> 단계에서는 현재 데이터가 갖고 있는 각종 문제를 해결하여 인공지능 학습에 최적화시킵니다. <가상 데이터> 생성은 데이터 개선의 대표적인 방법입니다. 실제 데이터 수집에서 누락되거나 불가능한 데이터를 모델링과 시뮬레이션을 통해 가상으로 생성하고, 통계적인 분포를 유지하면서도 유의미한 익명화 데이터를 만들기도 합니다.