셀렉트스타, 1억 3천만건 AI 학습데이터 구축 프로젝트 분석 결과 발표

2022.08.09 14:38:01

한국어 데이터셋 진화 중, 초개인화 추천 연구개발 활발

 

[시사뉴스 김남규 기자] 셀렉트스타가 인공지능(AI) 학습데이터 구축 트렌드를 담은 ‘셀렉트스타 인공지능 인사이트’를 9일 발표했다.

 

인공지능 학습데이터 플랫폼인 셀렉트스타는 지난 2018년부터 올해 상반기까지 약 5년간 14개 분야의 데이터를 수집·가공했다. 프로젝트 금액이 큰 순으로 보자면, ▲언어(40.2%) 카테고리가 가장 컸다. 이어서 ▲뷰티(6.4%) ▲예술(5.6%) ▲사람(5.3%) ▲건강(4.4%) ▲동물(4%) ▲자동차(3.8%) ▲식품(3.7%) 순이었다.

 

셀렉트스타가 발표한 인사이트 자료에 따르면, 언어 데이터는 주로 자연어 처리(NLP)나 자연어 이해(NLU)에 활용됐다. NLP와 NLU는 스마트 어시스턴트, 음성 인식, 검색 결과, 언어 번역, 텍스트 분석, 키워드 분석 등 활용 범위가 넓은 것이 특징이다. 한편 초기 AI가 단순하게 문구 또는 문서를 인식했다면, 이제는 사람의 감정이나 특징(사투리, 악플 등)까지 파악이 가능하다고 셀렉트스타 측은 설명했다. 음성 AI도 초기에는 단순히 언어를 인식하는 것에서 출발했지만, 이제는 인식에서 나아가 사람의 감정을 읽거나 표현하는 단계로 진화하고 있다.

 

2020년 전후로 AI 기반 초개인화 기술의 연구개발도 활발해졌다. 시장의 중심이 판매자에서 구매자로 옮겨갔고 온라인 구매가 증가하면서 추천, 고급 검색, 채굴, 매칭 알고리즘 등 초개인화 AI 개발과 고도화를 위한 학습용 데이터 수집·가공의 필요성이 커졌다. 특히 AI 기술 기반으로 시장에 뛰어든 스타트업이 늘어나면서 다양한 분야의 학습데이터가 구축되고 있다. 예컨대 셀렉트스타는 ▲개인 취향 맞춤 의류 추천 AI를 위한 의류 및 패션 이미지 태깅 데이터셋 ▲소비자 만족도 분석 AI를 위한 상품 리뷰 데이터셋 ▲음악 리뷰에 대한 감정 태깅 데이터셋 ▲건강 관리 AI를 위한 홍채 이미지 라벨링 데이터셋 ▲코로나19 시대 안면 인식을 위한 마스크 착용 사진 수집 및 라벨링 데이터셋 등을 구축한 바 있다. 다만 현재까지 국내 시장은 PoC(기술검증) 형태의 시도가 중심인데, 이는 서비스나 사업의 성공에서 ‘AI 성능’ 보다는 다른 요인의 영향이 비교적 크기 때문이라는 게 셀렉트스타의 분석이다.

 

신호욱 셀렉트스타 대표는 “셀렉트스타는 인공지능을 개발하는데 필수적인 ‘정확하고 일관된 학습데이터’를 생산하는 회사이면서 200개 이상의 타사와 협업을 통해 어떤 회사에서 어떤 인공지능을 만드는지 파악할 수 있기 때문에 이번 인사이트 자료를 발표할 수 있었다”고 설명했다. 이어 “AI 성능 향상은 데이터의 생산 및 관리 수준 규모와 비례한다”며 “AI Transformation이 전 세계적인 트렌드인 만큼 국내 AI 시장의 잠재력도 높다”고 강조했다.

 

셀렉트스타 인공지능 인사이트에 대한 자세한 내용과 파일 다운로드는 셀렉트스타 공식 블로그에서 확인 가능하다.

김남규 realkorea@kakao.com
Copyright @2025 SISA NEWS All rights reserved.
시사뉴스의 모든 컨텐츠를 무단복제 사용할 경우에는 저작권 법에 의해 제재를 받을 수 있습니다.



[서울] (05510) 서울 송파구 올림픽로35가길11 (신천동) 한신빌딩 10층 TEL : (02)412-3228~9 | FAX : (02) 412-1425
창간발행인 겸 편집인 회장 강신한 | 대표 박성태 | 개인정보책임자 이경숙 | 청소년보호책임자 김지원 l 등록번호 : 서울 아,00280 | 등록일 : 2006-11-3 | 발행일 : 2006-11-3
Copyright ⓒ 1989 - 2025 SISA NEWS All rights reserved. Contact webmaster@sisa-news.com for more information
시사뉴스의 모든 컨텐츠를 무단복제 사용할 경우에는 저작권 법에 의해 제재를 받을 수 있습니다.