초거대AI 확산 생태계 조성 사업 ‘[11번] 문서생성 및 정보검색 데이터’ 착수보고회에서 상생협력 및 청렴실천 결의식 참석자들이 기념 촬영을 하고 있다.
국내 최고 수준의 AI 기술을 보유한 미디어그룹사람과숲 컨소시엄(이하 사람과숲 컨소시엄)은 지난달 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 ‘2024년도 초거대AI 확산 생태계 조성사업 - [11번] 문서 생성 및 정보 검색 데이터’ 사업자에 선정됐다.
해당 사업은 올해 초거대 AI 데이터 구축사업 중 가장 큰 규모를 자랑한다. 이번 사업을 수행할 사람과숲 컨소시엄은 주관기관인 미디어그룹사람과숲을 비롯해 유클리드소프트, 솔트룩스이노베이션, 포티투마루, 플리토, 써로마인드, 서울과학기술대학교로 구성됐다. 컨소시엄에 소속된 기관 모두 국내 최고 수준의 초거대 AI 기술을 보유하고 있어 ‘문서생성 및 정보검색 데이터’의 품질과 활용성이 더욱 기대되고 있다.
‘문서 생성 및 정보 검색 데이터’ 구축사업은 국내 최초로 시도되는 AI 학습용 대규모 멀티모달 데이터 구축이다. LMM (Large Multimodal Model, 거대 멀티모달 모델)은 현재의 AI가 이해하기 어려운 복잡한 구조의 문서를 이해하거나 그래프, 도식 등과 같은 시각화 자료의 학습을 통해 현재 LLM (Large Language Model, 거대 언어 모델)으로는 불가능한 다양한 형태의 효과적인 검색·질의응답·문서 생성이 가능하며 이를 안정적으로 수행하기 위해서는 고품질의 AI 학습용 데이터셋이 뒷받침돼야 한다.
‘문서 생성 및 정보 검색 데이터’를 학습한 LMM은 텍스트만 이해하던 기존 LLM의 한계를 넘어 통계자료 등을 포함한 다양한 시각화 자료를 이해해 AI의 문서 처리 정확성을 높이고, 사용자가 더 나은 정보 검색과 분석을 할 수 있도록 돕는다. 이는 다양한 산업 분야에서 LMM의 응용 가능성을 극대화하고 보다 효율적인 데이터 활용과 풍부한 인사이트 도출을 가능하게 한다. 해당 데이터로 개발이 가능한 응용 서비스로는 △문서작성 서비스 △문서 기반 질의응답 서비스 △문서검색 서비스 등이 있다.
이처럼 다양한 활용이 가능한 고품질의 AI 학습용 멀티모달 데이터셋의 국내 개발은 치열하게 경쟁하는 글로벌 AI 시장에서 대한민국의 경쟁력을 강화하고, AI 기술의 선도적인 발전을 이끄는 중요한 발판이 된다. 또한 국내를 포함한 글로벌 AI 생태계에서 우위를 선점하고 AI 기술을 활용한 새로운 기회를 창출하게 된다.
‘문서 생성 및 정보 검색 데이터’는 구축사업 종료 후 AI-Hub를 통해 ‘초거대AI 확산 생태계 조성사업’에 필요한 연구/개발 목적에 활용할 수 있도록 무료로 공개될 예정이다. 사람과숲 컨소시엄은 비약적으로 발전하는 국내 초거대AI 기술에 박차를 가해 AI의 정확도를 높이고 활용성을 높이는데 최적화된 데이터를 제작하고, ‘초거대AI 확산 생태계 구축사업’에서 가장 규모가 큰 사업을 진행하는 만큼 완벽한 결과를 만들어 최상의 서비스 제공에 최선을 다할 것이라고 밝혔다.
초거대AI 확산 생태계 조성 사업 ‘[11번] 문서생성 및 정보검색 데이터’ 착수보고회에서 상생협력 및 청렴실천 결의식 참석자들이 기념 촬영을 하고 있다.
국내 최고 수준의 AI 기술을 보유한 미디어그룹사람과숲 컨소시엄(이하 사람과숲 컨소시엄)은 지난달 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 ‘2024년도 초거대AI 확산 생태계 조성사업 - [11번] 문서 생성 및 정보 검색 데이터’ 사업자에 선정됐다.
해당 사업은 올해 초거대 AI 데이터 구축사업 중 가장 큰 규모를 자랑한다. 이번 사업을 수행할 사람과숲 컨소시엄은 주관기관인 미디어그룹사람과숲을 비롯해 유클리드소프트, 솔트룩스이노베이션, 포티투마루, 플리토, 써로마인드, 서울과학기술대학교로 구성됐다. 컨소시엄에 소속된 기관 모두 국내 최고 수준의 초거대 AI 기술을 보유하고 있어 ‘문서생성 및 정보검색 데이터’의 품질과 활용성이 더욱 기대되고 있다.
‘문서 생성 및 정보 검색 데이터’ 구축사업은 국내 최초로 시도되는 AI 학습용 대규모 멀티모달 데이터 구축이다. LMM (Large Multimodal Model, 거대 멀티모달 모델)은 현재의 AI가 이해하기 어려운 복잡한 구조의 문서를 이해하거나 그래프, 도식 등과 같은 시각화 자료의 학습을 통해 현재 LLM (Large Language Model, 거대 언어 모델)으로는 불가능한 다양한 형태의 효과적인 검색·질의응답·문서 생성이 가능하며 이를 안정적으로 수행하기 위해서는 고품질의 AI 학습용 데이터셋이 뒷받침돼야 한다.
‘문서 생성 및 정보 검색 데이터’를 학습한 LMM은 텍스트만 이해하던 기존 LLM의 한계를 넘어 통계자료 등을 포함한 다양한 시각화 자료를 이해해 AI의 문서 처리 정확성을 높이고, 사용자가 더 나은 정보 검색과 분석을 할 수 있도록 돕는다. 이는 다양한 산업 분야에서 LMM의 응용 가능성을 극대화하고 보다 효율적인 데이터 활용과 풍부한 인사이트 도출을 가능하게 한다. 해당 데이터로 개발이 가능한 응용 서비스로는 △문서작성 서비스 △문서 기반 질의응답 서비스 △문서검색 서비스 등이 있다.
이처럼 다양한 활용이 가능한 고품질의 AI 학습용 멀티모달 데이터셋의 국내 개발은 치열하게 경쟁하는 글로벌 AI 시장에서 대한민국의 경쟁력을 강화하고, AI 기술의 선도적인 발전을 이끄는 중요한 발판이 된다. 또한 국내를 포함한 글로벌 AI 생태계에서 우위를 선점하고 AI 기술을 활용한 새로운 기회를 창출하게 된다.
‘문서 생성 및 정보 검색 데이터’는 구축사업 종료 후 AI-Hub를 통해 ‘초거대AI 확산 생태계 조성사업’에 필요한 연구/개발 목적에 활용할 수 있도록 무료로 공개될 예정이다. 사람과숲 컨소시엄은 비약적으로 발전하는 국내 초거대AI 기술에 박차를 가해 AI의 정확도를 높이고 활용성을 높이는데 최적화된 데이터를 제작하고, ‘초거대AI 확산 생태계 구축사업’에서 가장 규모가 큰 사업을 진행하는 만큼 완벽한 결과를 만들어 최상의 서비스 제공에 최선을 다할 것이라고 밝혔다.