간편하게 보는 뉴스는 유니콘뉴스
서울대 공대 컴퓨터공학부 김현우 박사, 국제 최우수 AI 학회 EMNLP에서 국내 대학 연구자 최초 논문상 수상

· 등록일 2024-01-02 08:55

· 업데이트일 2024-01-02 10:13:06

서울--(뉴스와이어)--서울대학교 공과대학(학장 홍유석)은 컴퓨터공학부 김현우 박사와 김건희 교수가 미국 시애틀 앨런 인공지능 연구소(Allen Institute for AI, AI2) 및 워싱턴 대학교(University of Washington)의 최예진 교수 등과 함께 진행한 연구가 국제 최우수 자연어처리 학술대회 ‘EMNLP 2023’에서 ‘Outstanding Paper Award’를 수상했다고 밝혔다.

왼쪽부터 Liwei Jiang(UW, AI2), 김현우(서울대, AI2), Ronan Le Bras(AI2)가 ‘EMNLP 2023’에서 ‘Outstanding Paper Award’를 수상한 후 기념 촬영을 하고 있다 국내 대학 연구진이 EMNLP에서 수상을 한 것은 이번이 최초다.

기존 인공지능(AI) 대화 분야는 고질적으로 데이터 부족 문제에 시달려왔다. 일상에서 이뤄지는 대화들은 데이터로 기록되지 않는 경우가 대부분이기 때문이다. 문자 메세지나 이메일 같은 형태로 대화가 기록되더라도 여러 법적 제약들이 존재하기 때문에 이를 연구에 활용하기에는 어려웠다.

이의 대안으로 그동안 크라우드 소싱을 통해 대화 데이터셋을 제작해왔지만 비용도 많이 들고, 만들 수 있는 데이터셋 크기도 작은 문제점이 있다. 그 결과, 기존 대화 관련 연구들은 모두 소수의 작은 데이터셋 위에서 이뤄져 범용성에 큰 제약이 있었다.

수상 논문인 ‘사회 상식 맥락화 기법을 통한 백만 단위의 대화 증류(SODA: Million-scale Dialogue Distillation with Social Commonsense Contextualization)’는 이를 해결하기 위해 거대 언어모델(large language model, LLM)과 기호 기반 상식 그래프(symbolic commonsense knowledge graph)를 함께 사용해 데이터셋을 효율적으로 자동 구축하는 방법론인 CO_3 증류 프레임워크(distillation framework)를 제시했다.

기존에 크라우드 소싱 활용 시에는 대화 하나당 길게는 몇 분이 걸리던 작업을 6초 내외로 단축시킨다. 연구팀은 이를 통해 세계 최초로 150만 규모의 세계 최대 고품질 일상 대화 데이터셋인 ‘SODA’를 무료로 공개했는데, 이는 기존 데이터셋 대비 100배 큰 규모다.

이 밖에도 대화의 자연스러움, 일관성, 구체성 등 품질 또한 기존 크라우드 소싱 기반 대화 데이터셋에 비해 2배 이상 뛰어난 것으로 나타났다. 그 결과, SODA에 학습시킨 챗봇 ‘COSMO’는 파라미터 수가 30억 개로 작은 크기임에도 불구하고 기존 큰 챗봇들(파라미터 수 70억)보다 대화 맥락에 더 적합하고 자연스러운 답변이 가능하다.

이번 연구는 대화 데이터셋 부족 문제를 해결하고, 누구나 간편하게 세계 최대 규모의 고품질 대화 데이터셋을 구축할 수 있는 방법론을 제시했다는 데에 의의가 있다. 이 방법론으로 탄생한 데이터셋 SODA는 다양한 대화 연구에 기반 자료로 쓰일 수 있을 것으로 기대되며, 해당 코드와 SODA 데이터셋, COSMO 모델은 모두 오픈소스로 공개돼 있다.

해당 논문은 김현우 박사가 서울대 박사과정 중 미국 시애틀의 앨런 인공지능 연구소(Allen Institute for AI, AI2)에서 인턴을 수행하며 워싱턴 대학교(University of Washington), 카네기멜론 대학교(Carnegie Mellon University), 서던 캘리포니아 대학교(University of Southern California), 그리고 피츠버그 대학교(University of Pittsburgh)가 함께하는 국제 공동협력 연구를 이끈 결과며, 김현우 박사는 졸업 후 AI2에서 박사후 연구원으로 취업해 후속 연구를 이어가는 중이다.

김현우 박사와 김건희 교수는 정보통신기획평가원(IITP)의 연구비를 지원받았다.(No.2019-0-01082, No.2022-0-00156)

※ 논문 링크: https://aclanthology.org/2023.emnlp-main.799
※ 코드 링크: https://hyunw.kim/sodaverse

웹사이트: https://eng.snu.ac.kr/ 연락처 서울대학교 공과대학
컴퓨터공학부
김현우 박사
02-880-7289
이메일 보내기 
이 뉴스는 제공자가 작성해 발표한 보도자료입니다.
뉴스와이어는 제공기관의 투명성을 확인하고 뉴스 내용의 오류를 없애고자 노력하고 있습니다.
이 회사와 관심 분야의 보도자료를 메일과 RSS로 무료 구독할 수 있습니다. 구독하기> 뉴스 제공서울대학교 공과대학 배포 분야 교육 대학교 기술 인공지능 수상 서울
인기 기사04.16 23시 기준
서울--(뉴스와이어)--디랙스의 스포츠과학 기반 인공지능(AI) 피트니스 플랫폼 ‘하이랙스(HIRAX)’가 도쿄 신주쿠점을 성공적으로 개점했다. 하이랙스의 해외 진출 첫걸음이자 글로벌 헬스케어 시장 점유율 3위의 일본 심장부에 안착했다는 점에서 중요한 의의를 가진다. ...
서울--(뉴스와이어)--국내 최대 서비스형 비디오 테크놀로지(Video Technology as a Service, VTaaS) 기업 카테노이드(대표 김형석)가 자사 라이브 커머스 플랫폼 ‘콜러스 라이브 커머스(Kollus Live Commerce)’에 ‘숏클립(Short clip)’ 기능을 출시했다고 29일 밝혔다. ...
서울--(뉴스와이어)--하나금융그룹(회장 함영주)은 1일 그룹 명동사옥에서 열린 ‘그룹 출범 18주년 기념식’에서 그룹의 성장 역사를 되돌아보고 더 큰 도약을 위한 ‘‘NEW 하나’ 모두의 행복, 미래를 꿈꾸다’라는 그룹의 미래 방향 설정과 실천을 위한 다짐의 시간을 가졌다고 밝혔다....
나주--(뉴스와이어)--글로벌 신재생에너지 AI 기업 렉스이노베이션(대표 임정민)은 2일 벤처기업협회에서 주관한 ‘2024년 우수 벤처 기업’에서 지역 벤처 부문에 선정되며 그 기술력과 성장 잠재력을 인정받았다고 밝혔다. 렉스이노베이션이 ‘2024...
레몬트, 일리노이--(Business Wire / 뉴스와이어)--미국 에너지부(Department of Energy, DOE)의 아르곤 국립 연구소(Argonne National Laboratory)와 모하메드 VI 폴리테크닉 대학교(University Mohammed VI Polytechnic, UM6P)가 녹색 에너지 기술 및 물과 에너지의 연계와 관련된 상호 관심사의 주요 분야에서...
서울--(뉴스와이어)--건강한 마음챙김을 제안하는 멘탈 웰니스 축제 ‘2024 릴랙스위크(Relax Week)’가 오는 4월 한 달간 공식홈페이지(www.relaxweek.kr)와 전국 각지의 치유 공간에서 동시 개최된다. ‘2024 릴랙스위크’ 공식포스터 ...
API
fg
유니콘뉴스는 보도자료 배포 서비스입니다.
여기에 뉴스를 등록하면 언론이 보도하고 널리 배포됩니다.