간편하게 보는 뉴스는 유니콘뉴스
Weights & Biases, LLM의 언어 이해·생성 능력을 다각도로 평가하는 ‘Horangi 한국어 LLM 리더보드’ 공개

· 등록일 2024-04-02 13:20

· 업데이트일 2024-04-02 22:45:54

서울--(뉴스와이어)--Weights & Biases, Inc.(CEO Lukas Biewald, 이하 W&B)는 2일 대규모 언어 모델(LLM)의 한국어 성능 평가 결과의 랭킹을 공개하는 ‘Horangi (호랑이) 한국어 LLM 리더보드’의 운영 및 제공을 시작했다고 밝혔다.

Horangi 한국어 LLM 리더보드의 스크린샷 Horangi 한국어 LLM 리더보드에서 확인할 수 있는 모델 능력에 대한 상세 검증 이번에 선보이는 Horangi 리더보드는 LLM 모델의 언어 이해 능력과 언어 생성 능력을 다각도로 평가한다. W&B 플랫폼(WandB)의 주요 기능을 응용해 결과를 리포트에서 확인할 수 있을 뿐만 아니라 인터랙티브한 분석 기능을 제공한다. 공개 초기에는 20개 이상의 오픈 및 클로즈 모델의 평가 결과를 게시하는 것과 동시에 기업이 프라이빗 환경에서 비공개로 모델 평가를 할 수 있도록 지원한다. Horangi 리더보드는 홈페이지(http://horangi.ai)에서 확인할 수 있으며, W&B는 오는 11일 Horangi의 자세한 내용과 사용법을 설명하는 무료 웨비나를 개최할 예정이다.

‘Horangi 한국어 LLM 리더보드’의 모델 평가 방법

LLM 모델의 평가는 목적과 용도에 따라 주목해야 할 평가 축이 달라지기에 획일적으로 실시할 수 없다. 또한 새로운 모델이 속속 발표되고, 그 성능이 계속 업데이트되는 최근에는 더 폭넓고 난이도가 높은 최신 평가 기법을 사용할 필요가 있다. Horangi 한국어 LLM 리더보드는 평가에 보다 다각적으로 접근하는 것을 통해 사용자가 모델을 획일적인 순위표로 비교하는 것뿐만 아니라 모델별 강점을 파악해 용도에 맞는 모델을 선택할 수 있도록 도와주는 수단이 되는 것을 목표로 하고 있다.

Horangi 리더보드의 지표는 크게 ‘언어 이해’와 ‘언어 생성’으로 분류돼 있다. 언어 이해 태스크는 일문일답식 평가 체계를 사용하므로 입력된 내용을 정확하게 이해하고, 요구된 형식으로 답변하는 능력을 평가한다. 언어 생성 태스크는 자유 형식으로 모델에게 답변을 출력시키고, GPT-4를 사용한 정성적 평가를 수행한다. 이 평가 체계는 Stability AI사와의 협력하에 이 회사가 개발한 MT-Bench 프레임워크를 활용하고 있다.

각 평가 카테고리는 구체적인 용도를 염두에 둔 하위 카테고리로 구성돼 있다. 예를 들어 언어 생성에서는 작문(writing), 추론(reasoning), 정보 추출(extraction) 등의 평가 축에서 모델의 강점을 검증할 수 있다.

Horangi 리더보드에서 사용하는 평가 방법은 대상 모델이 대화형 프롬프트에 대해 적절한 응답을 반환하는 것을 전제로 하고 있다. 이에 인스트럭션 튜닝을 통해 이른바 챗봇 능력을 획득하지 못한 모델에 대한 평가는 부적절하다고 할 수 있어 주의가 필요하다.

평가 방법에 관한 더 자세한 설명은 발표와 함께 공개된 Horangi LLM 리더보드 릴리스 블로그에서 확인할 수 있다. 또한 Horangi 리더보드의 상세 내용과 비공개 평가에 관한 무료 웨비나는 4월 11일 개최 예정이다.

※ Horangi LLM 리더보드 릴리스 블로그 : http://wandb.me/horangi-leaderboard-blog
※ Horangi LLM 리더보드 릴리스 웨비나 : https://event-us.kr/wandb/event/80886

비공개 평가 또한 가능

Horangi LLM 리더보드는 복잡한 머신러닝(ML) 개발 태스크를 자동화하는 ‘Launch’ 기능과 분석 결과를 집약 및 공유하는 ‘Reports’ 기능 등 WandB의 주요 기능을 활용해 확장 가능하고 유연한 모델 평가 프레임워크를 제공한다. 본 프레임워크는 WandB를 사용하는 기업이 독자적으로 복제 및 실행할 수 있도록 지원하며, 결과를 공개하지 않고도 자사의 프라이빗한 환경 내에서 평가 결과를 다른 모델과 비교·검증할 수 있다.

LLM 개발을 지원하는 W&B의 활동

WandB는 올해 4월 LLM 개발 지원에 특화된 각종 기능을 출시했을 뿐만 아니라 LangChain, LlamaIndex 등 주요 LLM 애플리케이션 개발 프레임워크와의 통합을 발표하며 이 새로운 패러다임에서의 개발 프로세스를 가시화, 관리, 검증할 수 있는 플랫폼을 제공하고 있다. 또한 국내에서는 리더스시스템즈, 펜타시스템과의 판매 파트너십 체결을 통해 충실한 제품 지원 체제를 갖추고 있다.

W&B는 앞으로도 국내 AI 개발에 관련된 모든 실무자에게 가장 진보된 머신러닝 개발 및 MLOps 툴을 제공하는 것과 동시에, 세계 최첨단 AI 개발의 베스트 프랙티스를 공유함으로써 국내 생성 AI 개발을 가속화해 나갈 계획이다.

Weights & Biases 소개

Weights & Biases, Inc.는 미국 샌프란시스코에 본사를 두며 엔터프라이즈급 ML 실험 관리와 엔드투엔드 MLOps 워크플로를 포괄하는 개발자 및 운영자를 위한 플랫폼을 제공하고 있다. WandB는 LLM 개발, 이미지 세그멘테이션, 신약 개발 등 다양한 딥러닝 유즈 케이스에 사용되며, 엔비디아(NVIDIA), 오픈AI(OpenAI), 토요타(Toyota) 등 국내외에서 80만 명 이상의 머신러닝 개발자에게 신뢰받고 있는 AI 개발의 새로운 베스트 프랙티스다.

Weights & Biases 한국어 홈페이지: https://kr.wandb.com 웹사이트: https://wandb.ai/site 연락처 Weights & Biases
영업/마케팅
유시현
+81-(0)70-4000-5657
이메일 보내기 
소셜 블로그 페이스북 트위터 유튜브 이 보도자료는 Weights & Biases가(이) 작성해 뉴스와이어 서비스를 통해 배포한 뉴스입니다. 뉴스와이어는 편집 가이드라인을 준수합니다. Weights & Biases 보도자료구독하기RSS 관련 보도자료 기술 인공지능 인터넷 신상품 해외 Weights & Biases 전체 보도자료 
인기 기사12.24 02시 기준
수원--(뉴스와이어)--삼성전자가 9일 스마트 TV 전용 앱스토어 앱스(Apps)에 NHN벅스의 음악 큐레이션 서비스 ‘essential;’ 애플리케이션을 새롭게 선보였다. 삼성 TV에서 선보이는 ‘essential;’에서는 삼성 TV 에서만 감상할 수 있는 특별 플레이리스트를 제공하고, 인테리어에 최적화한 감각적인 essential 배경 디자인도...
대구--(뉴스와이어)--DGB대구은행(은행장 황병우)은 시중은행 전환을 앞두고 스타트업 육성 및 투자를 통한 지원 강화 등 협력방안 모색을 위한 방안으로 서울 마포 소재 프론트원을 방문해 다양한 핀테크 관련 논의를 진행했다고 밝혔다. ‘프론트원’은 디캠프(은행권청년창업재단)가 운영하고 있는 국내 대표...
서울--(뉴스와이어)--더존비즈온(대표 김용우)은 2일 개인정보보호위원회(위원장 고학수)로부터 민간 가명정보 결합전문기관 중 최초로 ‘개인정보 안심구역’ 시범운영기관에 지정됐다고 밝혔다. 시범운영 기간을 거쳐 지정심사위 요건을 충족하면 본지정된다. 더존비즈온 CI ...
공주--(뉴스와이어)--한국자연사박물관은 사립 박물관·미술관의 경쟁력을 강화하고 코로나19 이후 변화된 문화소비·문화향유 방식에 대응하기 위해 문화체육관광부가 주최하고 한국박물관협회가 주관하는 ‘2023 사립박물관·미술관 온라인콘텐츠제작지원사업’에 지원, 선정됐다고 밝혔다. 이에 한국자연사박물관은 ‘THE(더) 청운’이라는 주제 아래 대표 전시물인 중생대 쥐라기시대 브라키오사우르스 공룡화석인...
서울--(뉴스와이어)--헬스케어로봇 기업 바디프랜드(대표이사 지성규·김흥석)가 청담 라운지를 오픈하고 이를 기념해 오픈 행사를 진행했다. 바디프랜드 청담 라운지에 전시된 헬스케어로봇 바디프랜드 청담 라운지는...
서울--(뉴스와이어)--소프트웨어 개발 분야의 선두주자인 데브구루가 2023년 12월 26일 ‘2023 한국ESG대상’에서 중소기업부문 최고 영예인 대상을 수상했다. 이 상은 한국ESG학회, 국회ESG포럼이 공동 주최한 시상으로, 생물다양성 회복 및 지속 가능한 탄소중립 사회로의 전환에 기여한 정부, 공공기관, 기업,...
API
fg
유니콘뉴스는 보도자료 배포 서비스입니다.
여기에 뉴스를 등록하면 언론이 보도하고 널리 배포됩니다.