간편하게 보는 뉴스는 유니콘뉴스
Weights & Biases, LLM의 언어 이해·생성 능력을 다각도로 평가하는 ‘Horangi 한국어 LLM 리더보드’ 공개

· 등록일 2024-04-02 13:20

· 업데이트일 2024-04-02 22:45:54

서울--(뉴스와이어)--Weights & Biases, Inc.(CEO Lukas Biewald, 이하 W&B)는 2일 대규모 언어 모델(LLM)의 한국어 성능 평가 결과의 랭킹을 공개하는 ‘Horangi (호랑이) 한국어 LLM 리더보드’의 운영 및 제공을 시작했다고 밝혔다.

Horangi 한국어 LLM 리더보드의 스크린샷 Horangi 한국어 LLM 리더보드에서 확인할 수 있는 모델 능력에 대한 상세 검증 이번에 선보이는 Horangi 리더보드는 LLM 모델의 언어 이해 능력과 언어 생성 능력을 다각도로 평가한다. W&B 플랫폼(WandB)의 주요 기능을 응용해 결과를 리포트에서 확인할 수 있을 뿐만 아니라 인터랙티브한 분석 기능을 제공한다. 공개 초기에는 20개 이상의 오픈 및 클로즈 모델의 평가 결과를 게시하는 것과 동시에 기업이 프라이빗 환경에서 비공개로 모델 평가를 할 수 있도록 지원한다. Horangi 리더보드는 홈페이지(http://horangi.ai)에서 확인할 수 있으며, W&B는 오는 11일 Horangi의 자세한 내용과 사용법을 설명하는 무료 웨비나를 개최할 예정이다.

‘Horangi 한국어 LLM 리더보드’의 모델 평가 방법

LLM 모델의 평가는 목적과 용도에 따라 주목해야 할 평가 축이 달라지기에 획일적으로 실시할 수 없다. 또한 새로운 모델이 속속 발표되고, 그 성능이 계속 업데이트되는 최근에는 더 폭넓고 난이도가 높은 최신 평가 기법을 사용할 필요가 있다. Horangi 한국어 LLM 리더보드는 평가에 보다 다각적으로 접근하는 것을 통해 사용자가 모델을 획일적인 순위표로 비교하는 것뿐만 아니라 모델별 강점을 파악해 용도에 맞는 모델을 선택할 수 있도록 도와주는 수단이 되는 것을 목표로 하고 있다.

Horangi 리더보드의 지표는 크게 ‘언어 이해’와 ‘언어 생성’으로 분류돼 있다. 언어 이해 태스크는 일문일답식 평가 체계를 사용하므로 입력된 내용을 정확하게 이해하고, 요구된 형식으로 답변하는 능력을 평가한다. 언어 생성 태스크는 자유 형식으로 모델에게 답변을 출력시키고, GPT-4를 사용한 정성적 평가를 수행한다. 이 평가 체계는 Stability AI사와의 협력하에 이 회사가 개발한 MT-Bench 프레임워크를 활용하고 있다.

각 평가 카테고리는 구체적인 용도를 염두에 둔 하위 카테고리로 구성돼 있다. 예를 들어 언어 생성에서는 작문(writing), 추론(reasoning), 정보 추출(extraction) 등의 평가 축에서 모델의 강점을 검증할 수 있다.

Horangi 리더보드에서 사용하는 평가 방법은 대상 모델이 대화형 프롬프트에 대해 적절한 응답을 반환하는 것을 전제로 하고 있다. 이에 인스트럭션 튜닝을 통해 이른바 챗봇 능력을 획득하지 못한 모델에 대한 평가는 부적절하다고 할 수 있어 주의가 필요하다.

평가 방법에 관한 더 자세한 설명은 발표와 함께 공개된 Horangi LLM 리더보드 릴리스 블로그에서 확인할 수 있다. 또한 Horangi 리더보드의 상세 내용과 비공개 평가에 관한 무료 웨비나는 4월 11일 개최 예정이다.

※ Horangi LLM 리더보드 릴리스 블로그 : http://wandb.me/horangi-leaderboard-blog
※ Horangi LLM 리더보드 릴리스 웨비나 : https://event-us.kr/wandb/event/80886

비공개 평가 또한 가능

Horangi LLM 리더보드는 복잡한 머신러닝(ML) 개발 태스크를 자동화하는 ‘Launch’ 기능과 분석 결과를 집약 및 공유하는 ‘Reports’ 기능 등 WandB의 주요 기능을 활용해 확장 가능하고 유연한 모델 평가 프레임워크를 제공한다. 본 프레임워크는 WandB를 사용하는 기업이 독자적으로 복제 및 실행할 수 있도록 지원하며, 결과를 공개하지 않고도 자사의 프라이빗한 환경 내에서 평가 결과를 다른 모델과 비교·검증할 수 있다.

LLM 개발을 지원하는 W&B의 활동

WandB는 올해 4월 LLM 개발 지원에 특화된 각종 기능을 출시했을 뿐만 아니라 LangChain, LlamaIndex 등 주요 LLM 애플리케이션 개발 프레임워크와의 통합을 발표하며 이 새로운 패러다임에서의 개발 프로세스를 가시화, 관리, 검증할 수 있는 플랫폼을 제공하고 있다. 또한 국내에서는 리더스시스템즈, 펜타시스템과의 판매 파트너십 체결을 통해 충실한 제품 지원 체제를 갖추고 있다.

W&B는 앞으로도 국내 AI 개발에 관련된 모든 실무자에게 가장 진보된 머신러닝 개발 및 MLOps 툴을 제공하는 것과 동시에, 세계 최첨단 AI 개발의 베스트 프랙티스를 공유함으로써 국내 생성 AI 개발을 가속화해 나갈 계획이다.

Weights & Biases 소개

Weights & Biases, Inc.는 미국 샌프란시스코에 본사를 두며 엔터프라이즈급 ML 실험 관리와 엔드투엔드 MLOps 워크플로를 포괄하는 개발자 및 운영자를 위한 플랫폼을 제공하고 있다. WandB는 LLM 개발, 이미지 세그멘테이션, 신약 개발 등 다양한 딥러닝 유즈 케이스에 사용되며, 엔비디아(NVIDIA), 오픈AI(OpenAI), 토요타(Toyota) 등 국내외에서 80만 명 이상의 머신러닝 개발자에게 신뢰받고 있는 AI 개발의 새로운 베스트 프랙티스다.

Weights & Biases 한국어 홈페이지: https://kr.wandb.com 웹사이트: https://wandb.ai/site 연락처 Weights & Biases
영업/마케팅
유시현
+81-(0)70-4000-5657
이메일 보내기 
소셜 블로그 페이스북 트위터 유튜브 이 보도자료는 Weights & Biases가(이) 작성해 뉴스와이어 서비스를 통해 배포한 뉴스입니다. 뉴스와이어는 편집 가이드라인을 준수합니다. Weights & Biases 보도자료구독하기RSS 관련 보도자료 기술 인공지능 인터넷 신상품 해외 Weights & Biases 전체 보도자료 
인기 기사05.02 08시 기준
빈--(Business Wire / 뉴스와이어)--빈에 본사를 둔 오스트리아 제약회사 AOP 오펀 파마수티컬스(AOP Orphan Pharmaceuticals GmbH, 이하 AOP 헬스)가 2023년 11월 말 캐나다 보건 당국(캐나다 보건부)으로부터 초단시간 작용, 심장 선택적 β1 차단제 란디올롤(Landiolol)에 대한 승인을 획득했다....
광주--(뉴스와이어)--서울시는 12월 13일(수) 오후 3시 서울 중구 구민회관에서 ‘올바른 반려동물 문화만들기’ 행사를 개최한다 설채현 수의사와 함께하는 ‘올바른 반려동물 문화만들기’ 행사 포스터 ...
서울--(뉴스와이어)--현대자동차가 19일 임시이사회를 열고 러시아 상트페테르부르크(St. Petersburg)에 위치한 러시아 공장(HMMR, Hyundai Motor Manufacturing Russia) 지분 매각 안건에 승인했다. 러시아 공장은 러시아-우크라이나 전쟁 등의 여파로 지난해 3월부터 가동 중단된 상태다. 현재 현대차는 러시아 현지 업체인...
교토, 일본--(Business Wire / 뉴스와이어)--주식회사 무라타제작소(도쿄:6981)(ISIN:JP391440001)(이하, 당사)가 세계 최초[※1]로 상호 인덕턴스[※2]가 서로 상쇄되는 특성을 활용해 수 MHz부터 1GHz까지의 고조파[※3]영역의 전원 노이즈 저감이 가능한 LCT 제품의 ‘LXLC21 시리즈’(이하, 본 제품)를 개발했다. 전원회로 내 커패시터에 본...
화성--(뉴스와이어)--화성시문화재단(대표이사 김신아, 이하 재단)이 예술활동 공간 발굴 및 가치 확산을 위한 2024년도 신규 사업으로 진행하는 ‘거점 예술활동 지원사업 ‘자유공간29’’(이하, ‘자유공간29’) 문화상점 파미라운지의 ‘안녕컬처로드’가 오는 5월 11일 첫 시작한다. ...
Wageningen, Netherlands--(Business Wire / 뉴스와이어)--바이엘(Bayer)과 솔린타(Solynta)가 케냐와 인도 시장에서 진정한 감자 종자의 상업화 및 유통을 위해 협력하기로 합의했다. 이 파트너십은 바이엘이 2000만 헥타르에 달하는 세계 감자 시장에 진출하는 것이며, 강력한 하이브리드 감자 품종을 개발하는...
API
fg
유니콘뉴스는 보도자료 배포 서비스입니다.
여기에 뉴스를 등록하면 언론이 보도하고 널리 배포됩니다.