간편하게 보는 뉴스는 유니콘뉴스
Weights & Biases, LLM의 언어 이해·생성 능력을 다각도로 평가하는 ‘Horangi 한국어 LLM 리더보드’ 공개

· 등록일 2024-04-02 13:20

· 업데이트일 2024-04-02 22:45:54

서울--(뉴스와이어)--Weights & Biases, Inc.(CEO Lukas Biewald, 이하 W&B)는 2일 대규모 언어 모델(LLM)의 한국어 성능 평가 결과의 랭킹을 공개하는 ‘Horangi (호랑이) 한국어 LLM 리더보드’의 운영 및 제공을 시작했다고 밝혔다.

Horangi 한국어 LLM 리더보드의 스크린샷 Horangi 한국어 LLM 리더보드에서 확인할 수 있는 모델 능력에 대한 상세 검증 이번에 선보이는 Horangi 리더보드는 LLM 모델의 언어 이해 능력과 언어 생성 능력을 다각도로 평가한다. W&B 플랫폼(WandB)의 주요 기능을 응용해 결과를 리포트에서 확인할 수 있을 뿐만 아니라 인터랙티브한 분석 기능을 제공한다. 공개 초기에는 20개 이상의 오픈 및 클로즈 모델의 평가 결과를 게시하는 것과 동시에 기업이 프라이빗 환경에서 비공개로 모델 평가를 할 수 있도록 지원한다. Horangi 리더보드는 홈페이지(http://horangi.ai)에서 확인할 수 있으며, W&B는 오는 11일 Horangi의 자세한 내용과 사용법을 설명하는 무료 웨비나를 개최할 예정이다.

‘Horangi 한국어 LLM 리더보드’의 모델 평가 방법

LLM 모델의 평가는 목적과 용도에 따라 주목해야 할 평가 축이 달라지기에 획일적으로 실시할 수 없다. 또한 새로운 모델이 속속 발표되고, 그 성능이 계속 업데이트되는 최근에는 더 폭넓고 난이도가 높은 최신 평가 기법을 사용할 필요가 있다. Horangi 한국어 LLM 리더보드는 평가에 보다 다각적으로 접근하는 것을 통해 사용자가 모델을 획일적인 순위표로 비교하는 것뿐만 아니라 모델별 강점을 파악해 용도에 맞는 모델을 선택할 수 있도록 도와주는 수단이 되는 것을 목표로 하고 있다.

Horangi 리더보드의 지표는 크게 ‘언어 이해’와 ‘언어 생성’으로 분류돼 있다. 언어 이해 태스크는 일문일답식 평가 체계를 사용하므로 입력된 내용을 정확하게 이해하고, 요구된 형식으로 답변하는 능력을 평가한다. 언어 생성 태스크는 자유 형식으로 모델에게 답변을 출력시키고, GPT-4를 사용한 정성적 평가를 수행한다. 이 평가 체계는 Stability AI사와의 협력하에 이 회사가 개발한 MT-Bench 프레임워크를 활용하고 있다.

각 평가 카테고리는 구체적인 용도를 염두에 둔 하위 카테고리로 구성돼 있다. 예를 들어 언어 생성에서는 작문(writing), 추론(reasoning), 정보 추출(extraction) 등의 평가 축에서 모델의 강점을 검증할 수 있다.

Horangi 리더보드에서 사용하는 평가 방법은 대상 모델이 대화형 프롬프트에 대해 적절한 응답을 반환하는 것을 전제로 하고 있다. 이에 인스트럭션 튜닝을 통해 이른바 챗봇 능력을 획득하지 못한 모델에 대한 평가는 부적절하다고 할 수 있어 주의가 필요하다.

평가 방법에 관한 더 자세한 설명은 발표와 함께 공개된 Horangi LLM 리더보드 릴리스 블로그에서 확인할 수 있다. 또한 Horangi 리더보드의 상세 내용과 비공개 평가에 관한 무료 웨비나는 4월 11일 개최 예정이다.

※ Horangi LLM 리더보드 릴리스 블로그 : http://wandb.me/horangi-leaderboard-blog
※ Horangi LLM 리더보드 릴리스 웨비나 : https://event-us.kr/wandb/event/80886

비공개 평가 또한 가능

Horangi LLM 리더보드는 복잡한 머신러닝(ML) 개발 태스크를 자동화하는 ‘Launch’ 기능과 분석 결과를 집약 및 공유하는 ‘Reports’ 기능 등 WandB의 주요 기능을 활용해 확장 가능하고 유연한 모델 평가 프레임워크를 제공한다. 본 프레임워크는 WandB를 사용하는 기업이 독자적으로 복제 및 실행할 수 있도록 지원하며, 결과를 공개하지 않고도 자사의 프라이빗한 환경 내에서 평가 결과를 다른 모델과 비교·검증할 수 있다.

LLM 개발을 지원하는 W&B의 활동

WandB는 올해 4월 LLM 개발 지원에 특화된 각종 기능을 출시했을 뿐만 아니라 LangChain, LlamaIndex 등 주요 LLM 애플리케이션 개발 프레임워크와의 통합을 발표하며 이 새로운 패러다임에서의 개발 프로세스를 가시화, 관리, 검증할 수 있는 플랫폼을 제공하고 있다. 또한 국내에서는 리더스시스템즈, 펜타시스템과의 판매 파트너십 체결을 통해 충실한 제품 지원 체제를 갖추고 있다.

W&B는 앞으로도 국내 AI 개발에 관련된 모든 실무자에게 가장 진보된 머신러닝 개발 및 MLOps 툴을 제공하는 것과 동시에, 세계 최첨단 AI 개발의 베스트 프랙티스를 공유함으로써 국내 생성 AI 개발을 가속화해 나갈 계획이다.

Weights & Biases 소개

Weights & Biases, Inc.는 미국 샌프란시스코에 본사를 두며 엔터프라이즈급 ML 실험 관리와 엔드투엔드 MLOps 워크플로를 포괄하는 개발자 및 운영자를 위한 플랫폼을 제공하고 있다. WandB는 LLM 개발, 이미지 세그멘테이션, 신약 개발 등 다양한 딥러닝 유즈 케이스에 사용되며, 엔비디아(NVIDIA), 오픈AI(OpenAI), 토요타(Toyota) 등 국내외에서 80만 명 이상의 머신러닝 개발자에게 신뢰받고 있는 AI 개발의 새로운 베스트 프랙티스다.

Weights & Biases 한국어 홈페이지: https://kr.wandb.com 웹사이트: https://wandb.ai/site 연락처 Weights & Biases
영업/마케팅
유시현
+81-(0)70-4000-5657
이메일 보내기 
소셜 블로그 페이스북 트위터 유튜브 이 보도자료는 Weights & Biases가(이) 작성해 뉴스와이어 서비스를 통해 배포한 뉴스입니다. 뉴스와이어는 편집 가이드라인을 준수합니다. Weights & Biases 보도자료구독하기RSS 관련 보도자료 기술 인공지능 인터넷 신상품 해외 Weights & Biases 전체 보도자료 
인기 기사12.23 23시 기준
수원--(뉴스와이어)--삼성전자가 국내 누적 판매 1000만 대를 돌파한 무풍에어컨 생산라인의 풀가동에 들어가며 여름을 맞이하는 동시에 국내 에어컨 시장 공략 강화에 나섰다. 삼성전자가 국내 누적 1000만대 판매를...
수원--(뉴스와이어)--삼성전자가 라이프스타일 TV ‘더 프레임(The Frame)’을 통해 20세기 아티스트 ‘키스 해링(Keith Haring)’의 작품을 선보인다. 삼성전자가 라이프스타일 TV ‘더 프레임’을 통해 20세기 아티스트 ‘키스 해링’의 작품을 선보인다. 더 프레임을 통해 만날 수 있는 ‘회고(Retrospect)’ 작품 삼성전자는...
멜버른, 호주--(Business Wire / 뉴스와이어)--옵티스캔 이미징(Optiscan Imaging Limited)(호주증권거래소: OIL)(이하 ‘옵티스캔’ 또는 ‘회사’)이 메이요 클리닉과 노하우 협력 계약을 체결하고 로봇 수술에 사용할 디지털 공초점 레이저 내시경 영상 시스템을 개발한다고 발표했다. 이번 협력을 통해 디지털 내시경...
서울--(뉴스와이어)--세계적인 타블렛 전문 기업 와콤(Wacom)의 한국법인 한국와콤(대표 김주형, www.wacom.com)이 전국 대학교 내 웹툰학과 대상으로 ‘와콤 웹툰 장학금 프로그램’을 진행, 세 번째 학교로 수성대학교 웹툰스토리과와 메타버스크리에이터과에서 장학기자재 수여식을 개최했다. ...
토론토--(Business Wire / 뉴스와이어)--전 세계 기술 인프라를 위한 고속 연결성의 글로벌 리더인 알파웨이브 세미(Alphawave Semi)(런던증권거래소: AWE)와 프로토콜 테스트 및 측정 솔루션의 세계적인 리더인 텔레다인르크로이(Teledyne LeCroy)는 오늘 캘리포니아주 산타클라라에서 개최된 디자인콘(DesignCon)에서 PCI ExpressⓇ 7.0 신호...
서울--(뉴스와이어)--국내 로봇 및 소프트웨어 개발기업 ‘고스트로보틱스 테크놀로지’가 지난달 미국 Ghost Robotics Corp.(이하 ‘GRC’)에 사족 보행 로봇 Vision 60 핵심 주요부품 판매를 완료했다고 밝혔다. 이번 공급 물량은 1분기 판매한 물량 대비 5배 이상 규모이며, 3분기...
API
fg
유니콘뉴스는 보도자료 배포 서비스입니다.
여기에 뉴스를 등록하면 언론이 보도하고 널리 배포됩니다.