Weights & Biases, LLM의 언어 이해·생성 능력을 다각도로 평가하는 ‘Horangi 한국어 LLM 리더보드’ 공개-유니콘뉴스

Weights & Biases, LLM의 언어 이해·생성 능력을 다각도로 평가하는 ‘Horangi 한국어 LLM 리더보드’ 공개

· 등록일 2024-04-02 13:20

· 업데이트일 2024-04-02 22:45:54

서울--(뉴스와이어)--Weights & Biases, Inc.(CEO Lukas Biewald, 이하 W&B)는 2일 대규모 언어 모델(LLM)의 한국어 성능 평가 결과의 랭킹을 공개하는 ‘Horangi (호랑이) 한국어 LLM 리더보드’의 운영 및 제공을 시작했다고 밝혔다.

Horangi 한국어 LLM 리더보드의 스크린샷 Horangi 한국어 LLM 리더보드에서 확인할 수 있는 모델 능력에 대한 상세 검증 이번에 선보이는 Horangi 리더보드는 LLM 모델의 언어 이해 능력과 언어 생성 능력을 다각도로 평가한다. W&B 플랫폼(WandB)의 주요 기능을 응용해 결과를 리포트에서 확인할 수 있을 뿐만 아니라 인터랙티브한 분석 기능을 제공한다. 공개 초기에는 20개 이상의 오픈 및 클로즈 모델의 평가 결과를 게시하는 것과 동시에 기업이 프라이빗 환경에서 비공개로 모델 평가를 할 수 있도록 지원한다. Horangi 리더보드는 홈페이지(http://horangi.ai)에서 확인할 수 있으며, W&B는 오는 11일 Horangi의 자세한 내용과 사용법을 설명하는 무료 웨비나를 개최할 예정이다.

‘Horangi 한국어 LLM 리더보드’의 모델 평가 방법

LLM 모델의 평가는 목적과 용도에 따라 주목해야 할 평가 축이 달라지기에 획일적으로 실시할 수 없다. 또한 새로운 모델이 속속 발표되고, 그 성능이 계속 업데이트되는 최근에는 더 폭넓고 난이도가 높은 최신 평가 기법을 사용할 필요가 있다. Horangi 한국어 LLM 리더보드는 평가에 보다 다각적으로 접근하는 것을 통해 사용자가 모델을 획일적인 순위표로 비교하는 것뿐만 아니라 모델별 강점을 파악해 용도에 맞는 모델을 선택할 수 있도록 도와주는 수단이 되는 것을 목표로 하고 있다.

Horangi 리더보드의 지표는 크게 ‘언어 이해’와 ‘언어 생성’으로 분류돼 있다. 언어 이해 태스크는 일문일답식 평가 체계를 사용하므로 입력된 내용을 정확하게 이해하고, 요구된 형식으로 답변하는 능력을 평가한다. 언어 생성 태스크는 자유 형식으로 모델에게 답변을 출력시키고, GPT-4를 사용한 정성적 평가를 수행한다. 이 평가 체계는 Stability AI사와의 협력하에 이 회사가 개발한 MT-Bench 프레임워크를 활용하고 있다.

각 평가 카테고리는 구체적인 용도를 염두에 둔 하위 카테고리로 구성돼 있다. 예를 들어 언어 생성에서는 작문(writing), 추론(reasoning), 정보 추출(extraction) 등의 평가 축에서 모델의 강점을 검증할 수 있다.

Horangi 리더보드에서 사용하는 평가 방법은 대상 모델이 대화형 프롬프트에 대해 적절한 응답을 반환하는 것을 전제로 하고 있다. 이에 인스트럭션 튜닝을 통해 이른바 챗봇 능력을 획득하지 못한 모델에 대한 평가는 부적절하다고 할 수 있어 주의가 필요하다.

평가 방법에 관한 더 자세한 설명은 발표와 함께 공개된 Horangi LLM 리더보드 릴리스 블로그에서 확인할 수 있다. 또한 Horangi 리더보드의 상세 내용과 비공개 평가에 관한 무료 웨비나는 4월 11일 개최 예정이다.

※ Horangi LLM 리더보드 릴리스 블로그 : http://wandb.me/horangi-leaderboard-blog
※ Horangi LLM 리더보드 릴리스 웨비나 : https://event-us.kr/wandb/event/80886

비공개 평가 또한 가능

Horangi LLM 리더보드는 복잡한 머신러닝(ML) 개발 태스크를 자동화하는 ‘Launch’ 기능과 분석 결과를 집약 및 공유하는 ‘Reports’ 기능 등 WandB의 주요 기능을 활용해 확장 가능하고 유연한 모델 평가 프레임워크를 제공한다. 본 프레임워크는 WandB를 사용하는 기업이 독자적으로 복제 및 실행할 수 있도록 지원하며, 결과를 공개하지 않고도 자사의 프라이빗한 환경 내에서 평가 결과를 다른 모델과 비교·검증할 수 있다.

LLM 개발을 지원하는 W&B의 활동

WandB는 올해 4월 LLM 개발 지원에 특화된 각종 기능을 출시했을 뿐만 아니라 LangChain, LlamaIndex 등 주요 LLM 애플리케이션 개발 프레임워크와의 통합을 발표하며 이 새로운 패러다임에서의 개발 프로세스를 가시화, 관리, 검증할 수 있는 플랫폼을 제공하고 있다. 또한 국내에서는 리더스시스템즈, 펜타시스템과의 판매 파트너십 체결을 통해 충실한 제품 지원 체제를 갖추고 있다.

W&B는 앞으로도 국내 AI 개발에 관련된 모든 실무자에게 가장 진보된 머신러닝 개발 및 MLOps 툴을 제공하는 것과 동시에, 세계 최첨단 AI 개발의 베스트 프랙티스를 공유함으로써 국내 생성 AI 개발을 가속화해 나갈 계획이다.

Weights & Biases 소개

Weights & Biases, Inc.는 미국 샌프란시스코에 본사를 두며 엔터프라이즈급 ML 실험 관리와 엔드투엔드 MLOps 워크플로를 포괄하는 개발자 및 운영자를 위한 플랫폼을 제공하고 있다. WandB는 LLM 개발, 이미지 세그멘테이션, 신약 개발 등 다양한 딥러닝 유즈 케이스에 사용되며, 엔비디아(NVIDIA), 오픈AI(OpenAI), 토요타(Toyota) 등 국내외에서 80만 명 이상의 머신러닝 개발자에게 신뢰받고 있는 AI 개발의 새로운 베스트 프랙티스다.

Weights & Biases 한국어 홈페이지: https://kr.wandb.com 웹사이트: https://wandb.ai/site 연락처 Weights & Biases
영업/마케팅
유시현
+81-(0)70-4000-5657
이메일 보내기 
소셜 블로그 페이스북 트위터 유튜브 이 보도자료는 Weights & Biases가(이) 작성해 뉴스와이어 서비스를 통해 배포한 뉴스입니다. 뉴스와이어는 편집 가이드라인을 준수합니다. Weights & Biases 보도자료구독하기RSS 관련 보도자료 기술 인공지능 인터넷 신상품 해외 Weights & Biases 전체 보도자료 

배포 분야

신상품 경제 동향 해외 인터넷 인공지능

본문보기

뒤로

인기 기사05.02 18시 기준

KB국민은행, 직장인 고객을 위한 ‘점심시간 집중근무’ 시범 운영

서울--(뉴스와이어)--KB국민은행(은행장 이재근)은 직장인 밀집 지역에 위치한 서울 영업점 5곳을 ‘점심시간 집중근무제’ 지점으로 시범 운영한다고 밝혔다. ‘점심시간 집중근무제’는 점심시간에 지점을 방문하는 고객의 신속하고 원활한 업무 처리를 위해 정오부터 오후 1시까지 개인 창구 전 직원이 근무하는...

보건교사들, 교육부의 학생건강증진 기본계획에 초등 보건교과와 체육교과 동시 추진 촉구

사단법인 보건교육포럼(이사장 우옥영) 등 보건교사들은 10월 30일 사회관계장관회의를 거쳐 교육부가 발표한 ‘제2차 학생건강증진 기본계획(2024~2028)’에 대해 초등 보건교과와 체육교과의 동시 추진을 촉구했다.건강결정요인에 대한 ‘보건교육’ 내용 보건교사들은 아이들 건강 정책을 의제로 삼은 것은 적극 환영한다면서도 아이들 건강문제는...

뷰티산업 단계별 실전 마케팅 교육을 위한 2024 화장품 마케팅 교육 개최

서울--(뉴스와이어)--대한화장품산업연구원이 주최하고 크리에이티브 레이블, 우피치가 주관하는 ‘2024 화장품 마케팅 교육’이 지난 5월 28일(화) 뷰티플레이 홍대점에서 열렸다. 2024 화장품 마케팅 교육 포스터 ...

IBK기업은행, 2023 CDP Korea ‘탄소경영 섹터 아너스’ 2년 연속 수상

서울--(뉴스와이어)--IBK기업은행(은행장 김성태)은 13일 개최된 ‘2023 CDP Korea Awards’에서 ‘탄소경영 섹터 아너스’를 수상했다고 밝혔다. CDP(Carbon Disclosure Project, 탄소정보공개프로젝트)는 매년 전 세계 주요 상장기업들의 기후변화 대응, 물 관리 성과 등을 평가해 공개하는 단체로 가장 신뢰성 높은...

서울형 현장 맞춤형 활동, 청소년과의 소통을 통해 새로운 지평을 열다

서울--(뉴스와이어)--한국청소년연맹에서 위탁·운영하는 시립강동청소년센터가 시립보라매청소년센터, 시립성북청소년센터와 함께 서울시에서 시범사업으로 운영하는 현장 맞춤형 활동을 시작했다. 이 사업은 권역별 청소년센터가 각각 주관해 운영되며, 청소년의 필요에 맞춘 다양한 활동을 통해 그들의 성장과 발전을 도모하고자 한다. ...

‘만나면 반가운 이웃’ 구례군장애인복지관, 교통복지공모사업 장애인 동행프로그램 진행

구례--(뉴스와이어)--구례군장애인복지관은 2024년 티머니복지재단에서 지원하는 교통복지공모사업에 선정돼 ‘여보게, 친구~ 얼굴한번보세’를 진행한다. 교통복지공모사업 장애인 동행프로그램 ‘우리밀 빵 만들기 체험’ 간전면 거석·묘동·하천·효죽마을 주민을...

뉴스 더보기

API