KT가 대규모 언어모델(LLM)의 안전성과 문화적 민감성을 통합 평가하는 다국어 벤치마크 'XL SafetyBench'를 공개했습니다. 이 벤치마크는 한국, 미국, 독일, 일본, 아랍에미리트 등 10개국의 언어 및 문화적 특성을 반영한 5500개 규모의 테스트로 구성되어 있습니다.
XL SafetyBench는 AI 모델이 각 국가의 사회적 규범과 문화적 민감성을 얼마나 적절히 인지하는지 측정하는 데 중점을 둡니다. 예를 들어, 특정 문화권에서는 자연스러운 표현이나 사물이 다른 문화권에서는 다르게 받아들여질 수 있는 사례를 반영했습니다.
이번 연구에는 에임인텔리전스, 마이크로소프트, 한국인공지능안전연구소(AISI), 뮌헨공과대학교, 서울대학교 등 국내외 10개 기관의 전문가 17명이 참여했습니다. 벤치마크 데이터셋과 평가 코드는 허깅페이스와 깃허브를 통해 공개되었으며, 주요 LLM 37종을 대상으로 한 평가 결과 논문도 아카이브에 공개되었습니다.
박재형 KT AX미래기술원 프론티어 AI 랩장은 AI 경쟁이 성능 중심에서 안전성과 신뢰성 검증 단계로 확대되는 가운데, 문화적 민감성 인식 능력을 함께 검증하는 평가 체계가 더욱 중요해질 것이라고 밝혔습니다.
이 콘텐츠는 뉴스보이의 AI 저널리즘 엔진으로 생성 되었으며, 중립성과 사실성을 준수합니다.
AI가 작성한 초안을 바탕으로 뉴스보이 에디터들이 최종검수하였습니다. (오류신고 : support@curved-road.com)
• 이 콘텐츠는 뉴스보이의 AI 저널리즘 엔진으로 생성 되었으며, 중립성과 사실성을 준수합니다.
• AI가 작성한 초안을 바탕으로 뉴스보이 에디터들이 최종검수하였습니다. (오류신고 : support@curved-road.com)