상하이에 본사를 둔 고성능 대규모 언어 모델(LLM) 개발 연구소 StepFun이 기존의 모든 벤치마크를 능가하는 음성 AI를 개발했다고 발표했다. 연구소에 따르면 이 시스템은 한숨과 같은 미묘한 감정 신호도 감지할 수 있다.
시스템 테스트 방식
StepFun은 어떤 벤치마크가 사용되었는지 또는 정확한 점수를 공개하지 않았지만, 표준 음성 AI 평가 세트에서 모든 경쟁사를 제쳤다고 밝혔다. 이 연구소는 이전에 중국어 및 영어 작업 리더보드 상위권에 오른 오픈소스 LLM을 공개한 바 있다.
감정 감지의 의미
새 모델은 음성 인식 및 합성 외에도 좌절감, 안도감, 피로감을 나타내는 한숨 같은 비언어적 신호를 포착할 수 있다. 이러한 미묘한 차이 수준은 고객 서비스, 정신 건강 선별 검사, 차량 내 비서 등에서 AI를 유용하게 만들 수 있지만, StepFun은 아직 상업적 파트너십이나 배포 계획을 발표하지 않았다.
중국 AI 연구소들은 텍스트 및 음성 작업에서 미국 경쟁사들과 치열하게 경쟁해 왔다. StepFun의 최상위 음성 모델 주장은 바이두(Baidu), 알리바바(Alibaba), 센스타임(SenseTime) 등 음성 AI 연구 프로그램을 운영하는 경쟁사들에게 압박을 가하고 있다. 연구소는 이 모델을 오픈소스로 공개할지, 독점 제품으로 유지할지 아직 밝히지 않았다.
연구소는 훈련 데이터, 모델 크기, 결과 달성에 사용된 컴퓨팅 자원에 대한 논평을 거부했다. 이러한 세부 정보 부족은 해당 분야에서 흔히 발생하는 현상으로, 성능 주장이 동료 검증보다 앞서는 경우가 많다.
배포에 대한 미해결 질문
StepFun은 음성 AI를 어떤 애플리케이션이나 플랫폼에 통합할 일정을 발표하지 않았다. 연구소는 앞으로 몇 달 안에 기술 논문을 발표하고 샘플 코드를 공개할 가능성이 있다고만 밝혔다. 이 기술이 제3자에 라이선스될지, 소비자용 제품에 내장될지는 아직 알려지지 않았다.



