본문 바로가기

AI tech

[논문 리뷰] Kanana: Compute-efficient Bilingual Language Models

반응형

안녕하세요! Kanana 관련 테크니컬 리포트가 공개되었다는 소식을 듣고, 리뷰와 함께 직접 테스트까지 일부 진행해봤습니다.

 

실제 논문 요약은 다음 링크에서 확인하실 수 있습니다:

 

관련 링크:

 

총평

최근 딥시크, GPT 4.5 등과 같은 뛰어난 성능의 모델들과 비교했을 때, 아직까지는 개선할 점이 보입니다. 하지만 한국어 LLM 연구가 계속해서 발전하고 있다는 점에 감사하다는 생각이 듭니다. 앞으로도 이런 모델들이 더 공개되어서 다양한 LLM 관련 연구가 가속화되기를 기대해 봅니다!

 

Kanana 논문 리뷰

🔍 주요 내용 정리

  1. Pre-training (사전학습) 최적화
    • 고품질 데이터 필터링 (PII 제거, 교육 데이터 활용)
    • 단계적 학습을 통한 성능 향상(Stage1: 2.7T, Stage2: 300B)
    • Depth Up-scaling(DUS)로 효율적인 모델 확장
  2. Pruning & Distillation (가지치기 & 증류)
    • 8B 모델을 기반으로 2.1B 모델을 압축
    • 성능을 유지하면서도 연산 비용 절감
  3. Post-training (후처리) 기법 적용
    • 지도학습(SFT) & 선호 최적화(DPO)로 활용성 강화

🏆 Kanana의 강점

  • 한국어 성능이 강력함 (HAE-RAE 벤치마크에서 높은 점수)
  • 연산 비용 절감 (비슷한 성능의 모델 대비 효율적)
  • 공개된 2.1B 모델로 연구 활성화에 기여

✅ 논문을 읽으며 느낀 점

  • 처음에 엄청난 양(총 40페이지)에 압도되었지만 반 이상이 Reference와 Appendix였고, 본문은 14페이지 정도라 안심했다.
  • 비용 최적화를 위해 다양한 기법을 적용한 점이 흥미로웠다.
  • 데이터 정제, 모델 경량화, 단계적 사전학습이 핵심 포인트였다.

kanana-nano-2.1b-instruct 사용 후기

  • 간단한 질문에 대답을 잘 해주는 모습을 보입니다. 끝에 “디어, 카나” 라고 덧붙인 부분이 흥미로웠습니다.

  • 잘 아시다시피, llama 3.2 3b모델은 일단 한국어를 잘 못해주고 있습니다.

  • 성능 비교를 위해 Llama에게 협업 필터링에 대해 물어봤습니다. 중간에 외국어가 포함되거나 ‘중인’, ‘협상 필터링’ 등의 모호한 표현을 사용하는 것을 발견했습니다.

  • Kanana에게 동일한 질문을 한 결과입니다. 답변이 오래 걸리지만, 그래도 꽤 괜찮은 답변을 생성해 준다고 느꼈습니다.
물론입니다! 협업 필터링(Collaborative Filtering)은 추천 시스템
(recommendation system)에서 사용자 간의 유사성을 기반으로 개인화된 추천을 제
공하는 기술 중 하나로, 주로 두 가지 주요 방식인 사용자-사용자 협업 필터링
(User-User Collaborative Filtering)과 아이템-아이템 협업 필터링(Item-Item 
Collaborative Filtering)으로 나뉩니다. 여기서는 각각의 개념과 작동 원리를 자
세히 설명드리겠습니다.

### 1. 사용자-사용자 협업 필터링 (User-User Collaborative Filtering)

**개념:**
이 방법은 유사한 취향을 가진 사용자들 사이에서 선호도를 예측하는 방식입니다
. 비슷한 관심사를 가진 두 사용자가 특정 아이템을 모두 좋아하거나 싫어한다면
, 그 두 사용자는 서로 유사하다고 간주됩니다.

**작동 원리:**
1. **유사성 계산:** 먼저 모든 사용자 쌍의 유사성을 계산합니다. 보통 코사인 
유사도(Cosine Similarity)나 피어슨 상관계수(Pearson Correlation 
Coefficient) 같은 방법을 사용합니다.
   - 예를 들어, 사용자 A와 B가 공통 아이템 X를 좋아한다면, 두 사람 간의 유사
성이 높아집니다.

2. **추천:**
   - 새로운 사용자가 접근했을 때, 이 사용자와 가장 유사한 기존 사용자들을 선
택합니다.
   - 해당 유사한 사용자들이 좋아하는 아이템을 새로운 사용자에게 추천합니다
.

**장점:**
- 개인화된 추천이 가능하며, 각 사용자의 고유한 취향을 반영할 수 있습니다.
- 데이터가 부족하거나 적은 경우에도 비교적 잘 작동합니다.

**단점:**
- 계산 비용이 높습니다. 특히 많은 수의 아이템과 사용자가 있을 때 시간과 자원
이 많이 필요합니다.
- 희귀 아이템이나 신뢰도가 낮은 사용자로부터의 추천은 정확도가 떨어질 수 있
습니다.

### 2. 아이템-아이템 협업 필터링 (Item-Item Collaborative Filtering)

**개념:**
이 방법은 각 아이템 간의 유사성을 기반으로 새로운 사용자의 취향을 예측합니다
. 한 아이템과 비슷한 아이템들이 많다면, 그 아이템을 좋아할 가능성이 높다고 
판단하는 방식입니다.

**작동 원리:**
1. **유사성 계산:** 먼저 모든 아이템 쌍의 유사성을 계산합니다.
   - 예를 들어, 아이템 A와 B가 많은 공통 사용자들에게 추천된 경우 두 아이템
 간의 유사성이 높아집니다.

2. **추천:**
   - 새로운 사용자가 접근했을 때, 이 사용자의 과거 기록을 바탕으로 유사한 아
이템들을 찾습니다.
   - 가장 비슷한 아이템들이 많이 추천된 아이템들 중에서 새로운 사용자에게 추
천합니다.

**장점:**
- 계산이 비교적 효율적입니다. 사용자 기반 협업 필터링보다 처리 속도가 빠릅니
다.
- 적은 수의 사용자 데이터를 가지고도 높은 정확도를 유지할 수 있습니다.

**단점:**
- 사용자 간의 취향 차이를 제대로 반영하지 못할 수 있습니다.
- 희귀 아이템 추천이 어려울 수 있습니다.

### 주요 기술 및 알고리즘

1. **코사인 유사성 (Cosine Similarity):**
   - 두 벡터의 내적을 구한 후, 두 벡터의 크기를 각각 구하여 나눈 값으로 유사
도를 계산합니다.
   
2. **피어슨 상관계수 (Pearson Correlation Coefficient):**
   - 두 사용자 또는 두 아이템 간의 선호도 차이를 측정하는 방법입니다.

3. **K-최근접 이웃(K-nearest neighbors, KNN) 알고리즘:**
   - 가장 유사한 k개의 인접 항목을 선택하여 평균값이나 다수결로 예측치를 구
합니다.
   
4. **SVD ( Singular Value Decomposition):**
   - 행렬 분해 기법으로 데이터의 차원을 축소하고, 고차원 데이터에서 유사성을
 계산하는 방법입니다.

### 결론

협업 필터링은 추천 시스템에서 매우 효과적인 기술로 알려져 있으며, 사용자-사
용자 협업 필터링과 아이템-아이템 협업 필터링 두 가지 주요 방식으로 나뉩니다
. 각각의 방법은 장단점을 가지고 있으므로, 데이터와 상황에 맞춰 적절히 선택하
여 사용하는 것이 중요합니다.

도움이 필요하시거나 추가 질문이 있다면 언제든지 말씀해 주세요!

 

 

적지만, 일부 사용 및 테스트 후 느낀 점

  • 실제로 다른 오픈소스 LLM에 비해 한국어 질문에 대한 응답을 잘 수행하며, 협업 필터링을 포함한 여러 도메인 관련 질문에 대해 자세한 설명을 제공하는 등 상당히 유용하다는 점에서 긍정적인 경험을 얻을 수 있었습니다.
  • 앞으로 한국어를 포함한 LLM 연구 및 성능 개선이 활발히 이루어졌으면 하는 바람과 함께 논문 리뷰를 마칩니다 :)

 

반응형