반응형
안녕하세요! Kanana 관련 테크니컬 리포트가 공개되었다는 소식을 듣고, 리뷰와 함께 직접 테스트까지 일부 진행해봤습니다.
실제 논문 요약은 다음 링크에서 확인하실 수 있습니다:
관련 링크:
- 카카오, ‘Kanana 테크니컬 리포트’ 통해 자체 개발 AI 모델 연구 성과 발표... 경량 모델 ‘Kanana Nano’는 오픈소스로 공개
- 밑바닥부터 Kanana LLM 개발하기: Pre-training - tech.kakao.com
- 카카오의 AI 모델, 카나나 모델 패밀리를 소개합니다 - tech.kakao.com
- Kanana: Compute-efficient Bilingual Language Models
총평
최근 딥시크, GPT 4.5 등과 같은 뛰어난 성능의 모델들과 비교했을 때, 아직까지는 개선할 점이 보입니다. 하지만 한국어 LLM 연구가 계속해서 발전하고 있다는 점에 감사하다는 생각이 듭니다. 앞으로도 이런 모델들이 더 공개되어서 다양한 LLM 관련 연구가 가속화되기를 기대해 봅니다!
Kanana 논문 리뷰
🔍 주요 내용 정리
- Pre-training (사전학습) 최적화
- 고품질 데이터 필터링 (PII 제거, 교육 데이터 활용)
- 단계적 학습을 통한 성능 향상(Stage1: 2.7T, Stage2: 300B)
- Depth Up-scaling(DUS)로 효율적인 모델 확장
- Pruning & Distillation (가지치기 & 증류)
- 8B 모델을 기반으로 2.1B 모델을 압축
- 성능을 유지하면서도 연산 비용 절감
- Post-training (후처리) 기법 적용
- 지도학습(SFT) & 선호 최적화(DPO)로 활용성 강화
🏆 Kanana의 강점
- 한국어 성능이 강력함 (HAE-RAE 벤치마크에서 높은 점수)
- 연산 비용 절감 (비슷한 성능의 모델 대비 효율적)
- 공개된 2.1B 모델로 연구 활성화에 기여
✅ 논문을 읽으며 느낀 점
- 처음에 엄청난 양(총 40페이지)에 압도되었지만 반 이상이 Reference와 Appendix였고, 본문은 14페이지 정도라 안심했다.
- 비용 최적화를 위해 다양한 기법을 적용한 점이 흥미로웠다.
- 데이터 정제, 모델 경량화, 단계적 사전학습이 핵심 포인트였다.
kanana-nano-2.1b-instruct 사용 후기
- 간단한 질문에 대답을 잘 해주는 모습을 보입니다. 끝에 “디어, 카나” 라고 덧붙인 부분이 흥미로웠습니다.
- 잘 아시다시피, llama 3.2 3b모델은 일단 한국어를 잘 못해주고 있습니다.
- 성능 비교를 위해 Llama에게 협업 필터링에 대해 물어봤습니다. 중간에 외국어가 포함되거나 ‘중인’, ‘협상 필터링’ 등의 모호한 표현을 사용하는 것을 발견했습니다.
- Kanana에게 동일한 질문을 한 결과입니다. 답변이 오래 걸리지만, 그래도 꽤 괜찮은 답변을 생성해 준다고 느꼈습니다.
물론입니다! 협업 필터링(Collaborative Filtering)은 추천 시스템
(recommendation system)에서 사용자 간의 유사성을 기반으로 개인화된 추천을 제
공하는 기술 중 하나로, 주로 두 가지 주요 방식인 사용자-사용자 협업 필터링
(User-User Collaborative Filtering)과 아이템-아이템 협업 필터링(Item-Item
Collaborative Filtering)으로 나뉩니다. 여기서는 각각의 개념과 작동 원리를 자
세히 설명드리겠습니다.
### 1. 사용자-사용자 협업 필터링 (User-User Collaborative Filtering)
**개념:**
이 방법은 유사한 취향을 가진 사용자들 사이에서 선호도를 예측하는 방식입니다
. 비슷한 관심사를 가진 두 사용자가 특정 아이템을 모두 좋아하거나 싫어한다면
, 그 두 사용자는 서로 유사하다고 간주됩니다.
**작동 원리:**
1. **유사성 계산:** 먼저 모든 사용자 쌍의 유사성을 계산합니다. 보통 코사인
유사도(Cosine Similarity)나 피어슨 상관계수(Pearson Correlation
Coefficient) 같은 방법을 사용합니다.
- 예를 들어, 사용자 A와 B가 공통 아이템 X를 좋아한다면, 두 사람 간의 유사
성이 높아집니다.
2. **추천:**
- 새로운 사용자가 접근했을 때, 이 사용자와 가장 유사한 기존 사용자들을 선
택합니다.
- 해당 유사한 사용자들이 좋아하는 아이템을 새로운 사용자에게 추천합니다
.
**장점:**
- 개인화된 추천이 가능하며, 각 사용자의 고유한 취향을 반영할 수 있습니다.
- 데이터가 부족하거나 적은 경우에도 비교적 잘 작동합니다.
**단점:**
- 계산 비용이 높습니다. 특히 많은 수의 아이템과 사용자가 있을 때 시간과 자원
이 많이 필요합니다.
- 희귀 아이템이나 신뢰도가 낮은 사용자로부터의 추천은 정확도가 떨어질 수 있
습니다.
### 2. 아이템-아이템 협업 필터링 (Item-Item Collaborative Filtering)
**개념:**
이 방법은 각 아이템 간의 유사성을 기반으로 새로운 사용자의 취향을 예측합니다
. 한 아이템과 비슷한 아이템들이 많다면, 그 아이템을 좋아할 가능성이 높다고
판단하는 방식입니다.
**작동 원리:**
1. **유사성 계산:** 먼저 모든 아이템 쌍의 유사성을 계산합니다.
- 예를 들어, 아이템 A와 B가 많은 공통 사용자들에게 추천된 경우 두 아이템
간의 유사성이 높아집니다.
2. **추천:**
- 새로운 사용자가 접근했을 때, 이 사용자의 과거 기록을 바탕으로 유사한 아
이템들을 찾습니다.
- 가장 비슷한 아이템들이 많이 추천된 아이템들 중에서 새로운 사용자에게 추
천합니다.
**장점:**
- 계산이 비교적 효율적입니다. 사용자 기반 협업 필터링보다 처리 속도가 빠릅니
다.
- 적은 수의 사용자 데이터를 가지고도 높은 정확도를 유지할 수 있습니다.
**단점:**
- 사용자 간의 취향 차이를 제대로 반영하지 못할 수 있습니다.
- 희귀 아이템 추천이 어려울 수 있습니다.
### 주요 기술 및 알고리즘
1. **코사인 유사성 (Cosine Similarity):**
- 두 벡터의 내적을 구한 후, 두 벡터의 크기를 각각 구하여 나눈 값으로 유사
도를 계산합니다.
2. **피어슨 상관계수 (Pearson Correlation Coefficient):**
- 두 사용자 또는 두 아이템 간의 선호도 차이를 측정하는 방법입니다.
3. **K-최근접 이웃(K-nearest neighbors, KNN) 알고리즘:**
- 가장 유사한 k개의 인접 항목을 선택하여 평균값이나 다수결로 예측치를 구
합니다.
4. **SVD ( Singular Value Decomposition):**
- 행렬 분해 기법으로 데이터의 차원을 축소하고, 고차원 데이터에서 유사성을
계산하는 방법입니다.
### 결론
협업 필터링은 추천 시스템에서 매우 효과적인 기술로 알려져 있으며, 사용자-사
용자 협업 필터링과 아이템-아이템 협업 필터링 두 가지 주요 방식으로 나뉩니다
. 각각의 방법은 장단점을 가지고 있으므로, 데이터와 상황에 맞춰 적절히 선택하
여 사용하는 것이 중요합니다.
도움이 필요하시거나 추가 질문이 있다면 언제든지 말씀해 주세요!
적지만, 일부 사용 및 테스트 후 느낀 점
- 실제로 다른 오픈소스 LLM에 비해 한국어 질문에 대한 응답을 잘 수행하며, 협업 필터링을 포함한 여러 도메인 관련 질문에 대해 자세한 설명을 제공하는 등 상당히 유용하다는 점에서 긍정적인 경험을 얻을 수 있었습니다.
- 앞으로 한국어를 포함한 LLM 연구 및 성능 개선이 활발히 이루어졌으면 하는 바람과 함께 논문 리뷰를 마칩니다 :)
반응형
'AI tech' 카테고리의 다른 글
글또 10기 회고: 완벽하진 않았지만, 성장했다 (1) | 2025.03.30 |
---|---|
주간회고 작성 좀 해줘! : Notion + LLM을 활용한 회고 자동화 시스템 (0) | 2025.03.16 |
[논문 요약] Kanana: Compute-efficient Bilingual Language Models (0) | 2025.03.02 |
[논문 리뷰] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (0) | 2025.02.16 |
[논문 리뷰] Byte Latent Transformer: Patches Scale Better Than Tokens (1) | 2025.01.19 |