Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그
[#5 LLM Tutorial With RAG] LLM은 학습할 데이터도 스스로 만들 수 있습니다! 섬네일

[#5 LLM Tutorial With RAG] LLM은 학습할 데이터도 스스로 만들 수 있습니다!

현대자동차 favicon현대자동차·AI/ML·
PythonLLMLangChainRAGPyPDFLoader
2025년 02월 12일0

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

현대자동차가 LLM 기반 RAG 파이프라인을 구축해 2000자 이상 페이지를 컨텍스트로 삼아 자동으로 질문-답변 데이터를 생성하는 방법을 공유했습니다.

구현 방법

  • PDF를 PyPDFLoader로 로드하고 페이지 단위 컨텍스트를 활용하는 구조를 구성
  • 템플릿 프롬프트와 JsonOutputParser를 통해 출력이 JSON 형태로 정렬되도록 설계
  • LangChain 체인(LLM 호출 + 파서)으로 데이터 생성 파이프라인을 정의
  • EDA로 문서의 글자수 분포를 확인하고 2000자 이상 페이지를 대상으로 데이터 규모를 판단

주요 결과

  • 문서는 125페이지 중 86페이지 이상이 2000자 이상으로 정보 풍부성이 높은 것으로 확인
  • 샘플 페이지를 참조해 3개 데이터셋 생성 시나리오를 시연
  • 생성 데이터는 JSON 형식으로 저장하는 파이프라인의 가능성을 확인

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
[#4 LLM Tutorial With RAG] LLM의무한한 가능성을 해방하는 LangChain 섬네일
83%

[#4 LLM Tutorial With RAG] LLM의무한한 가능성을 해방하는 LangChain

현대자동차 favicon현대자동차·2025년 01월 02일
[#1 LLM Tutorial With RAG] 나만의 Chat GPT를 만들어봅시다! 섬네일
79%

[#1 LLM Tutorial With RAG] 나만의 Chat GPT를 만들어봅시다!

현대자동차 favicon현대자동차·2024년 10월 22일
[#3 LLM Tutorial With RAG] 오픈 소스 LLM의 약점을 보완하는 RAG 섬네일
77%

[#3 LLM Tutorial With RAG] 오픈 소스 LLM의 약점을 보완하는 RAG

현대자동차 favicon현대자동차·2024년 12월 11일