Model Card for Model ID

Model Details

Model Description

외국에서 만들어진 글로벌 LMM 오픈소스를 그대로 오프라인에서 사용하는 한국어 LLM 사용자를 위해 한국 정서, 역사, 기업문화/업무, 문서생성, 법률 데이터를 통해 한국어 기업용 LLM을 파인튜닝 하였습니다.

gpt-oss-20b를 파인튜닝 후 OSS-20B 대비 강화되는 능력을 정리하면:

  1. 한국어 문화·정서·톤 적합도↑

    • 존대/반말, 회사 내 위계, 사회 규범·가치 판단을 더 자연스럽게 반영.
  2. 공공·정책·사회 이슈 Q&A 정확도↑

    • 한국 역사·정치·외교·안보·사회문화 이슈를 한국 시각에서 설명·요약·비판하는 능력 강화.
  3. 기업 업무용 문서 생성력↑

    • 기안/품의/보고/회의록/메일/PT·기획서 등 한국 기업 포맷을 제목·목적·간단한 입력만으로 자동 구성.
  4. 정형데이터→문서 변환 & 표/CSV 이해 능력↑

    • 표/CSV/ERP 처리데이터를 받아 요약, 인사이트 도출, 이상징후 탐지, 자동 기안·정산 문서 생성.
  5. 한국 법·회계·금융 도메인 이해력↑

    • K-IFRS, 계약서, 내부감사, 각종 법령·판례, 금융 공시 텍스트를 구조적으로 해석·요약·비교.
  6. 법률·금융 특화 한↔일/중 번역 품질↑

    • 용어 일관성, 문체 유지, 조항 구조 유지 등 도메인 특화 번역 성능.
  7. ERP 스타일 업무 지시 수행력↑

    • “매출원가 집계해서 부서별 리포트 작성해줘” 같은 업무 지시를 단계적으로 해석하고 문서/요약 형태로 응답.
  8. 컴플라이언스·FDS 시나리오 이해력↑

    • 규정 위반 케이스, 이상 거래 시나리오 설명·생성, 리스크 포인트 요약 등.

모델 요약

gpt-oss-safeguard-20b-kor-enterpriseegpt-oss-20b 기반으로, 약 274만 건의 한국 기업·법률·공공 도메인 데이터로 파인튜닝한 한국어 특화 LLM입니다.

  • 🇰🇷 한국 문화·기업 업무 맥락 최적화
  • 🧾 기안/품의/보고/정산 등 한국 기업 표준 양식 문서 자동 생성
  • ⚖️ K-IFRS, 계약서, 판례, 공시 등 한국 법·회계·금융 텍스트 이해·요약
  • 📊 표·CSV·ERP 데이터 기반 리포트/요약 생성
  • 🌐 법률·금융 도메인 한↔일·중 번역

원본 OSS-20B 대비, 한국어 비즈니스/법률/데이터 처리형 태스크에 초점을 맞춰 성능을 강화했습니다.


사용 사례 (Intended Use)

  • 기업 문서 작성 Copilot

    • 기안서, 품의서, 보고서, 회의록, PT 초안, 이메일/메신저 답변 제안
    • 표·숫자·CSV 기반 정산/정리/요약 문서 자동 생성
  • ERP/업무지시 보조

    • ERP/회계/물류/HR 관련 자연어 지시 → 요약, 보고, 체크리스트, 문서화
  • 한국 법률·회계·금융 리서치 보조

    • K-IFRS 기준 설명, 계약서 조항 요약, 법령·판례 쟁점 정리
    • 공시/판례/규정 텍스트 비교·요약·Q&A
  • 컴플라이언스 & FDS 시나리오 도우미

    • 규정 위반 유형 요약, FDS 룰/케이스 설명, 리스크 시나리오 브레인스토밍
  • 도메인 특화 번역

    • 한국어 ↔ 일본어/중국어: 금융·법률·공시·판례 텍스트 번역 및 요약

⚠️ 실제 법률·회계·규제 준수 여부 판단은 반드시 전문가 검토가 필요합니다. 이 모델은 의사결정 참고 용도로만 사용해야 합니다.


모델 설명

  • Base model: gpt-oss-20b (20B 파라미터, 디코더 기반 LLM)
  • 언어: 주로 한국어, 일부 일본어·중국어 (번역 도메인)
  • 학습 방식: Supervised Fine-tuning (SFT)

OSS-20B 대비 강화된 능력

  1. 한국 문화·정체성·사회 규범 이해

    • 64k건의 한국 문화/정체성/사회규범 데이터로 한국인의 의사소통 톤·예절·정서 표현 및 가치 판단 맥락을 내재화.
  2. 한국 중심 공공·정책·사회 이슈 Q&A

    • 222k건의 한국 역사·사회문화·안보·정치·외교(한국 견해 중점) 데이터로 공공 이슈에 대한 한국 시각의 해석·설명·요약 능력 향상.
  3. 기업 업무 커뮤니케이션 & 문서 자동 생성

    • 450k건의 이메일/보고서/회의/기획 등 일반 업무 대화·문서 데이터
    • 268k건의 “문서명+목적만 제공” 방식 표준 양식 생성 데이터
    • 139k건의 “처리 데이터→문서 작성” 데이터 → 최소 정보만으로도 한국 기업 표준 포맷의 문서를 구조화해 작성하는 능력이 크게 개선.
  4. 정형 데이터(표·CSV) 이해 및 리포트 생성

    • 180k건의 실데이터 기반 표 분석/요약/이상징후 탐지 데이터
    • 108k건의 CSV 정형데이터 로딩→정리→문서화 파이프라인 데이터 → OSS-20B 대비 표/CSV/ERP 데이터에서 인사이트를 뽑아 문서 형태로 정리하는 태스크에 특화.
  5. 한국 법률·회계·계약 문서 이해

    • 71k건의 K-IFRS/내부감사/노동법/계약서 등 표준 법률 문서 (합성+REAL)
    • 400k건의 판례·법령(민사·행정·지재·형사) REAL 데이터 → 조항 구조 파악, 논리 전개 요약, 쟁점 비교, 간단한 설명형 질의에 강점.
  6. 법률·금융 도메인 한↔일·중 번역

    • 480k건의 금융 법률/공시/판례 번역 REAL 데이터 → 용어 일관성, 조항 번호·구조 보존, 문체 유지 등 도메인 특화 번역에 유리.
  7. 업무 지시 수행·시나리오 기반 응답

    • 172k건의 ERP(회계·관리·물류·HR) 업무 지시 → 처리 데이터/결과 문서 매핑 데이터 → “~로써 ○○ 업무를 수행하라” 류의 명령형 프롬프트를 단계적으로 해석하는 능력 강화.
  8. 컴플라이언스·FDS 문맥 이해

    • 40k건의 컴플라이언스 위반 및 FDS 탐지 시나리오 (합성+REAL) → 이상 거래 설명, 규정 위반 예시 생성, 리스크 요약 등에 강점.

학습 데이터 (요약)

총 약 2,747,418 샘플로 SFT.

구분 분류 건수 종류
한국 정체성·사회규범·가치 한국문화 64,000 합성
역사·사회문화·안보·정치·외교(한국 시각) 한국지식 222,691 합성, REAL
기업 문화/일반 업무(메일·보고·회의·PT·기획) 기업업무 450,079 합성
일반 문서 작성(처리 데이터→문서) 기업업무 150,000 합성
표준 양식 문서 (문서명+목적만 제공) 문서작성 268,277 합성
표준 법률 문서(K-IFRS, 내부감사, 노동법, 계약) 문서작성 71,903 합성, REAL
표준 양식 문서 (처리 데이터 제공) 문서작성 139,849 합성
표 기반 문서 읽기·분석 문서작성 180,000 REAL
CSV 읽기·변환·문서화 문서작성 108,276 합성
금융 법률/공시/판례 번역(한↔일·중) 번역 480,000 REAL
ERP 업무 지시 수행(회계·관리·물류·HR) 기업업무 172,343 합성
법 판례·법령(민사·행정·지재·형사) 한국법률 400,000 REAL
법률 컴플라이언스 위반·FDS 탐지 한국법률 40,000 합성, REAL

각 데이터셋은 내부 품질 점검 기준 정확도 90~99% 수준에서 필터링되었습니다.


한계 (Limitations)

  • 일반 코딩·수학·다국어: 한국 기업·법률 도메인에 비해 일반적인 코딩/수학/SAT 스타일 문제나 타 언어는 성능이 상대적으로 낮을 수 있습니다.
  • 실시간 법·규정 업데이트 미반영: 최신 개정 법령·규정·회계 기준이 반영되지 않을 수 있습니다.
  • 법률·회계 자문 대체 불가: 실제 계약·소송·회계 처리 등에는 반드시 전문가 검토가 필요합니다.
  • 편향 가능성: 한국 문화/기업/법 체계 중심 데이터로 인해, 다른 문화·법체계에 대한 답변은 편향되거나 부정확할 수 있습니다.

안전 및 윤리

  • 모델 출력은 법률·회계·투자·의료 등 고위험 의사결정의 근거로 직접 사용하면 안 됩니다.
  • 개인정보, 특정 개인·집단에 대한 차별·혐오 발언, 불법 행위 조장에 해당하는 사용을 제한해야 합니다.
  • 금융 범죄·FDS 관련 데이터는 탐지·교육·연구 목적만을 위한 것이며, 모델을 이용해 우회·악용 시나리오를 구체적으로 설계해서는 안 됩니다.

사용 예시

import os
import os.path as osp
import sys
import fire
import json
from typing import List, Union

import torch
from torch.nn import functional as F

from transformers import TrainerCallback, TrainingArguments, TrainerState, TrainerControl, BitsAndBytesConfig
from transformers.trainer_utils import PREFIX_CHECKPOINT_DIR
from transformers import LlamaForCausalLM, LlamaTokenizer
from transformers import AutoModelForCausalLM, AutoTokenizer

from datasets import load_dataset

from peft import (
    LoraConfig,
    get_peft_model,
    set_peft_model_state_dict
)
from peft import PeftModel


base_LLM_model = 'SEOKDONG/gpt-oss-safeguard-20b-kor-enterprise' #@param {type: "string"}

device = "auto" #@param {type: "string"}
model = AutoModelForCausalLM.from_pretrained(
    base_LLM_model,
    device_map=device,
    trust_remote_code=True)

tokenizer = AutoTokenizer.from_pretrained(base_LLM_model)
model.config.pad_token_id = tokenizer.pad_token_id

model.half()


# pad_token 설정 (필수)
tokenizer.pad_token = tokenizer.eos_token
def gen(prompt: str):
    messages = [
        {"role": "system", "content": "당신은 한국어로 답하는 유능한 AI 비서입니다."},
        {"role": "user", "content": prompt},
    ]

    input_ids = tokenizer.apply_chat_template(
        messages,
        add_generation_prompt=True,
        return_tensors="pt",
        truncation=True,
        # 필요하면 명시: max_length=4096 등
    ).to(model.device)

    # eos 후보들 만들고 None/중복 제거
    eos_ids = []

    if tokenizer.eos_token_id is not None:
        eos_ids.append(tokenizer.eos_token_id)

    try:
        eot_id = tokenizer.convert_tokens_to_ids("<|eot_id|>")
        # 모델/토크나이저에 따라서 unk_token_id 비교는 선택 사항
        if eot_id is not None and eot_id != tokenizer.unk_token_id:
            eos_ids.append(eot_id)
    except Exception:
        # 그런 토큰이 없을 수도 있으니 조용히 패스
        pass

    # HuggingFace generate는 int 또는 list 둘 다 허용
    if len(eos_ids) == 0:
        eos_arg = None          # 그냥 모델 기본 eos 사용
    elif len(eos_ids) == 1:
        eos_arg = eos_ids[0]
    else:
        eos_arg = eos_ids

    # pad_token_id 가 없는 모델이면 eos로 대체
    pad_id = tokenizer.pad_token_id
    if pad_id is None:
        pad_id = tokenizer.eos_token_id if tokenizer.eos_token_id is not None else (eos_ids[0] if eos_ids else None)

    outputs = model.generate(
        input_ids,
        pad_token_id=pad_id,
        eos_token_id=eos_arg,
        max_new_tokens=2048,          # 2048도 가능, GPU 여유 보고 조절
        do_sample=True,
        temperature=0.1,
        repetition_penalty=1.2,
        # top_p=0.9 등 옵션 추가 가능
    )

    result = tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True)
    return result


gen("""한국 동쪽 바다의 이름을 알려주세요. 그리고 그 근거도 알려주세요""")


대한민국이 인접해 있는 동쪽 해역에는 ‘동해’라는 명칭이 국제적으로 널리 사용됩니다 (일본에서는 동일하게 “황해”라고 부르며, 이는 일본 정부·국제기구 일부에서 쓰는 표현이나, 한국과 중국 등 다른 국가들은 ‘동해’를 표준으로 채택하고 있습니다).

한반도의 동부를 둘러싼 주요 수역은 다음과 같습니다.

구분 일반적 지명/범위 대륙붕 전환 지역 황해안(영남권) → 동해안(강원·경북·충청 동부) 주된 항만 주변 해역 부산광역시 동해안(울산까지 포함되는 경우가 많음), 울진군·고성군 일대 국토와 가장 가까운 연안수면 강릉~속초 일대 동해상

근거 요약: 역사·지정학 관점: 조선 시대부터 ‘동해’라는 용어가 국내 문헌에 자주 등장하며, 현대에도 교육·정부 공식문서 및 지도에서 ‘대한민국 동해’ 또는 단순히 ‘동해’로 통용되어 왔습니다. 국제표준 맥락: UN코드네임스 시스템(U.N.Codes of the Sea)은 ‘Sea of Japan’을 제안했으나, 이 문제는 분쟁 대상이며 대부분의 나라들이 ‘East Sea’ 혹은 ‘Donghae’를 선호합니다. 다만 실제 운항·지도 제작 시엔 양측 모두 병기하거나 각국 표기를 따르는 경향이 큽니다. 법률·행정 기준: 행정안전부 산하 지명관리체계에서도 ‘동해’라는 표기가 우세하며, 지방자치단체별 해양관할 범위를 설명할 때 ‘동해안’이라는 표현이 반복됩니다.

간결 정답: 한국 입장에서는 ‘동해(Donghae)’가 올바른 표기로 인정되며, 특히 영유권·경제활동권 논란 속에서 이를 확립하려는 움직임이 지속되고 있습니다. 따라서 질문에 대한 직접적인 응답은 “동해”입니다. (참고로 일본 내외 일부 기관은 여전히 ‘황해(Haruka)'를 사용하지만, 이는 상이한 관습이지 한국의 표준이라 할 수 없습니다.)

라이선스 / 저작권

  • Base model: gpt-oss-20b 라이선스 규정을 따릅니다.
  • 파인튜닝 데이터: OpenAI 생성 합성 데이터 및 AI-Hub 등 공공/라이선스 준수 소스에서 수집·가공한 한국어 데이터로 구성되었습니다.
  • 이 모델 사용자는 해당 라이선스와 각 데이터 소스의 이용 약관을 준수해야 합니다.

gpt-oss-safeguard-20b-kor-enterprisee

1. Model Overview

gpt-oss-safeguard-20b-kor-enterprisee is a Korean enterprise–focused Large Language Model (LLM) fine-tuned from gpt-oss-20b.

The model is designed for Korean users who currently rely on globally trained open-source LLMs (often used fully offline) but need stronger alignment with:

  • Korean culture and communication norms
  • Korean corporate workflows and document formats
  • Korean law, accounting, and finance
  • Structured data → document/report generation

To achieve this, the base model was fine-tuned on approximately 2.74M samples from Korean corporate, legal, public, and structured-data domains.


2. Motivation

Most open-source LLMs are trained primarily on English and global web data. For Korean enterprise users, this leads to several gaps:

  • Limited understanding of Korean hierarchy, honorifics, and social norms
  • Weak grasp of Korean corporate document formats and ERP-style instructions
  • Insufficient coverage of Korean law, regulations, accounting (K-IFRS) and financial texts
  • Generic handling of tables, CSV, ERP outputs, and weak integration into business documents

This model aims to close those gaps and provide a Korean business–ready LLM for offline or on-premise environments.


3. Key Improvements over gpt-oss-20b

3.1 Korean culture, tone, and social norms

  • Better handling of honorific vs casual speech
  • More natural reflection of corporate hierarchy, age/seniority, and context-appropriate tone
  • Improved alignment with Korean social norms and values in explanations and judgments

3.2 Public / policy / social issue Q&A (Korean perspective)

  • Stronger ability to explain, summarize, and critique:

    • Korean history, politics, diplomacy, security, and social issues
    • From a Korea-centric viewpoint rather than a generic global view

3.3 Enterprise document generation

  • Given a document type + purpose + minimal input, the model can generate:

    • Drafts of proposals, approvals, reports, meeting minutes
    • Internal emails and messenger replies
    • Presentation/plan outlines in typical Korean corporate formats

3.4 Structured data → document & insight

  • Given tables/CSV/ERP data, the model can:

    • Summarize and describe key patterns
    • Highlight anomalies or risk signals
    • Generate drafts of approval, settlement, and report documents based on the data

3.5 Korean law, accounting, and finance understanding

  • Improved ability to parse and summarize:

    • K-IFRS, audit reports
    • Contracts and internal control documents
    • Statutes, regulations, and case law
    • Financial disclosure texts
  • Supports structured comparison and issue-spotting across legal and financial texts.

3.6 Domain-specific ko ↔ ja/zh translation

  • Enhanced translation for legal and financial domains:

    • Terminology consistency
    • Preservation of clause numbering and structure
    • Stable, professional tone

3.7 ERP-style instruction following

  • Better at decomposing instructions such as: “Aggregate cost of sales and prepare a department-level report.”

  • Interprets multi-step ERP/accounting/logistics/HR instructions and responds with:

    • Step-by-step reasoning
    • Summaries, checklists, and documents

3.8 Compliance & FDS (Fraud Detection System) scenarios

  • Understands and generates scenarios related to:

    • Policy violations
    • Suspicious transaction patterns
    • Risk points and high-level FDS logic

⚠️ The model is meant to assist in reasoning and documentation for such topics, not to implement or replace actual FDS systems.


4. Model Summary

Name: gpt-oss-safeguard-20b-kor-enterprisee Base model: gpt-oss-20b (20B-parameter decoder-only LLM) Languages:

  • Primary: Korean
  • Secondary (for translation tasks): Japanese, Chinese

Training method: Supervised Fine-Tuning (SFT) on Korean enterprise/legal/public domain data Total SFT samples:2,747,418

Core strengths

  • 🇰🇷 Optimized for Korean culture and corporate context

  • 🧾 Auto-generation of Korean standard business forms

    • Drafts of approvals, reports, settlements, minutes, proposals, etc.
  • ⚖️ Understanding of Korean law, accounting, and finance texts

    • K-IFRS, contracts, cases, regulations, disclosures
  • 📊 Table/CSV/ERP data → report & summary

  • 🌐 Domain-specific translation

    • Korean ↔ Japanese/Chinese for legal, financial, and disclosure texts

Compared to the original OSS-20B, this model focuses on Korean business, legal, and structured-data processing tasks.


5. Intended Use

5.1 Enterprise document-writing copilot

  • Drafting:

    • Approval forms, internal proposals, reports
    • Meeting minutes, follow-up summaries
    • Presentation/plan skeletons
    • Emails and messenger replies
  • Auto-generating settlement/reconciliation/summary documents from:

    • Tables
    • CSV files
    • ERP exports

5.2 ERP / business-instruction assistant

  • Handling natural-language commands related to:

    • ERP, accounting, logistics, HR
    • e.g., “Summarize department-level performance for Q3”
  • Producing:

    • Summaries
    • Checklists
    • Draft reports and documents

5.3 Korean law / accounting / finance research assistant

  • Explaining K-IFRS and related accounting concepts

  • Summarizing contract clauses, statutes, regulations, and cases

  • Comparing and summarizing:

    • Disclosures
    • Case law
    • Internal policies and guidelines

5.4 Compliance & FDS scenario support

  • Summarizing regulation violation patterns
  • Explaining FDS rules and example scenarios
  • Brainstorming high-level risk scenarios (for education and internal documentation)

5.5 Domain-specific translation

  • Korean ↔ Japanese/Chinese for:

    • Legal texts
    • Financial disclosures
    • Case law summaries
    • Regulatory documents

⚠️ Important: The model must not be used as the sole basis for legal, accounting, or regulatory decisions. All outputs should be reviewed by qualified professionals.


6. Model Details

  • Base model: gpt-oss-20b, 20B parameters, decoder-only
  • Objective: Korean enterprise–centric adaptation of a general-purpose open-source LLM
  • Training: Supervised fine-tuning (SFT) on curated Korean corporate/legal/public datasets
  • Primary usage mode: On-premise / offline enterprise environments

7. Enhanced Capabilities vs OSS-20B (by data category)

7.1 Korean culture, identity, and social norms

  • Data: 64,000 samples

  • Domain: Korean culture, identity, social norms, values

  • Type: Synthetic

  • Effect:

    • Internalizes Korean communication tone, politeness levels, emotional expressions, and value judgments.

7.2 Public / policy / social issue Q&A (Korean perspective)

  • Data: 222,691 samples

  • Domain: Korean history, socio-culture, security, politics, diplomacy (Korean point of view)

  • Type: Synthetic + real

  • Effect:

    • Better at interpreting and summarizing public issues from a Korea-centric perspective.

7.3 Corporate communication & automatic document generation

  • 450,079 samples: General business communication

    • Emails, reports, meetings, planning docs, etc. (synthetic)
  • 268,277 samples: “Only document title + purpose given”

    • Standard form generation (synthetic)
  • 139,849 samples: “Processing data → document”

    • Given processed business data, generate structured documents (synthetic)

Together, these datasets significantly enhance the model’s ability to generate well-structured Korean corporate documents from minimal input.

7.4 Structured data (tables/CSV) understanding & reporting

  • 180,000 samples:

    • Real data for table reading, analysis, summarization, anomaly detection
  • 108,276 samples:

    • Synthetic CSV pipelines: loading → cleaning → documentation

These make the model more capable than the base OSS-20B at:

  • Interpreting table/CSV/ERP outputs
  • Extracting insights and anomalies
  • Producing narrative reports and documents from structured input

7.5 Korean legal and accounting document understanding

  • 71,903 samples:

    • K-IFRS, internal audits, labor law, contracts (synthetic + real)
  • 400,000 samples:

    • Case law and statutes (civil, administrative, IP, criminal) – real

This strengthens the model’s ability to:

  • Parse clause structures
  • Summarize argumentation and reasoning
  • Compare issues and provide high-level explanatory answers

7.6 Legal/financial ko ↔ ja/zh translation

  • 480,000 samples:

    • Real financial/legal/disclosure/case translation pairs

The model is tuned for:

  • Terminology consistency
  • Preservation of clause numbers and structure
  • Stable, domain-appropriate tone

7.7 Business instruction following & scenario-based responses

  • 172,343 samples:

    • ERP-style instructions (accounting, management, logistics, HR)
    • Mapped to processed data and resulting documents (synthetic)

This improves:

  • Step-by-step interpretation of imperative prompts
  • Task planning and document-oriented responses for enterprise workflows

7.8 Compliance & FDS context understanding

  • 40,000 samples:

    • Compliance violation scenarios and FDS detection patterns (synthetic + real)

The model becomes better at:

  • Explaining suspicious transaction patterns
  • Generating example violation scenarios
  • Summarizing risk points at a narrative level

8. Training Data Summary

Total SFT samples: 2,747,418

Category Tag Count Type
Korean identity / social norms / values Korean culture 64,000 Synthetic
History / socio-culture / security / politics / diplomacy (Korean view) Korean knowledge 222,691 Synthetic, Real
Corporate culture / general business (mail, report, meeting, PPT, planning) Enterprise work 450,079 Synthetic
General document drafting (data → document) Enterprise work 150,000 Synthetic
Standard form documents (title + purpose only) Doc generation 268,277 Synthetic
Standard legal documents (K-IFRS, audit, labor law, contracts) Doc generation 71,903 Synthetic, Real
Standard forms (with processing data) Doc generation 139,849 Synthetic
Table-based reading & analysis Doc generation 180,000 Real
CSV reading / transformation / documentation Doc generation 108,276 Synthetic
Financial/legal/disclosure/case translation (ko ↔ ja/zh) Translation 480,000 Real
ERP instruction execution (accounting, management, logistics, HR) Enterprise work 172,343 Synthetic
Case law / statutes (civil, administrative, IP, criminal) Korean law 400,000 Real
Legal compliance violation & FDS detection Korean law 40,000 Synthetic, Real

All datasets were filtered using internal quality checks to maintain ≈90–99% accuracy levels.


9. Limitations

  • General coding / math / other languages

    • Performance on generic coding, math, and non-Korean languages may be weaker than on the trained Korean enterprise/legal domains.
  • Legal & regulatory freshness

    • The model may not reflect the latest amendments to laws, regulations, or accounting standards.
  • Not a substitute for professional advice

    • Outputs should never be treated as final legal, accounting, or compliance opinions.
  • Cultural and legal bias

    • The model is heavily centered on Korean culture and legal systems.
    • Answers about other cultures or legal systems may be biased, incomplete, or inaccurate.

10. Safety & Ethical Considerations

  • High-risk domains

    • Do not use the model’s output as the sole basis for decisions in:

      • Law
      • Accounting / taxation
      • Financial investment
      • Medicine or other safety-critical domains
  • Privacy & data protection

    • The model should not be used to generate or infer sensitive personal information.
    • Do not prompt it with unredacted personal data.
  • Discrimination and harm

    • The model must not be used to produce hateful, discriminatory, or violent content targeting individuals or groups.
  • Misuse of FDS / compliance data

    • Fraud-related and compliance scenarios are provided for detection, education, and research.
    • The model must not be used to design or refine concrete evasion strategies or illegal activity.

11. Responsible Use

  • Always keep a human in the loop, especially for:

    • Legal documents
    • Contracts and negotiations
    • Financial disclosures and reports
    • Compliance and risk assessments
  • Treat the model as a copilot for:

    • Drafting
    • Summarization
    • Brainstorming
    • Internal documentation

…not as an autonomous decision-maker.


인용 (Citation)

@misc{gpt-oss-20b-kor-enterprise,
  title         = {gpt-oss-20b-kor-enterprise: Korean Enterprise & Legal Fine-tuned LLM},
  base_model    = {gpt-oss-20b},
  year          = {2025},
  howpublished  = {\url{https://huggingface.co/your-org/gpt-oss-20b-kor-enterprise}}
}


Downloads last month
98
Safetensors
Model size
21B params
Tensor type
F16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 1 Ask for provider support

Model tree for SEOKDONG/gpt-oss-safeguard-20b-kor-enterprise

Base model

openai/gpt-oss-20b
Finetuned
(10)
this model
Quantizations
2 models