모델 load시 "TypeError: __init__() got an unexpected keyword argument 'return_dict'" 오류 발생

docs에 설명대로 transformers, sentence-transformers, tokenizers를 동일한 경로 "opt/conda/lib/python3.7/site-packages/ "로
이동한 후 실행했으나 아래 오류가 출력됩니다.

원인 알 수 있을까요??

현재 사용중인 library들의 버전은 아래와 같습니다.

  • 오류내용
    using cached model. /workspace/opt/conda/lib/python3.7/site-packages/.cache/
    using cached model. /workspace/opt/conda/lib/python3.7/site-packages/.cache/kobert_news_wiki_ko_cased-1087f8699e.spiece

TypeError Traceback (most recent call last)
27 model_path = '/workspace/DBP/data_storage/wontae_kim/Pre_Trained_Model/KoBERT/KoSentenceBERT_SKTBERT/output/training_sts/'
---> 28 embedder = SentenceTransformer(model_path)

/workspace/opt/sentence_transformers/ in init(self, model_name_or_path, modules, device)

/workspace/opt/sentence_transformers/models/ in load(input_path)

/workspace/opt/sentence_transformers/models/ in init(self, model_name_or_path, max_seq_length, model_args, cache_dir, tokenizer_args, isKor, isLoad)

/workspace/opt/kobert/ in get_pytorch_kobert_model(ctx, cachedir)

/workspace/opt/kobert/ in get_kobert_model(model_path, vocab_file, ctx)

/workspace/opt/transformers/ in from_pretrained(cls, pretrained_model_name_or_path, *model_args, **kwargs)
511 # Instantiate model.
--> 512 model = cls(config, *model_args, **model_kwargs)
514 if state_dict is None and not from_tf:

TypeError: init() got an unexpected keyword argument 'return_dict'

FileNotFoundError: [Errno 2] No such file or directory

README에 있는 sts pre-trained 모델을 사용하려고 합니다.

그러나 FileNotFoundError: [Errno 2] No such file or directory: './KoSentenceBERT_SKT/output/training_sts/0_Transformer/' 에러가 발생합니다.

깃허브에 있는 output/training_sts에는 0_transformer 폴더가 존재하지 않습니다.
단순히 0_transformer 폴더만 만들면 될까요?

tokenizers init

I tried to clone and run your code but Transformer version did not support AddToken function. Therefore, KoSentenceBERRT_SKTBERT/tokenizers/init raised errors.
I solved by reinstalling transformers and tokenizers, adding AddToken and related functions directly to the file as below:

re-installing transformers and tokenizers:

!pip uninstall transformers
!pip install transformers
!pip uninstall tokenizers
!pip install tokenizers

re-installed pakages version:

Name: tokenizers
Version: 0.9.4

Name: transformers
Version: 4.1.1

adding AddToken and related functions directly to the file:

__version__ = "0.5.2"

from dataclasses import dataclass,field

    import tokenizers
except ImportError:

def is_tokenizers_available():
    return _tokenizers_available

@dataclass(frozen=True, eq=True)
class AddedToken:
    AddedToken represents a token to be added to a Tokenizer An AddedToken can have special options defining the
    way it should behave.

    content: str = field(default_factory=str)
    single_word: bool = False
    lstrip: bool = False
    rstrip: bool = False
    normalized: bool = True

    def __getstate__(self):
        return self.__dict__

class EncodingFast:
    """ This is dummy class because without the `tokenizers` library we don't have these objects anyway """


from .tokenizers import Tokenizer, Encoding

same as original:

from .tokenizers import decoders
from .tokenizers import models
from .tokenizers import normalizers
from .tokenizers import pre_tokenizers
from .tokenizers import processors
from .tokenizers import trainers
from .implementations import (

sentence_xlncet_config.json 오류

작성해 주신 코드 바탕으로 진행중에
No such file or directory: './KoSentenceBERT_SKTBERT/output/training_sts/0_Transformer/sentence_xlnet_config.json'

와 같은 오류가 뜨는데 혹시 sentence_xlnet_config.json 파일은 어떻게 생성되는 건가요?
0_Transformer에 구성되어야 하는 다른 파일들이 있는지 궁금합니다!

sentence_xlnet_config.json 오류

작성해 주신 코드 바탕으로 진행중에
No such file or directory: './KoSentenceBERT_SKTBERT/output/training_sts/0_Transformer/sentence_xlnet_config.json'

와 같은 오류가 뜨는데 혹시 sentence_xlnet_config.json 파일은 어떻게 생성되는 건가요?

Using pretrained model with cpu

embedder = SentenceTransformer(model_path)

여기서 모델을 로드하면

RuntimeError: Attempting to deserialize object on a CUDA device but torch.cuda.is_available() is False. If you are running on a CPU-only machine, please use torch.load with map_location=torch.device('cpu') to map your storages to the CPU.

이러한 에러가 뜹니다. gpu가 없어서 cpu로 pretrained 모델을 사용하고 싶은데 가능한가요? tokenizers.tokenizers error+해결과정공유

안녕하세요, 좋은 코드를 공유해주셔서 감사합니다.

다름이 아니라 SemanticSearch.py를 실행하면서 tokenizers.tokenizers 오류가 났습니다.
다른 분들이 올리신 이슈에 따라 tokenizers init.py를 수정하기도 하고, requirements.txt에 있는 transformers==2.8.0 을 실행하지 않고 transformers 폴더를 site-packages에 넣기만 했는데도 해결되지 않아 이슈 드립니다.

  • os : window 10
  • anaconda
  • python 3.7

모든 절차를 그대로 따라했고, sentence_transformers, tokenizers, transformers 모두 site-packages로 이동했습니다.


