rm rf remote code and add notice

Browse files

Files changed (1) hide show

README.md +11 -9

README.md CHANGED Viewed

@@ -2619,6 +2619,8 @@ language:
 For example, if you are implementing a RAG application, you embed your documents as `search_document: <text here>` and embed your user queries as `search_query: <text here>`.
 ## Task instruction prefixes
 ### `search_document`
@@ -2630,7 +2632,7 @@ This prefix is used for embedding texts as documents, for example as documents f
 ```python
 from sentence_transformers import SentenceTransformer
-model = SentenceTransformer("nomic-ai/nomic-embed-text-v1.5", trust_remote_code=True)
 sentences = ['search_document: TSNE is a dimensionality reduction algorithm created by Laurens van Der Maaten']
 embeddings = model.encode(sentences)
 print(embeddings)
@@ -2645,7 +2647,7 @@ This prefix is used for embedding texts as questions that documents from a datas
 ```python
 from sentence_transformers import SentenceTransformer
-model = SentenceTransformer("nomic-ai/nomic-embed-text-v1.5", trust_remote_code=True)
 sentences = ['search_query: Who is Laurens van Der Maaten?']
 embeddings = model.encode(sentences)
 print(embeddings)
@@ -2660,7 +2662,7 @@ This prefix is used for embedding texts in order to group them into clusters, di
 ```python
 from sentence_transformers import SentenceTransformer
-model = SentenceTransformer("nomic-ai/nomic-embed-text-v1.5", trust_remote_code=True)
 sentences = ['clustering: the quick brown fox']
 embeddings = model.encode(sentences)
 print(embeddings)
@@ -2675,7 +2677,7 @@ This prefix is used for embedding texts into vectors that will be used as featur
 ```python
 from sentence_transformers import SentenceTransformer
-model = SentenceTransformer("nomic-ai/nomic-embed-text-v1.5", trust_remote_code=True)
 sentences = ['classification: the quick brown fox']
 embeddings = model.encode(sentences)
 print(embeddings)
@@ -2689,7 +2691,7 @@ from sentence_transformers import SentenceTransformer
 matryoshka_dim = 512
-model = SentenceTransformer("nomic-ai/nomic-embed-text-v1.5", trust_remote_code=True)
 sentences = ['search_query: What is TSNE?', 'search_query: Who is Laurens van der Maaten?']
 embeddings = model.encode(sentences, convert_to_tensor=True)
 embeddings = F.layer_norm(embeddings, normalized_shape=(embeddings.shape[1],))
@@ -2713,7 +2715,7 @@ def mean_pooling(model_output, attention_mask):
 sentences = ['search_query: What is TSNE?', 'search_query: Who is Laurens van der Maaten?']
 tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
-model = AutoModel.from_pretrained('nomic-ai/nomic-embed-text-v1.5', trust_remote_code=True, safe_serialization=True)
 model.eval()
 encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
@@ -2736,9 +2738,9 @@ The model natively supports scaling of the sequence length past 2048 tokens. To
 - tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
 + tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased', model_max_length=8192)
-- model = AutoModel.from_pretrained('nomic-ai/nomic-embed-text-v1.5', trust_remote_code=True)
-+ model = AutoModel.from_pretrained('nomic-ai/nomic-embed-text-v1.5', trust_remote_code=True, rotary_scaling_factor=2)
 ```
 ### Transformers.js

 For example, if you are implementing a RAG application, you embed your documents as `search_document: <text here>` and embed your user queries as `search_query: <text here>`.
+**Notice**: From transformers v5.5.0 and sentence transformers v5.3.0, `trust_remote_code=True` will no longer be necessary. This will only be possible with the text-only series as of now.
 ## Task instruction prefixes
 ### `search_document`
 ```python
 from sentence_transformers import SentenceTransformer
+model = SentenceTransformer("nomic-ai/nomic-embed-text-v1.5")
 sentences = ['search_document: TSNE is a dimensionality reduction algorithm created by Laurens van Der Maaten']
 embeddings = model.encode(sentences)
 print(embeddings)
 ```python
 from sentence_transformers import SentenceTransformer
+model = SentenceTransformer("nomic-ai/nomic-embed-text-v1.5")
 sentences = ['search_query: Who is Laurens van Der Maaten?']
 embeddings = model.encode(sentences)
 print(embeddings)
 ```python
 from sentence_transformers import SentenceTransformer
+model = SentenceTransformer("nomic-ai/nomic-embed-text-v1.5")
 sentences = ['clustering: the quick brown fox']
 embeddings = model.encode(sentences)
 print(embeddings)
 ```python
 from sentence_transformers import SentenceTransformer
+model = SentenceTransformer("nomic-ai/nomic-embed-text-v1.5")
 sentences = ['classification: the quick brown fox']
 embeddings = model.encode(sentences)
 print(embeddings)
 matryoshka_dim = 512
+model = SentenceTransformer("nomic-ai/nomic-embed-text-v1.5")
 sentences = ['search_query: What is TSNE?', 'search_query: Who is Laurens van der Maaten?']
 embeddings = model.encode(sentences, convert_to_tensor=True)
 embeddings = F.layer_norm(embeddings, normalized_shape=(embeddings.shape[1],))
 sentences = ['search_query: What is TSNE?', 'search_query: Who is Laurens van der Maaten?']
 tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
+model = AutoModel.from_pretrained('nomic-ai/nomic-embed-text-v1.5')
 model.eval()
 encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
 - tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
 + tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased', model_max_length=8192)
+- model = AutoModel.from_pretrained('nomic-ai/nomic-embed-text-v1.5')
++ rope_parameters = {"rope_theta": 1000.0, "rope_type": "dynamic", "factor": 2.0}
++ model = AutoModel.from_pretrained('nomic-ai/nomic-embed-text-v1.5', rope_parameters=rope_parameters)
 ```
 ### Transformers.js