add special tokens bool

clems4ever · clems4ever · commit 3d33c57be6f1 · 2025-09-29T08:13:47.000+02:00
diff --git a/all_minilm_l6_v2/benchmark_test.go b/all_minilm_l6_v2/benchmark_test.go
@@ -26,7 +26,7 @@ func BenchmarkSingleSentence(b *testing.B) {
 	b.ReportAllocs()
 
 	for b.Loop() {
-		_, err := benchModel.Compute(sentence)
+		_, err := benchModel.Compute(sentence, false)
 		if err != nil {
 			b.Fatalf("Failed to compute embedding: %v", err)
 		}
@@ -41,7 +41,7 @@ func BenchmarkSingleSentenceShort(b *testing.B) {
 	b.ReportAllocs()
 
 	for b.Loop() {
-		_, err := benchModel.Compute(sentence)
+		_, err := benchModel.Compute(sentence, false)
 		if err != nil {
 			b.Fatalf("Failed to compute embedding: %v", err)
 		}
@@ -56,7 +56,7 @@ func BenchmarkSingleSentenceLong(b *testing.B) {
 	b.ReportAllocs()
 
 	for b.Loop() {
-		_, err := benchModel.Compute(sentence)
+		_, err := benchModel.Compute(sentence, false)
 		if err != nil {
 			b.Fatalf("Failed to compute embedding: %v", err)
 		}
@@ -74,7 +74,7 @@ func BenchmarkBatch2(b *testing.B) {
 	b.ReportAllocs()
 
 	for b.Loop() {
-		_, err := benchModel.ComputeBatch(sentences)
+		_, err := benchModel.ComputeBatch(sentences, false)
 		if err != nil {
 			b.Fatalf("Failed to compute batch embeddings: %v", err)
 		}
@@ -94,7 +94,7 @@ func BenchmarkBatch4(b *testing.B) {
 	b.ReportAllocs()
 
 	for b.Loop() {
-		_, err := benchModel.ComputeBatch(sentences)
+		_, err := benchModel.ComputeBatch(sentences, false)
 		if err != nil {
 			b.Fatalf("Failed to compute batch embeddings: %v", err)
 		}
@@ -118,7 +118,7 @@ func BenchmarkBatch8(b *testing.B) {
 	b.ReportAllocs()
 
 	for b.Loop() {
-		_, err := benchModel.ComputeBatch(sentences)
+		_, err := benchModel.ComputeBatch(sentences, false)
 		if err != nil {
 			b.Fatalf("Failed to compute batch embeddings: %v", err)
 		}
@@ -136,7 +136,7 @@ func BenchmarkBatch16(b *testing.B) {
 	b.ReportAllocs()
 
 	for b.Loop() {
-		_, err := benchModel.ComputeBatch(sentences)
+		_, err := benchModel.ComputeBatch(sentences, false)
 		if err != nil {
 			b.Fatalf("Failed to compute batch embeddings: %v", err)
 		}
@@ -154,7 +154,7 @@ func BenchmarkBatch32(b *testing.B) {
 	b.ReportAllocs()
 
 	for b.Loop() {
-		_, err := benchModel.ComputeBatch(sentences)
+		_, err := benchModel.ComputeBatch(sentences, false)
 		if err != nil {
 			b.Fatalf("Failed to compute batch embeddings: %v", err)
 		}
@@ -175,7 +175,7 @@ func BenchmarkVsSingle4Individual(b *testing.B) {
 
 	for b.Loop() {
 		for _, sentence := range sentences {
-			_, err := benchModel.Compute(sentence)
+			_, err := benchModel.Compute(sentence, false)
 			if err != nil {
 				b.Fatalf("Failed to compute embedding: %v", err)
 			}
@@ -219,7 +219,7 @@ func BenchmarkVariableLengthBatch(b *testing.B) {
 	b.ReportAllocs()
 
 	for b.Loop() {
-		_, err := benchModel.ComputeBatch(sentences)
+		_, err := benchModel.ComputeBatch(sentences, false)
 		if err != nil {
 			b.Fatalf("Failed to compute batch embeddings: %v", err)
 		}
diff --git a/all_minilm_l6_v2/model.go b/all_minilm_l6_v2/model.go
@@ -82,8 +82,8 @@ func (m *Model) Close() error {
 	return err
 }
 
-func (m *Model) Compute(sentence string) ([]float32, error) {
-	results, err := m.ComputeBatch([]string{sentence})
+func (m *Model) Compute(sentence string, addSpecialTokens bool) ([]float32, error) {
+	results, err := m.ComputeBatch([]string{sentence}, addSpecialTokens)
 	if err != nil {
 		return nil, err
 	}
@@ -101,7 +101,7 @@ func (m *Model) ComputeFromEncoding(encoding tokenizer.Encoding) ([]float32, err
 	return res[0], nil
 }
 
-func (m *Model) ComputeBatch(sentences []string) ([][]float32, error) {
+func (m *Model) ComputeBatch(sentences []string, addSpecialTokens bool) ([][]float32, error) {
 	if len(sentences) == 0 {
 		return nil, nil
 	}
@@ -114,15 +114,14 @@ func (m *Model) ComputeBatch(sentences []string) ([][]float32, error) {
 	if len(inputBatch) == 0 {
 		return nil, nil
 	}
-	encodings, err := m.tk.EncodeBatch(inputBatch, true)
+	encodings, err := m.tk.EncodeBatch(inputBatch, addSpecialTokens)
 	if err != nil {
 		return nil, fmt.Errorf("failed to tokenize sentence: %w", err)
 	}
 	return m.ComputeBatchFromEncodings(encodings)
 }
 
 func (m *Model) ComputeBatchFromEncodings(encodings []tokenizer.Encoding) ([][]float32, error) {
-
 	batchSize := len(encodings)
 	seqLength := len(encodings[0].Ids)
 	hiddenSize := 384
diff --git a/all_minilm_l6_v2/model_test.go b/all_minilm_l6_v2/model_test.go
@@ -15,7 +15,7 @@ func TestSingleSentenceEmbedding(t *testing.T) {
 	defer model.Close()
 
 	sentence := "Hello, world! This is a test sentence."
-	embedding, err := model.Compute(sentence)
+	embedding, err := model.Compute(sentence, false)
 	if err != nil {
 		t.Fatalf("Failed to compute embedding: %v", err)
 	}
@@ -62,7 +62,7 @@ func TestBatchEmbedding(t *testing.T) {
 		"A third sentence with different content.",
 	}
 
-	embeddings, err := model.ComputeBatch(sentences)
+	embeddings, err := model.ComputeBatch(sentences, false)
 	if err != nil {
 		t.Fatalf("Failed to compute batch embeddings: %v", err)
 	}
@@ -126,7 +126,7 @@ func TestConsistentEmbeddingForSameSentence(t *testing.T) {
 		"This is a repeated sentence.", // Same as first
 	}
 
-	embeddings, err := model.ComputeBatch(sentences)
+	embeddings, err := model.ComputeBatch(sentences, false)
 	if err != nil {
 		t.Fatalf("Failed to compute batch embeddings: %v", err)
 	}
@@ -177,13 +177,13 @@ func TestSingleVsBatchConsistency(t *testing.T) {
 	sentence := "Testing consistency between single and batch computation."
 
 	// Compute single embedding
-	singleEmbedding, err := model.Compute(sentence)
+	singleEmbedding, err := model.Compute(sentence, false)
 	if err != nil {
 		t.Fatalf("Failed to compute single embedding: %v", err)
 	}
 
 	// Compute batch embedding with just one sentence
-	batchEmbeddings, err := model.ComputeBatch([]string{sentence})
+	batchEmbeddings, err := model.ComputeBatch([]string{sentence}, false)
 	if err != nil {
 		t.Fatalf("Failed to compute batch embedding: %v", err)
 	}
@@ -206,7 +206,7 @@ func TestEmptyBatch(t *testing.T) {
 	defer model.Close()
 
 	// Test empty batch
-	embeddings, err := model.ComputeBatch([]string{})
+	embeddings, err := model.ComputeBatch([]string{}, false)
 	if err != nil {
 		t.Fatalf("Failed to compute empty batch: %v", err)
 	}
diff --git a/all_minilm_l6_v2/tokenizer.go b/all_minilm_l6_v2/tokenizer.go
@@ -22,10 +22,10 @@ func NewTokenizer() (*Tokenizer, error) {
 	}, nil
 }
 
-func (tk *Tokenizer) Encode(s string) (*tokenizer.Encoding, error) {
-	return tk.tk.EncodeSingle(s)
+func (tk *Tokenizer) Encode(s string, addSpecialTokens bool) (*tokenizer.Encoding, error) {
+	return tk.tk.EncodeSingle(s, addSpecialTokens)
 }
 
-func (tk *Tokenizer) Decode(ids []int) string {
-	return tk.tk.Decode(ids, false)
+func (tk *Tokenizer) Decode(ids []int, skipSpecialTokens bool) string {
+	return tk.tk.Decode(ids, skipSpecialTokens)
 }
diff --git a/cmd/cli/main.go b/cmd/cli/main.go
@@ -79,7 +79,7 @@ func runEmbedding(cmd *cobra.Command, args []string) {
 
 	// Compute embeddings
 	if batchMode && len(sentences) > 1 {
-		embeddings, err := model.ComputeBatch(sentences)
+		embeddings, err := model.ComputeBatch(sentences, false)
 		if err != nil {
 			fmt.Fprintf(os.Stderr, "Failed to compute batch embeddings: %v\n", err)
 			os.Exit(1)
@@ -91,7 +91,7 @@ func runEmbedding(cmd *cobra.Command, args []string) {
 	} else {
 		// Process individually
 		for _, sentence := range sentences {
-			embedding, err := model.Compute(sentence)
+			embedding, err := model.Compute(sentence, false)
 			if err != nil {
 				fmt.Fprintf(os.Stderr, "Failed to compute embedding for '%s': %v\n", sentence, err)
 				os.Exit(1)
diff --git a/example.go b/example.go
@@ -25,8 +25,8 @@ func main() {
 	}
 
 	// Compute embeddings
-	baseEmbedding, _ := model.Compute(baseSentence)
-	candidateEmbeddings, _ := model.ComputeBatch(candidates)
+	baseEmbedding, _ := model.Compute(baseSentence, false)
+	candidateEmbeddings, _ := model.ComputeBatch(candidates, false)
 
 	displaySimilarities(baseSentence, candidates, baseEmbedding, candidateEmbeddings)
 }

Original file line number	Diff line number	Diff line change
`@@ -82,8 +82,8 @@ func (m *Model) Close() error {`
`82`	`82`	`return err`
`83`	`83`	`}`
`84`	`84`
`85`		`-func (m *Model) Compute(sentence string) ([]float32, error) {`
`86`		`- results, err := m.ComputeBatch([]string{sentence})`
	`85`	`+func (m *Model) Compute(sentence string, addSpecialTokens bool) ([]float32, error) {`
	`86`	`+ results, err := m.ComputeBatch([]string{sentence}, addSpecialTokens)`
`87`	`87`	`if err != nil {`
`88`	`88`	`return nil, err`
`89`	`89`	`}`
`@@ -101,7 +101,7 @@ func (m *Model) ComputeFromEncoding(encoding tokenizer.Encoding) ([]float32, err`
`101`	`101`	`return res[0], nil`
`102`	`102`	`}`
`103`	`103`
`104`		`-func (m *Model) ComputeBatch(sentences []string) ([][]float32, error) {`
	`104`	`+func (m *Model) ComputeBatch(sentences []string, addSpecialTokens bool) ([][]float32, error) {`
`105`	`105`	`if len(sentences) == 0 {`
`106`	`106`	`return nil, nil`
`107`	`107`	`}`
`@@ -114,15 +114,14 @@ func (m *Model) ComputeBatch(sentences []string) ([][]float32, error) {`
`114`	`114`	`if len(inputBatch) == 0 {`
`115`	`115`	`return nil, nil`
`116`	`116`	`}`
`117`		`- encodings, err := m.tk.EncodeBatch(inputBatch, true)`
	`117`	`+ encodings, err := m.tk.EncodeBatch(inputBatch, addSpecialTokens)`
`118`	`118`	`if err != nil {`
`119`	`119`	`return nil, fmt.Errorf("failed to tokenize sentence: %w", err)`
`120`	`120`	`}`
`121`	`121`	`return m.ComputeBatchFromEncodings(encodings)`
`122`	`122`	`}`
`123`	`123`
`124`	`124`	`func (m *Model) ComputeBatchFromEncodings(encodings []tokenizer.Encoding) ([][]float32, error) {`
`125`		`-`
`126`	`125`	`batchSize := len(encodings)`
`127`	`126`	`seqLength := len(encodings[0].Ids)`
`128`	`127`	`hiddenSize := 384`
Original file line number	Diff line number	Diff line change
`@@ -15,7 +15,7 @@ func TestSingleSentenceEmbedding(t *testing.T) {`
`15`	`15`	`defer model.Close()`
`16`	`16`
`17`	`17`	`sentence := "Hello, world! This is a test sentence."`
`18`		`- embedding, err := model.Compute(sentence)`
	`18`	`+ embedding, err := model.Compute(sentence, false)`
`19`	`19`	`if err != nil {`
`20`	`20`	`t.Fatalf("Failed to compute embedding: %v", err)`
`21`	`21`	`}`
`@@ -62,7 +62,7 @@ func TestBatchEmbedding(t *testing.T) {`
`62`	`62`	`"A third sentence with different content.",`
`63`	`63`	`}`
`64`	`64`
`65`		`- embeddings, err := model.ComputeBatch(sentences)`
	`65`	`+ embeddings, err := model.ComputeBatch(sentences, false)`
`66`	`66`	`if err != nil {`
`67`	`67`	`t.Fatalf("Failed to compute batch embeddings: %v", err)`
`68`	`68`	`}`
`@@ -126,7 +126,7 @@ func TestConsistentEmbeddingForSameSentence(t *testing.T) {`
`126`	`126`	`"This is a repeated sentence.", // Same as first`
`127`	`127`	`}`
`128`	`128`
`129`		`- embeddings, err := model.ComputeBatch(sentences)`
	`129`	`+ embeddings, err := model.ComputeBatch(sentences, false)`
`130`	`130`	`if err != nil {`
`131`	`131`	`t.Fatalf("Failed to compute batch embeddings: %v", err)`
`132`	`132`	`}`
`@@ -177,13 +177,13 @@ func TestSingleVsBatchConsistency(t *testing.T) {`
`177`	`177`	`sentence := "Testing consistency between single and batch computation."`
`178`	`178`
`179`	`179`	`// Compute single embedding`
`180`		`- singleEmbedding, err := model.Compute(sentence)`
	`180`	`+ singleEmbedding, err := model.Compute(sentence, false)`
`181`	`181`	`if err != nil {`
`182`	`182`	`t.Fatalf("Failed to compute single embedding: %v", err)`
`183`	`183`	`}`
`184`	`184`
`185`	`185`	`// Compute batch embedding with just one sentence`
`186`		`- batchEmbeddings, err := model.ComputeBatch([]string{sentence})`
	`186`	`+ batchEmbeddings, err := model.ComputeBatch([]string{sentence}, false)`
`187`	`187`	`if err != nil {`
`188`	`188`	`t.Fatalf("Failed to compute batch embedding: %v", err)`
`189`	`189`	`}`
`@@ -206,7 +206,7 @@ func TestEmptyBatch(t *testing.T) {`
`206`	`206`	`defer model.Close()`
`207`	`207`
`208`	`208`	`// Test empty batch`
`209`		`- embeddings, err := model.ComputeBatch([]string{})`
	`209`	`+ embeddings, err := model.ComputeBatch([]string{}, false)`
`210`	`210`	`if err != nil {`
`211`	`211`	`t.Fatalf("Failed to compute empty batch: %v", err)`
`212`	`212`	`}`
Original file line number	Diff line number	Diff line change
`@@ -22,10 +22,10 @@ func NewTokenizer() (*Tokenizer, error) {`
`22`	`22`	`}, nil`
`23`	`23`	`}`
`24`	`24`
`25`		`-func (tk Tokenizer) Encode(s string) (tokenizer.Encoding, error) {`
`26`		`- return tk.tk.EncodeSingle(s)`
	`25`	`+func (tk Tokenizer) Encode(s string, addSpecialTokens bool) (tokenizer.Encoding, error) {`
	`26`	`+ return tk.tk.EncodeSingle(s, addSpecialTokens)`
`27`	`27`	`}`
`28`	`28`
`29`		`-func (tk *Tokenizer) Decode(ids []int) string {`
`30`		`- return tk.tk.Decode(ids, false)`
	`29`	`+func (tk *Tokenizer) Decode(ids []int, skipSpecialTokens bool) string {`
	`30`	`+ return tk.tk.Decode(ids, skipSpecialTokens)`
`31`	`31`	`}`
Original file line number	Diff line number	Diff line change
`@@ -25,8 +25,8 @@ func main() {`
`25`	`25`	`}`
`26`	`26`
`27`	`27`	`// Compute embeddings`
`28`		`- baseEmbedding, _ := model.Compute(baseSentence)`
`29`		`- candidateEmbeddings, _ := model.ComputeBatch(candidates)`
	`28`	`+ baseEmbedding, _ := model.Compute(baseSentence, false)`
	`29`	`+ candidateEmbeddings, _ := model.ComputeBatch(candidates, false)`
`30`	`30`
`31`	`31`	`displaySimilarities(baseSentence, candidates, baseEmbedding, candidateEmbeddings)`
`32`	`32`	`}`