cnshsliu
diff --git a/‎Sources/NovaMLXAPI/APIServer.swift‎
Lines changed: 45 additions & 5 deletions b/‎Sources/NovaMLXAPI/APIServer.swift‎
Lines changed: 45 additions & 5 deletions
diff --git a/‎Sources/NovaMLXAPI/OpenAITypes.swift‎
Lines changed: 56 additions & 6 deletions b/‎Sources/NovaMLXAPI/OpenAITypes.swift‎
Lines changed: 56 additions & 6 deletions
diff --git a/‎Sources/NovaMLXCore/Types.swift‎
Lines changed: 28 additions & 3 deletions b/‎Sources/NovaMLXCore/Types.swift‎
Lines changed: 28 additions & 3 deletions
@@ -1728,7 +1728,9 @@ public final class NovaMLXAPIServer: @unchecked Sendable {
             regexPattern: regexPattern, gbnfGrammar: gbnfGrammar,
             thinkingBudget: openAIReq.resolvedThinkingBudget,
             enableThinking: openAIReq.resolvedEnableThinking,
-            preserveThinking: openAIReq.resolvedPreserveThinking
+            preserveThinking: openAIReq.resolvedPreserveThinking,
+            includeLogprobs: openAIReq.logprobs == true,
+            topLogprobsCount: openAIReq.topLogprobs
         )
 
         CurrentInferenceModel.shared.modelID = request.model
@@ -1819,7 +1821,8 @@ public final class NovaMLXAPIServer: @unchecked Sendable {
                 OpenAIChoice(
                     index: 0,
                     message: message,
-                    finishReason: finishReason
+                    finishReason: finishReason,
+                    logprobs: result.tokenLogprobs.map { Self.buildLogprobs(from: $0) } ?? nil
                 )
             ],
             usage: {
@@ -1865,7 +1868,9 @@ public final class NovaMLXAPIServer: @unchecked Sendable {
             regexPattern: regexPattern, gbnfGrammar: gbnfGrammar,
             thinkingBudget: openAIReq.resolvedThinkingBudget,
             enableThinking: openAIReq.resolvedEnableThinking,
-            preserveThinking: openAIReq.resolvedPreserveThinking
+            preserveThinking: openAIReq.resolvedPreserveThinking,
+            includeLogprobs: openAIReq.logprobs == true,
+            topLogprobsCount: openAIReq.topLogprobs
         )
 
         let keepAliveStream = Self.withSSEKeepAlive(inference.stream(request))
@@ -1899,6 +1904,13 @@ public final class NovaMLXAPIServer: @unchecked Sendable {
                 for try await event in keepAliveStream {
                     switch event {
                     case .token(let token):
+                        // Compute logprob data once per token. A single decode token
+                        // can split into multiple SSE chunks (e.g., ThinkingParser
+                        // emits thinking + content separately). Attach logprobs to
+                        // only the FIRST emitted chunk to avoid double-counting.
+                        var tokenLogprobs: OpenAILogprobs? = Self.tokenToLogprobEntry(token).map {
+                            OpenAILogprobs(content: [$0])
+                        }
                         if let tc = token.toolCall {
                             let idx = toolCallCounter.increment()
                             let tcDelta = OpenAIToolCallDelta(
@@ -1993,8 +2005,9 @@ public final class NovaMLXAPIServer: @unchecked Sendable {
                                     let chunk = OpenAIStreamChunk(
                                         id: chunkId,
                                         model: openAIReq.model,
-                                        choices: [OpenAIStreamChoice(index: 0, delta: delta)]
+                                        choices: [OpenAIStreamChoice(index: 0, delta: delta, logprobs: tokenLogprobs)]
                                     )
+                                    tokenLogprobs = nil  // consume — only first chunk carries logprobs
                                     let data = try JSONEncoder().encode(chunk)
                                     try await writer.write(ByteBuffer(string: "data: \(String(data: data, encoding: .utf8) ?? "")\n\n"))
                                 }
@@ -2005,8 +2018,9 @@ public final class NovaMLXAPIServer: @unchecked Sendable {
                                 let chunk = OpenAIStreamChunk(
                                     id: chunkId,
                                     model: openAIReq.model,
-                                    choices: [OpenAIStreamChoice(index: 0, delta: delta)]
+                                    choices: [OpenAIStreamChoice(index: 0, delta: delta, logprobs: tokenLogprobs)]
                                 )
+                                tokenLogprobs = nil  // consume — only first chunk carries logprobs
                                 let data = try JSONEncoder().encode(chunk)
                                 try await writer.write(ByteBuffer(string: "data: \(String(data: data, encoding: .utf8) ?? "")\n\n"))
                             }
@@ -2586,6 +2600,32 @@ public final class NovaMLXAPIServer: @unchecked Sendable {
         try jsonResponse(value, httpStatus: .ok)
     }
 
+    /// Convert a stream Token's logprob data to OpenAI response format.
+    /// Populates `bytes` with UTF-8 byte values per OpenAI spec.
+    static func tokenToLogprobEntry(_ token: Token) -> OpenAILogprobEntry? {
+        guard let logprob = token.logprob else { return nil }
+        let topEntries: [OpenAITopLogprob] = (token.topLogprobs ?? []).map { tp in
+            OpenAITopLogprob(
+                token: tp.tokenText,
+                logprob: tp.logprob,
+                bytes: tp.tokenText.utf8.map(Int.init)
+            )
+        }
+        return OpenAILogprobEntry(
+            token: token.text,
+            logprob: logprob,
+            bytes: token.text.utf8.map(Int.init),
+            topLogprobs: topEntries
+        )
+    }
+
+    /// Build `OpenAILogprobs` from a collection of tokens with logprob data.
+    static func buildLogprobs(from tokens: [Token]) -> OpenAILogprobs? {
+        let entries = tokens.compactMap { tokenToLogprobEntry($0) }
+        guard !entries.isEmpty else { return nil }
+        return OpenAILogprobs(content: entries)
+    }
+
     private static func jsonResponse<T: Encodable>(_ value: T, httpStatus: HTTPResponse.Status) throws -> Response {
         let data = try JSONEncoder().encode(value)
         return Response(
 
@@ -180,9 +180,11 @@ public struct OpenAIRequest: Codable, Sendable {
     public let preserveThinking: Bool?
     public let chatTemplateKwargs: [String: AnyCodable]?
     public let reasoningEffort: String?
+    public let logprobs: Bool?
+    public let topLogprobs: Int?
 
     private enum CodingKeys: String, CodingKey {
-        case model, messages, temperature, stream, stop, n, seed, tools
+        case model, messages, temperature, stream, stop, n, seed, tools, logprobs
         case toolChoice = "tool_choice"
         case topP = "top_p"
         case topK = "top_k"
@@ -199,6 +201,7 @@ public struct OpenAIRequest: Codable, Sendable {
         case preserveThinking = "preserve_thinking"
         case chatTemplateKwargs = "chat_template_kwargs"
         case reasoningEffort = "reasoning_effort"
+        case topLogprobs = "top_logprobs"
     }
 
     public init(
@@ -225,7 +228,9 @@ public struct OpenAIRequest: Codable, Sendable {
         enableThinking: Bool? = nil,
         preserveThinking: Bool? = nil,
         chatTemplateKwargs: [String: AnyCodable]? = nil,
-        reasoningEffort: String? = nil
+        reasoningEffort: String? = nil,
+        logprobs: Bool? = nil,
+        topLogprobs: Int? = nil
     ) {
         self.model = model
         self.messages = messages
@@ -251,6 +256,8 @@ public struct OpenAIRequest: Codable, Sendable {
         self.preserveThinking = preserveThinking
         self.chatTemplateKwargs = chatTemplateKwargs
         self.reasoningEffort = reasoningEffort
+        self.logprobs = logprobs
+        self.topLogprobs = topLogprobs
     }
 
     /// Resolve thinking toggle from multiple client formats:
@@ -475,16 +482,18 @@ public struct OpenAIChoice: Codable, Sendable {
     public let index: Int
     public let message: OpenAIChatMessage
     public let finishReason: String?
+    public let logprobs: OpenAILogprobs?
 
     private enum CodingKeys: String, CodingKey {
-        case index, message
+        case index, message, logprobs
         case finishReason = "finish_reason"
     }
 
-    public init(index: Int, message: OpenAIChatMessage, finishReason: String? = nil) {
+    public init(index: Int, message: OpenAIChatMessage, finishReason: String? = nil, logprobs: OpenAILogprobs? = nil) {
         self.index = index
         self.message = message
         self.finishReason = finishReason
+        self.logprobs = logprobs
     }
 }
 
@@ -528,16 +537,18 @@ public struct OpenAIStreamChoice: Codable, Sendable {
     public let index: Int
     public let delta: OpenAIDelta
     public let finishReason: String?
+    public let logprobs: OpenAILogprobs?
 
     private enum CodingKeys: String, CodingKey {
-        case index, delta
+        case index, delta, logprobs
         case finishReason = "finish_reason"
     }
 
-    public init(index: Int, delta: OpenAIDelta, finishReason: String? = nil) {
+    public init(index: Int, delta: OpenAIDelta, finishReason: String? = nil, logprobs: OpenAILogprobs? = nil) {
         self.index = index
         self.delta = delta
         self.finishReason = finishReason
+        self.logprobs = logprobs
     }
 }
 
@@ -561,6 +572,45 @@ public struct OpenAIDelta: Codable, Sendable {
     }
 }
 
+public struct OpenAILogprobs: Codable, Sendable {
+    public let content: [OpenAILogprobEntry]?
+
+    public init(content: [OpenAILogprobEntry]? = nil) {
+        self.content = content
+    }
+}
+
+public struct OpenAILogprobEntry: Codable, Sendable {
+    public let token: String
+    public let logprob: Float
+    public let bytes: [Int]?
+    public let topLogprobs: [OpenAITopLogprob]
+
+    private enum CodingKeys: String, CodingKey {
+        case token, logprob, bytes
+        case topLogprobs = "top_logprobs"
+    }
+
+    public init(token: String, logprob: Float, bytes: [Int]? = nil, topLogprobs: [OpenAITopLogprob] = []) {
+        self.token = token
+        self.logprob = logprob
+        self.bytes = bytes
+        self.topLogprobs = topLogprobs
+    }
+}
+
+public struct OpenAITopLogprob: Codable, Sendable {
+    public let token: String
+    public let logprob: Float
+    public let bytes: [Int]?
+
+    public init(token: String, logprob: Float, bytes: [Int]? = nil) {
+        self.token = token
+        self.logprob = logprob
+        self.bytes = bytes
+    }
+}
+
 public struct OpenAIToolCallDelta: Codable, Sendable {
     public let index: Int
     public let id: String?
 
@@ -217,6 +217,10 @@ public struct InferenceRequest: @unchecked Sendable {
     public let draftModel: String?
     /// Number of tokens the draft model proposes per speculation round (default: 4).
     public let numDraftTokens: Int?
+    /// When true, compute log probabilities for sampled tokens and top-K alternatives.
+    public let includeLogprobs: Bool
+    /// Number of top logprobs to return per token (only used when includeLogprobs is true).
+    public let topLogprobsCount: Int?
 
     public init(
         id: UUID = UUID(),
@@ -243,7 +247,9 @@ public struct InferenceRequest: @unchecked Sendable {
         enableThinking: Bool? = nil,
         preserveThinking: Bool? = nil,
         draftModel: String? = nil,
-        numDraftTokens: Int? = nil
+        numDraftTokens: Int? = nil,
+        includeLogprobs: Bool = false,
+        topLogprobsCount: Int? = nil
     ) {
         self.id = id
         self.model = model
@@ -270,6 +276,8 @@ public struct InferenceRequest: @unchecked Sendable {
         self.preserveThinking = preserveThinking
         self.draftModel = draftModel
         self.numDraftTokens = numDraftTokens
+        self.includeLogprobs = includeLogprobs
+        self.topLogprobsCount = topLogprobsCount
     }
 }
 
@@ -307,6 +315,7 @@ public struct InferenceResult: Codable, Sendable {
     public let promptTokens: Int
     public let completionTokens: Int
     public let finishReason: FinishReason
+    public let tokenLogprobs: [Token]?
 
     public init(
         id: UUID,
@@ -316,7 +325,8 @@ public struct InferenceResult: Codable, Sendable {
         tokensPerSecond: Double,
         promptTokens: Int,
         completionTokens: Int,
-        finishReason: FinishReason
+        finishReason: FinishReason,
+        tokenLogprobs: [Token]? = nil
     ) {
         self.id = id
         self.model = model
@@ -326,6 +336,7 @@ public struct InferenceResult: Codable, Sendable {
         self.promptTokens = promptTokens
         self.completionTokens = completionTokens
         self.finishReason = finishReason
+        self.tokenLogprobs = tokenLogprobs
     }
 }
 
@@ -335,17 +346,31 @@ public enum FinishReason: String, Codable, Sendable {
     case toolCalls = "tool_calls"
 }
 
+public struct TopLogprob: Codable, Sendable {
+    public let tokenId: Int
+    public let tokenText: String
+    public let logprob: Float
+
+    public init(tokenId: Int, tokenText: String, logprob: Float) {
+        self.tokenId = tokenId
+        self.tokenText = tokenText
+        self.logprob = logprob
+    }
+}
+
 public struct Token: Codable, Sendable {
     public let id: Int
     public let text: String
     public let logprob: Float?
+    public let topLogprobs: [TopLogprob]?
     public let finishReason: FinishReason?
     public let toolCall: ToolCallResult?
 
-    public init(id: Int, text: String, logprob: Float? = nil, finishReason: FinishReason? = nil, toolCall: ToolCallResult? = nil) {
+    public init(id: Int, text: String, logprob: Float? = nil, topLogprobs: [TopLogprob]? = nil, finishReason: FinishReason? = nil, toolCall: ToolCallResult? = nil) {
         self.id = id
         self.text = text
         self.logprob = logprob
+        self.topLogprobs = topLogprobs
         self.finishReason = finishReason
         self.toolCall = toolCall
     }