cnshsliu
diff --git a/‎Sources/NovaMLXAPI/APIServer.swift‎
Lines changed: 3 additions & 61 deletions b/‎Sources/NovaMLXAPI/APIServer.swift‎
Lines changed: 3 additions & 61 deletions
diff --git a/‎Sources/NovaMLXApp/main.swift‎
Lines changed: 26 additions & 23 deletions b/‎Sources/NovaMLXApp/main.swift‎
Lines changed: 26 additions & 23 deletions
diff --git a/‎Sources/NovaMLXCore/LocalizationStrings.swift‎
Lines changed: 18 additions & 9 deletions b/‎Sources/NovaMLXCore/LocalizationStrings.swift‎
Lines changed: 18 additions & 9 deletions
diff --git a/‎Sources/NovaMLXCore/Types.swift‎
Lines changed: 4 additions & 1 deletion b/‎Sources/NovaMLXCore/Types.swift‎
Lines changed: 4 additions & 1 deletion
@@ -260,6 +260,7 @@ extension NovaMLXError {
         case .downloadFailed: .badGateway
         case .unsupportedModel: .badRequest
         case .contextWindowExceeded: .badRequest
+        case .insufficientMemory: .serviceUnavailable
         }
     }
 
@@ -274,6 +275,7 @@ extension NovaMLXError {
         case .downloadFailed: "server_error"
         case .unsupportedModel: "invalid_request_error"
         case .contextWindowExceeded: "invalid_request_error"
+        case .insufficientMemory: "server_error"
         }
     }
 
@@ -288,6 +290,7 @@ extension NovaMLXError {
         case .downloadFailed: "download_failed"
         case .unsupportedModel: "unsupported_model"
         case .contextWindowExceeded: "context_window_exceeded"
+        case .insufficientMemory: "insufficient_memory"
         }
     }
 }
@@ -302,7 +305,6 @@ public final class NovaMLXAPIServer: @unchecked Sendable {
     private let perplexityService: PerplexityService
     private let updateChecker: UpdateChecker
     private let hfService: HuggingFaceService
-    private let audioService: AudioService
     private let config: ServerConfig
 
     public init(
@@ -322,7 +324,6 @@ public final class NovaMLXAPIServer: @unchecked Sendable {
         self.perplexityService = PerplexityService(inferenceService: inferenceService)
         self.updateChecker = UpdateChecker()
         self.hfService = HuggingFaceService(modelDirectory: modelManager.modelsDirectory)
-        self.audioService = AudioService()
         self.config = config
         // When HF download completes, re-run discovery so model appears in registry
         self.hfService.onModelDownloaded = { [weak self] repoId in
@@ -342,7 +343,6 @@ public final class NovaMLXAPIServer: @unchecked Sendable {
         let updater = self.updateChecker
         let cfg = self.config
         let hf = self.hfService
-        let audio = self.audioService
 
         let rateLimiter = RateLimiter(config: RateLimitConfig())
         let securityHeaders = SecurityHeadersMiddleware()
@@ -634,64 +634,6 @@ public final class NovaMLXAPIServer: @unchecked Sendable {
                 store.delete(responseId)
                 return Response(status: .ok, body: .init(byteBuffer: ByteBuffer(string: "{\"status\":\"deleted\"}")))
             }
-            Post("/v1/audio/transcriptions") { request, _ in
-                let body = try await request.body.collect(upTo: .max)
-                let data = Data(buffer: body)
-                let json = try? JSONSerialization.jsonObject(with: data) as? [String: Any]
-                let language = json?["language"] as? String
-                let audioData: Data
-                if let file = json?["file"] as? String, let fileData = Data(base64Encoded: file) {
-                    audioData = fileData
-                } else if let file = json?["audio"] as? String, let fileData = Data(base64Encoded: file) {
-                    audioData = fileData
-                } else {
-                    audioData = data
-                }
-                let result = try await audio.transcribe(audioData: audioData, language: language)
-                return try Self.jsonResponse(result)
-            }
-            Post("/v1/audio/speech") { request, _ in
-                let body = try await request.body.collect(upTo: .max)
-                let json = try JSONSerialization.jsonObject(with: body) as? [String: Any] ?? [:]
-                let text = json["input"] as? String ?? json["text"] as? String ?? ""
-                let voice = json["voice"] as? String
-                let speed = json["speed"] as? Double
-                let language = json["language"] as? String
-                let stream = json["stream"] as? Bool ?? false
-                guard !text.isEmpty else {
-                    return Response(status: .badRequest, body: .init(byteBuffer: ByteBuffer(string: "{\"error\":\"input text required\"}")))
-                }
-                let synthesisRequest = AudioService.SynthesisRequest(text: text, voice: voice, speed: speed, language: language)
-
-                if stream {
-                    let audioStream = audio.synthesizeStream(request: synthesisRequest)
-                    let responseBody: ResponseBody = .init { writer in
-                        do {
-                            for try await chunk in audioStream {
-                                try await writer.write(ByteBuffer(data: chunk.data))
-                            }
-                        } catch {
-                            NovaMLXLog.error("Audio stream error: \(error)")
-                        }
-                    }
-                    var headers = HTTPFields()
-                    headers[.contentType] = "audio/wav"
-                    return Response(status: .ok, headers: headers, body: responseBody)
-                } else {
-                    let wavData = try await audio.synthesize(request: synthesisRequest)
-                    var headers = HTTPFields()
-                    headers[.contentType] = "audio/wav"
-                    return Response(status: .ok, headers: headers, body: .init(byteBuffer: ByteBuffer(data: wavData)))
-                }
-            }
-            Get("/v1/audio/voices") { _, _ in
-                let voices = AudioService.supportedVoices()
-                return try Self.jsonResponse(["voices": voices])
-            }
-            Get("/v1/audio/languages") { _, _ in
-                let languages = AudioService.supportedLanguages()
-                return try Self.jsonResponse(["languages": languages])
-            }
             Get("/health") { _, _ in
                 let stats = inference.stats
                 let mcpStatuses = mcp.getServerStatuses()
 
@@ -184,7 +184,6 @@ final class AppDelegate: NSObject, NSApplicationDelegate {
             engine.cleanupOrphanedCacheDirs(downloadedModelIds: downloadedIds)
             Self.cleanupLegacyAppSupportDir()
 
-            // Restore previously loaded models and detect interrupted downloads
             if workerMode {
                 do {
                     try inferenceService.startWorker()
@@ -193,28 +192,6 @@ final class AppDelegate: NSObject, NSApplicationDelegate {
                     NovaMLXLog.error("Failed to start worker: \(error)")
                 }
             }
-            await inferenceService.restoreModels(modelManager: modelManager)
-            appState.detectIncompleteDownloads(modelsDirectory: modelManager.modelsDirectory)
-            appState.resumeIncompleteDownloads()
-
-            appState.startStatsMonitoring(inferenceService: inferenceService)
-
-            // Discover cloud models from remote endpoint
-            Task {
-                let _ = await CloudBackend.shared.fetchModels()
-                appState.cloudModels = await inferenceService.listCloudModels()
-                NovaMLXLog.info("Cloud models discovered: \(appState.cloudModels.count)")
-            }
-
-            let memHandler = MemoryPressureHandler(engine: engine, settingsManager: settingsManager)
-            memHandler.start()
-            memoryPressureHandler = memHandler
-
-            // Start ProcessMemoryEnforcer (1s polling, configurable limits)
-            await engine.startMemoryEnforcer()
-            await engine.configureEnforcerSettings { [settingsManager] modelId in
-                settingsManager.getSettings(modelId)
-            }
 
             let serverConfig = await config.serverConfig
             apiServer = NovaMLXAPIServer(
@@ -235,6 +212,32 @@ final class AppDelegate: NSObject, NSApplicationDelegate {
                     try? await apiServer.start()
                 }
             }
+
+            // Restore models in background after API is live
+            Task {
+                await inferenceService.restoreModels(modelManager: modelManager)
+                appState.detectIncompleteDownloads(modelsDirectory: modelManager.modelsDirectory)
+                appState.resumeIncompleteDownloads()
+            }
+
+            appState.startStatsMonitoring(inferenceService: inferenceService)
+
+            // Discover cloud models from remote endpoint
+            Task {
+                let _ = await CloudBackend.shared.fetchModels()
+                appState.cloudModels = await inferenceService.listCloudModels()
+                NovaMLXLog.info("Cloud models discovered: \(appState.cloudModels.count)")
+            }
+
+            let memHandler = MemoryPressureHandler(engine: engine, settingsManager: settingsManager)
+            memHandler.start()
+            memoryPressureHandler = memHandler
+
+            // Start ProcessMemoryEnforcer (1s polling, configurable limits)
+            await engine.startMemoryEnforcer()
+            await engine.configureEnforcerSettings { [settingsManager] modelId in
+                settingsManager.getSettings(modelId)
+            }
         }
     }
 
 
@@ -34,7 +34,8 @@ enum LocalizationStrings {
         "status.serverOnline": "Server Online",
         "status.serverOffline": "Server Offline",
         "status.tokensPerSec": "tokens/sec",
-        "status.inferenceSpeed": "Inference Speed",
+        "status.peakTokensPerSec": "peak tok/s",
+        "status.realtimeInferenceSpeed": "Real-time Inference Speed",
         "status.noActivity": "No inference activity yet",
         "status.time": "Time",
         "status.tokPerSec": "tok/s",
@@ -284,7 +285,8 @@ enum LocalizationStrings {
         "status.serverOnline": "服务器在线",
         "status.serverOffline": "服务器离线",
         "status.tokensPerSec": "token/秒",
-        "status.inferenceSpeed": "推理速度",
+        "status.peakTokensPerSec": "峰值 tok/s",
+        "status.realtimeInferenceSpeed": "实时推理速度",
         "status.noActivity": "暂无推理活动",
         "status.time": "时间",
         "status.tokPerSec": "token/秒",
@@ -527,7 +529,8 @@ enum LocalizationStrings {
         "status.serverOnline": "伺服器在線",
         "status.serverOffline": "伺服器離線",
         "status.tokensPerSec": "token/秒",
-        "status.inferenceSpeed": "推理速度",
+        "status.peakTokensPerSec": "峰值 tok/s",
+        "status.realtimeInferenceSpeed": "實時推理速度",
         "status.noActivity": "暫無推理活動",
         "status.time": "時間",
         "status.tokPerSec": "token/秒",
@@ -770,7 +773,8 @@ enum LocalizationStrings {
         "status.serverOnline": "伺服器上線",
         "status.serverOffline": "伺服器離線",
         "status.tokensPerSec": "token/秒",
-        "status.inferenceSpeed": "推論速度",
+        "status.peakTokensPerSec": "峰值 tok/s",
+        "status.realtimeInferenceSpeed": "即時推論速度",
         "status.noActivity": "尚無推論活動",
         "status.time": "時間",
         "status.tokPerSec": "token/秒",
@@ -1013,7 +1017,8 @@ enum LocalizationStrings {
         "status.serverOnline": "サーバーオンライン",
         "status.serverOffline": "サーバーオフライン",
         "status.tokensPerSec": "token/秒",
-        "status.inferenceSpeed": "推論速度",
+        "status.peakTokensPerSec": "ピーク tok/s",
+        "status.realtimeInferenceSpeed": "リアルタイム推論速度",
         "status.noActivity": "推論アクティビティなし",
         "status.time": "時間",
         "status.tokPerSec": "token/秒",
@@ -1256,7 +1261,8 @@ enum LocalizationStrings {
         "status.serverOnline": "서버 온라인",
         "status.serverOffline": "서버 오프라인",
         "status.tokensPerSec": "토큰/초",
-        "status.inferenceSpeed": "추론 속도",
+        "status.peakTokensPerSec": "최고 tok/s",
+        "status.realtimeInferenceSpeed": "실시간 추론 속도",
         "status.noActivity": "추론 활동 없음",
         "status.time": "시간",
         "status.tokPerSec": "토큰/초",
@@ -1499,7 +1505,8 @@ enum LocalizationStrings {
         "status.serverOnline": "Serveur en ligne",
         "status.serverOffline": "Serveur hors ligne",
         "status.tokensPerSec": "tokens/sec",
-        "status.inferenceSpeed": "Vitesse d'inférence",
+        "status.peakTokensPerSec": "peak tok/s",
+        "status.realtimeInferenceSpeed": "Vitesse d'inférence en temps réel",
         "status.noActivity": "Aucune activité d'inférence",
         "status.time": "Temps",
         "status.tokPerSec": "tok/s",
@@ -1742,7 +1749,8 @@ enum LocalizationStrings {
         "status.serverOnline": "Server online",
         "status.serverOffline": "Server offline",
         "status.tokensPerSec": "Tokens/Sek",
-        "status.inferenceSpeed": "Inferenzgeschwindigkeit",
+        "status.peakTokensPerSec": "Spitze tok/s",
+        "status.realtimeInferenceSpeed": "Echtzeit-Inferenzgeschwindigkeit",
         "status.noActivity": "Noch keine Inferenzaktivität",
         "status.time": "Zeit",
         "status.tokPerSec": "tok/s",
@@ -1985,7 +1993,8 @@ enum LocalizationStrings {
         "status.serverOnline": "Сервер онлайн",
         "status.serverOffline": "Сервер офлайн",
         "status.tokensPerSec": "токенов/сек",
-        "status.inferenceSpeed": "Скорость вывода",
+        "status.peakTokensPerSec": "пик tok/s",
+        "status.realtimeInferenceSpeed": "Скорость вывода в реальном времени",
         "status.noActivity": "Нет активности вывода",
         "status.time": "Время",
         "status.tokPerSec": "ток/с",
 
@@ -25,6 +25,7 @@ public enum NovaMLXError: Error, LocalizedError {
     case downloadFailed(String, underlying: Error)
     case unsupportedModel(String)
     case contextWindowExceeded(promptTokens: Int, maxTokens: Int, contextLength: Int)
+    case insufficientMemory(neededMB: UInt64, availableMB: UInt64, modelId: String)
 
     public var errorDescription: String? {
         switch self {
@@ -38,6 +39,8 @@ public enum NovaMLXError: Error, LocalizedError {
         case .unsupportedModel(let name): "Unsupported model: \(name)"
         case .contextWindowExceeded(let promptTokens, let maxTokens, let contextLength):
             "Context window exceeded: prompt has \(promptTokens) tokens + max_tokens \(maxTokens) = \(promptTokens + maxTokens), but model context length is \(contextLength). Reduce your prompt or max_tokens."
+        case .insufficientMemory(let neededMB, let availableMB, let modelId):
+            "Insufficient memory to load '\(modelId)': need \(neededMB)MB but only \(availableMB)MB available under the current memory limit. Unload unused models, pin important ones, or increase maxProcessMemory."
         }
     }
 }
@@ -100,7 +103,7 @@ public struct ModelConfig: Codable, Sendable {
         modelType: ModelType = .llm,
         hasLinearAttention: Bool = false,
         contextLength: Int = 4096,
-        maxTokens: Int = 4096,
+        maxTokens: Int = 2048,
         temperature: Double = 0.7,
         topP: Double = 0.9,
         repeatPenalty: Float = 1.0,