Refactor multipart buffered reading

gi0baro · gi0baro · commit e09f4f141f14 · 2025-08-22T18:54:49.000+02:00
diff --git a/.github/workflows/release.yml b/.github/workflows/release.yml
@@ -137,6 +137,8 @@ jobs:
         shell: bash
       - name: Generate PGO data
         shell: bash
+        env:
+          PGO_RUN: y
         run: |
           uv python install ${{ env.UV_PYTHON }}
           uv venv .venv
diff --git a/src/multipart/parse.rs b/src/multipart/parse.rs
@@ -9,7 +9,7 @@ use pyo3::{IntoPyObjectExt, exceptions::PyStopIteration, prelude::*, types::PyBy
 use std::{
     borrow::Cow,
     collections::VecDeque,
-    io::{BufRead, Cursor, Read},
+    io::{BufRead, Cursor, Read, Write},
     mem,
     sync::Mutex,
 };
@@ -27,6 +27,7 @@ enum MultiPartParserState {
     Value(Part),
     File(FilePart),
     Skip,
+    Consumed,
 }
 
 impl Default for MultiPartParserState {
@@ -41,8 +42,8 @@ struct MultiPartParser {
     max_part_size: usize,
     state: MultiPartParserState,
     buffer: Vec<u8>,
+    bufshift: usize,
     read_size: usize,
-    pub consumed: bool,
     stack: VecDeque<Node>,
 }
 
@@ -54,8 +55,8 @@ impl MultiPartParser {
             max_part_size,
             state: MultiPartParserState::Clean,
             buffer: Vec::new(),
+            bufshift: 0,
             read_size: 0,
-            consumed: false,
             stack: VecDeque::new(),
         }
     }
@@ -65,26 +66,79 @@ impl MultiPartParser {
         T: AsRef<[u8]>,
     {
         macro_rules! buffered_read {
+            ($boundary:expr) => {{
+                let peeker = reader.fill_buf()?;
+                if peeker.is_empty() {
+                    return Ok(());
+                }
+
+                // if the chunk is not long enough to check for boundary, buffer
+                if (peeker.len() + self.buffer.len()) < $boundary.len() {
+                    reader.read_to_end(&mut self.buffer)?;
+                    return Ok(());
+                }
+
+                let (readn, found) = if self.buffer.is_empty() {
+                    reader.stream_until_token($boundary, &mut self.buffer)?
+                } else {
+                    // we buffered previous contents, chain the two reads
+                    let mut buf = Vec::new();
+                    let mut chain = self.buffer.chain(&mut *reader);
+                    let ret = chain.stream_until_token($boundary, &mut buf)?;
+                    self.buffer.truncate(0);
+                    self.buffer.extend(buf);
+                    ret
+                };
+                if !found {
+                    let bdiff = self.buffer.len() + self.bufshift;
+                    if bdiff < readn {
+                        let shift = readn - bdiff;
+                        self.buffer.extend(&$boundary[..self.bufshift + shift]);
+                        self.bufshift += shift;
+                    } else {
+                        self.bufshift = 0;
+                    }
+                } else {
+                    self.bufshift = 0;
+                }
+                (readn, found)
+            }};
+
             ($boundary:expr, $target:expr) => {{
                 let peeker = reader.fill_buf()?;
                 if peeker.is_empty() {
                     return Ok(());
                 }
+
                 // if the chunk is not long enough to check for boundary, buffer
                 if (peeker.len() + self.buffer.len()) < $boundary.len() {
                     reader.read_to_end(&mut self.buffer)?;
                     return Ok(());
                 }
 
-                if self.buffer.is_empty() {
+                let (readn, found) = if self.buffer.is_empty() {
                     reader.stream_until_token($boundary, $target)?
                 } else {
                     // we buffered previous contents, chain the two reads
                     let mut chain = self.buffer.chain(&mut *reader);
                     let ret = chain.stream_until_token($boundary, $target)?;
                     self.buffer.truncate(0);
                     ret
+                };
+                if !found {
+                    // keep incomplete boundary segment in buffer
+                    let bdiff = $target.len() + self.bufshift;
+                    if bdiff < readn {
+                        let shift = readn - bdiff;
+                        self.buffer.extend(&$boundary[..self.bufshift + shift]);
+                        self.bufshift += shift;
+                    } else {
+                        self.bufshift = 0;
+                    }
+                } else {
+                    self.bufshift = 0;
                 }
+                (readn, found)
             }};
         }
 
@@ -93,24 +147,26 @@ impl MultiPartParser {
         loop {
             if let MultiPartParserState::Clean = self.state {
                 let peeker = reader.fill_buf()?;
-
-                // If the last chunk is empty and we're in clean state there's nothing to do.
-                if peeker.is_empty() {
+                if (self.buffer.len() + peeker.len()) < 2 {
+                    self.buffer.extend(peeker);
                     return Ok(());
                 }
 
                 // If the next two lookahead characters are '--', parsing is finished.
-                if peeker.len() >= 2 && &peeker[..2] == b"--" {
-                    self.consumed = true;
+                let mut buf = vec![0; 2];
+                let mut chain = self.buffer.chain(peeker);
+                chain.read_exact(&mut buf)?;
+                if buf.len() >= 2 && &buf[..2] == b"--" {
+                    self.state = MultiPartParserState::Consumed;
                     return Ok(());
                 }
 
                 self.state = MultiPartParserState::Termination;
             }
 
             if let MultiPartParserState::Termination = self.state {
-                // Read the line terminator after the boundary
-                let (_, found) = reader.stream_until_token(lt, &mut self.buffer)?;
+                let (_, found) = buffered_read!(lt);
+
                 if !found {
                     return Ok(());
                 }
@@ -120,8 +176,7 @@ impl MultiPartParser {
             }
 
             if let MultiPartParserState::Headers = self.state {
-                // Read the headers (which end in 2 line terminators)
-                let (_, found) = reader.stream_until_token(ltlt, &mut self.buffer)?;
+                let (_, found) = buffered_read!(ltlt);
                 if !found {
                     return Ok(());
                 }
@@ -202,12 +257,14 @@ impl MultiPartParser {
             }
 
             if let MultiPartParserState::File(filepart) = &mut self.state {
-                let (read, found) = buffered_read!(
-                    lt_boundary,
-                    &mut filepart.file.as_mut().expect("uninitialized file part")
-                );
-                let size = filepart.size.unwrap_or(0);
-                filepart.size = Some(size + read);
+                let mut buf = Vec::new();
+                let (read, found) = buffered_read!(lt_boundary, &mut buf);
+                filepart
+                    .file
+                    .as_mut()
+                    .expect("uninitialized file part")
+                    .write_all(&buf)?;
+                filepart.size = Some(filepart.size.unwrap_or(0) + read);
 
                 if !found {
                     return Ok(());
@@ -225,7 +282,7 @@ impl MultiPartParser {
             }
 
             if let MultiPartParserState::Skip = &mut self.state {
-                let (_, found) = reader.stream_until_token(lt_boundary, &mut self.buffer)?;
+                let (_, found) = buffered_read!(lt_boundary);
                 if !found {
                     return Ok(());
                 }
@@ -262,6 +319,9 @@ impl MultiPartReader {
         let mut guard = self.inner.lock().unwrap();
 
         if let Some(inner) = &mut *guard {
+            if matches!(inner.state, MultiPartParserState::Consumed) {
+                return Ok(());
+            }
             let mut reader = Cursor::new(data);
             return inner.parse_chunk(&mut reader);
         }
@@ -297,7 +357,10 @@ impl MultiPartReader {
         let mut guard = self.inner.lock().unwrap();
 
         if let Some(mut inner) = guard.take() {
-            if !inner.consumed {
+            if !matches!(
+                inner.state,
+                MultiPartParserState::Clean | MultiPartParserState::Consumed
+            ) {
                 return Err(error_state!());
             }
             let nodes = mem::take(&mut inner.stack);
diff --git a/tests/multipart/test_multipart_stream.py b/tests/multipart/test_multipart_stream.py
@@ -0,0 +1,76 @@
+import os
+
+import pytest
+
+from emmett_core._emmett_core import MultiPartReader
+
+
+@pytest.mark.skipif(bool(os.getenv("PGO_RUN")), reason="PGO build")
+def test_multipart_mixed_segmented():
+    data = (
+        # data
+        b"--a7f7ac8d4e2e437c877bb7b8d7cc549c\r\n"
+        b'Content-Disposition: form-data; name="field0"\r\n\r\n'
+        b"value0\r\n"
+        # file
+        b"--a7f7ac8d4e2e437c877bb7b8d7cc549c\r\n"
+        b'Content-Disposition: form-data; name="file"; filename="file.txt"\r\n'
+        b"Content-Type: text/plain\r\n\r\n"
+        b"<file content>\r\n"
+        # data
+        b"--a7f7ac8d4e2e437c877bb7b8d7cc549c\r\n"
+        b'Content-Disposition: form-data; name="field1"\r\n\r\n'
+        b"value1\r\n"
+        b"--a7f7ac8d4e2e437c877bb7b8d7cc549c--\r\n"
+    )
+
+    parser = MultiPartReader("multipart/form-data; boundary=a7f7ac8d4e2e437c877bb7b8d7cc549c")
+    parser.parse(data[:37])
+
+    idx = 37
+    while True:
+        segment = data[idx : idx + 1]
+        if not segment:
+            break
+        parser.parse(segment)
+        idx += 1
+    parsed = list(parser.contents())
+    assert (parsed[0][0], parsed[0][2]) == ("field0", b"value0")
+    assert (parsed[2][0], parsed[2][2]) == ("field1", b"value1")
+    assert (parsed[1][0], parsed[1][2].filename, parsed[1][2].read()) == ("file", "file.txt", b"<file content>")
+
+
+def test_multipart_mixed_chunked():
+    data = (
+        # data
+        b"--a7f7ac8d4e2e437c877bb7b8d7cc549c\r\n"
+        b'Content-Disposition: form-data; name="field0"\r\n\r\n'
+        b"value0\r\n"
+        # file
+        b"--a7f7ac8d4e2e437c877bb7b8d7cc549c\r\n"
+        b'Content-Disposition: form-data; name="file"; filename="file.txt"\r\n'
+        b"Content-Type: text/plain\r\n\r\n"
+        b"<file content>\r\n"
+        # data
+        b"--a7f7ac8d4e2e437c877bb7b8d7cc549c\r\n"
+        b'Content-Disposition: form-data; name="field1"\r\n\r\n'
+        b"value1\r\n"
+        b"--a7f7ac8d4e2e437c877bb7b8d7cc549c--\r\n"
+    )
+
+    step = 97
+
+    parser = MultiPartReader("multipart/form-data; boundary=a7f7ac8d4e2e437c877bb7b8d7cc549c")
+    parser.parse(data[:step])
+
+    idx = 1
+    while True:
+        segment = data[idx * step : (idx + 1) * step]
+        if not segment:
+            break
+        parser.parse(segment)
+        idx += 1
+    parsed = list(parser.contents())
+    assert (parsed[0][0], parsed[0][2]) == ("field0", b"value0")
+    assert (parsed[2][0], parsed[2][2]) == ("field1", b"value1")
+    assert (parsed[1][0], parsed[1][2].filename, parsed[1][2].read()) == ("file", "file.txt", b"<file content>")