TP/quantization/weight loading refactor part 1 - Simplify parallel linear logic (#1181)

2023-10-02 15:36:09 -07:00
parent 84e4e37d14
commit ba0bfd40e2
42 changed files with 819 additions and 1547 deletions
--- a/tests/async_engine/test_async_llm_engine.py
+++ b/tests/async_engine/test_async_llm_engine.py
@@ -32,12 +32,12 @@ class MockEngine:
        self.request_id = None

    def add_request(self, **kwargs):
+        del kwargs  # Unused
        self.add_request_calls += 1
-        return

    def abort_request(self, request_id):
+        del request_id  # Unused
        self.abort_request_calls += 1
-        return


 class MockAsyncLLMEngine(AsyncLLMEngine):