retain global pointers to previous default rmm memory resources (#995)

eordentlich · web-flow · commit 904d2986a4c6 · 2025-11-12T17:06:03.000-08:00
This is needed to avoid race condition segfaults with SAM when SAM
headroom is reduced
from its initial larger value during data loading to a smaller value
during computations.

---------

Signed-off-by: Erik Ordentlich &lt;eordentlich@gmail.com&gt;
diff --git a/python/src/spark_rapids_ml/classification.py b/python/src/spark_rapids_ml/classification.py
@@ -1071,7 +1071,6 @@ def _single_fit(init_parameters: Dict[str, Any]) -> Dict[str, Any]:
                     cuda_managed_mem_enabled,
                     cuda_system_mem_enabled,
                     cuda_system_mem_headroom,
-                    force_sam_headroom=True,
                 )
 
                 logistic_regression.fit(
diff --git a/python/src/spark_rapids_ml/clustering.py b/python/src/spark_rapids_ml/clustering.py
@@ -391,7 +391,6 @@ def _cuml_fit(
                 cuda_managed_mem_enabled,
                 cuda_system_mem_enabled,
                 cuda_system_mem_headroom,
-                force_sam_headroom=True,
             )
 
             kmeans_object._fit(
@@ -997,7 +996,6 @@ def _cuml_fit(
                 cuda_managed_mem_enabled,
                 cuda_system_mem_enabled,
                 cuda_system_mem_headroom,
-                force_sam_headroom=True,
             )
 
             # Set out_dtype tp 64bit to get larger indexType in cuML for avoiding overflow
diff --git a/python/src/spark_rapids_ml/knn.py b/python/src/spark_rapids_ml/knn.py
@@ -758,7 +758,6 @@ async def do_allGather() -> List[str]:
                 cuda_managed_mem_enabled,
                 cuda_system_mem_enabled,
                 cuda_system_mem_headroom,
-                force_sam_headroom=True,
             )
 
             res_tuple: Tuple[List[np.ndarray], List[np.ndarray]] = nn_object.kneighbors(
diff --git a/python/src/spark_rapids_ml/tree.py b/python/src/spark_rapids_ml/tree.py
@@ -407,7 +407,6 @@ def _single_fit(rf: cuRf) -> Dict[str, Any]:
                     cuda_managed_mem_enabled,
                     cuda_system_mem_enabled,
                     cuda_system_mem_headroom,
-                    force_sam_headroom=True,
                 )
 
                 # Fit a random forest model on the dataset (X, y)
diff --git a/python/src/spark_rapids_ml/umap.py b/python/src/spark_rapids_ml/umap.py
@@ -1044,7 +1044,6 @@ def _cuml_fit(
                     cuda_managed_mem_enabled,
                     cuda_system_mem_enabled,
                     cuda_system_mem_headroom,
-                    force_sam_headroom=True,
                 )
 
                 umap_model = umap_object.fit(concated, y=labels)
@@ -1054,7 +1053,6 @@ def _cuml_fit(
                     cuda_managed_mem_enabled,
                     cuda_system_mem_enabled,
                     cuda_system_mem_headroom,
-                    force_sam_headroom=True,
                 )
 
                 # Call unsupervised fit
diff --git a/python/src/spark_rapids_ml/utils.py b/python/src/spark_rapids_ml/utils.py
@@ -163,17 +163,29 @@ def _get_gpu_id(task_context: TaskContext) -> int:
     return gpu_id
 
 
+# When changing default rmm memory resources we retain the old ones
+# in this global array singleton to so that any (C++) allocations using them can
+# invoke the corresponding deallocate methods.  They will get cleaned up only when
+# the process exits.  This avoids a segfault in the case of creating a new
+# SAM resource with a smaller headroom.
+_old_memory_resources = []
+
+# keep track of last headroom to check if new sam mr is needed.
+_last_sam_headroom_size = None
+
+
 def _configure_memory_resource(
     uvm_enabled: bool = False,
     sam_enabled: bool = False,
     sam_headroom: Optional[int] = None,
-    force_sam_headroom: bool = False,
 ) -> None:
     import cupy as cp
     import rmm
     from cuda.bindings import runtime
     from rmm.allocators.cupy import rmm_cupy_allocator
 
+    global _last_sam_headroom_size
+
     _SYSTEM_MEMORY_SUPPORTED = rmm._cuda.gpu.getDeviceAttribute(
         runtime.cudaDeviceAttr.cudaDevAttrPageableMemoryAccess,
         rmm._cuda.gpu.getDevice(),
@@ -193,19 +205,24 @@ def _configure_memory_resource(
         if not type(rmm.mr.get_current_device_resource()) == type(
             rmm.mr.SystemMemoryResource()
         ):
+            _old_memory_resources.append(rmm.mr.get_current_device_resource())
+            _last_sam_headroom_size = None
             mr = rmm.mr.SystemMemoryResource()
             rmm.mr.set_current_device_resource(mr)
     elif sam_enabled and sam_headroom is not None:
-        if force_sam_headroom or not type(rmm.mr.get_current_device_resource()) == type(
-            rmm.mr.SamHeadroomMemoryResource(headroom=sam_headroom)
-        ):
+        if sam_headroom != _last_sam_headroom_size or not type(
+            rmm.mr.get_current_device_resource()
+        ) == type(rmm.mr.SamHeadroomMemoryResource(headroom=sam_headroom)):
+            _old_memory_resources.append(rmm.mr.get_current_device_resource())
+            _last_sam_headroom_size = sam_headroom
             mr = rmm.mr.SamHeadroomMemoryResource(headroom=sam_headroom)
             rmm.mr.set_current_device_resource(mr)
 
     if uvm_enabled:
         if not type(rmm.mr.get_current_device_resource()) == type(
             rmm.mr.ManagedMemoryResource()
         ):
+            _old_memory_resources.append(rmm.mr.get_current_device_resource())
             rmm.mr.set_current_device_resource(rmm.mr.ManagedMemoryResource())
 
     if sam_enabled or uvm_enabled:

Original file line number	Diff line number	Diff line change
`@@ -1071,7 +1071,6 @@ def _single_fit(init_parameters: Dict[str, Any]) -> Dict[str, Any]:`
`1071`	`1071`	`cuda_managed_mem_enabled,`
`1072`	`1072`	`cuda_system_mem_enabled,`
`1073`	`1073`	`cuda_system_mem_headroom,`
`1074`		`- force_sam_headroom=True,`
`1075`	`1074`	`)`
`1076`	`1075`
`1077`	`1076`	`logistic_regression.fit(`
Original file line number	Diff line number	Diff line change
`@@ -391,7 +391,6 @@ def _cuml_fit(`
`391`	`391`	`cuda_managed_mem_enabled,`
`392`	`392`	`cuda_system_mem_enabled,`
`393`	`393`	`cuda_system_mem_headroom,`
`394`		`- force_sam_headroom=True,`
`395`	`394`	`)`
`396`	`395`
`397`	`396`	`kmeans_object._fit(`
`@@ -997,7 +996,6 @@ def _cuml_fit(`
`997`	`996`	`cuda_managed_mem_enabled,`
`998`	`997`	`cuda_system_mem_enabled,`
`999`	`998`	`cuda_system_mem_headroom,`
`1000`		`- force_sam_headroom=True,`
`1001`	`999`	`)`
`1002`	`1000`
`1003`	`1001`	`# Set out_dtype tp 64bit to get larger indexType in cuML for avoiding overflow`
Original file line number	Diff line number	Diff line change
`@@ -758,7 +758,6 @@ async def do_allGather() -> List[str]:`
`758`	`758`	`cuda_managed_mem_enabled,`
`759`	`759`	`cuda_system_mem_enabled,`
`760`	`760`	`cuda_system_mem_headroom,`
`761`		`- force_sam_headroom=True,`
`762`	`761`	`)`
`763`	`762`
`764`	`763`	`res_tuple: Tuple[List[np.ndarray], List[np.ndarray]] = nn_object.kneighbors(`
Original file line number	Diff line number	Diff line change
`@@ -407,7 +407,6 @@ def _single_fit(rf: cuRf) -> Dict[str, Any]:`
`407`	`407`	`cuda_managed_mem_enabled,`
`408`	`408`	`cuda_system_mem_enabled,`
`409`	`409`	`cuda_system_mem_headroom,`
`410`		`- force_sam_headroom=True,`
`411`	`410`	`)`
`412`	`411`
`413`	`412`	`# Fit a random forest model on the dataset (X, y)`
Original file line number	Diff line number	Diff line change
`@@ -1044,7 +1044,6 @@ def _cuml_fit(`
`1044`	`1044`	`cuda_managed_mem_enabled,`
`1045`	`1045`	`cuda_system_mem_enabled,`
`1046`	`1046`	`cuda_system_mem_headroom,`
`1047`		`- force_sam_headroom=True,`
`1048`	`1047`	`)`
`1049`	`1048`
`1050`	`1049`	`umap_model = umap_object.fit(concated, y=labels)`
`@@ -1054,7 +1053,6 @@ def _cuml_fit(`
`1054`	`1053`	`cuda_managed_mem_enabled,`
`1055`	`1054`	`cuda_system_mem_enabled,`
`1056`	`1055`	`cuda_system_mem_headroom,`
`1057`		`- force_sam_headroom=True,`
`1058`	`1056`	`)`
`1059`	`1057`
`1060`	`1058`	`# Call unsupervised fit`