googleapis
diff --git a/‎google/cloud/aiplatform/preview/datasets.py
Lines changed: 78 additions & 0 deletions b/‎google/cloud/aiplatform/preview/datasets.py
Lines changed: 78 additions & 0 deletions
diff --git a/‎tests/unit/aiplatform/test_multimodal_datasets.py
Lines changed: 40 additions & 0 deletions b/‎tests/unit/aiplatform/test_multimodal_datasets.py
Lines changed: 40 additions & 0 deletions
@@ -1556,6 +1556,84 @@ def assess_batch_prediction_resources(
             audio_token_count=assessment_result.audio_token_count,
         )
 
+    def assess_batch_prediction_validity(
+        self,
+        *,
+        model_name: str,
+        template_config: Optional[GeminiTemplateConfig] = None,
+        assess_request_timeout: Optional[float] = None,
+    ) -> None:
+        """Assess if the assembled dataset is valid in terms of batch prediction
+        for a given model. Raises an error if the dataset is invalid, otherwise
+        returns None.
+
+        Args:
+            model_name (str):
+                Required. The name of the model to assess the batch prediction
+                validity for.
+            dataset_usage (str):
+                Required. The dataset usage to assess the batch prediction
+                validity for.
+                Must be one of the following: SFT_TRAINING, SFT_VALIDATION.
+            template_config (GeminiTemplateConfig):
+                Optional. The template config used to assemble the dataset
+                before assessing the batch prediction validity. If not provided, the
+                template config attached to the dataset will be used. Required
+                if no template config is attached to the dataset.
+            assess_request_timeout (float):
+                Optional. The timeout for the assess batch prediction validity request.
+        """
+        request = self._build_assess_data_request(template_config)
+        request.batch_prediction_validation_assessment_config = gca_dataset_service.AssessDataRequest.BatchPredictionValidationAssessmentConfig(
+            model_name=model_name,
+        )
+        assess_lro = self.api_client.assess_data(
+            request=request, timeout=assess_request_timeout
+        )
+        assess_lro.result(timeout=None)
+
+    def assess_batch_prediction_resources(
+        self,
+        *,
+        model_name: str,
+        template_config: Optional[GeminiTemplateConfig] = None,
+        assess_request_timeout: Optional[float] = None,
+    ) -> BatchPredictionResourceUsageAssessmentResult:
+        """Assess the batch prediction resources required for a given model.
+
+        Args:
+            model_name (str):
+                Required. The name of the model to assess the batch prediction resources
+                for.
+            template_config (GeminiTemplateConfig):
+                Optional. The template config used to assemble the dataset
+                before assessing the batch prediction resources. If not provided, the
+                template config attached to the dataset will be used. Required
+                if no template config is attached to the dataset.
+            assess_request_timeout (float):
+                Optional. The timeout for the assess batch prediction resources request.
+        Returns:
+            A dict containing the batch prediction resource usage assessment result. The
+            dict contains the following keys:
+            - token_count: The number of tokens in the dataset.
+            - audio_token_count: The number of audio tokens in the dataset.
+
+        """
+        request = self._build_assess_data_request(template_config)
+        request.batch_prediction_resource_usage_assessment_config = gca_dataset_service.AssessDataRequest.BatchPredictionResourceUsageAssessmentConfig(
+            model_name=model_name
+        )
+
+        assessment_result = (
+            self.api_client.assess_data(request=request, timeout=assess_request_timeout)
+            .result(timeout=None)
+            .batch_prediction_resource_usage_assessment_result
+        )
+        return BatchPredictionResourceUsageAssessmentResult(
+            token_count=assessment_result.token_count,
+            audio_token_count=assessment_result.audio_token_count,
+        )
+
     def _build_assess_data_request(
         self,
         template_config: Optional[GeminiTemplateConfig] = None,
 
@@ -297,6 +297,19 @@ def assess_data_batch_prediction_resources_mock():
         yield assess_data_mock
 
 
+@pytest.fixture
+def assess_data_batch_prediction_validation_mock():
+    with mock.patch.object(
+        dataset_service.DatasetServiceClient, "assess_data"
+    ) as assess_data_mock:
+        assess_data_lro_mock = mock.Mock(operation.Operation)
+        assess_data_lro_mock.result.return_value = gca_dataset_service.AssessDataResponse(
+            batch_prediction_validation_assessment_result=gca_dataset_service.AssessDataResponse.BatchPredictionValidationAssessmentResult()
+        )
+        assess_data_mock.return_value = assess_data_lro_mock
+        yield assess_data_mock
+
+
 @pytest.fixture
 def assemble_data_mock():
     with mock.patch.object(
@@ -810,6 +823,33 @@ def test_assess_batch_prediction_resources_request_column_name(
             timeout=None,
         )
 
+    @pytest.mark.usefixtures("get_dataset_mock")
+    def test_assess_batch_prediction_validity(
+        self, assess_data_batch_prediction_validation_mock
+    ):
+        aiplatform.init(project=_TEST_PROJECT)
+        dataset = ummd.MultimodalDataset(dataset_name=_TEST_NAME)
+        template_config = ummd.GeminiTemplateConfig(
+            field_mapping={"question": "questionColumn"},
+        )
+        result = dataset.assess_batch_prediction_validity(
+            model_name="gemini-1.5-flash-exp",
+            template_config=template_config,
+        )
+        assess_data_batch_prediction_validation_mock.assert_called_once_with(
+            request=gca_dataset_service.AssessDataRequest(
+                name=_TEST_NAME,
+                batch_prediction_validation_assessment_config=gca_dataset_service.AssessDataRequest.BatchPredictionValidationAssessmentConfig(
+                    model_name="gemini-1.5-flash-exp",
+                ),
+                gemini_request_read_config=gca_dataset_service.GeminiRequestReadConfig(
+                    template_config=template_config._raw_gemini_template_config
+                ),
+            ),
+            timeout=None,
+        )
+        assert result == None
+
     @pytest.mark.usefixtures("get_dataset_request_column_name_mock")
     def test_assess_tuning_validity_request_column_name(
         self, assess_data_tuning_validation_mock