Merge pull request #12094 from QualitativeDataRepository/indexingperf3

sekmiller · web-flow · commit 1cc3391cea0e · 2026-02-10T14:07:16.000-05:00
Permission indexing creates unused, orphan perm docs for unchanged files in draft versions
diff --git a/doc/release-notes/12094permission-indexing-improvements3.md b/doc/release-notes/12094permission-indexing-improvements3.md
@@ -0,0 +1,2 @@
+(assuming the earlier PRs have been merged, tehre will be a section on indexing improvements already)
+This release also avoids creating unused Solr entries for files in drafts of new versions of published datasets (decreasing the Solr db size and thereby improving performance).
diff --git a/src/main/java/edu/harvard/iq/dataverse/FileMetadata.java b/src/main/java/edu/harvard/iq/dataverse/FileMetadata.java
@@ -67,15 +67,15 @@
  */
 @Table(indexes = {@Index(columnList="datafile_id"), @Index(columnList="datasetversion_id")} )
 @NamedNativeQuery(
-        name = "FileMetadata.compareFileMetadata",
+        name = "FileMetadata.getDatafilesWithChangedMetadata",
         query = "WITH fm_categories AS (" +
                 "    SELECT fmd.filemetadatas_id, " +
                 "           STRING_AGG(dfc.name, ',' ORDER BY dfc.name) AS categories " +
                 "    FROM FileMetadata_DataFileCategory fmd " +
                 "    JOIN DataFileCategory dfc ON fmd.filecategories_id = dfc.id " +
                 "    GROUP BY fmd.filemetadatas_id " +
                 ") " +
-                "SELECT fm1.id " +
+                "SELECT fm1.datafile_id AS id " +
                 "FROM FileMetadata fm1 " +
                 "LEFT JOIN FileMetadata fm2 ON fm1.datafile_id = fm2.datafile_id " +
                 "    AND fm2.datasetversion_id = ?1 " +
@@ -93,11 +93,11 @@
                 "                 ) " +
                 "            ) " +
                 "        )",
-                resultSetMapping = "IdToLongMapping"
+                resultSetMapping = "IdToIntegerMapping"
     )
 /* When this mapping was to Long.class, Postgres was still returning an Integer, causing indexing failures - see #11776 */ 
 @SqlResultSetMapping(
-        name = "IdToLongMapping",
+        name = "IdToIntegerMapping",
         columns = @ColumnResult(name = "id", type = Integer.class)
     )
 @Entity
diff --git a/src/main/java/edu/harvard/iq/dataverse/search/IndexServiceBean.java b/src/main/java/edu/harvard/iq/dataverse/search/IndexServiceBean.java
@@ -602,10 +602,24 @@ private void doIndexDataset(Dataset dataset, boolean doNormalSolrDocCleanUp) thr
                 writeDebugInfo(debug, dataset);
             }
             if (doNormalSolrDocCleanUp) {
+                List<String> solrIdsOfPermissionDocsToDelete = new ArrayList<>();
                 try {
                     solrIdsOfDocsToDelete = findFilesOfParentDataset(dataset.getId());
                     logger.fine("Existing file docs: " + String.join(", ", solrIdsOfDocsToDelete));
                     if (!solrIdsOfDocsToDelete.isEmpty()) {
+                        if (!latestVersion.isDraft()) {
+                            // After publication, we need to delete old draft perm docs
+                            // For the first draft, a perm doc will exist for each file
+                            // For subsequent drafts, perm docs should only exist for new files/those with changed metadata
+                            // This code adds the ids of draft perm docs for all files - if the docs don't exist, Solr will just ignore them
+                            for (String fileDocId : solrIdsOfDocsToDelete) {
+                                if (!fileDocId.endsWith(draftSuffix)) {
+                                    solrIdsOfPermissionDocsToDelete.add(fileDocId + draftSuffix + discoverabilityPermissionSuffix);
+                                }
+                            }
+
+                            logger.fine("Existing permission docs: " + String.join(", ", solrIdsOfPermissionDocsToDelete));
+                        }
                         // We keep the latest version's docs unless it is deaccessioned and there is no
                         // published/released version
                         // So skip the loop removing those docs from the delete list except in that case
@@ -649,7 +663,7 @@ private void doIndexDataset(Dataset dataset, boolean doNormalSolrDocCleanUp) thr
                 logger.fine("Solr docs to delete: " + String.join(", ", solrIdsOfDocsToDelete));
 
                 if (!solrIdsOfDocsToDelete.isEmpty()) {
-                    List<String> solrIdsOfPermissionDocsToDelete = new ArrayList<>();
+
                     for (String file : solrIdsOfDocsToDelete) {
                         // Also remove associated permission docs
                         solrIdsOfPermissionDocsToDelete.add(file + discoverabilityPermissionSuffix);
@@ -1416,7 +1430,7 @@ public SolrInputDocuments toSolrDocs(IndexableDataset indexableDataset, Set<Long
         long maxSize = maxFTIndexingSize != null ? maxFTIndexingSize.longValue() : Long.MAX_VALUE;
 
         List<String> filesIndexed = new ArrayList<>();
-        final List<Long> changedFileMetadataIds = new ArrayList<>();
+        final List<Long> changedFileIds = new ArrayList<>();
         if (datasetVersion != null) {
             List<FileMetadata> fileMetadatas = datasetVersion.getFileMetadatas();
             List<FileMetadata> rfm = new ArrayList<>();
@@ -1427,42 +1441,17 @@ public SolrInputDocuments toSolrDocs(IndexableDataset indexableDataset, Set<Long
                     fileMap.put(released.getDataFile().getId(), released);
                 }
 
-                Query query = em.createNamedQuery("FileMetadata.compareFileMetadata", Long.class);
-                query.setParameter(1, dataset.getReleasedVersion().getId());
-                query.setParameter(2, datasetVersion.getId());
-
-                /*
-                 * When the query was configured to return Long, it was returning Integer. The query has been changed to return Integer now. The code here is robust if that changes in the future.
-                 */
-                List<Object> queryResults = query.getResultList();
-                for (Object result : queryResults) {
-                    if (result != null) {
-                        // Ensure we're adding Long objects to the list
-                        if (result instanceof Integer intResult) {
-                            logger.finest("Converted Integer result to Long: " + result);
-                            changedFileMetadataIds.add(Long.valueOf(intResult));
-                        } else if (result instanceof Long longResult) {
-                            // Already a Long, add directly
-                            logger.finest("Added existing Long to list: " + result);
-                            changedFileMetadataIds.add(longResult);
-                        } else {
-                            // If it's not a Long, convert it to one via String
-                            try {
-                                changedFileMetadataIds.add(Long.valueOf(result.toString()));
-                                logger.finest("Converted non-Long result to Long: " + result + " of type " + result.getClass().getName());
-                            } catch (NumberFormatException e) {
-                                logger.warning("Could not convert query result to Long: " + result);
-                            }
-                        }
-                    }
-                }
+                solrIndexService.populateChangedFileIds(
+                        dataset.getReleasedVersion().getId(),
+                        datasetVersion.getId(),
+                        changedFileIds);
                 logger.fine(
                         "We are indexing a draft version of a dataset that has a released version. We'll be checking file metadatas if they are exact clones of the released versions.");
             } else if (datasetVersion.isDraft()) {
                 // Add all file metadata ids to changedFileMetadataIds
-                changedFileMetadataIds.addAll(
+                changedFileIds.addAll(
                     fileMetadatas.stream()
-                        .map(FileMetadata::getId)
+                        .map(fm -> fm.getDataFile().getId())
                         .collect(Collectors.toList())
                 );
             }
@@ -1526,7 +1515,7 @@ public SolrInputDocuments toSolrDocs(IndexableDataset indexableDataset, Set<Long
                 }
                 boolean indexThisFile = false;
 
-                if (indexThisMetadata && (isReleasedVersion || changedFileMetadataIds.contains(fileMetadata.getId()))) {
+                if (indexThisMetadata && (isReleasedVersion || changedFileIds.contains(datafile.getId()))) {
                     indexThisFile = true;
                 } else if (indexThisMetadata) {
                     // Draft version, file is not new or all file metadata matches the released version
diff --git a/src/main/java/edu/harvard/iq/dataverse/search/SolrIndexServiceBean.java b/src/main/java/edu/harvard/iq/dataverse/search/SolrIndexServiceBean.java
@@ -36,6 +36,7 @@
 import jakarta.json.JsonObjectBuilder;
 import jakarta.persistence.EntityManager;
 import jakarta.persistence.PersistenceContext;
+import jakarta.persistence.Query;
 
 import org.apache.solr.client.solrj.SolrServerException;
 import org.apache.solr.common.SolrInputDocument;
@@ -410,58 +411,142 @@ public void indexDatasetBatchInNewTransaction(List<Long> datasetIds, final int[]
                 indexPermissionsForOneDvObject(dataset);
 
                 // Process files for this dataset
-                for (DatasetVersion version : datasetVersionsToBuildCardsFor(dataset)) {
-                        processDatasetVersionFiles(version, fileCounter, fileQueryMin);
+                Set<DatasetVersion> versions = datasetVersionsToBuildCardsFor(dataset);
+                final List<Long> changedFileIds = new ArrayList<>();
+                if(versions.size()>1) {
+                    Long releasedVersionId = null;
+                    Long draftVersionId = null;
+                    
+                    for (DatasetVersion version : versions) {
+                        if (version.isReleased()) {
+                            releasedVersionId = version.getId();
+                        } else if (version.isDraft()) {
+                            draftVersionId = version.getId();
+                        }
+                    }
+                    
+                    populateChangedFileIds(
+                            releasedVersionId, 
+                            draftVersionId, 
+                            changedFileIds
+                        );
+                }
+                for (DatasetVersion version : versions) {
+                    processDatasetVersionFiles(version, fileCounter, fileQueryMin, (versions.size()>1 && version.isDraft()) ? changedFileIds : null);
                     }
                 }
             }
         }
 
     @TransactionAttribute(TransactionAttributeType.REQUIRES_NEW)
     public void indexDatasetFilesInNewTransaction(List<DatasetVersion> versions, final int[] fileCounter, int fileQueryMin) {
+        final List<Long> changedFileIds = new ArrayList<>();
+        if(versions.size()>1) {
+            Long releasedVersionId = versions.get(versions.get(0).isReleased() ? 0 : 1).getId();
+            Long draftVersionId = versions.get(versions.get(0).isReleased() ? 1 : 0).getId();
+            
+            populateChangedFileIds(
+                    releasedVersionId, 
+                    draftVersionId, 
+                    changedFileIds
+                );
+        }
         for (DatasetVersion version : versions) {
             // The version object is detached, but its fileMetadatas collection is already loaded.
             // We only need its ID and state, which are available.
-            processDatasetVersionFiles(version, fileCounter, fileQueryMin);
+            processDatasetVersionFiles(version, fileCounter, fileQueryMin, (versions.size()>1 && version.isDraft()) ? changedFileIds : null);
         }
     }
 
+    /**
+     * Retrieves the IDs of file metadatas that have changed between the released version
+     * and the draft version of a dataset.
+     * 
+     * @param releasedVersionId the ID of the released dataset version
+     * @param draftVersionId the ID of the draft dataset version
+     * @param changedFileMetadataIds the list to populate with changed file metadata IDs
+     */
+    public void populateChangedFileIds(Long releasedVersionId, Long draftVersionId, List<Long> changedFileIds) {
+        Query query = em.createNamedQuery("FileMetadata.getDatafilesWithChangedMetadata", Long.class);
+        query.setParameter(1, releasedVersionId);
+        query.setParameter(2, draftVersionId);
+
+        /*
+         * When the query was configured to return Long, it was returning Integer. 
+         * The query has been changed to return Integer now. The code here is robust 
+         * if that changes in the future.
+         */
+        List<Object> queryResults = query.getResultList();
+        for (Object result : queryResults) {
+            if (result != null) {
+                // Ensure we're adding Long objects to the list
+                if (result instanceof Integer intResult) {
+                    logger.finest("Converted Integer result to Long: " + result);
+                    changedFileIds.add(Long.valueOf(intResult));
+                } else if (result instanceof Long longResult) {
+                    // Already a Long, add directly
+                    logger.finest("Added existing Long to list: " + result);
+                    changedFileIds.add(longResult);
+                } else {
+                    // If it's not a Long, convert it to one via String
+                    try {
+                        changedFileIds.add(Long.valueOf(result.toString()));
+                        logger.finest("Converted non-Long result to Long: " + result + " of type " + result.getClass().getName());
+                    } catch (NumberFormatException e) {
+                        logger.warning("Could not convert query result to Long: " + result);
+                    }
+                }
+            }
+        }
+        logger.fine("Found " + changedFileIds.size() + " datafiles whose metadata has changed between versions " + releasedVersionId + " and " + draftVersionId);
+    }
+    
     private void processDatasetVersionFiles(DatasetVersion version,
-            final int[] fileCounter, int fileQueryMin) {
+            final int[] fileCounter, int fileQueryMin, List<Long> changedFileIds) {
         List<String> cachedPerms = searchPermissionsService.findDatasetVersionPerms(version);
         String solrIdEnd = getDatasetOrDataFileSolrEnding(version.getVersionState());
         Long versionId = version.getId();
         List<DataFileProxy> filesToReindexAsBatch = new ArrayList<>();
 
+        // If the version is draft and there is a released version, 
+        // we only need perm docs for the files with filemetadata changes == those in changedFileMetadataIds
+        
         // Process files in batches of 100
         int batchSize = 100;
 
         if (dataFileService.findCountByDatasetVersionId(version.getId()).intValue() > fileQueryMin) {
             // For large datasets, use a more efficient SQL query
+            // ToDo - only get the ones in finalFileIdsToReindex
             try (Stream<DataFileProxy> fileStream = getDataFileInfoForPermissionIndexing(version.getId())) {
 
                 // Process files in batches to avoid memory issues
                 fileStream.forEach(fileInfo -> {
-                    filesToReindexAsBatch.add(fileInfo);
-                    fileCounter[0]++;
-
-                    if (filesToReindexAsBatch.size() >= batchSize) {
-                        reindexFilesInBatches(filesToReindexAsBatch, cachedPerms, versionId, solrIdEnd);
-                        filesToReindexAsBatch.clear();
+                    // Only add files that need reindexing
+                if (changedFileIds == null || changedFileIds.contains(fileInfo.getFileId())) {
+                        filesToReindexAsBatch.add(fileInfo);
+                        fileCounter[0]++;
+
+                        if (filesToReindexAsBatch.size() >= batchSize) {
+                            reindexFilesInBatches(filesToReindexAsBatch, cachedPerms, versionId, solrIdEnd);
+                            filesToReindexAsBatch.clear();
+                        }
                     }
                 });
             }
         } else {
             // For smaller datasets, process files directly
             // We only call getFileMetadatas() in the case where we know they have already been loaded
             for (FileMetadata fmd : version.getFileMetadatas()) {
+                // Only add files that need reindexing
                 DataFileProxy fileProxy = new DataFileProxy(fmd);
-                filesToReindexAsBatch.add(fileProxy);
-                fileCounter[0]++;
+                if (changedFileIds == null || changedFileIds.contains(fileProxy.getFileId())) {
+                    filesToReindexAsBatch.add(fileProxy);
+                    fileCounter[0]++;
 
-                if (filesToReindexAsBatch.size() >= batchSize) {
-                    reindexFilesInBatches(filesToReindexAsBatch, cachedPerms, versionId, solrIdEnd);
-                    filesToReindexAsBatch.clear();
+                    if (filesToReindexAsBatch.size() >= batchSize) {
+                        reindexFilesInBatches(filesToReindexAsBatch, cachedPerms, versionId, solrIdEnd);
+                        filesToReindexAsBatch.clear();
+                    }
                 }
             }
         }

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,2 @@`
	`1`	`+(assuming the earlier PRs have been merged, tehre will be a section on indexing improvements already)`
	`2`	`+This release also avoids creating unused Solr entries for files in drafts of new versions of published datasets (decreasing the Solr db size and thereby improving performance).`