[
  {
    "action": "added_unique",
    "researchId": "research-1-1",
    "researchTitle": "Cloud trust collapse after SaaS mega-breaches",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-1-2",
    "researchTitle": "Vendors falsely advertise 'zero-knowledge'",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-1-3",
    "researchTitle": "30% of enterprises now require client-side encryption as a hard procurement qualifier",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-1-4",
    "researchTitle": "Replay attacks and session hijacking on traditional authentication systems",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-1-5",
    "researchTitle": "Government subpoena vulnerability",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-2-1",
    "researchTitle": "No open-source multilingual PII dataset exists",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-2-2",
    "researchTitle": "Arabic, Japanese, and Chinese degrade severely in XLM-RoBERTa; MENA and APAC deployments fail silent",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-2-3",
    "researchTitle": "NER miss rate rises from 44% to 69% for non-standard entity mentions",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-2-4",
    "researchTitle": "Low-resource language PII detection fails due to limited annotated training data and linguistic dive",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-2-5",
    "researchTitle": "Commercial tools warn that language detection ≠ PII detection; practitioners discover this only afte",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-2-6",
    "researchTitle": "German, French, and Spanish require different entity recognition patterns; NER models trained on Eng",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-3-1",
    "researchTitle": "Presidio TFN Recognizer assigns 1.0 confidence to false positives",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-3-2",
    "researchTitle": "Presidio en_core_web_lg generates 13,536 false positive name detections across 4,434 samples",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-3-3",
    "researchTitle": "Presidio default precision 0.83 F1 vs hybrid approaches at 94.7%",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-3-4",
    "researchTitle": "Developers building pipelines for logs and CSVs: too many false positives make automated anonymizati",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-3-5",
    "researchTitle": "False positive rates in structured data: SSN patterns match product codes, timestamps match phone pa",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-4-1",
    "researchTitle": "77% of enterprise AI users paste company data into public AI tools; 82% use personal accounts",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-4-2",
    "researchTitle": "Samsung leaked semiconductor source code, meeting transcripts, and chip yield tests into ChatGPT 3 t",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-4-3",
    "researchTitle": "GitHub MCP server: prompt injection via public issue → AI agent silently exfiltrates private repos a",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-4-4",
    "researchTitle": "Cursor sends full codebase including .env files and API keys to external servers by default",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-4-5",
    "researchTitle": "Malicious Postmark MCP server with 1,500 weekly downloads silently BCCed all emails to attacker for ",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-4-6",
    "researchTitle": "8.5% of LLM prompts sent by enterprise users contain PII",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-5-1",
    "researchTitle": "Word 'redaction' via black boxes is bypassed by copy-paste",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-5-2",
    "researchTitle": "Excel PII redaction requires removing cell values + metadata + formulas + hidden rows",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-5-3",
    "researchTitle": "FOIA agencies: 200,000+ pending requests; 20-day statutory deadline breached systemically; manual Wo",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-5-4",
    "researchTitle": "Law firms draft in Word, but redaction requires export to separate tool",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-5-5",
    "researchTitle": "Word document metadata (author names, tracked changes, revision history) survives visual redaction",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-6-1",
    "researchTitle": "US defense/government: FedRAMP IL5, ITAR, CJIS prohibit cloud; NARA declared ChatGPT 'unacceptable r",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-6-2",
    "researchTitle": "HIPAA BAA restricts cloud vendor use for PHI",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-6-3",
    "researchTitle": "LocalLLaMA Discord (266,500+ members) cites privacy as #1 reason for running local LLMs; Ollama GitH",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-6-4",
    "researchTitle": "Cloud fatigue: security-conscious developers and privacy advocates refuse to trust any SaaS that sen",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-6-5",
    "researchTitle": "Air-gapped research environments (nuclear, defense, biomedical) cannot have any network-connected to",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-7-1",
    "researchTitle": "77% of enterprise employees paste confidential data into AI chat; 82% from personal accounts invisib",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-7-2",
    "researchTitle": "Urban VPN Chrome Extension (8M users) + 2 others (900K users) stole AI chat conversations in Dec 202",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-7-3",
    "researchTitle": "Customer support agents paste customer PII into ChatGPT for empathy drafts",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-7-4",
    "researchTitle": "143,000+ AI chat conversations (Claude, Copilot, ChatGPT) were publicly accessible due to missing ac",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-7-5",
    "researchTitle": "No corporate policy can prevent personal-device AI tool use",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-8-1",
    "researchTitle": "Courts sanction parties who cannot produce original documents behind redactions",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-8-2",
    "researchTitle": "Clinical trials: 10",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-8-3",
    "researchTitle": "Financial auditors must verify original figures behind redacted reports",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-8-4",
    "researchTitle": "HIPAA Safe Harbor de-identification explicitly permits reversible de-identification with key managem",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-8-5",
    "researchTitle": "Law firms anonymize client documents for external review but need to recover originals when deal clo",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-9-1",
    "researchTitle": "Presidio defaults cover ~20 entity types (US-centric)",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-9-2",
    "researchTitle": "$4.5 billion in global KYC/AML fines in 2024 directly linked to identity verification failures inclu",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-9-3",
    "researchTitle": "Healthcare: each hospital uses different MRN format; Presidio misses custom institutional identifier",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-9-4",
    "researchTitle": "Only 56% of organizations have comprehensive classification distinguishing PII, PHI, and PCI",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-9-5",
    "researchTitle": "Japanese corporate ID formats, My Number (マイナンバー), and organisation-specific identifiers require ful",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-10-1",
    "researchTitle": "TikTok €530M fine (May 2025) for EU data transferred to China",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-10-2",
    "researchTitle": "EDPB CEF 2025: 764 organizations investigated for right-to-erasure failures; 'inefficient anonymisat",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-10-3",
    "researchTitle": "DPO paradox: using a non-GDPR-compliant tool to achieve GDPR compliance",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-10-4",
    "researchTitle": "ISO 27001 is now a hard procurement gate at 81% of enterprises",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-10-5",
    "researchTitle": "LinkedIn €310M fine for behavioral targeting without valid consent (Oct 2024); GDPR fines 2025 total",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-10-6",
    "researchTitle": "Security questionnaire fatigue: 40",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-11-1",
    "researchTitle": "Enterprise PII tools cost $30K",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-11-2",
    "researchTitle": "Usage-based billing is a strong Reddit community preference",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-11-3",
    "researchTitle": "Private AI offers 500 free calls then requires direct vendor contact",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-11-4",
    "researchTitle": "GDPR compliance has created an unintended moat for large platforms",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-12-1",
    "researchTitle": "DSAR volumes +246% (2021",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-12-2",
    "researchTitle": "FOIA request backlog: 200,000+ pending government-wide; AI batch redaction clears backlogs 32x faste",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-12-3",
    "researchTitle": "e-Discovery: expanding data volumes (Slack, Teams, mobile, AI-generated content) against strict cour",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-12-4",
    "researchTitle": "dbt pipeline masking policies wiped on rebuild; EDPB 2024 clarified unmasked prod data in dev/test v",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-13-1",
    "researchTitle": "Presidio custom recognizers silently fail: PatternRecognizer not recognized by AnalyzerEngine; langu",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-13-2",
    "researchTitle": "No built-in medical entity support in Presidio",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-13-3",
    "researchTitle": "LangChain cannot pass custom preloaded Presidio models to its PII pipeline",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-13-4",
    "researchTitle": "Only 56% of organizations classify PII, PHI, and PCI comprehensively",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-13-5",
    "researchTitle": "Industry-specific PII (nuclear facility codes, military service numbers, proprietary internal IDs) n",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-14-1",
    "researchTitle": "Inconsistent redaction across distributed teams is the most common compliance failure mode",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-14-2",
    "researchTitle": "HIPAA and GDPR require demonstrable, consistent data handling practices across all employees and loc",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-14-3",
    "researchTitle": "Enterprise tools (Privitar, K2View, Protegrity) all market 'policy-driven anonymization' as core dif",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-14-4",
    "researchTitle": "Government agencies require auditable, standardized redaction documentation",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-15-1",
    "researchTitle": "Presidio is 'a framework, not a solution'",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-15-2",
    "researchTitle": "Docker/Kubernetes deployment failures: Issues #1663, #1678, #1746, #1773",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-15-3",
    "researchTitle": "Presidio's own evaluation page recommends custom models as a workaround for the accuracy gap",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-16-1",
    "researchTitle": "8.5% of LLM prompts contain PII",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-16-2",
    "researchTitle": "Discord October 2025 breach: 70,000+ government-issued IDs exposed via support channel",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-16-3",
    "researchTitle": "Customer support workflows involve real-time pasting of customer data",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-17-1",
    "researchTitle": "Format fragmentation: organizations process PDF, DOCX, XLSX, CSV, JSON",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-17-2",
    "researchTitle": "dbt pipeline rebuilds destroy masking policies on CSV and JSON data",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-17-3",
    "researchTitle": "Log files are the neglected PII surface",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-17-4",
    "researchTitle": "Scanned documents and PDFs with embedded images lose PII protection when converted",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-18-1",
    "researchTitle": "Microsoft Purview explicitly cannot scan JPEG/PNG",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-18-2",
    "researchTitle": "SparkCat malware (iOS/Android, Dec 2025) used OCR to steal crypto wallet recovery phrases from scree",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-18-3",
    "researchTitle": "87% of organizations at risk from inadequate image-based PII redaction",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-18-4",
    "researchTitle": "OCR + Presidio coordinate mapping fails on scanned documents",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-19-1",
    "researchTitle": "Multi-vendor PII stacks create audit trail gaps",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-19-2",
    "researchTitle": "Inconsistent detection undermines tool trust",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-19-3",
    "researchTitle": "Multi-department tools don't share entity configs; no single audit trail; inconsistency discovered o",
    "bestTitleScore": 0,
    "bestDescScore": 0
  },
  {
    "action": "added_unique",
    "researchId": "research-19-4",
    "researchTitle": "Enterprise security teams managing separate DLP tools per platform cannot demonstrate consistent PII",
    "bestTitleScore": 0,
    "bestDescScore": 0
  }
]