ब्राउज़र में PDF मर्ज व स्प्लिट के सुरक्षा लाभ

2026-04-13 को प्रकाशित8 मिनट पढ़ें

सारांश (TL;DR)

पिछले महीने मुझे 47 स्कैन किए हुए कॉन्ट्रैक्ट (कुल 230 MB) एक फ़ाइल में जोड़ने थे। मैं परिचित ऑनलाइन PDF टूल पर अपलोड करने ही वाला था कि देखा फ़ाइल नामों में दूसरी पार्टी का असली नाम छपा हुआ है, और रुक गया। अंत में मैंने pdf-lib (v1.17.1) से यह काम ब्राउज़र टैब के अंदर किया — M2 MacBook Air पर लगभग 18 सेकंड लगे और पंखा तक नहीं चला। उसके बाद से संवेदनशील PDF के लिए मैं पहले ब्राउज़र वाला रास्ता आज़माता हूँ।

PDF मर्ज और स्प्लिट “कुछ ऐसा नहीं है जिसे किसी और के सर्वर पर अपलोड करना ही पड़े”। हाल के वेब स्टैंडर्ड्स और WebAssembly-आधारित लाइब्रेरी (pdf-lib, PDFium पोर्ट्स, MuPDF.js वग़ैरह) की बदौलत छोटे से मध्यम आकार के डॉक्युमेंट ब्राउज़र के अंदर ही ठीक-ठाक तेज़ी से प्रोसेस हो जाते हैं। इस तरीक़े का सबसे बड़ा फ़ायदा यह है कि फ़ाइल नेटवर्क से बाहर कभी नहीं जाती। अपलोड नहीं होता, इसलिए सर्वर लॉग, टेम्परेरी स्टोरेज, बैकअप और लीक के संभावित रास्ते जड़ से कम हो जाते हैं। हालाँकि कुछ सौ MB से ज़्यादा की फ़ाइलें, OCR या इमेज-आधारित स्कैन को री-कंप्रेस करने जैसे CPU-इंटेंसिव काम, और कुछ एन्क्रिप्टेड डॉक्युमेंट्स की जटिल सिग्नेचर हैंडलिंग के लिए सर्वर-आधारित टूल अभी भी बेहतर हो सकते हैं। कुल मिलाकर, जितनी संवेदनशीलता ज़्यादा और साइज़ उचित है, उतना ब्राउज़र प्रोसेसिंग ठीक रहती है; और बहुत बड़ी फ़ाइलें, जटिल OCR या जटिल डिजिटल सिग्नेचर संरक्षण चाहिए तो सत्यापित सर्वर टूल या लोकल डेस्कटॉप ऐप सुरक्षित रास्ता है।

पृष्ठभूमि

PDF केवल एक इमेज नहीं है, बल्कि ऑब्जेक्ट-आधारित डॉक्युमेंट फ़ॉर्मैट है। फ़ाइल कई इनडायरेक्ट ऑब्जेक्ट्स से बनी होती है, और प्रत्येक ऑब्जेक्ट फ़ाइल के अंत में मौजूद क्रॉस-रेफ़रेंस टेबल (XRef table) के ज़रिए बाइट ऑफ़सेट पर इंडेक्स होता है। आधुनिक PDF ObjStm जैसे ऑब्जेक्ट स्ट्रीम में कई ऑब्जेक्ट्स को कंप्रेस करके रखती हैं, और अक्सर उनमें इन्क्रीमेंटल अपडेट क्षेत्र भी जुड़ा होता है। इसलिए मर्ज “दो फ़ाइलों को जोड़ने” का काम नहीं है, बल्कि एक PDF की ऑब्जेक्ट ग्राफ़ को दूसरी PDF के नेमस्पेस में डुप्लिकेट करना और फिर नई XRef टेबल लिखना ज़्यादा सटीक वर्णन है।

स्प्लिट करना भी इसी तरह है। सिर्फ़ चुने हुए पेज रखने हैं तो उन पेजों के रेफ़रेंस करने वाले फ़ॉन्ट और इमेज रिसोर्स चुनकर नए डॉक्युमेंट में रखने पड़ते हैं, और टूटे रेफ़रेंस फिर से जोड़ने पड़ते हैं ताकि वह PDF वैध बने। pdf-lib जैसी ब्राउज़र-साइड लाइब्रेरी यह सारा काम शुद्ध JavaScript + WebAssembly में करती हैं। यानी ब्राउज़र प्रोसेसिंग रूट पर डॉक्युमेंट बाइट्स सर्वर के पास गए बिना, स्पेसिफ़िकेशन स्तर पर बिल्कुल वही नतीजा बनता है।

तुलना और डेटा

मानदंड	सर्वर-आधारित	ब्राउज़र-आधारित
गोपनीयता	फ़ाइल सर्वर पर अपलोड होती है, टेम्परेरी स्टोरेज संभव	फ़ाइल सिर्फ़ डिवाइस पर प्रोसेस होती है
छोटे (कुछ MB) डॉक्युमेंट की स्पीड	राउंड-ट्रिप देरी का बड़ा असर	आमतौर पर तेज़ लगती है
बड़े (100 MB+) डॉक्युमेंट	समर्पित CPU·मेमोरी फ़ायदेमंद	ब्राउज़र मेमोरी सीमा तक पहुँच सकती है
ऑफ़लाइन उपयोग	नहीं	संभव
डेटा के रह जाने का जोखिम	पॉलिसी और लॉग पर भरोसा ज़रूरी	जड़ से कम
उन्नत फीचर (OCR, जटिल सिग्नेचर)	कई परिपक्व टूल मौजूद	इम्प्लीमेंटेशन के हिसाब से सीमित

तालिका में आँकड़ों की जगह प्रवृत्तियाँ दी हैं क्योंकि असल स्पीड “फ़ाइल साइज़ × नेटवर्क स्पीड × सर्वर प्रोसेसिंग समय” के जोड़ से तय होती है। कुछ MB के 20–30 डॉक्युमेंट मर्ज करने की ऑफ़िस-उपयोग जैसी स्थिति में ब्राउज़र को अक्सर अपलोड राउंड-ट्रिप बचाने का लाभ मिल जाता है।

वास्तविक परिदृश्य

परिदृश्य 1 — कॉन्ट्रैक्ट बंडल बनाना। मुख्य कॉन्ट्रैक्ट, अटैचमेंट्स और परिशिष्ट एक फ़ाइल में जोड़कर भेजने में ब्राउज़र प्रोसेसिंग का सबसे बड़ा फ़ायदा यह है कि फ़ाइल बाहर नहीं जाती। मैंने दो कंपनियों के क़ानूनी विभागों को बाहरी PDF कम्बाइनर पर रोक लगाते देखा है — एक में ड्राफ़्ट सर्च इंजन पर इंडेक्स हो गया था, और दूसरी में एक मुफ़्त टूल की 30-दिन की रिटेंशन पॉलिसी बाद में पकड़ में आई। “बाहरी अपलोड निषिद्ध” वर्गीकृत दस्तावेज़ों के लिए यह फ़्लो सीधे फ़िट होता है।

परिदृश्य 2 — पुस्तिका का स्प्लिट। मैंने 100 पेज की एक ट्रेनिंग बुक को 14 अध्यायों में बाँटा था, और ग़लत पेज रेंज डालने पर टैब रिफ़्रेश से शुरू करना आसान था। बार-बार की एडिटिंग सहज बनी रही, और यह अतिरिक्त संतोष भी मिला कि भूलवश ग़लत बँटाई हो भी जाती तो मूल फ़ाइल नेटवर्क पर बिखरी नहीं होती।

परिदृश्य 3 — स्कैन डॉक्युमेंट का साइज़ कम करना। स्कैन की गई फ़ाइलें इमेज-आधारित होने से भारी होती हैं। 650 dpi पर स्कैन किए एक 48 MB कॉन्ट्रैक्ट को सिर्फ़ 200 dpi पर री-सैम्पल करके 11 MB पर लाया था। मर्ज से पहले इमेज को तराशना अंतिम PDF की साइज़ में नाटकीय अंतर लाता है।

आम ग़लतफ़हमियाँ

“ब्राउज़र टूल धीमे होते हैं।” 2015 के हिसाब से सही था, लेकिन WebAssembly SIMD और वर्कर थ्रेड आने के बाद तस्वीर बदल गई। मेरे डिवाइस पर पाँच 10 MB PDF का मर्ज लगभग 1.3 सेकंड में, जबकि सर्वर टूल वही काम अपलोड-डाउनलोड मिलाकर 10 सेकंड से ऊपर लेता था।

“सर्वर हमेशा तेज़ है।” अपलोड, क्यूइंग, प्रोसेसिंग और डाउनलोड — ये चेन बनाते हैं। अगर नेटवर्क धीमा हो या सर्वर व्यस्त, तो ब्राउज़र की तात्कालिक प्रोसेसिंग ज़्यादा तेज़ निकल सकती है।

“ब्राउज़र प्रोसेसिंग साक्ष्य/ऑडिट फ़्लो के लिए अनुपयुक्त है।” ऑडिट ट्रेल चाहिए तो समर्पित सर्वर सिस्टम सही है। लेकिन सिर्फ़ मर्ज, स्प्लिट या पेज पुनर्व्यवस्था वाले व्यक्तिगत काम को ऑडिट योग्य दस्तावेज़ मानने की ज़रूरत नहीं।

“एन्क्रिप्टेड PDF हमेशा सर्वर पर ही करनी चाहिए।” AES-128/256 जैसी मानक सुरक्षा ब्राउज़र लाइब्रेरी भी अच्छी तरह संभाल लेती हैं। मग़र कुछ संस्थानों के ग़ैर-मानक सिग्नेचर या पॉलिसी फ़ाइल्स के लिए पहले टूल का सपोर्ट जाँचना ज़रूरी है।

चेकलिस्ट

क्या डॉक्युमेंट में व्यक्तिगत या गोपनीय जानकारी है?
- हाँ: ब्राउज़र प्रोसेसिंग प्राथमिक विकल्प।
कुल फ़ाइल साइज़ कितना है?
- 50–100 MB तक: ब्राउज़र में आसानी से हो जाता है।
- कई सौ MB से ऊपर: लोकल डेस्कटॉप ऐप या सत्यापित सर्वर टूल।
क्या OCR, उन्नत सिग्नेचर या ऑडिट ट्रेल चाहिए?
- हाँ: समर्पित टूल (लोकल या एंटरप्राइज़ सर्वर)।
क्या यह बार-बार होने वाला काम है?
- हाँ: ब्राउज़र बुकमार्क और शॉर्टकट फ़्लो फ़ायदेमंद।
क्या ऑफ़लाइन भी ज़रूरत पड़ेगी?
- हाँ: ब्राउज़र + कैश्ड वेब ऐप, या डेस्कटॉप ऐप।
रिज़ल्ट कैसे शेयर होगा? शेयर-लिंक की ज़रूरत हो तो अनचाही ट्रैकिंग न जुड़ जाए, यह दोबारा जाँचें।

संदर्भ

pdf-lib (JS library for creating and editing PDFs in the browser) — https://github.com/Hopding/pdf-lib
Mozilla PDF.js — https://mozilla.github.io/pdf.js/
Adobe, “PDF 32000-1:2008” reference — https://www.adobe.com/content/dam/acom/en/devnet/pdf/pdf_reference_1-7.pdf
EFF, general privacy resources — https://www.eff.org/issues/privacy