diff --git a/content/arabic/java/ocr-image-search/_index.md b/content/arabic/java/ocr-image-search/_index.md new file mode 100644 index 00000000..fcfa60ae --- /dev/null +++ b/content/arabic/java/ocr-image-search/_index.md @@ -0,0 +1,99 @@ +--- +date: 2026-01-11 +description: دروس خطوة بخطوة لتطبيق OCR، واستخراج النص من الصور باستخدام Java، والبحث + العكسي عن الصور باستخدام Java عبر GroupDocs.Search. +title: البحث العكسي عن الصور جافا – دروس OCR في GroupDocs.Search +type: docs +url: /ar/java/ocr-image-search/ +weight: 7 +--- + +# Reverse Image Search Java – دروس GroupDocs.Search OCR + +في هذا الدليل سنرشدك إلى كل ما تحتاج معرفته لبناء حلول **reverse image search java** باستخدام GroupDocs.Search. سواءً كنت تضيف بحثًا بصريًا إلى بوابة غنية بالمحتوى أو تحتاج إلى استخراج نص قابل للبحث من الأصول الممسوحة ضوئيًا، سنوضح لك كيفية تكوين OCR، واستخراج النص من الصور Java، وإجراء عمليات بحث عكسي عن الصور—كل ذلك بأمثلة واضحة جاهزة للإنتاج. + +## إجابات سريعة +- **ما الذي يفعله reverse image search Java؟** إنه يجد الصور المتشابهة بصريًا في مجموعة مفهرسة باستخدام GroupDocs.Search. +- **أي محرك OCR يُنصح به؟** GroupDocs.Search يتكامل مع Aspose.OCR لاستخراج نص عالي الدقة. +- **هل أحتاج إلى ترخيص؟** الترخيص المؤقت يعمل للاختبار؛ الترخيص الكامل مطلوب للإنتاج. +- **ما هي المتطلبات المسبقة الرئيسية؟** Java 8+، GroupDocs.Search for Java، واختياريًا Aspose.OCR. +- **كم يستغرق التنفيذ؟** يمكن إكمال إعداد أساسي في أقل من ساعة. + +## ما هو Reverse Image Search Java؟ +Reverse image search Java يتيح لك العثور على الصور التي تبدو متشابهة أو تحتوي على نفس المحتوى البصري. بدلاً من البحث بالكلمات المفتاحية، يقوم المحرك بتحليل ميزات الصورة، فهرستها، وإرجاع النتائج المطابقة عند تقديم صورة استعلام. + +## لماذا تستخدم GroupDocs.Search لمهام الصور و OCR؟ +- **Unified API** – إدارة فهرسة النص والصور عبر مكتبة واحدة. +- **High performance** – مُحسّن للمجموعات الكبيرة وأوقات البحث السريعة. +- **Extensible** – يمكنك إضافة محركات OCR مخصصة أو مستخرجات ميزات الصور إذا لزم الأمر. +- **Cross‑platform** – يعمل على أي بيئة متوافقة مع Java، من سطح المكتب إلى السحابة. + +## المتطلبات المسبقة +- Java 8 أو أحدث مثبت. +- إضافة مكتبة GroupDocs.Search for Java إلى مشروعك (Maven/Gradle). +- (اختياري) Aspose.OCR for Java إذا كنت تريد أعلى دقة OCR. +- مجموعة من الصور التي تريد فهرستها والبحث فيها. + +## دليل خطوة بخطوة + +### الخطوة 1: إعداد فهرس البحث +أنشئ كائن `SearchIndex` جديد يشير إلى مجلد سيتم تخزين ملفات الفهرس فيه. سيحتوي هذا المجلد على كل من النص وبيانات تعريف الصورة. + +### الخطوة 2: تكوين OCR لملفات الصور +فعّل OCR في خيارات الفهرسة بحيث يتم معالجة أي صورة تُضاف إلى الفهرس لاستخراج النص. هنا يأتي دور الكلمة المفتاحية الثانوية **extract text from images java**. + +### الخطوة 3: فهرسة صورك +أضف كل ملف صورة إلى الفهرس. خلال هذه العملية يقوم GroupDocs.Search باستخراج الميزات البصرية للبحث العكسي وتشغيل OCR لاستخلاص أي نص مضمّن. + +### الخطوة 4: إجراء بحث عكسي عن الصور +قدّم صورة استعلام إلى طريقة `search`. يقارن المحرك البصمات البصرية ويعيد قائمة مرتبة بالصور المتشابهة من الفهرس. + +### الخطوة 5: استرجاع نص OCR (إذا لزم الأمر) +إذا كنت تحتاج أيضًا إلى المحتوى النصي الموجود داخل الصور، استعلم عن النص المستخرج بواسطة OCR باستخدام البحث بالكلمة المفتاحية العادي. + +## المشكلات الشائعة والحلول +- **لا تُرجع أي نتائج:** تأكد من تمكين مستخرج ميزات الصورة وأن الفهرس قد أعيد بناؤه بعد إضافة صور جديدة. +- **نص OCR مفقود:** تأكد من أن محرك OCR مُشار إليه بشكل صحيح في تبعيات مشروعك وأن صيغة الصورة مدعومة (مثل PNG، JPEG، TIFF). +- **تباطؤ الأداء:** فكر في تقسيم مجموعات الصور الكبيرة إلى فهارس متعددة أو استخدم الفهرسة التزايدية للحفاظ على زمن البحث منخفضًا. + +## الأسئلة المتكررة + +**س: هل يمكنني استخدام reverse image search Java على منصات السحابة؟** +ج: نعم، المكتبة مستقلة عن المنصة وتعمل على أي بيئة تدعم Java، بما في ذلك AWS وAzure وGoogle Cloud. + +**س: ما مدى دقة استخراج OCR للغات المختلفة؟** +ج: Aspose.OCR يدعم أكثر من 60 لغة؛ يمكنك تحديد اللغة في خيارات OCR للحصول على دقة أفضل. + +**س: هل يمكن دمج البحث بالكلمة المفتاحية مع تشابه الصور؟** +ج: بالتأكيد. يمكنك أولاً تصفية النتائج باستخدام استعلام كلمة مفتاحية ثم ترتيب العناصر المتبقية حسب التشابه البصري. + +**س: ما صيغ الملفات المدعومة لفهرسة الصور؟** +ج: الصيغ الشائعة مثل JPEG، PNG، BMP، وTIFF مدعومة بالكامل مباشرة. + +**س: كيف أقوم بتحديث الفهرس عندما تتغير الصور؟** +ج: استخدم طريقة `update` لإعادة معالجة الصور المعدلة، أو احذفها وأعد إضافتها للحفاظ على الفهرس محدثًا. + +## موارد إضافية + +### الدروس المتاحة + +#### [تكوين التعرف على الأحرف في GroupDocs.Search for Java: دليل OCR والبحث عن الصور](./groupdocs-search-java-character-recognition/) +تعلم كيفية تكوين التعرف على الأحرف باستخدام GroupDocs.Search for Java، مع التركيز على الأحرف العادية والمختلطة. عزّز إدارة مستنداتك بقدرات بحث متقدمة. + +#### [دليل فهرسة OCR في Java باستخدام Aspose وGroupDocs: تحسين قابلية البحث في المستندات](./java-ocr-indexing-aspose-groupdocs-search/) +تعلم تنفيذ فهرسة OCR قوية في Java باستخدام GroupDocs.Search وAspose.OCR لتحسين قدرات البحث في المستندات. + +### روابط مفيدة + +- [توثيق GroupDocs.Search for Java](https://docs.groupdocs.com/search/java/) +- [مرجع API لـ GroupDocs.Search for Java](https://reference.groupdocs.com/search/java/) +- [تحميل GroupDocs.Search for Java](https://releases.groupdocs.com/search/java/) +- [منتدى GroupDocs.Search](https://forum.groupdocs.com/c/search) +- [دعم مجاني](https://forum.groupdocs.com/) +- [ترخيص مؤقت](https://purchase.groupdocs.com/temporary-license/) + +--- + +**آخر تحديث:** 2026-01-11 +**تم الاختبار مع:** GroupDocs.Search for Java 23.11 +**المؤلف:** GroupDocs \ No newline at end of file diff --git a/content/arabic/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/arabic/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md new file mode 100644 index 00000000..83a10f64 --- /dev/null +++ b/content/arabic/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -0,0 +1,233 @@ +--- +date: '2026-01-11' +description: تعلم كيفية إنشاء فهرس بحث مخصص باستخدام GroupDocs.Search للغة Java، مع + تكوين الأحرف العادية والمختلطة للبحث المتقدم باستخدام OCR والبحث عن الصور. +keywords: +- GroupDocs.Search Java +- Java OCR character recognition +- search library Java +title: إنشاء فهرس بحث مخصص مع التعرف على الأحرف – GroupDocs.Search Java +type: docs +url: /ar/java/ocr-image-search/groupdocs-search-java-character-recognition/ +weight: 1 +--- + +# إنشاء فهرس بحث مخصص مع التعرف على الأحرف باستخدام GroupDocs.Search للغة Java + +في التطبيقات الحديثة التي تتعامل مع مستندات كثيرة، **إنشاء فهرس بحث مخصص** يفهم تفاصيل النص الخاص بك—مثل الشرطات، والشرطة السفلية، أو الرموز الخاصة باللغات—يعد أمرًا أساسيًا لاسترجاع سريع ودقيق. يوضح هذا الدليل كيفية تكوين التعرف على الأحرف في **GroupDocs.Search للغة Java**، مع تغطية كل من الأحرف العادية (حروف، أرقام، شرطة سفلية) والأحرف المدمجة (مثل الشرطات). في النهاية، ستتمكن من تخصيص فهرس يلبي احتياجات سيناريو OCR أو البحث في الصور بدقة. + +## إجابات سريعة +- **ماذا يعني “إنشاء فهرس بحث مخصص”؟** يعني ذلك تكوين الفهرس لمعالجة رموز معينة كحروف أو أحرف مدمجة، بدلاً من تجاهلها. +- **ما المكتبة المستخدمة؟** GroupDocs.Search للغة Java (الإصدار 25.4 وقت كتابة هذا الدليل). +- **هل أحتاج إلى ترخيص؟** نسخة تجريبية مجانية تكفي للتطوير؛ الترخيص المدفوع مطلوب للإنتاج. +- **هل يمكن فهرسة كل من ملفات PDF والصور؟** نعم—يدعم GroupDocs.Search OCR على الصور وملفات PDF عند تكوينه بشكل صحيح. +- **هل Maven مطلوب؟** يُنصح باستخدام Maven لإدارة الاعتمادات، لكن يمكنك أيضًا استخدام Gradle أو ملفات JAR يدوية. + +## ما هو فهرس البحث المخصص؟ +يتيح فهرس البحث المخصص لك تحديد كيفية تفسير محرك البحث للأحرف. بشكل افتراضي، يتم تجاهل العديد من الرموز، مما قد يؤدي إلى فقدان مطابقة لأشياء مثل أرقام القضايا (`ABC-123`) أو مقتطفات الشيفرة (`my_variable`). تعديل قاموس الأبجدية يمنحك سيطرة كاملة على ما يعامله المحرك كنص قابل للبحث. + +## لماذا نكوّن الأحرف العادية والمدمجة؟ +- **الأحرف العادية** (حروف، أرقام، شرطة سفلية) تُعامل كرموز مستقلة، مما يحسن عمليات البحث بالتطابق الدقيق. +- **الأحرف المدمجة** (شرطات، أقسام) تربط الكلمات؛ تكوينها يمنع تقسيم الرموز غير المرغوب فيه، وهو أمر حاسم للمراجع القانونية، رموز المنتجات، أو فهرسة الشيفرة المصدرية. + +## المتطلبات المسبقة +- **JDK 8** أو أحدث مثبت. +- **Maven** لإدارة الاعتمادات. +- الوصول إلى مكتبة **GroupDocs.Search للغة Java** (تنزيل عبر Maven أو الموقع الرسمي). + +### المكتبات والاعتمادات المطلوبة +أضف مستودع الاعتمادات وإدخالات الاعتماد إلى ملف `pom.xml` (كما هو موضح أدناه). يجب ترك كتلة XML دون تعديل. + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +يمكنك أيضًا تنزيل أحدث ملفات JAR من [إصدارات GroupDocs.Search للغة Java](https://releases.groupdocs.com/search/java/). + +### الحصول على الترخيص +- **تجربة مجانية** – مثالية للتجارب الأولية. +- **ترخيص مؤقت** – مفيد لدورات تطوير أطول. +- **ترخيص إنتاج** – مطلوب للنشر التجاري. + +احصل على ترخيص من البوابة الرسمية: [GroupDocs](https://purchase.groupdocs.com/temporary-license/). + +### التهيئة الأساسية +المقتطف أدناه يوضح الحد الأدنى من الشيفرة اللازمة لإنشاء فهرس فارغ. اتركه كما هو؛ سنبني عليه لاحقًا. + +```java +import com.groupdocs.search.*; + +public class GroupDocsSearchSetup { + public static void main(String[] args) { + String indexFolder = "YOUR_OUTPUT_DIRECTORY"; + String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; + + Index index = new Index(indexFolder); + + System.out.println("GroupDocs.Search setup completed!"); + } +} +``` + +## إعداد GroupDocs.Search للغة Java + +### التثبيت عبر Maven +تكوين Maven الموجود في قسم *المتطلبات المسبقة* هو كل ما تحتاجه. بعد إضافته، نفّذ `mvn clean install` لجلب الحزم. + +### متطلبات إعداد البيئة +- تأكد من وجود **مجلد الفهرس** و**مجلد المستندات** على القرص. +- استخدم مسارات مطلقة أو قم بتكوين بيئة التطوير المتكاملة (IDE) لتفسير المسارات النسبية بشكل صحيح. + +## دليل التنفيذ + +فيما يلي نستعرض ميزتين مميزتين: **الأحرف العادية** و**الأحرف المدمجة**. كل ميزة تتبع نفس النمط—تحديد المسارات، إنشاء الفهرس، ضبط قاموس الأحرف، وأخيرًا فهرسة المستندات. + +### الميزة 1 – الأحرف العادية + +#### نظرة عامة +تُعامل الأحرف العادية كرموز مستقلة. هذا مثالي عندما تريد أن تكون الأرقام، الحروف، والشرطة السفلية قابلة للبحث كما هي تمامًا. + +#### تنفيذ خطوة بخطوة + +**1️⃣ إعداد المسارات** +حدد أين سيُخزن الفهرس وأين توجد المستندات المصدرية. + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ إنشاء الفهرس وتكوينه** +أنشئ الفهرس وامسح أي تكوين أبجدي مسبق. + +```java +Index index = new Index(indexFolder); +index.getDictionaries().getAlphabet().clear(); +``` + +**3️⃣ تعريف الأحرف العادية** +أنشئ مصفوفة أحرف تشمل الأرقام، الحروف اللاتينية، والشرطة السفلية. + +```java +StringBuilder sb = new StringBuilder(); +for (char i = 0x0030; i <= 0x0039; i++) { // Digits + sb.append(i); +} +for (char i = 0x0041; i <= 0x005A; i++) { // Latin capital letters + sb.append(i); +} +sb.append(0x005F); // Underscore +for (char i = 0x0061; i <= 0x007A; i++) { // Latin small letters + sb.append(i); +} + +// Convert to character array and set as alphabet range +char[] characters = new char[sb.length()]; +sb.getChars(0, sb.length(), characters, 0); +index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); +``` + +**4️⃣ فهرسة المستندات** +أضف جميع الملفات من مجلد المصدر إلى الفهرس المُكوَّن حديثًا. + +```java +index.add(documentFolder); +``` + +### الميزة 2 – الأحرف المدمجة + +#### نظرة عامة +الأحرف المدمجة (مثل الشرطات) غالبًا ما تربط كلمتين. وضعها كـ *مدمجة* يخبر المحرك بالحفاظ على الرموز المجاورة معًا أثناء الفهرسة. + +#### تنفيذ خطوة بخطوة + +**1️⃣ إعداد المسارات** + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ إنشاء الفهرس وتكوينه** + +```java +Index index = new Index(indexFolder); +``` + +**3️⃣ تعريف الأحرف المدمجة** +هنا نخبر القاموس أن الشرطة يجب أن تُعامل كحرف مدمج. + +```java +index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); +``` + +**4️⃣ فهرسة المستندات** + +```java +index.add(documentFolder); +``` + +## تطبيقات عملية + +### الحالة 1 – إدارة المستندات القانونية +غالبًا ما تحتوي الملفات القانونية على أرقام قضايا مثل `2023-AB-456`. من خلال تكوين الشرطات والشرطة السفلية، تُعيد عمليات البحث النتائج المطابقة تمامًا دون تقسيم المعرف. + +### الحالة 2 – مستودعات الشيفرة المصدرية +يحتاج المطورون إلى البحث في مقتطفات الشيفرة حيث تكون الشرطة السفلية (`my_variable`) والشرطات (`my-function`) ذات معنى. يضمن التعرف المخصص على الأحرف أن يحترم محرك البحث هذه الرموز. + +### الحالة 3 – مجموعات البيانات متعددة اللغات +عند العمل مع لغات تستخدم أبجديات إضافية، يمكنك توسيع مجموعة الأحرف العادية لتشمل تلك النطاقات Unicode، مما يضمن نتائج بحث دقيقة عبر اللغات. + +## اعتبارات الأداء + +- **إدارة الموارد** – راقب استهلاك الذاكرة؛ الفهارس الكبيرة تستفيد من الالتزام التدريجي. +- **جمع القمامة** – حرّر كائنات `Index` عند الانتهاء للسماح لـ JVM باستعادة الذاكرة. +- **تحسين الفهرس** – استدعِ دوريًا `index.optimize()` (إن كان متاحًا) لضغط الفهرس وتحسين سرعة الاستعلام. + +## الخلاصة + +أنت الآن تعرف كيف **تنشئ فهرس بحث مخصص** يميز بين الأحرف العادية والمدمجة باستخدام GroupDocs.Search للغة Java. يمنحك هذا التحكم الدقيق القدرة على بناء حلول بحث عالية الأداء ومتكاملة مع OCR، مخصصة للبيئات القانونية، التطويرية، أو متعددة اللغات. + +**الخطوات التالية** +- جرّب إضافة نطاقات Unicode إضافية لأبجديات غير لاتينية. +- اجمع تكوين الأحرف مع ميزات أخرى في GroupDocs.Search مثل التجذير (stemming) أو المرادفات. +- دمج الفهرس في واجهة برمجة تطبيقات REST لتوفير قدرات البحث لتطبيقات الواجهة الأمامية. + +## الأسئلة المتكررة + +**س:** *ما هو الغرض من `CharacterType.Letter`؟* +**ج:** يحدد للفهرس أن يعامل الأحرف المقدمة كحروف عادية، بحيث تُجزأ بشكل منفصل أثناء الفهرسة. + +**س:** *هل يمكنني خلط الأحرف العادية والمدمجة في نفس الفهرس؟* +**ج:** نعم—ما عليك سوى استدعاء `setRange` لكل نوع؛ سيتعامل القاموس مع كلا التكوينين في آنٍ واحد. + +**س:** *هل يجب إعادة بناء الفهرس بعد تغيير الأبجدية؟* +**ج:** بالتأكيد. تؤثر تغييرات قاموس الأحرف على عملية التجزئة، لذا يجب إعادة فهرسة المستندات لتطبيق القواعد الجديدة. + +**س:** *هل هناك حد لعدد الأحرف المخصصة التي يمكن تعريفها؟* +**ج:** تدعم المكتبة النطاق الكامل لـ Unicode؛ قد يتدهور الأداء إذا أضفت مجموعة ضخمة جدًا، لذا يُنصح بتحديد الأحرف التي تحتاجها فعليًا. + +**س:** *كيف يؤثر ذلك على دقة OCR؟* +**ج:** من خلال مواءمة مجموعة أحرف الفهرس مع مخرجات محرك OCR، تقل الأخطاء السلبية وتتحسن صلة النتائج العامة. + +--- + +**آخر تحديث:** 2026-01-11 +**تم الاختبار مع:** GroupDocs.Search 25.4 للغة Java +**المؤلف:** GroupDocs + +--- \ No newline at end of file diff --git a/content/arabic/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/arabic/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md new file mode 100644 index 00000000..6ef2dcf5 --- /dev/null +++ b/content/arabic/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -0,0 +1,184 @@ +--- +date: '2026-01-11' +description: تعلم كيفية استخدام فهرسة OCR في GroupDocs for Java مع Aspose.OCR، مما + يتيح قدرات بحث قوية عبر ملفات PDF والصور والملفات الممسوحة ضوئياً. +keywords: +- Java OCR indexing +- document searchability +- OCR with GroupDocs +title: كيفية استخدام GroupDocs للـ Java في فهرسة OCR مع Aspose +type: docs +url: /ar/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/ +weight: 1 +--- + +# كيفية استخدام GroupDocs لفهرسة OCR في Java مع Aspose + +في هذا الدليل ستكتشف **كيفية استخدام GroupDocs** لإضافة بحث مدعوم بـ OCR إلى تطبيقات Java الخاصة بك. من خلال الجمع بين GroupDocs.Search و Aspose.OCR، يمكنك تحويل المحتوى القائم على الصور إلى نص قابل للبحث، مما يجعل أنظمة إدارة المستندات أكثر فائدة. سنستعرض الإعداد، الفهرسة، البحث، وتكامل OCR المخصص، جميعها بأمثلة واضحة خطوة بخطوة. + +## إجابات سريعة +- **ما المكتبة التي توفر فهرسة OCR؟** GroupDocs.Search مقترنة بـ Aspose.OCR. +- **ما نسخة Java المطلوبة؟** JDK 8 أو أعلى. +- **هل أحتاج إلى ترخيص؟** يتوفر نسخة تجريبية مجانية؛ يلزم ترخيص مدفوع للإنتاج. +- **هل يمكنني فهرسة كل من الصور المنفصلة والمضمنة؟** نعم، فعّل كلا الخيارين في `IndexingOptions`. +- **هل يدعم متعدد الخيوط؟** نعم، يمكنك تنفيذ الفهرسة بالتوازي لمجموعات البيانات الكبيرة. + +## ما هي فهرسة OCR مع GroupDocs؟ +تستخرج فهرسة OCR النص من الصور (بما في ذلك ملفات PDF الممسوحة ضوئياً) وتخزنه في فهرس قابل للبحث. يتولى GroupDocs.Search عملية الفهرسة وتنفيذ الاستعلامات، بينما يقوم Aspose.OCR بالتعرف الفعلي على الأحرف. + +## لماذا تستخدم GroupDocs لفهرسة OCR في Java؟ +- **دقة عالية** بفضل محرك OCR المتقدم من Aspose. +- **تكامل Java سلس** عبر Maven أو ملفات JAR مباشرة. +- **تكوين مرن** للصور المنفصلة أو المضمنة. +- **أداء قابل للتوسع** مع متعدد الخيوط وتحسينات الذاكرة. + +## المتطلبات المسبقة +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR** (الإصدار الأحدث) +- JDK 8+ وبيئة تطوير متكاملة (IntelliJ, Eclipse, NetBeans) +- معرفة أساسية بـ Java؛ Maven مفيد لكنه غير إلزامي + +## إعداد GroupDocs.Search لـ Java +### استخدام Maven +أضف المستودع والاعتماد إلى ملف `pom.xml` الخاص بك: + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +### التحميل المباشر +بدلاً من ذلك، قم بتحميل أحدث نسخة من GroupDocs.Search لـ Java من [إصدارات GroupDocs](https://releases.groupdocs.com/search/java/). + +### الحصول على الترخيص +- **نسخة تجريبية مجانية** – استكشف جميع الميزات دون تكلفة. +- **ترخيص مؤقت** – فترة اختبار ممتدة. +- **شراء** – مطلوب لتطبيقات الإنتاج. + +### التهيئة الأساسية والإعداد +أنشئ مجلد الفهرس وقم بتهيئة كائن `Index`: + +```java +import com.groupdocs.search.Index; +// Specify the directory where the index will be stored. +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +// Create an instance of Index class at the specified location. +Index index = new Index(indexFolder); +``` + +## كيفية استخدام GroupDocs لفهرسة OCR +### إنشاء فهرس +أولاً، قم بإعداد المجلد الذي سيحتوي على ملفات الفهرس: + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +Index index = new Index(indexFolder); +``` + +### إعداد خيارات فهرسة OCR +فعّل OCR لكل من الصور المنفصلة والمضمنة، ودمج موصل OCR مخصص: + +```java +import com.groupdocs.search.options.IndexingOptions; +IndexingOptions options = new IndexingOptions(); +options.getOcrIndexingOptions().setEnabledForSeparateImages(true); +options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); +// Set a custom OCR connector. +options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); +``` + +### فهرسة المستندات +أضف مستندات المصدر (PDFs، ملفات Word، صور، إلخ) إلى الفهرس: + +```java +String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; +index.add(documentsFolder, options); +``` + +### البحث في الفهرس +نفّذ استعلام بحث على المحتوى المفهرس: + +```java +import com.groupdocs.search.results.SearchResult; +String query = "water"; +SearchResult result = index.search(query); +``` + +### تنفيذ موصل OCR +استخدم Aspose.OCR للتعرف على النص من الصور. نفّذ واجهة `IOcrConnector` كما هو موضح: + +```java +import com.groupdocs.search.options.IOcrConnector; +import com.groupdocs.search.options.OcrContext; +import java.awt.image.BufferedImage; +import javax.imageio.ImageIO; +import com.aspose.ocr.AsposeOCR; + +public class OcrConnector implements IOcrConnector { + @Override + public final String recognize(OcrContext context) { + if (null == context.getImageLocation()) { + throw new RuntimeException("The image type is not supported: " + context.getImageLocation()); + } + + BufferedImage image = ImageIO.read(context.getImageLocation().toFile()); + AsposeOCR api = new AsposeOCR(); + String text = api.RecognizePage(image); + return text; + } +} +``` + +## التطبيقات العملية +1. **أنظمة إدارة المستندات** – استرجاع سريع للمستندات التي تحتوي على صور ممسوحة. +2. **استرجاع الأرشيف** – العثور على السجلات التاريخية داخل أرشيفات ضخمة. +3. **تحليل المستندات القانونية** – البحث في العقود والأدلة التي تشمل توقيعات أو مخططات ممسوحة. +4. **بحث في السجلات الطبية** – فهرسة نماذج المرضى، نتائج المختبر، وتعليقات الأشعة السينية. + +## اعتبارات الأداء +- **حجم الفهرس** – استبعد البيانات الوصفية غير الضرورية للحفاظ على خفة الفهرس. +- **متعدد الخيوط** – عالج دفعات كبيرة بالتوازي لتسريع الفهرسة. +- **إدارة الذاكرة** – راقب مساحة heap في JVM عند معالجة الصور عالية الدقة. + +## المشكلات الشائعة والحلول +- **أخطاء الترخيص** – تأكد من وضع ملف الترخيص الصحيح في دليل عمل التطبيق. +- **الصور المفقودة** – تحقق من إمكانية الوصول إلى مسارات الصور وتوافق الصيغ المدعومة (PNG، JPEG، BMP). +- **نفاد الذاكرة** – زد حجم heap في JVM (`-Xmx`) أو عالج المستندات على دفعات أصغر. + +## الأسئلة المتكررة +**س: كيف أحل مشكلات الترخيص مع GroupDocs.Search؟** +ج: احصل على ترخيص مؤقت من [موقع GroupDocs](https://purchase.groupdocs.com/temporary-license/) لفتح جميع الميزات. + +**س: ما هي أفضل طريقة للتعامل مع فهرسة المستندات الكبيرة؟** +ج: استخدم متعدد الخيوط ومعالجة الدُفعات لتحسين الأداء وتقليل الضغط على الذاكرة. + +**س: هل يمكنني تخصيص إعدادات OCR أكثر في GroupDocs.Search؟** +ج: نعم، تتيح لك `IndexingOptions` ضبط سلوك OCR بدقة، مثل اختيار اللغة ومعالجة الصور مسبقاً. + +**س: ما هي بعض نصائح استكشاف الأخطاء الشائعة عند استخدام GroupDocs.Search؟** +ج: تحقق مرة أخرى من مسارات الدليل، وتأكد من وجود جميع الاعتمادات، وراجع مخرجات السجل للملفات المفقودة. + +**س: كيف يمكنني دمج Aspose.OCR مع تطبيق Java الحالي؟** +ج: نفّذ واجهة `IOcrConnector` كما هو موضح أعلاه، مع التأكد من معالجة مدخلات الصورة بشكل صحيح. + +## الموارد +- [توثيق GroupDocs.Search](https://docs.groupdocs.com/search/java/) +- [مرجع API](https://reference.groupdocs.com/search/java/) + +--- + +**آخر تحديث:** 2026-01-11 +**تم الاختبار مع:** GroupDocs.Search 25.4، Aspose.OCR أحدث إصدار +**المؤلف:** GroupDocs \ No newline at end of file diff --git a/content/chinese/java/ocr-image-search/_index.md b/content/chinese/java/ocr-image-search/_index.md new file mode 100644 index 00000000..a491567f --- /dev/null +++ b/content/chinese/java/ocr-image-search/_index.md @@ -0,0 +1,97 @@ +--- +date: 2026-01-11 +description: 使用 GroupDocs.Search 的 OCR、Java 图像文字提取和 Java 反向图像搜索的分步教程。 +title: Java 反向图像搜索 – GroupDocs.Search OCR 教程 +type: docs +url: /zh/java/ocr-image-search/ +weight: 7 +--- + +# 反向图像搜索 Java – GroupDocs.Search OCR 教程 + +在本指南中,我们将带您了解使用 GroupDocs.Search 构建 **reverse image search java** 解决方案所需的全部内容。无论您是为内容丰富的门户添加视觉搜索,还是需要从扫描资产中提取可搜索的文本,我们都会展示如何配置 OCR、从图像中提取文本(Java),以及执行反向图像查找——全部提供清晰、可投入生产的示例。 + +## 快速答案 +- **reverse image search Java 是做什么的?** 它使用 GroupDocs.Search 在已索引的集合中查找视觉上相似的图像。 +- **推荐使用哪种 OCR 引擎?** GroupDocs.Search 与 Aspose.OCR 集成,以实现高精度的文本提取。 +- **我需要许可证吗?** 临时许可证可用于测试;生产环境需要正式许可证。 +- **主要前提条件是什么?** Java 8+、GroupDocs.Search for Java,以及可选的 Aspose.OCR。 +- **实现需要多长时间?** 基本设置可在一小时以内完成。 + +## 什么是 Reverse Image Search Java? +Reverse image search Java 让您能够定位外观相似或包含相同视觉内容的图像。引擎不是通过关键字搜索,而是分析图像特征,对其进行索引,并在提交查询图像时返回匹配结果。 + +## 为什么在图像和 OCR 任务中使用 GroupDocs.Search? +- **Unified API** – 统一的 API – 通过单一库管理文本和图像索引。 +- **High performance** – 高性能 – 为大规模集合和快速查找时间进行优化。 +- **Extensible** – 可扩展 – 如有需要,可插入自定义 OCR 引擎或图像特征提取器。 +- **Cross‑platform** – 跨平台 – 可在任何兼容 Java 的环境中运行,从桌面到云端。 + +## 前提条件 +- 安装 Java 8 或更高版本。 +- 将 GroupDocs.Search for Java 库添加到项目中(Maven/Gradle)。 +- (可选)Aspose.OCR for Java,如果您需要最佳的 OCR 精度。 +- 您想要索引和搜索的一组图像。 + +## 分步指南 + +### 步骤 1:设置搜索索引 +创建一个指向用于存放索引文件的文件夹的新的 `SearchIndex` 实例。该文件夹将保存文本和图像元数据。 + +### 步骤 2:为图像文件配置 OCR +在索引选项中启用 OCR,以便添加到索引的任何图像都进行文本提取处理。这就是次要关键字 **extract text from images java** 发挥作用的地方。 + +### 步骤 3:索引您的图像 +将每个图像文件添加到索引中。在此过程中,GroupDocs.Search 提取用于反向搜索的视觉特征,并运行 OCR 提取任何嵌入的文本。 + +### 步骤 4:执行反向图像搜索 +向 `search` 方法提供查询图像。引擎比较视觉指纹,并返回索引中相似图像的排名列表。 + +### 步骤 5:检索 OCR 文本(如有需要) +如果您还需要图像内部的文本内容,可使用标准关键字搜索查询索引中的 OCR 提取文本。 + +## 常见问题及解决方案 +- **No results returned:** 验证图像特征提取器已启用,并且在添加新图像后已重新构建索引。 +- **OCR text is missing:** 确保在项目依赖中正确引用了 OCR 引擎,并且图像格式受支持(例如 PNG、JPEG、TIFF)。 +- **Performance slowdown:** 考虑将大型图像集合拆分为多个索引,或使用增量索引以保持搜索时间低。 + +## 常见问题 + +**Q: 我可以在云平台上使用 reverse image search Java 吗?** +A: 是的,该库与平台无关,可在任何支持 Java 的环境中运行,包括 AWS、Azure 和 Google Cloud。 + +**Q: 不同语言的 OCR 提取准确度如何?** +A: Aspose.OCR 支持超过 60 种语言;您可以在 OCR 选项中指定语言以获得更高的准确度。 + +**Q: 是否可以将关键字搜索与图像相似度结合?** +A: 当然可以。您可以先使用关键字查询过滤结果,然后按视觉相似度对剩余项目进行排名。 + +**Q: 支持哪些文件格式进行图像索引?** +A: 常见格式如 JPEG、PNG、BMP 和 TIFF 均开箱即支持。 + +**Q: 当图像更改时,如何更新索引?** +A: 使用 `update` 方法重新处理已修改的图像,或删除后重新添加以保持索引最新。 + +## 其他资源 + +### 可用教程 + +#### [在 GroupDocs.Search for Java 中配置字符识别: OCR 与图像搜索指南](./groupdocs-search-java-character-recognition/) +了解如何使用 GroupDocs.Search for Java 配置字符识别,重点关注常规字符和混合字符。通过高级搜索功能提升文档管理。 + +#### [使用 Aspose 和 GroupDocs 的 Java OCR 索引指南: 提升文档可搜索性](./java-ocr-indexing-aspose-groupdocs-search/) +学习如何使用 GroupDocs.Search 和 Aspose.OCR 实现强大的 Java OCR 索引,以提升文档搜索能力。 + +### 有用链接 +- [GroupDocs.Search for Java 文档](https://docs.groupdocs.com/search/java/) +- [GroupDocs.Search for Java API 参考](https://reference.groupdocs.com/search/java/) +- [下载 GroupDocs.Search for Java](https://releases.groupdocs.com/search/java/) +- [GroupDocs.Search 论坛](https://forum.groupdocs.com/c/search) +- [免费支持](https://forum.groupdocs.com/) +- [临时许可证](https://purchase.groupdocs.com/temporary-license/) + +--- + +**最后更新:** 2026-01-11 +**测试环境:** GroupDocs.Search for Java 23.11 +**作者:** GroupDocs \ No newline at end of file diff --git a/content/chinese/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/chinese/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md new file mode 100644 index 00000000..59fb8bde --- /dev/null +++ b/content/chinese/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -0,0 +1,232 @@ +--- +date: '2026-01-11' +description: 学习如何使用 GroupDocs.Search for Java 创建自定义搜索索引,配置常规和混合字符,以实现高级 OCR 和图像搜索。 +keywords: +- GroupDocs.Search Java +- Java OCR character recognition +- search library Java +title: 使用字符识别创建自定义搜索索引 – GroupDocs.Search Java +type: docs +url: /zh/java/ocr-image-search/groupdocs-search-java-character-recognition/ +weight: 1 +--- + +# 使用 GroupDocs.Search for Java 创建带字符识别的自定义搜索索引 + +在现代文档密集型应用中,**创建自定义搜索索引** 能够理解文本细微差别——例如连字符、下划线或特定语言符号——对于实现快速、精准的检索至关重要。本教程将手把手演示如何在 **GroupDocs.Search for Java** 中配置字符识别,涵盖普通字符(字母、数字、下划线)和混合字符(如连字符)。完成后,您将能够定制符合 OCR 或图像搜索场景的索引。 + +## 快速答疑 +- **“创建自定义搜索索引”是什么意思?** 这意味着配置索引,使特定符号被视为字母或混合字符,而不是被忽略。 +- **使用哪个库?** GroupDocs.Search for Java(撰写时为 v25.4)。 +- **需要许可证吗?** 开发阶段可使用免费试用版;生产环境需要付费许可证。 +- **可以同时索引 PDF 和图像吗?** 可以——GroupDocs.Search 在正确配置后支持对图像和 PDF 进行 OCR。 +- **必须使用 Maven 吗?** 推荐使用 Maven 管理依赖,也可以使用 Gradle 或手动 JAR 包。 + +## 什么是自定义搜索索引? +自定义搜索索引允许您定义搜索引擎对字符的解释方式。默认情况下,许多符号会被忽略,这可能导致诸如案件编号 (`ABC-123`) 或代码片段 (`my_variable`) 等内容匹配失败。通过调整字母表字典,您可以完全控制引擎将哪些字符视为可搜索文本。 + +## 为什么要配置普通字符和混合字符? +- **普通字符**(字母、数字、下划线)作为独立的 token 处理,提升精确匹配搜索效果。 +- **混合字符**(连字符、斜杠)用于连接词语;将其配置为混合字符可防止不必要的 token 拆分,这对法律引用、产品编码或源码索引尤为关键。 + +## 前置条件 +- 已安装 **JDK 8** 或更高版本。 +- 已安装 **Maven** 用于依赖管理。 +- 已获取 **GroupDocs.Search for Java** 库(通过 Maven 或官网下载)。 + +### 必需的库和依赖 +在 `pom.xml` 中添加仓库和依赖条目(如下所示)。XML 块必须保持原样。 + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +您也可以从 [GroupDocs.Search for Java releases](https://releases.groupdocs.com/search/java/) 下载最新的 JAR 包。 + +### 许可证获取 +- **免费试用** – 适合早期实验。 +- **临时许可证** – 适用于较长的开发周期。 +- **正式许可证** – 商业部署必需。 + +从官方门户获取许可证: [GroupDocs](https://purchase.groupdocs.com/temporary-license/)。 + +### 基本初始化 +下面的代码片段展示了创建空索引的最小代码。保持原样;后续会在此基础上继续构建。 + +```java +import com.groupdocs.search.*; + +public class GroupDocsSearchSetup { + public static void main(String[] args) { + String indexFolder = "YOUR_OUTPUT_DIRECTORY"; + String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; + + Index index = new Index(indexFolder); + + System.out.println("GroupDocs.Search setup completed!"); + } +} +``` + +## 设置 GroupDocs.Search for Java + +### 通过 Maven 安装 +在 *前置条件* 部分提供的 Maven 配置即为全部所需。添加后,运行 `mvn clean install` 下载二进制文件。 + +### 环境搭建要求 +- 确保 **索引文件夹** 和 **文档文件夹** 已在磁盘上创建。 +- 使用绝对路径或在 IDE 中正确配置相对路径解析。 + +## 实现指南 + +下面我们分别演示两大功能:**普通字符** 和 **混合字符**。每个功能遵循相同的步骤——定义路径、创建索引、设置字符字典,最后索引文档。 + +### 功能 1 – 普通字符 + +#### 概述 +普通字符被视为独立的 token。当您希望数字、字母和下划线能够精确匹配时,这种方式非常理想。 + +#### 步骤实现 + +**1️⃣ 设置路径** +定义索引存放位置以及源文档所在目录。 + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ 创建并配置索引** +实例化索引并清除任何已有的字母表配置。 + +```java +Index index = new Index(indexFolder); +index.getDictionaries().getAlphabet().clear(); +``` + +**3️⃣ 定义普通字符** +构建包含数字、拉丁字母和下划线的字符数组。 + +```java +StringBuilder sb = new StringBuilder(); +for (char i = 0x0030; i <= 0x0039; i++) { // Digits + sb.append(i); +} +for (char i = 0x0041; i <= 0x005A; i++) { // Latin capital letters + sb.append(i); +} +sb.append(0x005F); // Underscore +for (char i = 0x0061; i <= 0x007A; i++) { // Latin small letters + sb.append(i); +} + +// Convert to character array and set as alphabet range +char[] characters = new char[sb.length()]; +sb.getChars(0, sb.length(), characters, 0); +index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); +``` + +**4️⃣ 索引文档** +将源文件夹中的所有文件添加到新配置的索引中。 + +```java +index.add(documentFolder); +``` + +### 功能 2 – 混合字符 + +#### 概述 +混合字符(如连字符)通常用于连接两个词。将其标记为 *混合* 可让引擎在索引时保持相邻 token 的整体性。 + +#### 步骤实现 + +**1️⃣ 设置路径** + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ 创建并配置索引** + +```java +Index index = new Index(indexFolder); +``` + +**3️⃣ 定义混合字符** +这里我们告诉字典将连字符视为混合字符。 + +```java +index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); +``` + +**4️⃣ 索引文档** + +```java +index.add(documentFolder); +``` + +## 实际应用 + +### 用例 1 – 法律文档管理 +法律文件常包含类似 `2023-AB-456` 的案件编号。通过配置下划线和连字符,搜索能够返回完整匹配而不会拆分标识符。 + +### 用例 2 – 源代码仓库 +开发者需要搜索代码片段,其中下划线 (`my_variable`) 和连字符 (`my-function`) 具有重要意义。自定义字符识别确保搜索引擎尊重这些符号。 + +### 用例 3 – 多语言数据集 +处理使用额外字母表的语言时,可将普通字符集扩展至相应的 Unicode 范围,从而保证跨语言搜索的准确性。 + +## 性能考虑 + +- **资源管理** – 关注堆内存使用;大型索引建议使用增量提交。 +- **垃圾回收** – 完成后释放 `Index` 对象,以便 JVM 回收内存。 +- **索引优化** – 定期调用 `index.optimize()`(若可用)以压缩索引并提升查询速度。 + +## 结论 + +现在,您已经掌握了使用 GroupDocs.Search for Java **创建自定义搜索索引** 并区分普通字符与混合字符的完整流程。这种细粒度的控制使您能够构建面向 OCR、法律、开发或多语言环境的高性能搜索解决方案。 + +**后续步骤** +- 为非拉丁字母表尝试添加额外的 Unicode 范围。 +- 将字符配置与 GroupDocs.Search 的其他功能(如词干提取或同义词)结合使用。 +- 将索引集成到 REST API 中,为前端应用提供搜索能力。 + +## 常见问题 + +**Q:** *`CharacterType.Letter` 的作用是什么?* +**A:** 它告诉索引将提供的字符视为普通字母,在索引时会单独进行 token 化。 + +**Q:** *可以在同一个索引中混合使用普通字符和混合字符吗?* +**A:** 可以——只需分别调用 `setRange` 配置每种类型,字典会同时处理这两种配置。 + +**Q:** *更改字母表后需要重新构建索引吗?* +**A:** 必须。字符字典的更改会影响 token 化方式,必须重新索引文档才能生效。 + +**Q:** *自定义字符的数量有限制吗?* +**A:** 库支持完整的 Unicode 范围;如果添加极大量字符可能会影响性能,建议仅定义实际需要的字符。 + +**Q:** *这会如何影响 OCR 准确性?* +**A:** 通过使索引的字符集与 OCR 引擎的输出保持一致,可减少漏检,提高整体搜索相关性。 + +--- + +**最后更新:** 2026-01-11 +**测试环境:** GroupDocs.Search 25.4 for Java +**作者:** GroupDocs + +--- \ No newline at end of file diff --git a/content/chinese/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/chinese/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md new file mode 100644 index 00000000..66e07cab --- /dev/null +++ b/content/chinese/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -0,0 +1,183 @@ +--- +date: '2026-01-11' +description: 了解如何使用 GroupDocs for Java OCR 索引与 Aspose.OCR,实现对 PDF、图像和扫描文件的强大文档搜索功能。 +keywords: +- Java OCR indexing +- document searchability +- OCR with GroupDocs +title: 如何使用 GroupDocs for Java 与 Aspose 进行 OCR 索引 +type: docs +url: /zh/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/ +weight: 1 +--- + +# 如何在 Java 中使用 GroupDocs 与 Aspose 进行 OCR 索引 + +在本指南中,您将了解 **如何使用 GroupDocs** 为您的 Java 应用程序添加 OCR 驱动的搜索。通过将 GroupDocs.Search 与 Aspose.OCR 结合,您可以将基于图像的内容转换为可搜索的文本,使文档管理系统更加实用。我们将逐步演示设置、索引、搜索以及自定义 OCR 集成,提供清晰的示例。 + +## 快速答案 +- **提供 OCR 索引的库是什么?** GroupDocs.Search paired with Aspose.OCR. +- **需要哪个 Java 版本?** JDK 8 or higher. +- **我需要许可证吗?** 提供免费试用;生产环境需要付费许可证。 +- **我可以同时索引独立图像和嵌入图像吗?** 是的,在 `IndexingOptions` 中启用两项选项。 +- **是否支持多线程?** 是的,您可以对大型数据集进行并行索引。 + +## 什么是使用 GroupDocs 的 OCR 索引? +OCR 索引从图像(包括扫描的 PDF)中提取文本并将其存储在可搜索的索引中。GroupDocs.Search 负责索引和查询执行,而 Aspose.OCR 执行实际的字符识别。 + +## 为什么在 Java 中使用 GroupDocs 进行 OCR 索引? +- **高精度**,归功于 Aspose 的先进 OCR 引擎。 +- **无缝的 Java 集成**,通过 Maven 或直接 JAR。 +- **灵活的配置**,适用于独立或嵌入的图像。 +- **可扩展的性能**,支持多线程和内存优化。 + +## 前置条件 +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR**(最新版本) +- JDK 8+ 和 IDE(IntelliJ、Eclipse、NetBeans) +- 基本的 Java 知识;Maven 有帮助但不是必需的 + +## 为 Java 设置 GroupDocs.Search +### 使用 Maven +在您的 `pom.xml` 中添加仓库和依赖: + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +### 直接下载 +或者,从 [GroupDocs 发布](https://releases.groupdocs.com/search/java/) 下载最新版本的 GroupDocs.Search for Java。 + +### 获取许可证 +- **免费试用** – 免费探索所有功能。 +- **临时许可证** – 延长的测试期。 +- **购买** – 生产部署所需。 + +### 基本初始化和设置 +创建索引文件夹并初始化 `Index` 对象: + +```java +import com.groupdocs.search.Index; +// Specify the directory where the index will be stored. +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +// Create an instance of Index class at the specified location. +Index index = new Index(indexFolder); +``` + +## 如何使用 GroupDocs 进行 OCR 索引 +### 创建索引 +首先,设置用于保存索引文件的文件夹: + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +Index index = new Index(indexFolder); +``` + +### 设置 OCR 索引选项 +为独立和嵌入的图像启用 OCR,并接入自定义 OCR 连接器: + +```java +import com.groupdocs.search.options.IndexingOptions; +IndexingOptions options = new IndexingOptions(); +options.getOcrIndexingOptions().setEnabledForSeparateImages(true); +options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); +// Set a custom OCR connector. +options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); +``` + +### 索引文档 +将源文档(PDF、Word 文件、图像等)添加到索引中: + +```java +String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; +index.add(documentsFolder, options); +``` + +### 在索引中搜索 +对索引内容执行搜索查询: + +```java +import com.groupdocs.search.results.SearchResult; +String query = "water"; +SearchResult result = index.search(query); +``` + +### 实现 OCR 连接器 +使用 Aspose.OCR 识别图像中的文本。按照如下示例实现 `IOcrConnector` 接口: + +```java +import com.groupdocs.search.options.IOcrConnector; +import com.groupdocs.search.options.OcrContext; +import java.awt.image.BufferedImage; +import javax.imageio.ImageIO; +import com.aspose.ocr.AsposeOCR; + +public class OcrConnector implements IOcrConnector { + @Override + public final String recognize(OcrContext context) { + if (null == context.getImageLocation()) { + throw new RuntimeException("The image type is not supported: " + context.getImageLocation()); + } + + BufferedImage image = ImageIO.read(context.getImageLocation().toFile()); + AsposeOCR api = new AsposeOCR(); + String text = api.RecognizePage(image); + return text; + } +} +``` + +## 实际应用 +1. **文档管理系统** – 快速检索包含扫描图像的文档。 +2. **档案检索** – 在海量档案中定位历史记录。 +3. **法律文档分析** – 搜索包含扫描签名或图表的合同和证据。 +4. **医疗记录搜索** – 索引患者表格、实验室结果和 X 光注释。 + +## 性能考虑因素 +- **索引大小** – 排除不必要的元数据,以保持索引精简。 +- **多线程** – 并行处理大批量以加快索引速度。 +- **内存管理** – 处理高分辨率图像时监控 JVM 堆。 + +## 常见问题及解决方案 +- **许可证错误** – 确保正确的许可证文件放置在应用程序的工作目录中。 +- **缺失图像** – 验证图像路径可访问且为支持的格式(PNG、JPEG、BMP)。 +- **内存不足** – 增加 JVM 堆(`-Xmx`)或将文档分成更小的批次处理。 + +## 常见问答 +**问:如何解决 GroupDocs.Search 的许可证问题?** +**答:** 从 [GroupDocs 网站](https://purchase.groupdocs.com/temporary-license/) 获取临时许可证,以解锁全部功能。 + +**问:处理大规模文档索引的最佳方法是什么?** +**答:** 利用多线程和批处理来提升性能并降低内存压力。 + +**问:我可以在 GroupDocs.Search 中进一步自定义 OCR 设置吗?** +**答:** 可以,`IndexingOptions` 允许您微调 OCR 行为,例如语言选择和图像预处理。 + +**问:使用 GroupDocs.Search 时有哪些常见的故障排除技巧?** +**答:** 仔细检查目录路径,确认所有依赖项已存在,并查看日志输出以发现缺失的文件。 + +**问:如何将 Aspose.OCR 集成到现有的 Java 应用程序中?** +**答:** 按照上面的示例实现 `IOcrConnector` 接口,确保正确处理图像输入。 + +## 资源 +- [GroupDocs.Search 文档](https://docs.groupdocs.com/search/java/) +- [API 参考](https://reference.groupdocs.com/search/java/) + +--- + +**最后更新:** 2026-01-11 +**测试环境:** GroupDocs.Search 25.4,Aspose.OCR 最新版本 +**作者:** GroupDocs \ No newline at end of file diff --git a/content/czech/java/ocr-image-search/_index.md b/content/czech/java/ocr-image-search/_index.md new file mode 100644 index 00000000..f348735d --- /dev/null +++ b/content/czech/java/ocr-image-search/_index.md @@ -0,0 +1,97 @@ +--- +date: 2026-01-11 +description: Krok za krokem tutoriály pro implementaci OCR, extrakci textu z obrázků + v Javě a reverzní vyhledávání obrázků v Javě pomocí GroupDocs.Search. +title: Obrácené vyhledávání obrázků v Javě – Návody OCR pro GroupDocs.Search +type: docs +url: /cs/java/ocr-image-search/ +weight: 7 +--- + +# Reverse Image Search Java – GroupDocs.Search OCR tutoriály + +## Rychlé odpovědi +- **Co dělá reverse image search Java?** Najde vizuálně podobné obrázky v indexované kolekci pomocí GroupDocs.Search. +- **Který OCR engine je doporučen?** GroupDocs.Search integruje s Aspose.OCR pro vysoce přesné extrahování textu. +- **Potřebuji licenci?** Dočasná licence funguje pro testování; plná licence je vyžadována pro produkci. +- **Jaké jsou hlavní předpoklady?** Java 8+, GroupDocs.Search pro Java a volitelně Aspose.OCR. +- **Jak dlouho trvá implementace?** Základní nastavení lze dokončit za méně než hodinu. + +## Co je Reverse Image Search Java? +Reverse image search Java vám umožní najít obrázky, které vypadají podobně nebo obsahují stejný vizuální obsah. Místo vyhledávání podle klíčových slov engine analyzuje obrazové rysy, indexuje je a vrací shody, když je předložen dotazovací obrázek. + +## Proč použít GroupDocs.Search pro úlohy s obrázky a OCR? +- **Unified API** – Spravujte indexování textu a obrázků pomocí jediné knihovny. +- **High performance** – Optimalizováno pro velké kolekce a rychlé vyhledávání. +- **Extensible** – Připojte vlastní OCR enginy nebo extraktory obrazových vlastností podle potřeby. +- **Cross‑platform** – Funguje v jakémkoli Java‑kompatibilním prostředí, od desktopu po cloud. + +## Předpoklady +- Java 8 nebo novější nainstalována. +- Knihovna GroupDocs.Search pro Java přidána do vašeho projektu (Maven/Gradle). +- (Volitelné) Aspose.OCR pro Java, pokud chcete nejlepší přesnost OCR. +- Sada obrázků, které chcete indexovat a prohledávat. + +## Průvodce krok za krokem + +### Krok 1: Nastavení vyhledávacího indexu +Vytvořte novou instanci `SearchIndex`, která ukazuje na složku, kde budou uloženy soubory indexu. Tato složka bude obsahovat jak textová, tak obrazová metadata. + +### Krok 2: Konfigurace OCR pro soubory obrázků +Povolte OCR v možnostech indexování, aby byl každý obrázek přidaný do indexu zpracován pro extrakci textu. Zde vstupuje do hry sekundární klíčové slovo **extract text from images java**. + +### Krok 3: Indexování vašich obrázků +Přidejte každý soubor obrázku do indexu. Během této operace GroupDocs.Search extrahuje vizuální vlastnosti pro reverzní vyhledávání a spustí OCR k získání jakéhokoli vloženého textu. + +### Krok 4: Provedení reverzního vyhledávání obrázku +Poskytněte dotazovací obrázek metodě `search`. Engine porovná vizuální otisky a vrátí seřazený seznam podobných obrázků z indexu. + +### Krok 5: Získání OCR textu (pokud je potřeba) +Pokud také potřebujete textový obsah nalezený v obrázcích, dotazujte index na OCR‑extrahovaný text pomocí standardního vyhledávání podle klíčových slov. + +## Časté problémy a řešení +- **Žádné výsledky:** Ověřte, že je povolen extraktor obrazových vlastností a že byl index po přidání nových obrázků přestavěn. +- **Chybí OCR text:** Ujistěte se, že OCR engine je správně uveden v závislostech projektu a že formát obrázku je podporován (např. PNG, JPEG, TIFF). +- **Zpomalení výkonu:** Zvažte rozdělení velkých kolekcí obrázků do více indexů nebo použití inkrementálního indexování, aby byly časy vyhledávání nízké. + +## Často kladené otázky + +**Q: Mohu použít reverse image search Java na cloudových platformách?** +A: Ano, knihovna je platformově nezávislá a funguje v jakémkoli prostředí podporujícím Java, včetně AWS, Azure a Google Cloud. + +**Q: Jak přesná je OCR extrakce pro různé jazyky?** +A: Aspose.OCR podporuje více než 60 jazyků; můžete v nastavení OCR specifikovat jazyk pro vyšší přesnost. + +**Q: Je možné kombinovat vyhledávání podle klíčových slov s podobností obrázků?** +A: Rozhodně. Nejprve můžete filtrovat výsledky dotazem podle klíčových slov a poté seřadit zbývající položky podle vizuální podobnosti. + +**Q: Jaké formáty souborů jsou podporovány pro indexování obrázků?** +A: Běžné formáty jako JPEG, PNG, BMP a TIFF jsou plně podporovány. + +**Q: Jak aktualizovat index, když se obrázky změní?** +A: Použijte metodu `update` k pře‑zpracování upravených obrázků, nebo je smažte a znovu přidejte, aby byl index aktuální. + +## Další zdroje + +### Dostupné tutoriály + +#### [Konfigurace rozpoznávání znaků v GroupDocs.Search pro Java: Průvodce OCR a vyhledáváním obrázků](./groupdocs-search-java-character-recognition/) +Naučte se, jak pomocí GroupDocs.Search pro Java nakonfigurovat rozpoznávání znaků, se zaměřením na běžné a kombinované znaky. Vylepšete správu dokumentů pomocí pokročilých vyhledávacích možností. + +#### [Java OCR průvodce indexováním s Aspose a GroupDocs: Zlepšení vyhledatelnosti dokumentů](./java-ocr-indexing-aspose-groupdocs-search/) +Naučte se implementovat výkonné Java OCR indexování pomocí GroupDocs.Search a Aspose.OCR pro zvýšenou vyhledatelnost dokumentů. + +### Užitečné odkazy + +- [Dokumentace GroupDocs.Search pro Java](https://docs.groupdocs.com/search/java/) +- [Reference API GroupDocs.Search pro Java](https://reference.groupdocs.com/search/java/) +- [Stáhnout GroupDocs.Search pro Java](https://releases.groupdocs.com/search/java/) +- [Fórum GroupDocs.Search](https://forum.groupdocs.com/c/search) +- [Bezplatná podpora](https://forum.groupdocs.com/) +- [Dočasná licence](https://purchase.groupdocs.com/temporary-license/) + +--- + +**Last Updated:** 2026-01-11 +**Tested With:** GroupDocs.Search for Java 23.11 +**Author:** GroupDocs \ No newline at end of file diff --git a/content/czech/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/czech/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md new file mode 100644 index 00000000..12a08e48 --- /dev/null +++ b/content/czech/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -0,0 +1,235 @@ +--- +date: '2026-01-11' +description: Naučte se, jak vytvořit vlastní vyhledávací index pomocí GroupDocs.Search + pro Javu, konfigurací běžných a kombinovaných znaků pro pokročilé OCR a vyhledávání + obrázků. +keywords: +- GroupDocs.Search Java +- Java OCR character recognition +- search library Java +title: Vytvořte vlastní vyhledávací index s rozpoznáváním znaků – GroupDocs.Search + Java +type: docs +url: /cs/java/ocr-image-search/groupdocs-search-java-character-recognition/ +weight: 1 +--- + +# Vytvoření vlastního vyhledávacího indexu s rozpoznáváním znaků pomocí GroupDocs.Search pro Java + +V moderních aplikacích pracujících s velkým množstvím dokumentů je **vytvoření vlastního vyhledávacího indexu**, který rozumí nuancím vašeho textu – například spojovníkům, podtržítkům nebo jazykově specifickým symbolům – nezbytné pro rychlé a přesné vyhledávání. Tento tutoriál vás provede nastavením rozpoznávání znaků v **GroupDocs.Search pro Java**, pokrývající jak běžné znaky (písmena, číslice, podtržítka), tak i spojené znaky (ř. spojovníky). Na konci budete schopni přizpůsobit index tak, aby přesně vyhovoval vašim potřebám OCR nebo vyhledávání obrázků. + +## Rychlé odpovědi +- **Co znamená „vytvořit vlastní vyhledávací index“?** Znamená to nakonfigurovat index tak, aby určité symboly považoval za písmena nebo spojené znaky, místo aby je ignoroval. +- **Která knihovna se používá?** GroupDocs.Search pro Java (v25.4 v době psaní). +- **Potřebuji licenci?** Bezplatná zkušební verze funguje pro vývoj; pro produkci je vyžadována placená licence. +- **Mohu indexovat jak PDF, tak i obrázky?** Ano – GroupDocs.Search podporuje OCR na obrázcích i PDF, pokud je správně nakonfigurován. +- **Je Maven povinný?** Maven je doporučený způsob správy závislostí, ale můžete také použít Gradle nebo ruční JAR soubory. + +## Co je vlastní vyhledávací index? +Vlastní vyhledávací index vám umožňuje definovat, jak vyhledávací engine interpretuje znaky. Ve výchozím nastavení jsou mnohé symboly ignorovány, což může vést k neúspěšným shodám u např. čísel spisů (`ABC-123`) nebo úryvků kódu (`my_variable`). Úprava slovníku abecedy vám dává plnou kontrolu nad tím, co engine považuje za prohledávatelný text. + +## Proč konfigurovat běžné a spojené znaky? +- **Běžné znaky** (písmena, číslice, podtržítka) jsou považovány za samostatné tokeny, což zlepšuje vyhledávání přesných shod. +- **Spojené znaky** (spojovníky, lomítka) spojují slova; jejich konfigurace zabraňuje nechtěnému rozdělení tokenů, což je klíčové pro právní odkazy, kódy produktů nebo indexování zdrojového kódu. + +## Předpoklady +- **JDK 8** nebo novější nainstalováno. +- **Maven** pro správu závislostí. +- Přístup ke knihovně **GroupDocs.Search pro Java** (stažené přes Maven nebo oficiální web). + +### Požadované knihovny a závislosti +Přidejte záznamy repozitáře a závislosti do vašeho `pom.xml` (jak je ukázáno níže). XML blok musí zůstat nezměněn. + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +Můžete také stáhnout nejnovější JAR soubory z [vydání GroupDocs.Search pro Java](https://releases.groupdocs.com/search/java/). + +### Získání licence +- **Bezplatná zkušební verze** – ideální pro první experimenty. +- **Dočasná licence** – užitečná pro delší vývojové cykly. +- **Produkční licence** – vyžadována pro komerční nasazení. + +Získejte licenci z oficiálního portálu: [GroupDocs](https://purchase.groupdocs.com/temporary-license/). + +### Základní inicializace +Níže uvedený úryvek ukazuje minimální kód potřebný k vytvoření prázdného indexu. Nechte jej beze změny; později na něj navážeme. + +```java +import com.groupdocs.search.*; + +public class GroupDocsSearchSetup { + public static void main(String[] args) { + String indexFolder = "YOUR_OUTPUT_DIRECTORY"; + String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; + + Index index = new Index(indexFolder); + + System.out.println("GroupDocs.Search setup completed!"); + } +} +``` + +## Nastavení GroupDocs.Search pro Java + +### Instalace pomocí Maven +Maven konfigurace ze sekce *Předpoklady* je vše, co potřebujete. Po jejím přidání spusťte `mvn clean install` pro stažení binárek. + +### Požadavky na nastavení prostředí +- Ujistěte se, že **složka indexu** a **složka dokumentů** existují na disku. +- Používejte absolutní cesty nebo nakonfigurujte své IDE tak, aby správně řešilo relativní cesty. + +## Průvodce implementací + +Níže projdeme dvě odlišné funkce: **běžné znaky** a **spojené znaky**. Každá funkce následuje stejný vzor – definujte cesty, vytvořte index, nastavte slovník znaků a nakonec indexujte své dokumenty. + +### Funkce 1 – Běžné znaky + +#### Přehled +Běžné znaky jsou považovány za nezávislé tokeny. To je ideální, když chcete, aby číslice, písmena a podtržítka byly prohledávatelné přesně tak, jak se objeví. + +#### Implementace krok za krokem + +**1️⃣ Nastavení cest** +Definujte, kde bude index uložen a kde se nacházejí vaše zdrojové dokumenty. + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Vytvoření a konfigurace indexu** +Vytvořte instanci indexu a vymažte jakoukoli předchozí konfiguraci abecedy. + +```java +Index index = new Index(indexFolder); +index.getDictionaries().getAlphabet().clear(); +``` + +**3️⃣ Definice běžných znaků** +Sestavte pole znaků, které zahrnuje číslice, latinská písmena a podtržítko. + +```java +StringBuilder sb = new StringBuilder(); +for (char i = 0x0030; i <= 0x0039; i++) { // Digits + sb.append(i); +} +for (char i = 0x0041; i <= 0x005A; i++) { // Latin capital letters + sb.append(i); +} +sb.append(0x005F); // Underscore +for (char i = 0x0061; i <= 0x007A; i++) { // Latin small letters + sb.append(i); +} + +// Convert to character array and set as alphabet range +char[] characters = new char[sb.length()]; +sb.getChars(0, sb.length(), characters, 0); +index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); +``` + +**4️⃣ Indexování dokumentů** +Přidejte všechny soubory ze zdrojové složky do nově nakonfigurovaného indexu. + +```java +index.add(documentFolder); +``` + +### Funkce 2 – Spojené znaky + +#### Přehled +Spojené znaky (např. spojovníky) často spojují dvě slova. Označení je jako *spojené* říká engine, aby během indexování udržel okolní tokeny pohromadě. + +#### Implementace krok za krokem + +**1️⃣ Nastavení cest** + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Vytvoření a konfigurace indexu** + +```java +Index index = new Index(indexFolder); +``` + +**3️⃣ Definice spojených znaků** +Zde říkáme slovníku, že spojovník by měl být považován za spojený znak. + +```java +index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); +``` + +**4️⃣ Indexování dokumentů** + +```java +index.add(documentFolder); +``` + +## Praktické aplikace + +### Případ použití 1 – Správa právních dokumentů +Právní soubory často obsahují čísla spisů jako `2023-AB-456`. Konfigurací podtržítek a spojovníků vyhledávání vrací přesné shody, aniž by identifikátor rozdělovalo. + +### Případ použití 2 – Repozitáře zdrojového kódu +Vývojáři potřebují vyhledávat úryvky kódu, kde jsou podtržítka (`my_variable`) a spojovníky (`my-function`) významné. Vlastní rozpoznávání znaků zajišťuje, že vyhledávací engine respektuje tyto symboly. + +### Případ použití 3 – Vícejazyčné datové sady +Při práci s jazyky, které používají další abecedy, můžete rozšířit sadu běžných znaků o tyto Unicode rozsahy, což zaručuje přesné výsledky vyhledávání napříč jazyky. + +## Úvahy o výkonu + +- **Správa zdrojů** – Sledujte využití haldy; velké indexy těží z inkrementálních commitů. +- **Garbage Collection** – Uvolněte objekty `Index`, když jsou hotové, aby JVM mohl uvolnit paměť. +- **Optimalizace indexu** – Periodicky zavolejte `index.optimize()` (pokud je k dispozici) pro kompakci indexu a zrychlení dotazů. + +## Závěr + +Nyní víte, jak **vytvořit vlastní vyhledávací index**, který rozlišuje mezi běžnými a spojenými znaky pomocí GroupDocs.Search pro Java. Tato jemná kontrola vám umožní vytvářet OCR‑vědomá, výkonná vyhledávací řešení přizpůsobená právnímu, vývojářskému nebo vícejazyčnému prostředí. + +**Další kroky** +- Experimentujte s dalšími Unicode rozsahy pro ne‑latinské abecedy. +- Kombinujte konfiguraci znaků s dalšími funkcemi GroupDocs.Search, jako je stemming nebo synonymum. +- Integrovat index do REST API pro zpřístupnění vyhledávacích možností front‑end aplikacím. + +## Často kladené otázky + +**Q:** *Jaký je účel `CharacterType.Letter`?* +**A:** Říká indexu, aby považoval dodané znaky za běžná písmena, takže jsou během indexování tokenizovány samostatně. + +**Q:** *Mohu v jednom indexu kombinovat běžné i spojené znaky?* +**A:** Ano – stačí zavolat `setRange` pro každý typ; slovník bude obě konfigurace zpracovávat současně. + +**Q:** *Musím po změně abecedy znovu vytvořit index?* +**A:** Rozhodně. Změny ve slovníku znaků ovlivňují tokenizaci, takže musíte dokumenty znovu indexovat, aby se nová pravidla uplatnila. + +**Q:** *Existuje limit na počet vlastních znaků, které mohu definovat?* +**A:** Knihovna podporuje celý Unicode rozsah; výkon může klesat, pokud přidáte extrémně velkou sadu, proto omezte na znaky, které skutečně potřebujete. + +**Q:** *Jak to ovlivňuje přesnost OCR?* +**A:** Přizpůsobením znakové sady indexu výstupu OCR motoru snižujete počet falešných negativ a zlepšujete celkovou relevanci vyhledávání. + +--- + +**Last Updated:** 2026-01-11 +**Tested With:** GroupDocs.Search 25.4 for Java +**Author:** GroupDocs + +--- \ No newline at end of file diff --git a/content/czech/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/czech/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md new file mode 100644 index 00000000..9bb4a978 --- /dev/null +++ b/content/czech/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -0,0 +1,184 @@ +--- +date: '2026-01-11' +description: Naučte se, jak používat GroupDocs pro Java OCR indexování s Aspose.OCR, + což umožňuje výkonné vyhledávání dokumentů v PDF, obrázcích a naskenovaných souborech. +keywords: +- Java OCR indexing +- document searchability +- OCR with GroupDocs +title: Jak použít GroupDocs pro Java OCR indexování s Aspose +type: docs +url: /cs/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/ +weight: 1 +--- + +# Jak používat GroupDocs pro Java OCR indexování s Aspose + +V tomto průvodci se dozvíte **jak používat GroupDocs** k přidání vyhledávání poháněného OCR do vašich Java aplikací. Kombinací GroupDocs.Search s Aspose.OCR můžete převést obsah založený na obrázcích na prohledávatelný text, což výrazně zvyšuje užitečnost systémů pro správu dokumentů. Provedeme vás nastavením, indexováním, vyhledáváním a vlastním OCR integrací, vše s jasnými, krok‑za‑krokem příklady. + +## Rychlé odpovědi +- **Která knihovna poskytuje OCR indexování?** GroupDocs.Search ve spojení s Aspose.OCR. +- **Jaká verze Javy je vyžadována?** JDK 8 nebo vyšší. +- **Potřebuji licenci?** K dispozici je bezplatná zkušební verze; pro produkční nasazení je vyžadována placená licence. +- **Mohu indexovat jak samostatné, tak vložené obrázky?** Ano, povolte obě možnosti v `IndexingOptions`. +- **Je podporováno vícevláknové zpracování?** Ano, můžete paralelizovat indexování pro velké datové sady. + +## Co je OCR indexování s GroupDocs? +OCR indexování extrahuje text z obrázků (včetně skenovaných PDF) a ukládá jej do prohledávatelného indexu. GroupDocs.Search se stará o samotné indexování a provádění dotazů, zatímco Aspose.OCR provádí rozpoznávání znaků. + +## Proč používat GroupDocs pro Java OCR indexování? +- **Vysoká přesnost** díky pokročilému OCR enginu od Aspose. +- **Bezproblémová integrace do Javy** pomocí Maven nebo přímých JAR souborů. +- **Flexibilní konfigurace** pro samostatné i vložené obrázky. +- **Škálovatelný výkon** s podporou vícevláknového zpracování a optimalizací paměti. + +## Požadavky +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR** (nejnovější verze) +- JDK 8+ a IDE (IntelliJ, Eclipse, NetBeans) +- Základní znalost Javy; Maven je užitečný, ale není povinný + +## Nastavení GroupDocs.Search pro Java +### Použití Maven +Přidejte repozitář a závislost do souboru `pom.xml`: + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +### Přímé stažení +Alternativně si stáhněte nejnovější verzi GroupDocs.Search pro Java z [GroupDocs releases](https://releases.groupdocs.com/search/java/). + +### Získání licence +- **Free Trial** – prozkoumejte všechny funkce zdarma. +- **Temporary License** – prodloužené testovací období. +- **Purchase** – vyžadováno pro produkční nasazení. + +### Základní inicializace a nastavení +Vytvořte složku pro index a inicializujte objekt `Index`: + +```java +import com.groupdocs.search.Index; +// Specify the directory where the index will be stored. +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +// Create an instance of Index class at the specified location. +Index index = new Index(indexFolder); +``` + +## Jak používat GroupDocs pro OCR indexování +### Vytvoření indexu +Nejprve nastavte složku, která bude obsahovat soubory indexu: + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +Index index = new Index(indexFolder); +``` + +### Nastavení možností OCR indexování +Povolte OCR pro samostatné i vložené obrázky a připojte vlastní OCR konektor: + +```java +import com.groupdocs.search.options.IndexingOptions; +IndexingOptions options = new IndexingOptions(); +options.getOcrIndexingOptions().setEnabledForSeparateImages(true); +options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); +// Set a custom OCR connector. +options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); +``` + +### Indexování dokumentů +Přidejte své zdrojové dokumenty (PDF, Word, obrázky atd.) do indexu: + +```java +String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; +index.add(documentsFolder, options); +``` + +### Vyhledávání v indexu +Spusťte vyhledávací dotaz proti indexovanému obsahu: + +```java +import com.groupdocs.search.results.SearchResult; +String query = "water"; +SearchResult result = index.search(query); +``` + +### Implementace OCR konektoru +Použijte Aspose.OCR k rozpoznání textu z obrázků. Implementujte rozhraní `IOcrConnector` podle ukázky: + +```java +import com.groupdocs.search.options.IOcrConnector; +import com.groupdocs.search.options.OcrContext; +import java.awt.image.BufferedImage; +import javax.imageio.ImageIO; +import com.aspose.ocr.AsposeOCR; + +public class OcrConnector implements IOcrConnector { + @Override + public final String recognize(OcrContext context) { + if (null == context.getImageLocation()) { + throw new RuntimeException("The image type is not supported: " + context.getImageLocation()); + } + + BufferedImage image = ImageIO.read(context.getImageLocation().toFile()); + AsposeOCR api = new AsposeOCR(); + String text = api.RecognizePage(image); + return text; + } +} +``` + +## Praktické aplikace +1. **Systémy pro správu dokumentů** – rychlé vyhledávání dokumentů obsahujících skenované obrázky. +2. **Archivní vyhledávání** – nalezení historických záznamů v masivních archivech. +3. **Analýza právních dokumentů** – vyhledávání smluv a důkazů, které zahrnují skenované podpisy nebo diagramy. +4. **Vyhledávání v lékařských záznamech** – indexování pacientských formulářů, laboratorních výsledků a anotací rentgenových snímků. + +## Úvahy o výkonu +- **Velikost indexu** – vyloučte zbytečná metadata, aby byl index co nejmenší. +- **Vícevláknové zpracování** – zpracovávejte velké dávky paralelně pro zrychlení indexování. +- **Správa paměti** – monitorujte haldu JVM při práci s vysoce rozlišenými obrázky. + +## Časté problémy a řešení +- **Chyby licence** – ujistěte se, že správný licenční soubor je umístěn v pracovním adresáři aplikace. +- **Chybějící obrázky** – ověřte, že cesty k obrázkům jsou přístupné a formáty jsou podporovány (PNG, JPEG, BMP). +- **Out‑Of‑Memory** – zvyšte haldu JVM (`-Xmx`) nebo zpracovávejte dokumenty v menších dávkách. + +## Často kladené otázky +**Q: Jak vyřešit problémy s licencí v GroupDocs.Search?** +A: Získejte dočasnou licenci na [GroupDocs website](https://purchase.groupdocs.com/temporary-license/), která odemkne všechny funkce. + +**Q: Jak nejlépe zvládnout indexování velkých dokumentů?** +A: Využijte vícevláknové zpracování a dávkové zpracování pro zvýšení výkonu a snížení zatížení paměti. + +**Q: Můžu dále přizpůsobit nastavení OCR v GroupDocs.Search?** +A: Ano, `IndexingOptions` umožňuje jemně doladit chování OCR, například výběr jazyka a předzpracování obrázků. + +**Q: Jaké jsou běžné tipy pro řešení problémů při používání GroupDocs.Search?** +A: Zkontrolujte cesty ke složkám, ověřte, že jsou všechny závislosti přítomny, a prohlédněte výstup logu pro chybějící soubory. + +**Q: Jak integrovat Aspose.OCR do existující Java aplikace?** +A: Implementujte rozhraní `IOcrConnector` podle výše uvedeného příkladu a zajistěte správné zpracování vstupních obrázků. + +## Zdroje +- [GroupDocs.Search Documentation](https://docs.groupdocs.com/search/java/) +- [API Reference](https://reference.groupdocs.com/search/java/) + +--- + +**Poslední aktualizace:** 2026-01-11 +**Testováno s:** GroupDocs.Search 25.4, Aspose.OCR nejnovější vydání +**Autor:** GroupDocs \ No newline at end of file diff --git a/content/dutch/java/ocr-image-search/_index.md b/content/dutch/java/ocr-image-search/_index.md new file mode 100644 index 00000000..58f62da6 --- /dev/null +++ b/content/dutch/java/ocr-image-search/_index.md @@ -0,0 +1,100 @@ +--- +date: 2026-01-11 +description: Stapsgewijze tutorials voor het implementeren van OCR, het extraheren + van tekst uit afbeeldingen in Java, en omgekeerd afbeeldingen zoeken in Java met + behulp van GroupDocs.Search. +title: Omgekeerd Afbeeldingszoek Java – GroupDocs.Search OCR‑handleidingen +type: docs +url: /nl/java/ocr-image-search/ +weight: 7 +--- + +# Reverse Image Search Java – GroupDocs.Search OCR Tutorials + +In deze gids lopen we je stap voor stap alles na wat je moet weten om **reverse image search java** oplossingen te bouwen met GroupDocs.Search. Of je nu visueel zoeken toevoegt aan een content‑rijke portal of doorzoekbare tekst uit gescande assets wilt halen, we laten je zien hoe je OCR configureert, tekst uit afbeeldingen Java extraheert, en omgekeerde afbeelding‑zoekopdrachten uitvoert — allemaal met duidelijke, productie‑klare voorbeelden. + +## Snelle Antwoorden +- **What does reverse image search Java do?** Het vindt visueel gelijkaardige afbeeldingen in een geïndexeerde collectie met behulp van GroupDocs.Search. +- **Which OCR engine is recommended?** GroupDocs.Search integreert met Aspose.OCR voor hoge‑nauwkeurige tekstelextractie. +- **Do I need a license?** Een tijdelijke licentie werkt voor testen; een volledige licentie is vereist voor productie. +- **What are the main prerequisites?** Java 8+, GroupDocs.Search for Java, en optioneel Aspose.OCR. +- **How long does implementation take?** Een basisopzet kan in minder dan een uur worden voltooid. + +## Wat is Reverse Image Search Java? +Reverse image search Java stelt je in staat om afbeeldingen te vinden die op elkaar lijken of dezelfde visuele inhoud bevatten. In plaats van te zoeken op trefwoorden, analyseert de engine beeldkenmerken, indexeert ze, en geeft overeenkomsten terug wanneer een query‑afbeelding wordt ingediend. + +## Waarom GroupDocs.Search gebruiken voor afbeelding‑ en OCR‑taken? +- **Unified API** – Beheer tekst‑ en afbeelding‑indexering via één bibliotheek. +- **High performance** – Geoptimaliseerd voor grote collecties en snelle zoekacties. +- **Extensible** – Plug aangepaste OCR‑engines of beeldkenmerk‑extractors in indien nodig. +- **Cross‑platform** – Werkt in elke Java‑compatibele omgeving, van desktop tot cloud. + +## Vereisten +- Java 8 of nieuwer geïnstalleerd. +- GroupDocs.Search for Java bibliotheek toegevoegd aan je project (Maven/Gradle). +- (Optioneel) Aspose.OCR voor Java als je de beste OCR‑nauwkeurigheid wilt. +- Een set afbeeldingen die je wilt indexeren en doorzoeken. + +## Stapsgewijze Gids + +### Stap 1: Zoekindex instellen +Maak een nieuw `SearchIndex`‑object aan dat naar een map wijst waar de indexbestanden worden opgeslagen. Deze map bevat zowel tekst‑ als afbeeldingsmetadata. + +### Stap 2: OCR configureren voor afbeeldingsbestanden +Schakel OCR in de indexeeropties in zodat elke afbeelding die aan de index wordt toegevoegd, wordt verwerkt voor tekstelextractie. Hier komt het secundaire trefwoord **extract text from images java** van pas. + +### Stap 3: Indexeer je afbeeldingen +Voeg elk afbeeldingsbestand toe aan de index. Tijdens deze bewerking extraheert GroupDocs.Search visuele kenmerken voor omgekeerd zoeken en voert OCR uit om eventuele ingesloten tekst te halen. + +### Stap 4: Voer een omgekeerde afbeelding‑zoekopdracht uit +Geef een query‑afbeelding door aan de `search`‑methode. De engine vergelijkt visuele vingerafdrukken en retourneert een gerangschikte lijst van vergelijkbare afbeeldingen uit de index. + +### Stap 5: OCR‑tekst ophalen (indien nodig) +Als je ook de tekstinhoud die in afbeeldingen is gevonden nodig hebt, query dan de index naar de OCR‑geëxtraheerde tekst met een standaard trefwoordzoekopdracht. + +## Veelvoorkomende Problemen en Oplossingen +- **No results returned:** Controleer of de afbeeldingkenmerk‑extractor is ingeschakeld en dat de index opnieuw is opgebouwd na het toevoegen van nieuwe afbeeldingen. +- **OCR text is missing:** Zorg ervoor dat de OCR‑engine correct wordt verwezen in de project‑dependencies en dat het afbeeldingsformaat wordt ondersteund (bijv. PNG, JPEG, TIFF). +- **Performance slowdown:** Overweeg grote afbeeldingscollecties op te splitsen in meerdere indexen of incrementele indexering te gebruiken om zoektijden laag te houden. + +## Veelgestelde Vragen + +**Q: Kan ik reverse image search Java gebruiken op cloud‑platforms?** +A: Ja, de bibliotheek is platform‑agnostisch en werkt in elke omgeving die Java ondersteunt, inclusief AWS, Azure en Google Cloud. + +**Q: Hoe nauwkeurig is de OCR‑extractie voor verschillende talen?** +A: Aspose.OCR ondersteunt meer dan 60 talen; je kunt de taal specificeren in de OCR‑opties voor betere nauwkeurigheid. + +**Q: Is het mogelijk om trefwoordzoekopdrachten te combineren met beeldgelijkenis?** +A: Absoluut. Je kunt eerst resultaten filteren met een trefwoordquery en vervolgens de resterende items rangschikken op basis van visuele gelijkenis. + +**Q: Welke bestandsformaten worden ondersteund voor afbeelding‑indexering?** +A: Veelvoorkomende formaten zoals JPEG, PNG, BMP en TIFF worden direct volledig ondersteund. + +**Q: Hoe werk ik de index bij wanneer afbeeldingen veranderen?** +A: Gebruik de `update`‑methode om gewijzigde afbeeldingen opnieuw te verwerken, of verwijder en voeg ze opnieuw toe om de index actueel te houden. + +## Aanvullende Bronnen + +### Beschikbare Tutorials + +#### [Configuring Character Recognition in GroupDocs.Search for Java: An OCR & Image Search Guide](./groupdocs-search-java-character-recognition/) +Leer hoe je karakterherkenning configureert met GroupDocs.Search for Java, met focus op reguliere en gecombineerde tekens. Verbeter je documentbeheer met geavanceerde zoekmogelijkheden. + +#### [Java OCR Indexing Guide with Aspose and GroupDocs: Enhance Document Searchability](./java-ocr-indexing-aspose-groupdocs-search/) +Leer hoe je krachtige Java OCR‑indexering implementeert met GroupDocs.Search en Aspose.OCR voor verbeterde documentzoekmogelijkheden. + +### Handige Links + +- [GroupDocs.Search for Java Documentatie](https://docs.groupdocs.com/search/java/) +- [GroupDocs.Search for Java API-referentie](https://reference.groupdocs.com/search/java/) +- [Download GroupDocs.Search for Java](https://releases.groupdocs.com/search/java/) +- [GroupDocs.Search Forum](https://forum.groupdocs.com/c/search) +- [Gratis ondersteuning](https://forum.groupdocs.com/) +- [Tijdelijke licentie](https://purchase.groupdocs.com/temporary-license/) + +--- + +**Laatst bijgewerkt:** 2026-01-11 +**Getest met:** GroupDocs.Search for Java 23.11 +**Auteur:** GroupDocs \ No newline at end of file diff --git a/content/dutch/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/dutch/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md new file mode 100644 index 00000000..23130efd --- /dev/null +++ b/content/dutch/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -0,0 +1,230 @@ +--- +date: '2026-01-11' +description: Leer hoe u een aangepaste zoekindex maakt met GroupDocs.Search voor Java, + waarbij u reguliere en gecombineerde tekens configureert voor geavanceerde OCR- + en afbeeldingzoekopdrachten. +keywords: +- GroupDocs.Search Java +- Java OCR character recognition +- search library Java +title: Maak een aangepaste zoekindex met tekenherkenning – GroupDocs.Search Java +type: docs +url: /nl/java/ocr-image-search/groupdocs-search-java-character-recognition/ +weight: 1 +--- + +# Maak een aangepaste zoekindex met tekenherkenning met GroupDocs.Search voor Java + +In moderne, document‑intensieve toepassingen is **het maken van een aangepaste zoekindex** die de nuances van uw tekst begrijpt—zoals koppeltekens, onderstrepingsstrepen of taalspecifieke symbolen—essentieel voor snelle, nauwkeurige terugwinning. Deze tutorial leidt u door het configureren van tekenherkenning in **GroupDocs.Search voor Java**, met zowel reguliere tekens (letters, cijfers, onderstrepingsstrepen) als gecombineerde tekens (bijv. koppeltekens). Aan het einde kunt u een index aanpassen die precies voldoet aan de behoeften van uw OCR- of afbeelding‑zoekscenario. + +## Snelle antwoorden +- **Wat betekent “create custom search index”?** Het betekent het configureren van een index om specifieke symbolen als letters of gecombineerde tekens te behandelen, in plaats van ze te negeren. +- **Welke bibliotheek wordt gebruikt?** GroupDocs.Search voor Java (v25.4 op het moment van schrijven). +- **Heb ik een licentie nodig?** Een gratis proefversie werkt voor ontwikkeling; een betaalde licentie is vereist voor productie. +- **Kan ik zowel PDF’s als afbeeldingen indexeren?** Ja—GroupDocs.Search ondersteunt OCR op afbeeldingen en PDF’s wanneer correct geconfigureerd. +- **Is Maven vereist?** Maven is de aanbevolen manier om afhankelijkheden te beheren, maar u kunt ook Gradle of handmatige JAR‑s gebruiken. + +## Wat is een aangepaste zoekindex? +Een aangepaste zoekindex stelt u in staat te definiëren hoe de zoekmachine tekens interpreteert. Standaard worden veel symbolen genegeerd, wat kan leiden tot gemiste overeenkomsten voor zaken als dossiersnummers (`ABC-123`) of code‑fragmenten (`my_variable`). Het aanpassen van het alfabet‑woordenboek geeft u volledige controle over wat de engine als doorzoekbare tekst beschouwt. + +## Waarom reguliere en gecombineerde tekens configureren? +- **Reguliere tekens** (letters, cijfers, onderstrepingsstrepen) worden behandeld als zelfstandige tokens, wat exacte‑overeenkomsten verbetert. +- **Gecombineerde tekens** (koppeltekens, schuine strepen) verbinden woorden; door ze te configureren voorkomt u ongewenste token‑splitsing, wat cruciaal is voor juridische verwijzingen, productcodes of broncode‑indexering. + +## Voorvereisten +- **JDK 8** of hoger geïnstalleerd. +- **Maven** voor afhankelijkheidsbeheer. +- Toegang tot de **GroupDocs.Search voor Java** bibliotheek (gedownload via Maven of de officiële site). + +### Vereiste bibliotheken en afhankelijkheden +Voeg de repository‑ en afhankelijkheidsvermeldingen toe aan uw `pom.xml` (zoals hieronder weergegeven). Het XML‑blok moet ongewijzigd blijven. + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +U kunt ook de nieuwste JAR‑s downloaden van [GroupDocs.Search for Java releases](https://releases.groupdocs.com/search/java/). + +### Licentie‑acquisitie +- **Gratis proefversie** – perfect voor vroege experimenten. +- **Tijdelijke licentie** – nuttig voor langere ontwikkelingscycli. +- **Productielicentie** – vereist voor commerciële inzet. + +Haal een licentie via het officiële portaal: [GroupDocs](https://purchase.groupdocs.com/temporary-license/). + +### Basisinitialisatie +De onderstaande codefragment toont de minimale code die nodig is om een lege index op te starten. Houd het ongewijzigd; we zullen later verder bouwen. + +```java +import com.groupdocs.search.*; + +public class GroupDocsSearchSetup { + public static void main(String[] args) { + String indexFolder = "YOUR_OUTPUT_DIRECTORY"; + String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; + + Index index = new Index(indexFolder); + + System.out.println("GroupDocs.Search setup completed!"); + } +} +``` + +## GroupDocs.Search voor Java instellen + +### Installatie via Maven +De Maven‑configuratie uit de *Voorvereisten* sectie is alles wat u nodig heeft. Na het toevoegen, voer `mvn clean install` uit om de binaries op te halen. + +### Vereisten voor omgevingsinstelling +- Zorg ervoor dat de **indexmap** en **documentmap** op schijf bestaan. +- Gebruik absolute paden of configureer uw IDE om relatieve paden correct op te lossen. + +## Implementatie‑gids + +Hieronder lopen we twee afzonderlijke functies door: **reguliere tekens** en **gecombineerde tekens**. Elke functie volgt hetzelfde patroon—pad definiëren, index maken, tekenwoordenboek instellen en tenslotte uw documenten indexeren. + +### Functie 1 – Reguliere tekens + +#### Overzicht +Reguliere tekens worden behandeld als onafhankelijke tokens. Dit is ideaal wanneer u cijfers, letters en onderstrepingsstrepen precies zoals ze verschijnen doorzoekbaar wilt maken. + +#### Stapsgewijze implementatie + +**1️⃣ Pad instellen** +Definieer waar de index wordt opgeslagen en waar uw bron‑documenten zich bevinden. + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Index maken en configureren** +Instantieer de index en wis eventuele vooraf bestaande alfabet‑configuratie. + +```java +Index index = new Index(indexFolder); +index.getDictionaries().getAlphabet().clear(); +``` + +**3️⃣ Reguliere tekens definiëren** +Bouw een tekenarray die cijfers, Latijnse letters en de onderstrepingsstreep bevat. + +```java +StringBuilder sb = new StringBuilder(); +for (char i = 0x0030; i <= 0x0039; i++) { // Digits + sb.append(i); +} +for (char i = 0x0041; i <= 0x005A; i++) { // Latin capital letters + sb.append(i); +} +sb.append(0x005F); // Underscore +for (char i = 0x0061; i <= 0x007A; i++) { // Latin small letters + sb.append(i); +} + +// Convert to character array and set as alphabet range +char[] characters = new char[sb.length()]; +sb.getChars(0, sb.length(), characters, 0); +index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); +``` + +**4️⃣ Documenten indexeren** +Voeg alle bestanden uit de bronmap toe aan de nieuw geconfigureerde index. + +```java +index.add(documentFolder); +``` + +### Functie 2 – Gecombineerde tekens + +#### Overzicht +Gecombineerde tekens (zoals koppeltekens) verbinden vaak twee woorden. Door ze als *gecombineerd* te markeren, vertelt u de engine om de omliggende tokens tijdens het indexeren bij elkaar te houden. + +#### Stapsgewijze implementatie + +**1️⃣ Pad instellen** + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Index maken en configureren** + +```java +Index index = new Index(indexFolder); +``` + +**3️⃣ Gecombineerde tekens definiëren** +Hier vertellen we het woordenboek dat het koppelstreepje als een gecombineerd teken moet worden behandeld. + +```java +index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); +``` + +**4️⃣ Documenten indexeren** + +```java +index.add(documentFolder); +``` + +## Praktische toepassingen + +### Gebruikssituatie 1 – Juridisch documentbeheer +Juridische bestanden bevatten vaak dossiersnummers zoals `2023-AB-456`. Door onderstrepingsstrepen en koppeltekens te configureren, geven zoekopdrachten exacte overeenkomsten terug zonder de identifier te splitsen. + +### Gebruikssituatie 2 – Broncode‑repositories +Ontwikkelaars moeten code‑fragmenten doorzoeken waar onderstrepingsstrepen (`my_variable`) en koppeltekens (`my-function`) betekenisvol zijn. Aangepaste tekenherkenning zorgt ervoor dat de zoekengine deze symbolen respecteert. + +### Gebruikssituatie 3 – Meertalige datasets +Bij het werken met talen die extra alfabetten gebruiken, kunt u de reguliere tekenreeks uitbreiden met die Unicode‑bereiken, waardoor nauwkeurige zoekresultaten over verschillende talen worden gegarandeerd. + +## Prestatie‑overwegingen +- **Resource‑beheer** – Houd het heap‑gebruik in de gaten; grote indexen profiteren van incrementele commits. +- **Garbage collection** – Maak `Index`‑objecten vrij wanneer ze niet meer nodig zijn zodat de JVM geheugen kan terugwinnen. +- **Indexoptimalisatie** – Roep periodiek `index.optimize()` aan (indien beschikbaar) om de index te comprimeren en de zoek‑snelheid te verbeteren. + +## Conclusie +U weet nu hoe u een **aangepaste zoekindex** kunt maken die onderscheid maakt tussen reguliere en gecombineerde tekens met GroupDocs.Search voor Java. Deze fijnmazige controle stelt u in staat OCR‑bewuste, high‑performance zoekoplossingen te bouwen die zijn afgestemd op juridische, ontwikkelings‑ of meertalige omgevingen. + +**Volgende stappen** +- Experimenteer met extra Unicode‑bereiken voor niet‑Latijnse alfabetten. +- Combineer tekenconfiguratie met andere GroupDocs.Search‑functies zoals stemming of synoniemen. +- Integreer de index in een REST‑API om zoekfunctionaliteit beschikbaar te maken voor front‑end applicaties. + +## Veelgestelde vragen + +**V:** *Wat is het doel van `CharacterType.Letter`?* +**A:** Het vertelt de index om de opgegeven tekens als reguliere letters te behandelen, zodat ze tijdens het indexeren apart getokeniseerd worden. + +**V:** *Kan ik reguliere en gecombineerde tekens in dezelfde index combineren?* +**A:** Ja—roep simpelweg `setRange` aan voor elk type; het woordenboek zal beide configuraties gelijktijdig afhandelen. + +**V:** *Moet ik de index opnieuw opbouwen na het wijzigen van het alfabet?* +**A:** Absoluut. Wijzigingen in het tekenwoordenboek beïnvloeden de tokenisatie, dus u moet de documenten opnieuw indexeren om de nieuwe regels toe te passen. + +**V:** *Is er een limiet aan het aantal aangepaste tekens dat ik kan definiëren?* +**A:** De bibliotheek ondersteunt het volledige Unicode‑bereik; de prestaties kunnen afnemen als u een extreem grote set toevoegt, dus beperk het tot de tekens die u daadwerkelijk nodig heeft. + +**V:** *Hoe beïnvloedt dit de OCR‑nauwkeurigheid?* +**A:** Door de tekenreeks van de index af te stemmen op de output van de OCR‑engine, vermindert u valse negatieven en verbetert u de algehele zoekrelevantie. + +--- + +**Laatst bijgewerkt:** 2026-01-11 +**Getest met:** GroupDocs.Search 25.4 voor Java +**Auteur:** GroupDocs \ No newline at end of file diff --git a/content/dutch/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/dutch/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md new file mode 100644 index 00000000..8dad3948 --- /dev/null +++ b/content/dutch/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -0,0 +1,185 @@ +--- +date: '2026-01-11' +description: Leer hoe je GroupDocs for Java OCR-indexering gebruikt met Aspose.OCR, + waardoor krachtige documentzoekmogelijkheden mogelijk zijn voor PDF’s, afbeeldingen + en gescande bestanden. +keywords: +- Java OCR indexing +- document searchability +- OCR with GroupDocs +title: Hoe GroupDocs voor Java OCR-indexering te gebruiken met Aspose +type: docs +url: /nl/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/ +weight: 1 +--- + +# Hoe GroupDocs voor Java OCR‑indexering te gebruiken met Aspose + +In deze gids ontdek je **hoe je GroupDocs** kunt gebruiken om OCR‑aangedreven zoeken toe te voegen aan je Java‑applicaties. Door GroupDocs.Search te combineren met Aspose.OCR kun je op afbeeldingen gebaseerde inhoud omzetten in doorzoekbare tekst, waardoor documentbeheersystemen veel bruikbaarder worden. We lopen stap‑voor‑stap door de installatie, indexering, zoeken en aangepaste OCR‑integratie, met duidelijke voorbeelden. + +## Snelle antwoorden +- **Welke bibliotheek biedt OCR‑indexering?** GroupDocs.Search in combinatie met Aspose.OCR. +- **Welke Java‑versie is vereist?** JDK 8 of hoger. +- **Heb ik een licentie nodig?** Een gratis proefversie is beschikbaar; een betaalde licentie is vereist voor productie. +- **Kan ik zowel losse als ingesloten afbeeldingen indexeren?** Ja, schakel beide opties in `IndexingOptions`. +- **Wordt multi‑threading ondersteund?** Ja, je kunt indexering paralleliseren voor grote datasets. + +## Wat is OCR‑indexering met GroupDocs? +OCR‑indexering haalt tekst uit afbeeldingen (inclusief gescande PDF‑bestanden) en slaat deze op in een doorzoekbare index. GroupDocs.Search verzorgt de indexering en het uitvoeren van queries, terwijl Aspose.OCR de feitelijke tekenherkenning uitvoert. + +## Waarom GroupDocs voor Java OCR‑indexering gebruiken? +- **Hoge nauwkeurigheid** dankzij de geavanceerde OCR‑engine van Aspose. +- **Naadloze Java‑integratie** via Maven of directe JAR‑bestanden. +- **Flexibele configuratie** voor losse of ingesloten afbeeldingen. +- **Schaalbare prestaties** met multi‑threading en geheugenoptimalisaties. + +## Vereisten +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR** (nieuwste versie) +- JDK 8+ en een IDE (IntelliJ, Eclipse, NetBeans) +- Basiskennis van Java; Maven is handig maar niet verplicht + +## GroupDocs.Search voor Java instellen +### Maven gebruiken +Voeg de repository en afhankelijkheid toe aan je `pom.xml`: + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +### Direct downloaden +Download anders de nieuwste versie van GroupDocs.Search voor Java via [GroupDocs releases](https://releases.groupdocs.com/search/java/). + +### Licentie‑acquisitie +- **Gratis proefversie** – verken alle functies zonder kosten. +- **Tijdelijke licentie** – verlengde testperiode. +- **Aankoop** – vereist voor productie‑implementaties. + +### Basisinitialisatie en -instelling +Maak een indexmap aan en initialiseert het `Index`‑object: + +```java +import com.groupdocs.search.Index; +// Specify the directory where the index will be stored. +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +// Create an instance of Index class at the specified location. +Index index = new Index(indexFolder); +``` + +## Hoe GroupDocs voor OCR‑indexering te gebruiken +### Een index maken +Stel eerst de map in die de indexbestanden zal bevatten: + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +Index index = new Index(indexFolder); +``` + +### OCR‑indexeringsopties instellen +Schakel OCR in voor zowel losse als ingesloten afbeeldingen en koppel een aangepaste OCR‑connector: + +```java +import com.groupdocs.search.options.IndexingOptions; +IndexingOptions options = new IndexingOptions(); +options.getOcrIndexingOptions().setEnabledForSeparateImages(true); +options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); +// Set a custom OCR connector. +options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); +``` + +### Documenten indexeren +Voeg je bron‑documenten (PDF‑s, Word‑bestanden, afbeeldingen, enz.) toe aan de index: + +```java +String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; +index.add(documentsFolder, options); +``` + +### Zoeken in een index +Voer een zoekopdracht uit op de geïndexeerde inhoud: + +```java +import com.groupdocs.search.results.SearchResult; +String query = "water"; +SearchResult result = index.search(query); +``` + +### Een OCR‑connector implementeren +Gebruik Aspose.OCR om tekst uit afbeeldingen te herkennen. Implementeer de `IOcrConnector`‑interface zoals hieronder weergegeven: + +```java +import com.groupdocs.search.options.IOcrConnector; +import com.groupdocs.search.options.OcrContext; +import java.awt.image.BufferedImage; +import javax.imageio.ImageIO; +import com.aspose.ocr.AsposeOCR; + +public class OcrConnector implements IOcrConnector { + @Override + public final String recognize(OcrContext context) { + if (null == context.getImageLocation()) { + throw new RuntimeException("The image type is not supported: " + context.getImageLocation()); + } + + BufferedImage image = ImageIO.read(context.getImageLocation().toFile()); + AsposeOCR api = new AsposeOCR(); + String text = api.RecognizePage(image); + return text; + } +} +``` + +## Praktische toepassingen +1. **Documentbeheersystemen** – snelle terugvinden van documenten met gescande afbeeldingen. +2. **Archief‑opvraging** – historische records vinden binnen enorme archieven. +3. **Juridische documentanalyse** – zoeken in contracten en bewijsmateriaal met gescande handtekeningen of diagrammen. +4. **Zoeken in medische dossiers** – patiëntformulieren, laboratoriumresultaten en röntgen‑annotaties indexeren. + +## Prestatie‑overwegingen +- **Indexgrootte** – sluit onnodige metadata uit om de index slank te houden. +- **Multi‑Threading** – verwerk grote batches parallel om de indexering te versnellen. +- **Geheugenbeheer** – houd de JVM‑heap in de gaten bij het verwerken van afbeeldingen met hoge resolutie. + +## Veelvoorkomende problemen en oplossingen +- **Licentiefouten** – zorg dat het juiste licentiebestand in de werkmap van de applicatie staat. +- **Ontbrekende afbeeldingen** – controleer of afbeeldingspaden toegankelijk zijn en ondersteunde formaten (PNG, JPEG, BMP) hebben. +- **Out‑Of‑Memory** – vergroot de JVM‑heap (`-Xmx`) of verwerk documenten in kleinere batches. + +## Veelgestelde vragen +**Q: Hoe los ik licentieproblemen op met GroupDocs.Search?** +A: Verkrijg een tijdelijke licentie via de [GroupDocs‑website](https://purchase.groupdocs.com/temporary-license/) om alle functies te ontgrendelen. + +**Q: Wat is de beste manier om grote document‑indexering aan te pakken?** +A: Maak gebruik van multi‑threading en batch‑verwerking om de prestaties te verbeteren en de geheugenbelasting te verlagen. + +**Q: Kan ik OCR‑instellingen verder aanpassen in GroupDocs.Search?** +A: Ja, `IndexingOptions` laat je OCR‑gedrag fijn afstemmen, zoals taalkeuze en beeldvoorbewerking. + +**Q: Welke algemene tips zijn er voor probleemoplossing bij het gebruik van GroupDocs.Search?** +A: Controleer directory‑paden, verifieer dat alle afhankelijkheden aanwezig zijn, en bekijk de log‑output voor ontbrekende bestanden. + +**Q: Hoe kan ik Aspose.OCR integreren in mijn bestaande Java‑applicatie?** +A: Implementeer de `IOcrConnector`‑interface zoals hierboven gedemonstreerd, en zorg dat je afbeeldingsinvoer correct afhandelt. + +## Resources +- [GroupDocs.Search Documentatie](https://docs.groupdocs.com/search/java/) +- [API‑referentie](https://reference.groupdocs.com/search/java/) + +--- + +**Laatst bijgewerkt:** 2026-01-11 +**Getest met:** GroupDocs.Search 25.4, Aspose.OCR nieuwste release +**Auteur:** GroupDocs \ No newline at end of file diff --git a/content/english/java/ocr-image-search/_index.md b/content/english/java/ocr-image-search/_index.md index 364cf339..450566fb 100644 --- a/content/english/java/ocr-image-search/_index.md +++ b/content/english/java/ocr-image-search/_index.md @@ -1,23 +1,88 @@ --- -title: "OCR and Image Search Tutorials for GroupDocs.Search Java" -description: "Step-by-step tutorials for implementing OCR capabilities and reverse image search functionality with GroupDocs.Search for Java." +title: "Reverse Image Search Java – GroupDocs.Search OCR Tutorials" +description: "Step-by-step tutorials for implementing OCR, extract text from images Java, and reverse image search Java using GroupDocs.Search." weight: 7 url: "/java/ocr-image-search/" type: docs +date: 2026-01-11 --- -# OCR and Image Search Tutorials for GroupDocs.Search Java -Our OCR and image search tutorials show you how to extract and search text from images and implement reverse image search using GroupDocs.Search in Java. These step-by-step guides cover integrating OCR engines, configuring recognition options, searching for similar images, and working with image metadata programmatically. Each tutorial includes practical Java code examples for common OCR and image search scenarios, helping you build applications that can efficiently process and search visual content. +# Reverse Image Search Java – GroupDocs.Search OCR Tutorials -## Available Tutorials +In this guide we’ll walk you through everything you need to know to build **reverse image search java** solutions with GroupDocs.Search. Whether you’re adding visual search to a content‑rich portal or need to pull searchable text from scanned assets, we’ll show you how to configure OCR, extract text from images Java, and perform reverse image look‑ups—all with clear, production‑ready examples. -### [Configuring Character Recognition in GroupDocs.Search for Java: An OCR & Image Search Guide](./groupdocs-search-java-character-recognition/) +## Quick Answers +- **What does reverse image search Java do?** It finds visually similar images in an indexed collection using GroupDocs.Search. +- **Which OCR engine is recommended?** GroupDocs.Search integrates with Aspose.OCR for high‑accuracy text extraction. +- **Do I need a license?** A temporary license works for testing; a full license is required for production. +- **What are the main prerequisites?** Java 8+, GroupDocs.Search for Java, and optionally Aspose.OCR. +- **How long does implementation take?** A basic setup can be completed in under an hour. + +## What is Reverse Image Search Java? +Reverse image search Java lets you locate images that look alike or contain the same visual content. Instead of searching by keywords, the engine analyses image features, indexes them, and returns matches when a query image is submitted. + +## Why Use GroupDocs.Search for Image and OCR Tasks? +- **Unified API** – Manage text and image indexing through a single library. +- **High performance** – Optimized for large collections and fast lookup times. +- **Extensible** – Plug in custom OCR engines or image feature extractors if needed. +- **Cross‑platform** – Works on any Java‑compatible environment, from desktop to cloud. + +## Prerequisites +- Java 8 or newer installed. +- GroupDocs.Search for Java library added to your project (Maven/Gradle). +- (Optional) Aspose.OCR for Java if you want the best OCR accuracy. +- A set of images you want to index and search against. + +## Step‑by‑Step Guide + +### Step 1: Set Up the Search Index +Create a new `SearchIndex` instance pointing to a folder where the index files will be stored. This folder will hold both text and image metadata. + +### Step 2: Configure OCR for Image Files +Enable OCR in the indexing options so that any image added to the index is processed for text extraction. This is where the secondary keyword **extract text from images java** comes into play. + +### Step 3: Index Your Images +Add each image file to the index. During this operation GroupDocs.Search extracts visual features for reverse search and runs OCR to pull any embedded text. + +### Step 4: Perform a Reverse Image Search +Supply a query image to the `search` method. The engine compares visual fingerprints and returns a ranked list of similar images from the index. + +### Step 5: Retrieve OCR Text (If Needed) +If you also need the textual content found inside images, query the index for the OCR‑extracted text using standard keyword search. + +## Common Issues and Solutions +- **No results returned:** Verify that the image feature extractor is enabled and that the index has been rebuilt after adding new images. +- **OCR text is missing:** Ensure the OCR engine is correctly referenced in your project dependencies and that the image format is supported (e.g., PNG, JPEG, TIFF). +- **Performance slowdown:** Consider splitting large image collections into multiple indexes or using incremental indexing to keep search times low. + +## Frequently Asked Questions + +**Q: Can I use reverse image search Java on cloud platforms?** +A: Yes, the library is platform‑agnostic and works on any environment that supports Java, including AWS, Azure, and Google Cloud. + +**Q: How accurate is the OCR extraction for different languages?** +A: Aspose.OCR supports over 60 languages; you can specify the language in the OCR options for better accuracy. + +**Q: Is it possible to combine keyword search with image similarity?** +A: Absolutely. You can first filter results with a keyword query and then rank the remaining items by visual similarity. + +**Q: What file formats are supported for image indexing?** +A: Common formats such as JPEG, PNG, BMP, and TIFF are fully supported out of the box. + +**Q: How do I update the index when images change?** +A: Use the `update` method to re‑process modified images, or delete and re‑add them to keep the index current. + +## Additional Resources + +### Available Tutorials + +#### [Configuring Character Recognition in GroupDocs.Search for Java: An OCR & Image Search Guide](./groupdocs-search-java-character-recognition/) Learn how to configure character recognition using GroupDocs.Search for Java, focusing on regular and blended characters. Enhance your document management with advanced search capabilities. -### [Java OCR Indexing Guide with Aspose and GroupDocs: Enhance Document Searchability](./java-ocr-indexing-aspose-groupdocs-search/) +#### [Java OCR Indexing Guide with Aspose and GroupDocs: Enhance Document Searchability](./java-ocr-indexing-aspose-groupdocs-search/) Learn to implement powerful Java OCR indexing using GroupDocs.Search and Aspose.OCR for enhanced document search capabilities. -## Additional Resources +### Helpful Links - [GroupDocs.Search for Java Documentation](https://docs.groupdocs.com/search/java/) - [GroupDocs.Search for Java API Reference](https://reference.groupdocs.com/search/java/) @@ -25,3 +90,9 @@ Learn to implement powerful Java OCR indexing using GroupDocs.Search and Aspose. - [GroupDocs.Search Forum](https://forum.groupdocs.com/c/search) - [Free Support](https://forum.groupdocs.com/) - [Temporary License](https://purchase.groupdocs.com/temporary-license/) + +--- + +**Last Updated:** 2026-01-11 +**Tested With:** GroupDocs.Search for Java 23.11 +**Author:** GroupDocs \ No newline at end of file diff --git a/content/english/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/english/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md index 2ae49b26..25d3610e 100644 --- a/content/english/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md +++ b/content/english/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -1,7 +1,7 @@ --- -title: "Configuring Character Recognition in GroupDocs.Search for Java: An OCR & Image Search Guide" -description: "Learn how to configure character recognition using GroupDocs.Search for Java, focusing on regular and blended characters. Enhance your document management with advanced search capabilities." -date: "2025-05-20" +title: "Create Custom Search Index with Character Recognition – GroupDocs.Search Java" +description: "Learn how to create custom search index using GroupDocs.Search for Java, configuring regular and blended characters for advanced OCR and image search." +date: "2026-01-11" weight: 1 url: "/java/ocr-image-search/groupdocs-search-java-character-recognition/" keywords: @@ -10,31 +10,32 @@ keywords: - search library Java type: docs --- -# Configuring Character Recognition with GroupDocs.Search for Java -## Introduction +# Create Custom Search Index with Character Recognition using GroupDocs.Search for Java -In today's fast-paced digital world, efficient indexing and searching of text data are critical in document management systems. **GroupDocs.Search for Java** is a powerful library that empowers developers to build sophisticated search functionalities within their applications. This tutorial will guide you through configuring character recognition in Java using GroupDocs.Search, specifically focusing on regular and blended characters. +In modern document‑heavy applications, **creating a custom search index** that understands the nuances of your text—such as hyphens, underscores, or language‑specific symbols—is essential for fast, accurate retrieval. This tutorial walks you through configuring character recognition in **GroupDocs.Search for Java**, covering both regular characters (letters, digits, underscores) and blended characters (e.g., hyphens). By the end, you’ll be able to tailor an index that fits the exact needs of your OCR or image‑search scenario. -**What You'll Learn:** -- Configuring an index to recognize specific character sets -- Supporting both regular letters and blended characters like hyphens -- Practical applications of these features -- Best practices for optimizing performance in your search implementations +## Quick Answers +- **What does “create custom search index” mean?** It means configuring an index to treat specific symbols as letters or blended characters, rather than ignoring them. +- **Which library is used?** GroupDocs.Search for Java (v25.4 at the time of writing). +- **Do I need a license?** A free trial works for development; a paid license is required for production. +- **Can I index both PDFs and images?** Yes—GroupDocs.Search supports OCR on images and PDFs when properly configured. +- **Is Maven required?** Maven is the recommended way to manage dependencies, but you can also use Gradle or manual JARs. -Let's dive into the world of advanced text indexing! +## What is a Custom Search Index? +A custom search index lets you define how the search engine interprets characters. By default, many symbols are ignored, which can lead to missed matches for things like case numbers (`ABC-123`) or code snippets (`my_variable`). Adjusting the alphabet dictionary gives you full control over what the engine treats as searchable text. -## Prerequisites - -Before you begin, ensure that your development environment is properly set up. You will need: +## Why Configure Regular and Blended Characters? +- **Regular characters** (letters, digits, underscores) are treated as standalone tokens, improving exact‑match searches. +- **Blended characters** (hyphens, slashes) connect words; configuring them prevents unwanted token splitting, which is crucial for legal references, product codes, or source‑code indexing. -- **Java Development Kit (JDK)**: Ensure you have JDK 8 or later installed on your machine. -- **Maven**: This tutorial assumes you are using Maven for dependency management. -- **GroupDocs.Search Library**: Install the latest version of GroupDocs.Search for Java. +## Prerequisites +- **JDK 8** or later installed. +- **Maven** for dependency management. +- Access to the **GroupDocs.Search for Java** library (downloaded via Maven or the official site). ### Required Libraries and Dependencies - -To integrate GroupDocs.Search into your project, add the following to your `pom.xml`: +Add the repository and dependency entries to your `pom.xml` (as shown below). The XML block must remain unchanged. ```xml @@ -54,17 +55,17 @@ To integrate GroupDocs.Search into your project, add the following to your `pom. ``` -Alternatively, you can download the latest version directly from [GroupDocs.Search for Java releases](https://releases.groupdocs.com/search/java/). +You can also download the latest JARs from [GroupDocs.Search for Java releases](https://releases.groupdocs.com/search/java/). ### License Acquisition +- **Free Trial** – perfect for early experimentation. +- **Temporary License** – useful for longer development cycles. +- **Production License** – required for commercial deployment. -- **Free Trial**: Start with a free trial to explore GroupDocs.Search features. -- **Temporary License**: Apply for a temporary license if you need extended access during development. -- **Purchase**: For production use, purchase a license from [GroupDocs](https://purchase.groupdocs.com/temporary-license/). +Get a license from the official portal: [GroupDocs](https://purchase.groupdocs.com/temporary-license/). ### Basic Initialization - -Set up the basic environment as follows: +The snippet below shows the minimal code needed to spin up an empty index. Keep it as‑is; we’ll build on it later. ```java import com.groupdocs.search.*; @@ -84,46 +85,41 @@ public class GroupDocsSearchSetup { ## Setting Up GroupDocs.Search for Java ### Installation via Maven - -Add the repository and dependency entries as shown in the prerequisites section to your `pom.xml`. This will allow Maven to handle downloading and managing the library. +The Maven configuration from the *Prerequisites* section is all you need. After adding it, run `mvn clean install` to fetch the binaries. ### Environment Setup Requirements - -Ensure your project is configured with JDK 8 or later. Set up a directory structure for indexing and storing documents, as these paths are crucial when initializing the index. +- Ensure the **index folder** and **document folder** exist on disk. +- Use absolute paths or configure your IDE to resolve relative paths correctly. ## Implementation Guide -This guide covers two main features: configuring regular characters and blended characters recognition in an index. +Below we walk through two distinct features: **regular characters** and **blended characters**. Each feature follows the same pattern—define paths, create the index, set the character dictionary, and finally index your documents. -### Feature 1: Regular Characters +### Feature 1 – Regular Characters #### Overview +Regular characters are treated as independent tokens. This is ideal when you want digits, letters, and underscores to be searchable exactly as they appear. -Configuring your index to recognize specific character sets (like digits, Latin letters, and underscores) ensures accurate search results. This feature is essential for applications where non-standard text processing is required. - -##### Step-by-Step Implementation - -**1. Set Up Paths** +#### Step‑by‑Step Implementation -First, define the paths for indexing and document storage: +**1️⃣ Set Up Paths** +Define where the index will be stored and where your source documents live. ```java String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; ``` -**2. Create and Configure Index** - -Create an index in the specified folder and clear any existing alphabet configurations: +**2️⃣ Create and Configure Index** +Instantiate the index and clear any pre‑existing alphabet configuration. ```java Index index = new Index(indexFolder); index.getDictionaries().getAlphabet().clear(); ``` -**3. Define Regular Characters** - -Build a list of characters that should be treated as regular letters: +**3️⃣ Define Regular Characters** +Build a character array that includes digits, Latin letters, and the underscore. ```java StringBuilder sb = new StringBuilder(); @@ -144,50 +140,41 @@ sb.getChars(0, sb.length(), characters, 0); index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); ``` -**4. Index Documents** - -Finally, add documents from the specified folder to the index: +**4️⃣ Index Documents** +Add all files from the source folder to the newly configured index. ```java index.add(documentFolder); ``` -### Feature 2: Blended Characters +### Feature 2 – Blended Characters #### Overview +Blended characters (like hyphens) often connect two words. Marking them as *blended* tells the engine to keep the surrounding tokens together during indexing. -Blended characters like hyphens can be crucial in certain text processing scenarios. Configuring your index to recognize these ensures more comprehensive search capabilities. - -##### Step-by-Step Implementation - -**1. Set Up Paths** +#### Step‑by‑Step Implementation -Define the paths for indexing and document storage: +**1️⃣ Set Up Paths** ```java String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; ``` -**2. Create and Configure Index** - -Create an index in the specified folder: +**2️⃣ Create and Configure Index** ```java Index index = new Index(indexFolder); ``` -**3. Define Blended Characters** - -Set hyphen as a blended character type: +**3️⃣ Define Blended Characters** +Here we tell the dictionary that the hyphen should be treated as a blended character. ```java index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); ``` -**4. Index Documents** - -Add documents from the specified folder to the index: +**4️⃣ Index Documents** ```java index.add(documentFolder); @@ -195,42 +182,51 @@ index.add(documentFolder); ## Practical Applications -### Use Case 1: Legal Document Management +### Use Case 1 – Legal Document Management +Legal files often contain case numbers like `2023-AB-456`. By configuring underscores and hyphens, searches return exact matches without splitting the identifier. -In legal document management systems, recognizing underscores and hyphens can aid in accurately indexing case numbers and clauses. +### Use Case 2 – Source‑Code Repositories +Developers need to search code snippets where underscores (`my_variable`) and hyphens (`my-function`) are meaningful. Custom character recognition ensures the search engine respects these symbols. -### Use Case 2: Coding Repositories +### Use Case 3 – Multilingual Datasets +When working with languages that use additional alphabets, you can extend the regular character set to include those Unicode ranges, guaranteeing accurate cross‑language search results. -For software development tools, configuring character recognition helps index code snippets where special characters play a significant role. +## Performance Considerations -### Use Case 3: Multilingual Text Processing +- **Resource Management** – Keep an eye on heap usage; large indexes benefit from incremental commits. +- **Garbage Collection** – Release `Index` objects when done to let the JVM reclaim memory. +- **Index Optimization** – Periodically call `index.optimize()` (if available) to compact the index and improve query speed. -Handling multilingual datasets with custom alphabets ensures that searches are accurate across different languages. +## Conclusion -## Performance Considerations +You now know how to **create a custom search index** that distinguishes between regular and blended characters using GroupDocs.Search for Java. This fine‑grained control empowers you to build OCR‑aware, high‑performance search solutions tailored to legal, development, or multilingual environments. -To optimize the performance of your indexing and search operations: +**Next Steps** +- Experiment with additional Unicode ranges for non‑Latin alphabets. +- Combine character configuration with other GroupDocs.Search features like stemming or synonyms. +- Integrate the index into a REST API to expose search capabilities to front‑end applications. -- **Resource Management**: Monitor memory usage to prevent excessive consumption. -- **Best Practices**: Utilize Java's garbage collection efficiently by managing object lifecycles. -- **Index Optimization**: Regularly update and prune indices to maintain optimal search speeds. +## Frequently Asked Questions -## Conclusion +**Q:** *What is the purpose of `CharacterType.Letter`?* +**A:** It tells the index to treat the supplied characters as regular letters, so they are tokenized separately during indexing. -In this tutorial, you've learned how to configure character recognition in indexing with GroupDocs.Search for Java. By understanding regular and blended character configurations, you can tailor your search solutions to meet specific needs. Continue exploring the library's capabilities by experimenting with different configurations and integrating them into larger applications. +**Q:** *Can I mix regular and blended characters in the same index?* +**A:** Yes—simply call `setRange` for each type; the dictionary will handle both configurations concurrently. -**Next Steps**: Try implementing these features in a sample project to see firsthand how they enhance text processing. +**Q:** *Do I need to rebuild the index after changing the alphabet?* +**A:** Absolutely. Character dictionary changes affect tokenization, so you must re‑index the documents to apply the new rules. -## FAQ Section +**Q:** *Is there a limit to the number of custom characters I can define?* +**A:** The library supports the full Unicode range; performance may degrade if you add an extremely large set, so limit it to characters you actually need. -### Q1: What is GroupDocs.Search for Java? -A: It's a library that provides powerful search functionalities within Java applications, allowing developers to index and search text data efficiently. +**Q:** *How does this affect OCR accuracy?* +**A:** By aligning the index’s character set with the OCR engine’s output, you reduce false negatives and improve overall search relevance. -### Q2: How do I set up my environment for using GroupDocs.Search? -A: Ensure you have JDK 8 or later, Maven installed, and add the necessary dependencies in your `pom.xml`. +--- -### Q3: Can I customize which characters are recognized as regular? -A: Yes, you can define specific character ranges that should be treated as regular letters. +**Last Updated:** 2026-01-11 +**Tested With:** GroupDocs.Search 25.4 for Java +**Author:** GroupDocs -### Q4: What are blended characters? -A: Blended characters, like hyphens, are those that might connect words or phrases and need special handling in text processing tasks. +--- \ No newline at end of file diff --git a/content/english/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/english/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md index 986c6122..fc2e3c33 100644 --- a/content/english/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md +++ b/content/english/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -1,7 +1,7 @@ --- -title: "Java OCR Indexing Guide with Aspose and GroupDocs: Enhance Document Searchability" -description: "Learn to implement powerful Java OCR indexing using GroupDocs.Search and Aspose.OCR for enhanced document search capabilities." -date: "2025-05-20" +title: "How to Use GroupDocs for Java OCR Indexing with Aspose" +description: "Learn how to use GroupDocs for Java OCR indexing with Aspose.OCR, enabling powerful document search capabilities across PDFs, images, and scanned files." +date: "2026-01-11" weight: 1 url: "/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/" keywords: @@ -10,31 +10,37 @@ keywords: - OCR with GroupDocs type: docs --- -# Java OCR Indexing Guide with Aspose and GroupDocs -## Introduction -Enhance your document management system by adding powerful search capabilities, including text recognition from images. This guide will help you implement OCR (Optical Character Recognition) indexing using the GroupDocs.Search for Java library integrated with Aspose.OCR. We'll cover creating and managing indexes that support image content within documents. -In this comprehensive guide, you’ll learn how to: -- Set up and configure GroupDocs.Search in a Java environment. -- Create an index folder and customize OCR options. -- Index various document types, including those containing images. -- Conduct efficient searches across indexed contents. -- Implement custom OCR connectors using Aspose for image recognition. -Let's dive into the prerequisites before we get started! + +# How to Use GroupDocs for Java OCR Indexing with Aspose + +In this guide you’ll discover **how to use GroupDocs** to add OCR‑powered search to your Java applications. By combining GroupDocs.Search with Aspose.OCR, you can turn image‑based content into searchable text, making document management systems far more useful. We'll walk through setup, indexing, searching, and custom OCR integration, all with clear, step‑by‑step examples. + +## Quick Answers +- **What library provides OCR indexing?** GroupDocs.Search paired with Aspose.OCR. +- **Which Java version is required?** JDK 8 or higher. +- **Do I need a license?** A free trial is available; a paid license is required for production. +- **Can I index both separate and embedded images?** Yes, enable both options in `IndexingOptions`. +- **Is multi‑threading supported?** Yes, you can parallelize indexing for large data sets. + +## What is OCR Indexing with GroupDocs? +OCR indexing extracts text from images (including scanned PDFs) and stores it in a searchable index. GroupDocs.Search handles the indexing and query execution, while Aspose.OCR performs the actual character recognition. + +## Why use GroupDocs for Java OCR indexing? +- **High accuracy** thanks to Aspose’s advanced OCR engine. +- **Seamless Java integration** via Maven or direct JARs. +- **Flexible configuration** for separate or embedded images. +- **Scalable performance** with multi‑threading and memory‑optimizations. + ## Prerequisites -Before implementing this solution, ensure you have: -### Required Libraries and Dependencies -- **GroupDocs.Search**: Version 25.4 or later. This library provides robust search functionalities in Java applications. -- **Aspose.OCR**: To handle OCR processing on images. -### Environment Setup -- Java Development Kit (JDK) version 8 or higher installed on your system. -- A suitable IDE like IntelliJ IDEA, Eclipse, or NetBeans for developing and testing the application. -### Knowledge Prerequisites -- Basic understanding of Java programming concepts. -- Familiarity with Maven for dependency management is helpful but not required if you prefer direct downloads. +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR** (latest version) +- JDK 8+ and an IDE (IntelliJ, Eclipse, NetBeans) +- Basic Java knowledge; Maven is helpful but not mandatory + ## Setting Up GroupDocs.Search for Java -To start using GroupDocs.Search, integrate it into your project as follows: ### Using Maven -Add the following repository and dependencies to your `pom.xml` file: +Add the repository and dependency to your `pom.xml`: + ```xml @@ -51,14 +57,18 @@ Add the following repository and dependencies to your `pom.xml` file: ``` + ### Direct Download Alternatively, download the latest version of GroupDocs.Search for Java from [GroupDocs releases](https://releases.groupdocs.com/search/java/). + ### License Acquisition -- **Free Trial**: Start with a free trial to explore features. -- **Temporary License**: Obtain a temporary license for extended testing. -- **Purchase**: For production use, purchase a license. +- **Free Trial** – explore all features without cost. +- **Temporary License** – extended testing period. +- **Purchase** – required for production deployments. + ### Basic Initialization and Setup -To initialize GroupDocs.Search in your Java application: +Create an index folder and initialize the `Index` object: + ```java import com.groupdocs.search.Index; // Specify the directory where the index will be stored. @@ -66,23 +76,19 @@ String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; // Create an instance of Index class at the specified location. Index index = new Index(indexFolder); ``` -## Implementation Guide + +## How to Use GroupDocs for OCR Indexing ### Creating an Index -Creating an index is the first step in leveraging search functionalities. Here’s how to set it up: -#### Overview -This feature allows you to create and manage indexes for quick retrieval of document content. -**Set Up Index Directory** -Ensure your `indexFolder` path points to a valid directory where the index will be stored. +First, set up the folder that will hold the index files: + ```java String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; Index index = new Index(indexFolder); ``` + ### Setting OCR Indexing Options -OCR indexing is crucial for extracting text from images within documents. Configure these options as follows: -#### Overview -Customize how OCR indexing handles separate and embedded images in your documents. -**Enable OCR for Image Recognition** -To enable OCR on both separate and embedded images, set the appropriate options: +Enable OCR for both separate and embedded images, and plug in a custom OCR connector: + ```java import com.groupdocs.search.options.IndexingOptions; IndexingOptions options = new IndexingOptions(); @@ -91,31 +97,27 @@ options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); // Set a custom OCR connector. options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); ``` + ### Indexing Documents -Index documents to make their content searchable. -#### Overview -Add documents from specified directories into the index with custom options. -**Add Documents to Index** +Add your source documents (PDFs, Word files, images, etc.) to the index: + ```java String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; index.add(documentsFolder, options); ``` + ### Searching in an Index -Perform searches within your indexed data using defined queries. -#### Overview -Utilize search functionalities to query content within your indexes. -**Conducting a Search** -Define and execute a search query: +Run a search query against the indexed content: + ```java import com.groupdocs.search.results.SearchResult; String query = "water"; SearchResult result = index.search(query); ``` + ### Implementing an OCR Connector -To process image recognition, implement the `IOcrConnector` interface using Aspose.OCR. -#### Overview -Enable custom OCR functionalities in your application with Aspose integration. -**Customize OCR Processing** +Use Aspose.OCR to recognize text from images. Implement the `IOcrConnector` interface as shown: + ```java import com.groupdocs.search.options.IOcrConnector; import com.groupdocs.search.options.OcrContext; @@ -137,29 +139,45 @@ public class OcrConnector implements IOcrConnector { } } ``` + ## Practical Applications -1. **Document Management Systems**: Implement search functionalities for retrieving documents based on content. -2. **Archival Retrieval**: Efficiently locate historical documents within large archives. -3. **Legal Document Analysis**: Quickly find relevant information in legal texts and associated images. -4. **Medical Records Search**: Access patient records by searching through scanned medical forms. +1. **Document Management Systems** – fast retrieval of documents containing scanned images. +2. **Archival Retrieval** – locate historical records within massive archives. +3. **Legal Document Analysis** – search contracts and evidence that include scanned signatures or diagrams. +4. **Medical Records Search** – index patient forms, lab results, and X‑ray annotations. + ## Performance Considerations -- Optimize index size by excluding unnecessary data. -- Use multi-threading to improve indexing speed for large datasets. -- Monitor memory usage, especially with large-scale OCR tasks, to ensure efficient Java memory management. -## Conclusion -Implementing OCR indexing with GroupDocs.Search and Aspose.OCR enables powerful document search capabilities in your Java applications. By following this guide, you can effectively manage indexes, customize OCR options, and enhance search functionalities within your projects. -To take the next step, explore further features of GroupDocs.Search, integrate with other tools, or optimize performance based on specific use cases. Try implementing these strategies in your application today! -## FAQ Section -1. **How do I resolve licensing issues with GroupDocs.Search?** - - Obtain a temporary license from the [GroupDocs website](https://purchase.groupdocs.com/temporary-license/) to access full features. -2. **What is the best way to handle large document indexing?** - - Utilize multi-threading and batch processing for efficient performance. -3. **Can I customize OCR settings further in GroupDocs.Search?** - - Yes, use `IndexingOptions` to fine-tune OCR settings according to your needs. -4. **What are some common troubleshooting tips when using GroupDocs.Search?** - - Check the directory paths and ensure all dependencies are correctly configured. -5. **How can I integrate Aspose.OCR with my existing Java application?** - - Implement the `IOcrConnector` interface as shown in this guide, ensuring you handle image inputs appropriately. +- **Index Size** – exclude unnecessary metadata to keep the index lean. +- **Multi‑Threading** – process large batches in parallel to speed up indexing. +- **Memory Management** – monitor JVM heap when handling high‑resolution images. + +## Common Issues and Solutions +- **License Errors** – ensure the correct license file is placed in the application’s working directory. +- **Missing Images** – verify image paths are accessible and supported formats (PNG, JPEG, BMP). +- **Out‑Of‑Memory** – increase JVM heap (`-Xmx`) or process documents in smaller batches. + +## Frequently Asked Questions +**Q: How do I resolve licensing issues with GroupDocs.Search?** +A: Obtain a temporary license from the [GroupDocs website](https://purchase.groupdocs.com/temporary-license/) to unlock full features. + +**Q: What is the best way to handle large document indexing?** +A: Utilize multi‑threading and batch processing to improve performance and reduce memory pressure. + +**Q: Can I customize OCR settings further in GroupDocs.Search?** +A: Yes, `IndexingOptions` lets you fine‑tune OCR behavior, such as language selection and image preprocessing. + +**Q: What are some common troubleshooting tips when using GroupDocs.Search?** +A: Double‑check directory paths, verify that all dependencies are present, and review log output for missing files. + +**Q: How can I integrate Aspose.OCR with my existing Java application?** +A: Implement the `IOcrConnector` interface as demonstrated above, ensuring you handle image input correctly. + ## Resources - [GroupDocs.Search Documentation](https://docs.groupdocs.com/search/java/) -- [API Reference](https://reference.groupdocs.com/search/java) +- [API Reference](https://reference.groupdocs.com/search/java/) + +--- + +**Last Updated:** 2026-01-11 +**Tested With:** GroupDocs.Search 25.4, Aspose.OCR latest release +**Author:** GroupDocs \ No newline at end of file diff --git a/content/french/java/ocr-image-search/_index.md b/content/french/java/ocr-image-search/_index.md new file mode 100644 index 00000000..52c0c81a --- /dev/null +++ b/content/french/java/ocr-image-search/_index.md @@ -0,0 +1,99 @@ +--- +date: 2026-01-11 +description: Tutoriels étape par étape pour implémenter l’OCR, extraire du texte d’images + en Java et effectuer une recherche d’image inversée en Java avec GroupDocs.Search. +title: Recherche d'images inversée Java – Tutoriels OCR GroupDocs.Search +type: docs +url: /fr/java/ocr-image-search/ +weight: 7 +--- + +# Recherche d'image inversée Java – Tutoriels OCR GroupDocs.Search + +Dans ce guide, nous vous accompagnerons à travers tout ce que vous devez savoir pour créer des solutions **reverse image search java** avec GroupDocs.Search. Que vous ajoutiez une recherche visuelle à un portail riche en contenu ou que vous deviez extraire du texte interrogeable à partir d'actifs numérisés, nous vous montrerons comment configurer l'OCR, extraire du texte des images Java, et effectuer des recherches d'images inversées — le tout avec des exemples clairs, prêts pour la production. + +## Réponses rapides +- **Que fait reverse image search Java ?** Il trouve des images visuellement similaires dans une collection indexée en utilisant GroupDocs.Search. +- **Quel moteur OCR est recommandé ?** GroupDocs.Search s'intègre à Aspose.OCR pour une extraction de texte haute précision. +- **Ai‑je besoin d’une licence ?** Une licence temporaire fonctionne pour les tests ; une licence complète est requise pour la production. +- **Quelles sont les principales prérequis ?** Java 8+, GroupDocs.Search for Java, et éventuellement Aspose.OCR. +- **Combien de temps prend l’implémentation ?** Une configuration de base peut être terminée en moins d’une heure. + +## Qu'est-ce que Reverse Image Search Java ? +Reverse image search Java vous permet de localiser des images qui se ressemblent ou qui contiennent le même contenu visuel. Au lieu de rechercher par mots‑clés, le moteur analyse les caractéristiques des images, les indexe et renvoie des correspondances lorsqu'une image de requête est soumise. + +## Pourquoi utiliser GroupDocs.Search pour les tâches d'image et d'OCR ? +- **Unified API** – Gérez l'indexation du texte et des images via une seule bibliothèque. +- **High performance** – Optimisé pour de grandes collections et des temps de recherche rapides. +- **Extensible** – Intégrez des moteurs OCR personnalisés ou des extracteurs de caractéristiques d'image si nécessaire. +- **Cross‑platform** – Fonctionne sur tout environnement compatible Java, du bureau au cloud. + +## Prérequis +- Java 8 ou version supérieure installé. +- Bibliothèque GroupDocs.Search for Java ajoutée à votre projet (Maven/Gradle). +- (Optionnel) Aspose.OCR for Java si vous souhaitez la meilleure précision OCR. +- Un ensemble d'images que vous souhaitez indexer et interroger. + +## Guide étape par étape + +### Étape 1 : Configurer l'index de recherche +Créez une nouvelle instance `SearchIndex` pointant vers un dossier où les fichiers d'index seront stockés. Ce dossier contiendra à la fois les métadonnées du texte et de l'image. + +### Étape 2 : Configurer l'OCR pour les fichiers image +Activez l'OCR dans les options d'indexation afin que chaque image ajoutée à l'index soit traitée pour l'extraction de texte. C'est ici que le mot‑clé secondaire **extract text from images java** entre en jeu. + +### Étape 3 : Indexer vos images +Ajoutez chaque fichier image à l'index. Au cours de cette opération, GroupDocs.Search extrait les caractéristiques visuelles pour la recherche inversée et exécute l'OCR afin de récupérer tout texte intégré. + +### Étape 4 : Effectuer une recherche d'image inversée +Fournissez une image de requête à la méthode `search`. Le moteur compare les empreintes visuelles et renvoie une liste classée d'images similaires provenant de l'index. + +### Étape 5 : Récupérer le texte OCR (si nécessaire) +Si vous avez également besoin du contenu textuel trouvé à l'intérieur des images, interrogez l'index pour le texte extrait par OCR en utilisant la recherche par mots‑clés standard. + +## Problèmes courants et solutions +- **No results returned:** Vérifiez que l'extracteur de caractéristiques d'image est activé et que l'index a été reconstruit après l'ajout de nouvelles images. +- **OCR text is missing:** Assurez‑vous que le moteur OCR est correctement référencé dans les dépendances de votre projet et que le format d'image est pris en charge (par ex., PNG, JPEG, TIFF). +- **Performance slowdown:** Envisagez de diviser les grandes collections d'images en plusieurs index ou d'utiliser l'indexation incrémentielle pour maintenir des temps de recherche faibles. + +## Questions fréquemment posées + +**Q : Puis‑je utiliser reverse image search Java sur des plateformes cloud ?** +R : Oui, la bibliothèque est indépendante de la plateforme et fonctionne dans tout environnement qui supporte Java, y compris AWS, Azure et Google Cloud. + +**Q : Quelle est la précision de l'extraction OCR pour différentes langues ?** +R : Aspose.OCR prend en charge plus de 60 langues ; vous pouvez spécifier la langue dans les options OCR pour une meilleure précision. + +**Q : Est‑il possible de combiner la recherche par mots‑clés avec la similarité d'images ?** +R : Absolument. Vous pouvez d'abord filtrer les résultats avec une requête par mots‑clés, puis classer les éléments restants par similarité visuelle. + +**Q : Quels formats de fichiers sont pris en charge pour l'indexation d'images ?** +R : Les formats courants tels que JPEG, PNG, BMP et TIFF sont entièrement pris en charge dès l'installation. + +**Q : Comment mettre à jour l'index lorsque les images changent ?** +R : Utilisez la méthode `update` pour retraiter les images modifiées, ou supprimez‑les et ré‑ajoutez‑les afin de garder l'index à jour. + +## Ressources supplémentaires + +### Tutoriels disponibles + +#### [Configurer la reconnaissance de caractères dans GroupDocs.Search pour Java: Guide OCR & recherche d'image](./groupdocs-search-java-character-recognition/) +Apprenez à configurer la reconnaissance de caractères avec GroupDocs.Search pour Java, en vous concentrant sur les caractères réguliers et mélangés. Améliorez votre gestion de documents avec des capacités de recherche avancées. + +#### [Guide d'indexation OCR Java avec Aspose et GroupDocs: Améliorer la recherchabilité des documents](./java-ocr-indexing-aspose-groupdocs-search/) +Apprenez à implémenter une puissante indexation OCR Java en utilisant GroupDocs.Search et Aspose.OCR pour des capacités de recherche de documents renforcées. + +### Liens utiles + +- [Documentation GroupDocs.Search pour Java](https://docs.groupdocs.com/search/java/) +- [Référence API GroupDocs.Search pour Java](https://reference.groupdocs.com/search/java/) +- [Télécharger GroupDocs.Search pour Java](https://releases.groupdocs.com/search/java/) +- [Forum GroupDocs.Search](https://forum.groupdocs.com/c/search) +- [Support gratuit](https://forum.groupdocs.com/) +- [Licence temporaire](https://purchase.groupdocs.com/temporary-license/) + +--- + +**Dernière mise à jour :** 2026-01-11 +**Testé avec :** GroupDocs.Search for Java 23.11 +**Auteur :** GroupDocs \ No newline at end of file diff --git a/content/french/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/french/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md new file mode 100644 index 00000000..f8e6a248 --- /dev/null +++ b/content/french/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -0,0 +1,235 @@ +--- +date: '2026-01-11' +description: Apprenez à créer un index de recherche personnalisé avec GroupDocs.Search + pour Java, en configurant les caractères réguliers et mélangés pour une recherche + OCR avancée et la recherche d’images. +keywords: +- GroupDocs.Search Java +- Java OCR character recognition +- search library Java +title: Créer un index de recherche personnalisé avec reconnaissance de caractères + – GroupDocs.Search Java +type: docs +url: /fr/java/ocr-image-search/groupdocs-search-java-character-recognition/ +weight: 1 +--- + +# Créer un index de recherche personnalisé avec reconnaissance de caractères à l'aide de GroupDocs.Search pour Java + +Dans les applications modernes très axées sur les documents, **créer un index de recherche personnalisé** qui comprend les subtilités de votre texte — telles que les traits d’union, les underscores ou les symboles spécifiques à une langue — est essentiel pour une récupération rapide et précise. Ce tutoriel vous guide à travers la configuration de la reconnaissance de caractères dans **GroupDocs.Search pour Java**, en couvrant à la fois les caractères réguliers (lettres, chiffres, underscores) et les caractères fusionnés (par exemple, les traits d’union). À la fin, vous serez capable d’adapter un index qui répond exactement aux besoins de votre scénario OCR ou de recherche d’images. + +## Réponses rapides +- **Que signifie « créer un index de recherche personnalisé » ?** Cela consiste à configurer un index pour traiter des symboles spécifiques comme des lettres ou des caractères fusionnés, plutôt que de les ignorer. +- **Quelle bibliothèque est utilisée ?** GroupDocs.Search pour Java (v25.4 au moment de la rédaction). +- **Ai‑je besoin d’une licence ?** Un essai gratuit suffit pour le développement ; une licence payante est requise pour la production. +- **Puis‑je indexer à la fois des PDF et des images ?** Oui — GroupDocs.Search prend en charge l’OCR sur les images et les PDF lorsqu’il est correctement configuré. +- **Maven est‑il obligatoire ?** Maven est la méthode recommandée pour gérer les dépendances, mais vous pouvez également utiliser Gradle ou des JARs manuels. + +## Qu’est‑ce qu’un index de recherche personnalisé ? +Un index de recherche personnalisé vous permet de définir comment le moteur de recherche interprète les caractères. Par défaut, de nombreux symboles sont ignorés, ce qui peut entraîner des correspondances manquées pour des éléments tels que les numéros de dossier (`ABC-123`) ou les extraits de code (`my_variable`). Ajuster le dictionnaire d’alphabet vous donne un contrôle total sur ce que le moteur considère comme texte indexable. + +## Pourquoi configurer les caractères réguliers et fusionnés ? +- **Caractères réguliers** (lettres, chiffres, underscores) sont traités comme des jetons autonomes, améliorant les recherches en correspondance exacte. +- **Caractères fusionnés** (traits d’union, barres obliques) relient des mots ; les configurer empêche une division indésirable des jetons, ce qui est crucial pour les références juridiques, les codes produit ou l’indexation de code source. + +## Prérequis +- **JDK 8** ou version ultérieure installé. +- **Maven** pour la gestion des dépendances. +- Accès à la bibliothèque **GroupDocs.Search pour Java** (téléchargée via Maven ou le site officiel). + +### Bibliothèques et dépendances requises +Ajoutez les entrées de dépôt et de dépendance à votre `pom.xml` (comme indiqué ci‑dessous). Le bloc XML doit rester inchangé. + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +Vous pouvez également télécharger les derniers JARs depuis [versions de GroupDocs.Search pour Java](https://releases.groupdocs.com/search/java/). + +### Acquisition de licence +- **Essai gratuit** – idéal pour les premières expérimentations. +- **Licence temporaire** – utile pour des cycles de développement plus longs. +- **Licence de production** – requise pour le déploiement commercial. + +Obtenez une licence via le portail officiel : [GroupDocs](https://purchase.groupdocs.com/temporary-license/). + +### Initialisation de base +L’extrait ci‑dessous montre le code minimal nécessaire pour créer un index vide. Conservez‑le tel quel ; nous le développerons plus tard. + +```java +import com.groupdocs.search.*; + +public class GroupDocsSearchSetup { + public static void main(String[] args) { + String indexFolder = "YOUR_OUTPUT_DIRECTORY"; + String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; + + Index index = new Index(indexFolder); + + System.out.println("GroupDocs.Search setup completed!"); + } +} +``` + +## Configuration de GroupDocs.Search pour Java + +### Installation via Maven +La configuration Maven de la section *Prérequis* est tout ce dont vous avez besoin. Après l’avoir ajoutée, exécutez `mvn clean install` pour récupérer les binaires. + +### Exigences de configuration de l’environnement +- Assurez‑vous que le **dossier d’index** et le **dossier de documents** existent sur le disque. +- Utilisez des chemins absolus ou configurez votre IDE pour résoudre correctement les chemins relatifs. + +## Guide d’implémentation + +Ci‑dessous, nous parcourons deux fonctionnalités distinctes : **caractères réguliers** et **caractères fusionnés**. Chaque fonctionnalité suit le même schéma — définir les chemins, créer l’index, définir le dictionnaire de caractères, puis indexer vos documents. + +### Fonctionnalité 1 – Caractères réguliers + +#### Vue d’ensemble +Les caractères réguliers sont traités comme des jetons indépendants. C’est idéal lorsque vous voulez que les chiffres, lettres et underscores soient recherchables exactement tels quels. + +#### Implémentation pas à pas + +**1️⃣ Définir les chemins** +Spécifiez où l’index sera stocké et où se trouvent vos documents source. + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Créer et configurer l’index** +Instanciez l’index et effacez toute configuration d’alphabet pré‑existante. + +```java +Index index = new Index(indexFolder); +index.getDictionaries().getAlphabet().clear(); +``` + +**3️⃣ Définir les caractères réguliers** +Construisez un tableau de caractères incluant les chiffres, les lettres latines et l’underscore. + +```java +StringBuilder sb = new StringBuilder(); +for (char i = 0x0030; i <= 0x0039; i++) { // Digits + sb.append(i); +} +for (char i = 0x0041; i <= 0x005A; i++) { // Latin capital letters + sb.append(i); +} +sb.append(0x005F); // Underscore +for (char i = 0x0061; i <= 0x007A; i++) { // Latin small letters + sb.append(i); +} + +// Convert to character array and set as alphabet range +char[] characters = new char[sb.length()]; +sb.getChars(0, sb.length(), characters, 0); +index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); +``` + +**4️⃣ Indexer les documents** +Ajoutez tous les fichiers du dossier source à l’index nouvellement configuré. + +```java +index.add(documentFolder); +``` + +### Fonctionnalité 2 – Caractères fusionnés + +#### Vue d’ensemble +Les caractères fusionnés (comme les traits d’union) relient souvent deux mots. Les marquer comme *fusionnés* indique au moteur de garder les jetons environnants ensemble lors de l’indexation. + +#### Implémentation pas à pas + +**1️⃣ Définir les chemins** + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Créer et configurer l’index** + +```java +Index index = new Index(indexFolder); +``` + +**3️⃣ Définir les caractères fusionnés** +Ici, nous indiquons au dictionnaire que le trait d’union doit être traité comme un caractère fusionné. + +```java +index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); +``` + +**4️⃣ Indexer les documents** + +```java +index.add(documentFolder); +``` + +## Applications pratiques + +### Cas d’utilisation 1 – Gestion de documents juridiques +Les dossiers juridiques contiennent souvent des numéros de dossier comme `2023-AB-456`. En configurant les underscores et les traits d’union, les recherches renvoient des correspondances exactes sans scinder l’identifiant. + +### Cas d’utilisation 2 – Référentiels de code source +Les développeurs doivent rechercher des extraits de code où les underscores (`my_variable`) et les traits d’union (`my-function`) sont significatifs. La reconnaissance de caractères personnalisée garantit que le moteur de recherche respecte ces symboles. + +### Cas d’utilisation 3 – Jeux de données multilingues +Lorsque vous travaillez avec des langues qui utilisent des alphabets supplémentaires, vous pouvez étendre l’ensemble des caractères réguliers pour inclure ces plages Unicode, assurant ainsi des résultats de recherche précis entre plusieurs langues. + +## Considérations de performance + +- **Gestion des ressources** – Surveillez l’utilisation du tas ; les gros index bénéficient de validations incrémentielles. +- **Garbage Collection** – Libérez les objets `Index` une fois terminés afin que la JVM récupère la mémoire. +- **Optimisation de l’index** – Appelez périodiquement `index.optimize()` (si disponible) pour compacter l’index et améliorer la vitesse des requêtes. + +## Conclusion + +Vous savez maintenant comment **créer un index de recherche personnalisé** qui distingue les caractères réguliers des caractères fusionnés à l’aide de GroupDocs.Search pour Java. Ce contrôle fin vous permet de construire des solutions de recherche OCR‑aware, haute performance, adaptées aux environnements juridiques, de développement ou multilingues. + +**Prochaines étapes** +- Expérimentez avec des plages Unicode supplémentaires pour les alphabets non latins. +- Combinez la configuration des caractères avec d’autres fonctionnalités de GroupDocs.Search comme le stemming ou les synonymes. +- Intégrez l’index dans une API REST pour exposer les capacités de recherche aux applications front‑end. + +## Foire aux questions + +**Q :** *Quel est le rôle de `CharacterType.Letter` ?* +**R :** Il indique à l’index de traiter les caractères fournis comme des lettres régulières, de sorte qu’ils soient tokenisés séparément lors de l’indexation. + +**Q :** *Puis‑je mélanger des caractères réguliers et fusionnés dans le même index ?* +**R :** Oui — appelez simplement `setRange` pour chaque type ; le dictionnaire gérera les deux configurations simultanément. + +**Q :** *Dois‑je reconstruire l’index après avoir modifié l’alphabet ?* +**R :** Absolument. Les changements du dictionnaire de caractères affectent la tokenisation, il faut donc ré‑indexer les documents pour appliquer les nouvelles règles. + +**Q :** *Existe‑t‑il une limite au nombre de caractères personnalisés que je peux définir ?* +**R :** La bibliothèque prend en charge l’ensemble complet de l’Unicode ; les performances peuvent se dégrader si vous ajoutez un ensemble extrêmement vaste, il est donc recommandé de ne retenir que les caractères réellement nécessaires. + +**Q :** *Comment cela influence‑t‑il la précision de l’OCR ?* +**R :** En alignant l’ensemble de caractères de l’index avec la sortie du moteur OCR, vous réduisez les faux négatifs et améliorez la pertinence globale des recherches. + +--- + +**Dernière mise à jour :** 2026-01-11 +**Testé avec :** GroupDocs.Search 25.4 pour Java +**Auteur :** GroupDocs + +--- \ No newline at end of file diff --git a/content/french/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/french/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md new file mode 100644 index 00000000..540fc7a2 --- /dev/null +++ b/content/french/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -0,0 +1,185 @@ +--- +date: '2026-01-11' +description: Apprenez à utiliser l'indexation OCR de GroupDocs pour Java avec Aspose.OCR, + offrant des capacités de recherche de documents puissantes sur les PDF, les images + et les fichiers numérisés. +keywords: +- Java OCR indexing +- document searchability +- OCR with GroupDocs +title: Comment utiliser GroupDocs pour Java OCR Indexation avec Aspose +type: docs +url: /fr/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/ +weight: 1 +--- + +# Comment utiliser GroupDocs pour l'indexation OCR Java avec Aspose + +Dans ce guide, vous découvrirez **comment utiliser GroupDocs** pour ajouter une recherche alimentée par OCR à vos applications Java. En combinant GroupDocs.Search avec Aspose.OCR, vous pouvez transformer le contenu basé sur des images en texte recherchable, rendant les systèmes de gestion de documents beaucoup plus utiles. Nous parcourrons la configuration, l'indexation, la recherche et l'intégration OCR personnalisée, le tout avec des exemples clairs, étape par étape. + +## Réponses rapides +- **Quelle bibliothèque fournit l'indexation OCR ?** GroupDocs.Search associé à Aspose.OCR. +- **Quelle version de Java est requise ?** JDK 8 ou supérieur. +- **Ai-je besoin d'une licence ?** Un essai gratuit est disponible ; une licence payante est requise pour la production. +- **Puis-je indexer à la fois des images séparées et intégrées ?** Oui, activez les deux options dans `IndexingOptions`. +- **Le multithreading est‑il pris en charge ?** Oui, vous pouvez paralléliser l'indexation pour de grands ensembles de données. + +## Qu'est‑ce que l'indexation OCR avec GroupDocs ? +L'indexation OCR extrait le texte des images (y compris les PDF numérisés) et le stocke dans un index recherchable. GroupDocs.Search gère l'indexation et l'exécution des requêtes, tandis qu'Aspose.OCR effectue la reconnaissance réelle des caractères. + +## Pourquoi utiliser GroupDocs pour l'indexation OCR Java ? +- **Haute précision** grâce au moteur OCR avancé d'Aspose. +- **Intégration Java transparente** via Maven ou des JARs directs. +- **Configuration flexible** pour les images séparées ou intégrées. +- **Performance évolutive** avec le multithreading et les optimisations de mémoire. + +## Prérequis +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR** (dernière version) +- JDK 8+ et un IDE (IntelliJ, Eclipse, NetBeans) +- Connaissances de base en Java ; Maven est utile mais pas obligatoire + +## Configuration de GroupDocs.Search pour Java +### Utilisation de Maven +Ajoutez le dépôt et la dépendance à votre `pom.xml` : + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +### Téléchargement direct +Alternativement, téléchargez la dernière version de GroupDocs.Search pour Java depuis [versions GroupDocs](https://releases.groupdocs.com/search/java/). + +### Acquisition de licence +- **Essai gratuit** – explorez toutes les fonctionnalités sans frais. +- **Licence temporaire** – période de test prolongée. +- **Achat** – requis pour les déploiements en production. + +### Initialisation et configuration de base +Créez un dossier d'index et initialisez l'objet `Index` : + +```java +import com.groupdocs.search.Index; +// Specify the directory where the index will be stored. +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +// Create an instance of Index class at the specified location. +Index index = new Index(indexFolder); +``` + +## Comment utiliser GroupDocs pour l'indexation OCR +### Création d'un index +Tout d'abord, configurez le dossier qui contiendra les fichiers d'index : + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +Index index = new Index(indexFolder); +``` + +### Configuration des options d'indexation OCR +Activez l'OCR pour les images séparées et intégrées, et branchez un connecteur OCR personnalisé : + +```java +import com.groupdocs.search.options.IndexingOptions; +IndexingOptions options = new IndexingOptions(); +options.getOcrIndexingOptions().setEnabledForSeparateImages(true); +options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); +// Set a custom OCR connector. +options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); +``` + +### Indexation des documents +Ajoutez vos documents sources (PDF, fichiers Word, images, etc.) à l'index : + +```java +String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; +index.add(documentsFolder, options); +``` + +### Recherche dans un index +Exécutez une requête de recherche sur le contenu indexé : + +```java +import com.groupdocs.search.results.SearchResult; +String query = "water"; +SearchResult result = index.search(query); +``` + +### Implémentation d'un connecteur OCR +Utilisez Aspose.OCR pour reconnaître le texte des images. Implémentez l'interface `IOcrConnector` comme indiqué : + +```java +import com.groupdocs.search.options.IOcrConnector; +import com.groupdocs.search.options.OcrContext; +import java.awt.image.BufferedImage; +import javax.imageio.ImageIO; +import com.aspose.ocr.AsposeOCR; + +public class OcrConnector implements IOcrConnector { + @Override + public final String recognize(OcrContext context) { + if (null == context.getImageLocation()) { + throw new RuntimeException("The image type is not supported: " + context.getImageLocation()); + } + + BufferedImage image = ImageIO.read(context.getImageLocation().toFile()); + AsposeOCR api = new AsposeOCR(); + String text = api.RecognizePage(image); + return text; + } +} +``` + +## Applications pratiques +1. **Systèmes de gestion de documents** – récupération rapide des documents contenant des images numérisées. +2. **Recherche d'archives** – localiser les dossiers historiques au sein d'archives massives. +3. **Analyse de documents juridiques** – rechercher des contrats et des preuves incluant des signatures ou diagrammes numérisés. +4. **Recherche de dossiers médicaux** – indexer les formulaires patients, résultats de laboratoire et annotations de radiographies. + +## Considérations de performance +- **Taille de l'index** – excluez les métadonnées inutiles pour garder l'index léger. +- **Multithreading** – traitez de gros lots en parallèle pour accélérer l'indexation. +- **Gestion de la mémoire** – surveillez le tas JVM lors du traitement d'images haute résolution. + +## Problèmes courants et solutions +- **Erreurs de licence** – assurez‑vous que le fichier de licence correct est placé dans le répertoire de travail de l'application. +- **Images manquantes** – vérifiez que les chemins d'accès aux images sont accessibles et que les formats sont pris en charge (PNG, JPEG, BMP). +- **Out‑Of‑Memory** – augmentez le tas JVM (`-Xmx`) ou traitez les documents par lots plus petits. + +## Questions fréquemment posées +**Q : Comment résoudre les problèmes de licence avec GroupDocs.Search ?** +R : Obtenez une licence temporaire depuis le [site Web GroupDocs](https://purchase.groupdocs.com/temporary-license/) pour débloquer toutes les fonctionnalités. + +**Q : Quelle est la meilleure façon de gérer l'indexation de gros documents ?** +R : Utilisez le multithreading et le traitement par lots pour améliorer les performances et réduire la pression sur la mémoire. + +**Q : Puis‑je personnaliser davantage les paramètres OCR dans GroupDocs.Search ?** +R : Oui, `IndexingOptions` vous permet d'ajuster finement le comportement de l'OCR, comme la sélection de la langue et le prétraitement des images. + +**Q : Quels sont quelques conseils de dépannage courants lors de l'utilisation de GroupDocs.Search ?** +R : Vérifiez à nouveau les chemins des répertoires, assurez‑vous que toutes les dépendances sont présentes, et examinez la sortie des journaux pour les fichiers manquants. + +**Q : Comment intégrer Aspose.OCR à mon application Java existante ?** +R : Implémentez l'interface `IOcrConnector` comme démontré ci‑dessus, en veillant à gérer correctement l'entrée d'images. + +## Ressources +- [Documentation GroupDocs.Search](https://docs.groupdocs.com/search/java/) +- [Référence API](https://reference.groupdocs.com/search/java/) + +--- + +**Dernière mise à jour :** 2026-01-11 +**Testé avec :** GroupDocs.Search 25.4, Aspose.OCR dernière version +**Auteur :** GroupDocs \ No newline at end of file diff --git a/content/german/java/ocr-image-search/_index.md b/content/german/java/ocr-image-search/_index.md new file mode 100644 index 00000000..3afbb2fa --- /dev/null +++ b/content/german/java/ocr-image-search/_index.md @@ -0,0 +1,99 @@ +--- +date: 2026-01-11 +description: Schritt‑für‑Schritt‑Anleitungen zur Implementierung von OCR, zum Extrahieren + von Text aus Bildern in Java und zur umgekehrten Bildsuche in Java mit GroupDocs.Search. +title: Umgekehrte Bildsuche Java – GroupDocs.Search OCR‑Tutorials +type: docs +url: /de/java/ocr-image-search/ +weight: 7 +--- + +# Reverse Image Search Java – GroupDocs.Search OCR-Tutorials + +In diesem Leitfaden führen wir Sie durch alles, was Sie wissen müssen, um **reverse image search java**‑Lösungen mit GroupDocs.Search zu erstellen. Egal, ob Sie visuelle Suche zu einem inhaltsreichen Portal hinzufügen oder durchsuchbaren Text aus gescannten Assets extrahieren müssen, wir zeigen Ihnen, wie Sie OCR konfigurieren, **extract text from images java** extrahieren und Reverse‑Image‑Look‑ups durchführen – alles mit klaren, produktionsbereiten Beispielen. + +## Schnelle Antworten +- **Was macht reverse image search Java?** Es findet visuell ähnliche Bilder in einer indizierten Sammlung mithilfe von GroupDocs.Search. +- **Welcher OCR‑Engine wird empfohlen?** GroupDocs.Search integriert Aspose.OCR für hochpräzise Textextraktion. +- **Benötige ich eine Lizenz?** Eine temporäre Lizenz funktioniert für Tests; eine Voll‑Lizenz ist für die Produktion erforderlich. +- **Was sind die wichtigsten Voraussetzungen?** Java 8+, GroupDocs.Search für Java und optional Aspose.OCR. +- **Wie lange dauert die Implementierung?** Eine Grundkonfiguration kann in weniger als einer Stunde abgeschlossen werden. + +## Was ist Reverse Image Search Java? +Reverse image search Java ermöglicht es Ihnen, Bilder zu finden, die ähnlich aussehen oder denselben visuellen Inhalt enthalten. Anstatt nach Schlüsselwörtern zu suchen, analysiert die Engine Bildmerkmale, indiziert sie und liefert Treffer, wenn ein Abfragebild übermittelt wird. + +## Warum GroupDocs.Search für Bild‑ und OCR‑Aufgaben verwenden? +- **Unified API** – Verwalten Sie Text‑ und Bildindizierung über eine einzige Bibliothek. +- **High performance** – Optimiert für große Sammlungen und schnelle Abfragezeiten. +- **Extensible** – Bei Bedarf benutzerdefinierte OCR‑Engines oder Bildmerkmal‑Extraktoren einbinden. +- **Cross‑platform** – Funktioniert in jeder Java‑kompatiblen Umgebung, vom Desktop bis zur Cloud. + +## Voraussetzungen +- Java 8 oder neuer installiert. +- GroupDocs.Search für Java Bibliothek zu Ihrem Projekt hinzugefügt (Maven/Gradle). +- (Optional) Aspose.OCR für Java, wenn Sie die beste OCR‑Genauigkeit wünschen. +- Ein Satz von Bildern, die Sie indizieren und durchsuchen möchten. + +## Schritt‑für‑Schritt‑Anleitung + +### Schritt 1: Suchindex einrichten +Erstellen Sie eine neue `SearchIndex`‑Instanz, die auf einen Ordner verweist, in dem die Indexdateien gespeichert werden. Dieser Ordner enthält sowohl Text‑ als auch Bild‑Metadaten. + +### Schritt 2: OCR für Bilddateien konfigurieren +Aktivieren Sie OCR in den Indexierungsoptionen, sodass jedes dem Index hinzugefügte Bild für die Textextraktion verarbeitet wird. Hier kommt das sekundäre Schlüsselwort **extract text from images java** zum Einsatz. + +### Schritt 3: Bilder indizieren +Fügen Sie jede Bilddatei dem Index hinzu. Während dieses Vorgangs extrahiert GroupDocs.Search visuelle Merkmale für die Reverse‑Suche und führt OCR aus, um eingebetteten Text zu extrahieren. + +### Schritt 4: Reverse‑Image‑Suche durchführen +Übergeben Sie ein Abfragebild an die `search`‑Methode. Die Engine vergleicht visuelle Fingerabdrücke und gibt eine sortierte Liste ähnlicher Bilder aus dem Index zurück. + +### Schritt 5: OCR‑Text abrufen (falls erforderlich) +Falls Sie auch den im Bild gefundenen Text benötigen, fragen Sie den Index nach dem OCR‑extrahierten Text mittels einer Standard‑Schlüsselwortsuche ab. + +## Häufige Probleme und Lösungen +- **Keine Ergebnisse zurückgegeben:** Stellen Sie sicher, dass der Bild‑Merkmal‑Extraktor aktiviert ist und dass der Index nach dem Hinzufügen neuer Bilder neu aufgebaut wurde. +- **OCR‑Text fehlt:** Vergewissern Sie sich, dass die OCR‑Engine korrekt in Ihren Projektabhängigkeiten referenziert ist und dass das Bildformat unterstützt wird (z. B. PNG, JPEG, TIFF). +- **Leistungsverlust:** Erwägen Sie, große Bildsammlungen in mehrere Indizes aufzuteilen oder inkrementelle Indizierung zu verwenden, um die Suchzeiten gering zu halten. + +## Häufig gestellte Fragen + +**Q:** Kann ich reverse image search Java auf Cloud‑Plattformen verwenden? +**A:** Ja, die Bibliothek ist plattformunabhängig und funktioniert in jeder Umgebung, die Java unterstützt, einschließlich AWS, Azure und Google Cloud. + +**Q:** Wie genau ist die OCR‑Extraktion für verschiedene Sprachen? +**A:** Aspose.OCR unterstützt über 60 Sprachen; Sie können die Sprache in den OCR‑Optionen angeben, um die Genauigkeit zu verbessern. + +**Q:** Ist es möglich, die Schlüsselwortsuche mit Bildähnlichkeit zu kombinieren? +**A:** Absolut. Sie können zunächst die Ergebnisse mit einer Schlüsselwortabfrage filtern und anschließend die verbleibenden Elemente nach visueller Ähnlichkeit ranken. + +**Q:** Welche Dateiformate werden für die Bildindizierung unterstützt? +**A:** Gängige Formate wie JPEG, PNG, BMP und TIFF werden sofort vollständig unterstützt. + +**Q:** Wie aktualisiere ich den Index, wenn sich Bilder ändern? +**A:** Verwenden Sie die `update`‑Methode, um geänderte Bilder erneut zu verarbeiten, oder löschen und fügen Sie sie erneut hinzu, um den Index aktuell zu halten. + +## Zusätzliche Ressourcen + +### Verfügbare Tutorials + +#### [Konfiguration der Zeichenerkennung in GroupDocs.Search für Java: Ein OCR‑ und Bildsuche‑Leitfaden](./groupdocs-search-java-character-recognition/) +Erfahren Sie, wie Sie die Zeichenerkennung mit GroupDocs.Search für Java konfigurieren, mit Fokus auf reguläre und kombinierte Zeichen. Verbessern Sie Ihr Dokumentenmanagement mit erweiterten Suchfunktionen. + +#### [Java OCR‑Indexierungs‑Leitfaden mit Aspose und GroupDocs: Dokumentensuche verbessern](./java-ocr-indexing-aspose-groupdocs-search/) +Erfahren Sie, wie Sie leistungsstarke Java‑OCR‑Indexierung mit GroupDocs.Search und Aspose.OCR für verbesserte Dokumentensuchfunktionen implementieren. + +### Nützliche Links + +- [GroupDocs.Search für Java Dokumentation](https://docs.groupdocs.com/search/java/) +- [GroupDocs.Search für Java API‑Referenz](https://reference.groupdocs.com/search/java/) +- [GroupDocs.Search für Java herunterladen](https://releases.groupdocs.com/search/java/) +- [GroupDocs.Search Forum](https://forum.groupdocs.com/c/search) +- [Kostenloser Support](https://forum.groupdocs.com/) +- [Temporäre Lizenz](https://purchase.groupdocs.com/temporary-license/) + +--- + +**Zuletzt aktualisiert:** 2026-01-11 +**Getestet mit:** GroupDocs.Search für Java 23.11 +**Autor:** GroupDocs \ No newline at end of file diff --git a/content/german/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/german/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md new file mode 100644 index 00000000..03ffd0e3 --- /dev/null +++ b/content/german/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -0,0 +1,235 @@ +--- +date: '2026-01-11' +description: Erfahren Sie, wie Sie mit GroupDocs.Search für Java einen benutzerdefinierten + Suchindex erstellen und reguläre sowie gemischte Zeichen für fortgeschrittene OCR‑ + und Bildsuche konfigurieren. +keywords: +- GroupDocs.Search Java +- Java OCR character recognition +- search library Java +title: Erstellen eines benutzerdefinierten Suchindex mit Zeichenerkennung – GroupDocs.Search + Java +type: docs +url: /de/java/ocr-image-search/groupdocs-search-java-character-recognition/ +weight: 1 +--- + +# Erstellen eines benutzerdefinierten Suchindexes mit Zeichenerkennung mithilfe von GroupDocs.Search für Java + +In modernen, dokumentintensiven Anwendungen ist **das Erstellen eines benutzerdefinierten Suchindexes**, der die Nuancen Ihres Textes versteht – wie Bindestriche, Unterstriche oder sprachspezifische Symbole – für schnelle, genaue Abrufe unerlässlich. Dieses Tutorial führt Sie durch die Konfiguration der Zeichenerkennung in **GroupDocs.Search für Java**, wobei sowohl reguläre Zeichen (Buchstaben, Ziffern, Unterstriche) als auch kombinierte Zeichen (z. B. Bindestriche) behandelt werden. Am Ende können Sie einen Index anpassen, der exakt den Anforderungen Ihres OCR‑ oder Bildsuch‑Szenarios entspricht. + +## Schnelle Antworten +- **Was bedeutet „create custom search index“?** Es bedeutet, einen Index so zu konfigurieren, dass bestimmte Symbole als Buchstaben oder kombinierte Zeichen behandelt werden, anstatt sie zu ignorieren. +- **Welche Bibliothek wird verwendet?** GroupDocs.Search für Java (v25.4 zum Zeitpunkt der Erstellung). +- **Brauche ich eine Lizenz?** Eine kostenlose Testversion reicht für die Entwicklung; für die Produktion ist eine kostenpflichtige Lizenz erforderlich. +- **Kann ich sowohl PDFs als auch Bilder indexieren?** Ja – GroupDocs.Search unterstützt OCR für Bilder und PDFs, wenn es korrekt konfiguriert ist. +- **Ist Maven erforderlich?** Maven ist der empfohlene Weg zur Verwaltung von Abhängigkeiten, aber Sie können auch Gradle oder manuelle JARs verwenden. + +## Was ist ein benutzerdefinierter Suchindex? +Ein benutzerdefinierter Suchindex ermöglicht es Ihnen festzulegen, wie die Suchmaschine Zeichen interpretiert. Standardmäßig werden viele Symbole ignoriert, was zu verpassten Treffern bei z. B. Aktenzeichen (`ABC-123`) oder Code‑Snippets (`my_variable`) führen kann. Durch Anpassen des Alphabet‑Wörterbuchs erhalten Sie die volle Kontrolle darüber, was die Engine als durchsuchbaren Text behandelt. + +## Warum reguläre und kombinierte Zeichen konfigurieren? +- **Reguläre Zeichen** (Buchstaben, Ziffern, Unterstriche) werden als eigenständige Token behandelt, was exakte Übereinstimmungen verbessert. +- **Kombinierte Zeichen** (Bindestriche, Schrägstriche) verbinden Wörter; ihre Konfiguration verhindert ein unerwünschtes Aufteilen von Token, was für Rechtsreferenzen, Produktcodes oder die Indexierung von Quellcode entscheidend ist. + +## Voraussetzungen +- **JDK 8** oder höher installiert. +- **Maven** für das Abhängigkeitsmanagement. +- Zugriff auf die **GroupDocs.Search für Java**‑Bibliothek (heruntergeladen über Maven oder die offizielle Seite). + +### Erforderliche Bibliotheken und Abhängigkeiten +Fügen Sie die Repository‑ und Abhängigkeits‑Einträge zu Ihrer `pom.xml` hinzu (wie unten gezeigt). Der XML‑Block muss unverändert bleiben. + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +Sie können die neuesten JARs auch von [GroupDocs.Search für Java Releases](https://releases.groupdocs.com/search/java/) herunterladen. + +### Lizenzbeschaffung +- **Kostenlose Testversion** – ideal für frühe Experimente. +- **Temporäre Lizenz** – nützlich für längere Entwicklungszyklen. +- **Produktionslizenz** – für den kommerziellen Einsatz erforderlich. + +Erhalten Sie eine Lizenz über das offizielle Portal: [GroupDocs](https://purchase.groupdocs.com/temporary-license/). + +### Grundlegende Initialisierung +Das untenstehende Snippet zeigt den minimalen Code, der benötigt wird, um einen leeren Index zu erstellen. Belassen Sie es unverändert; wir werden später darauf aufbauen. + +```java +import com.groupdocs.search.*; + +public class GroupDocsSearchSetup { + public static void main(String[] args) { + String indexFolder = "YOUR_OUTPUT_DIRECTORY"; + String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; + + Index index = new Index(indexFolder); + + System.out.println("GroupDocs.Search setup completed!"); + } +} +``` + +## Einrichtung von GroupDocs.Search für Java + +### Installation über Maven +Die Maven‑Konfiguration aus dem Abschnitt *Voraussetzungen* ist alles, was Sie benötigen. Nach dem Hinzufügen führen Sie `mvn clean install` aus, um die Binärdateien zu holen. + +### Anforderungen an die Umgebung +- Stellen Sie sicher, dass der **Index‑Ordner** und der **Dokumenten‑Ordner** auf dem Datenträger existieren. +- Verwenden Sie absolute Pfade oder konfigurieren Sie Ihre IDE so, dass relative Pfade korrekt aufgelöst werden. + +## Implementierungs‑Leitfaden + +Im Folgenden gehen wir die beiden unterschiedlichen Funktionen durch: **reguläre Zeichen** und **kombinierte Zeichen**. Jede Funktion folgt demselben Muster – Pfade definieren, Index erstellen, das Zeichendictionary festlegen und schließlich die Dokumente indexieren. + +### Feature 1 – Reguläre Zeichen + +#### Überblick +Reguläre Zeichen werden als unabhängige Token behandelt. Das ist ideal, wenn Ziffern, Buchstaben und Unterstriche exakt so durchsuchbar sein sollen, wie sie erscheinen. + +#### Schritt‑für‑Schritt‑Implementierung + +**1️⃣ Pfade festlegen** +Definieren Sie, wo der Index gespeichert wird und wo Ihre Quelldokumente liegen. + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Index erstellen und konfigurieren** +Instanziieren Sie den Index und löschen Sie jede bereits vorhandene Alphabet‑Konfiguration. + +```java +Index index = new Index(indexFolder); +index.getDictionaries().getAlphabet().clear(); +``` + +**3️⃣ Reguläre Zeichen definieren** +Erstellen Sie ein Zeichen‑Array, das Ziffern, lateinische Buchstaben und den Unterstrich enthält. + +```java +StringBuilder sb = new StringBuilder(); +for (char i = 0x0030; i <= 0x0039; i++) { // Digits + sb.append(i); +} +for (char i = 0x0041; i <= 0x005A; i++) { // Latin capital letters + sb.append(i); +} +sb.append(0x005F); // Underscore +for (char i = 0x0061; i <= 0x007A; i++) { // Latin small letters + sb.append(i); +} + +// Convert to character array and set as alphabet range +char[] characters = new char[sb.length()]; +sb.getChars(0, sb.length(), characters, 0); +index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); +``` + +**4️⃣ Dokumente indexieren** +Fügen Sie alle Dateien aus dem Quellordner dem neu konfigurierten Index hinzu. + +```java +index.add(documentFolder); +``` + +### Feature 2 – Kombinierte Zeichen + +#### Überblick +Kombinierte Zeichen (wie Bindestriche) verbinden häufig zwei Wörter. Wenn sie als *blended* markiert werden, weist das die Engine an, die umgebenden Token beim Indexieren zusammenzuhalten. + +#### Schritt‑für‑Schritt‑Implementierung + +**1️⃣ Pfade festlegen** + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Index erstellen und konfigurieren** + +```java +Index index = new Index(indexFolder); +``` + +**3️⃣ Kombinierte Zeichen definieren** +Hier teilen wir dem Wörterbuch mit, dass der Bindestrich als kombiniertes Zeichen behandelt werden soll. + +```java +index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); +``` + +**4️⃣ Dokumente indexieren** + +```java +index.add(documentFolder); +``` + +## Praktische Anwendungen + +### Anwendungsfall 1 – Verwaltung juristischer Dokumente +Juristische Dateien enthalten häufig Aktenzeichen wie `2023-AB-456`. Durch die Konfiguration von Unterstrichen und Bindestrichen liefern Suchvorgänge exakte Treffer, ohne den Bezeichner zu splitten. + +### Anwendungsfall 2 – Quellcode‑Repositories +Entwickler müssen Code‑Snippets durchsuchen, bei denen Unterstriche (`my_variable`) und Bindestriche (`my-function`) bedeutungsvoll sind. Benutzerdefinierte Zeichenerkennung stellt sicher, dass die Suchmaschine diese Symbole respektiert. + +### Anwendungsfall 3 – Mehrsprachige Datensätze +Wenn Sie mit Sprachen arbeiten, die zusätzliche Alphabete verwenden, können Sie das reguläre Zeichen‑Set erweitern, um diese Unicode‑Bereiche einzuschließen, und so genaue Suchergebnisse über Sprachgrenzen hinweg garantieren. + +## Leistungs‑Überlegungen + +- **Ressourcen‑Management** – Behalten Sie die Heap‑Nutzung im Auge; große Indexe profitieren von inkrementellen Commits. +- **Garbage Collection** – Geben Sie `Index`‑Objekte frei, wenn sie nicht mehr benötigt werden, damit die JVM den Speicher zurückgewinnt. +- **Index‑Optimierung** – Rufen Sie periodisch `index.optimize()` (falls verfügbar) auf, um den Index zu komprimieren und die Abfragegeschwindigkeit zu verbessern. + +## Fazit + +Sie wissen jetzt, wie Sie **einen benutzerdefinierten Suchindex** erstellen, der zwischen regulären und kombinierten Zeichen mithilfe von GroupDocs.Search für Java unterscheidet. Diese feinkörnige Kontrolle ermöglicht es Ihnen, OCR‑bewusste, leistungsstarke Suchlösungen zu bauen, die auf juristische, Entwicklungs‑ oder mehrsprachige Umgebungen zugeschnitten sind. + +**Nächste Schritte** +- Experimentieren Sie mit zusätzlichen Unicode‑Bereichen für nicht‑lateinische Alphabete. +- Kombinieren Sie die Zeichenkonfiguration mit anderen GroupDocs.Search‑Funktionen wie Stemming oder Synonymen. +- Integrieren Sie den Index in eine REST‑API, um Suchfunktionen Front‑End‑Anwendungen bereitzustellen. + +## Häufig gestellte Fragen + +**F:** *Was ist der Zweck von `CharacterType.Letter`?* +**A:** Es weist den Index an, die angegebenen Zeichen als reguläre Buchstaben zu behandeln, sodass sie beim Indexieren separat tokenisiert werden. + +**F:** *Kann ich reguläre und kombinierte Zeichen im selben Index mischen?* +**A:** Ja – rufen Sie einfach `setRange` für jeden Typ auf; das Wörterbuch verarbeitet beide Konfigurationen gleichzeitig. + +**F:** *Muss ich den Index neu aufbauen, nachdem ich das Alphabet geändert habe?* +**A:** Auf jeden Fall. Änderungen am Zeichenwörterbuch beeinflussen die Tokenisierung, daher müssen Sie die Dokumente neu indexieren, um die neuen Regeln anzuwenden. + +**F:** *Gibt es ein Limit für die Anzahl benutzerdefinierter Zeichen, die ich definieren kann?* +**A:** Die Bibliothek unterstützt den gesamten Unicode‑Bereich; die Leistung kann sinken, wenn Sie ein extrem großes Set hinzufügen, daher sollten Sie es auf die tatsächlich benötigten Zeichen beschränken. + +**F:** *Wie wirkt sich das auf die OCR‑Genauigkeit aus?* +**A:** Durch die Abstimmung des Zeichen‑Sets des Index auf die Ausgabe der OCR‑Engine reduzieren Sie Fehlnegative und verbessern die Gesamtrelevanz der Suche. + +--- + +**Zuletzt aktualisiert:** 2026-01-11 +**Getestet mit:** GroupDocs.Search 25.4 für Java +**Autor:** GroupDocs + +--- \ No newline at end of file diff --git a/content/german/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/german/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md new file mode 100644 index 00000000..09a722d2 --- /dev/null +++ b/content/german/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -0,0 +1,185 @@ +--- +date: '2026-01-11' +description: Erfahren Sie, wie Sie die OCR‑Indexierung von GroupDocs für Java mit + Aspose.OCR nutzen, um leistungsstarke Dokumentensuchfunktionen für PDFs, Bilder + und gescannte Dateien zu ermöglichen. +keywords: +- Java OCR indexing +- document searchability +- OCR with GroupDocs +title: Wie man GroupDocs für Java OCR-Indexierung mit Aspose verwendet +type: docs +url: /de/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/ +weight: 1 +--- + +# So verwenden Sie GroupDocs für Java OCR-Indexierung mit Aspose + +In diesem Leitfaden erfahren Sie **wie Sie GroupDocs** verwenden, um OCR‑gestützte Suche zu Ihren Java‑Anwendungen hinzuzufügen. Durch die Kombination von GroupDocs.Search mit Aspose.OCR können Sie bildbasierte Inhalte in durchsuchbaren Text umwandeln, wodurch Dokumentenmanagement‑Systeme deutlich nützlicher werden. Wir führen Sie durch Einrichtung, Indexierung, Suche und benutzerdefinierte OCR‑Integration, alles mit klaren, Schritt‑für‑Schritt‑Beispielen. + +## Schnelle Antworten +- **Welche Bibliothek bietet OCR‑Indexierung?** GroupDocs.Search in Kombination mit Aspose.OCR. +- **Welche Java‑Version wird benötigt?** JDK 8 oder höher. +- **Benötige ich eine Lizenz?** Eine kostenlose Testversion ist verfügbar; für den Produktionseinsatz ist eine kostenpflichtige Lizenz erforderlich. +- **Kann ich sowohl separate als auch eingebettete Bilder indexieren?** Ja, aktivieren Sie beide Optionen in `IndexingOptions`. +- **Wird Multi‑Threading unterstützt?** Ja, Sie können die Indexierung für große Datenmengen parallelisieren. + +## Was ist OCR‑Indexierung mit GroupDocs? +OCR‑Indexierung extrahiert Text aus Bildern (einschließlich gescannter PDFs) und speichert ihn in einem durchsuchbaren Index. GroupDocs.Search übernimmt die Indexierung und die Ausführung von Abfragen, während Aspose.OCR die eigentliche Zeichenerkennung durchführt. + +## Warum GroupDocs für Java OCR‑Indexierung verwenden? +- **Hohe Genauigkeit** dank der fortschrittlichen OCR‑Engine von Aspose. +- **Nahtlose Java‑Integration** über Maven oder direkte JARs. +- **Flexible Konfiguration** für separate oder eingebettete Bilder. +- **Skalierbare Leistung** mit Multi‑Threading und Speicheroptimierungen. + +## Voraussetzungen +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR** (neueste Version) +- JDK 8+ und eine IDE (IntelliJ, Eclipse, NetBeans) +- Grundlegende Java‑Kenntnisse; Maven ist hilfreich, aber nicht zwingend erforderlich + +## Einrichtung von GroupDocs.Search für Java +### Verwendung von Maven +Add the repository and dependency to your `pom.xml`: + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +### Direkter Download +Alternativ können Sie die neueste Version von GroupDocs.Search für Java von [GroupDocs releases](https://releases.groupdocs.com/search/java/) herunterladen. + +### Lizenzbeschaffung +- **Kostenlose Testversion** – alle Funktionen ohne Kosten testen. +- **Temporäre Lizenz** – erweiterter Testzeitraum. +- **Kauf** – erforderlich für den Produktionseinsatz. + +### Grundlegende Initialisierung und Einrichtung +Create an index folder and initialize the `Index` object: + +```java +import com.groupdocs.search.Index; +// Specify the directory where the index will be stored. +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +// Create an instance of Index class at the specified location. +Index index = new Index(indexFolder); +``` + +## So verwenden Sie GroupDocs für OCR‑Indexierung +### Erstellen eines Index +First, set up the folder that will hold the index files: + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +Index index = new Index(indexFolder); +``` + +### OCR‑Indexierungsoptionen festlegen +Enable OCR for both separate and embedded images, and plug in a custom OCR connector: + +```java +import com.groupdocs.search.options.IndexingOptions; +IndexingOptions options = new IndexingOptions(); +options.getOcrIndexingOptions().setEnabledForSeparateImages(true); +options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); +// Set a custom OCR connector. +options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); +``` + +### Dokumente indexieren +Add your source documents (PDFs, Word files, images, etc.) to the index: + +```java +String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; +index.add(documentsFolder, options); +``` + +### Suche in einem Index +Run a search query against the indexed content: + +```java +import com.groupdocs.search.results.SearchResult; +String query = "water"; +SearchResult result = index.search(query); +``` + +### Implementierung eines OCR‑Connectors +Use Aspose.OCR to recognize text from images. Implement the `IOcrConnector` interface as shown: + +```java +import com.groupdocs.search.options.IOcrConnector; +import com.groupdocs.search.options.OcrContext; +import java.awt.image.BufferedImage; +import javax.imageio.ImageIO; +import com.aspose.ocr.AsposeOCR; + +public class OcrConnector implements IOcrConnector { + @Override + public final String recognize(OcrContext context) { + if (null == context.getImageLocation()) { + throw new RuntimeException("The image type is not supported: " + context.getImageLocation()); + } + + BufferedImage image = ImageIO.read(context.getImageLocation().toFile()); + AsposeOCR api = new AsposeOCR(); + String text = api.RecognizePage(image); + return text; + } +} +``` + +## Praktische Anwendungen +1. **Dokumentenmanagement‑Systeme** – schnelle Abrufung von Dokumenten mit gescannten Bildern. +2. **Archivabfrage** – historische Aufzeichnungen in umfangreichen Archiven finden. +3. **Rechtsdokumenten‑Analyse** – Verträge und Beweismaterialien durchsuchen, die gescannte Unterschriften oder Diagramme enthalten. +4. **Suche in medizinischen Aufzeichnungen** – Patientenformulare, Laborergebnisse und Röntgen‑Anmerkungen indexieren. + +## Leistungsüberlegungen +- **Indexgröße** – unnötige Metadaten ausschließen, um den Index schlank zu halten. +- **Multi‑Threading** – große Stapel parallel verarbeiten, um die Indexierung zu beschleunigen. +- **Speichermanagement** – den JVM‑Heap überwachen, wenn hochauflösende Bilder verarbeitet werden. + +## Häufige Probleme und Lösungen +- **Lizenzfehler** – stellen Sie sicher, dass die korrekte Lizenzdatei im Arbeitsverzeichnis der Anwendung abgelegt ist. +- **Fehlende Bilder** – prüfen Sie, ob Bildpfade zugänglich sind und unterstützte Formate (PNG, JPEG, BMP) vorliegen. +- **Out‑Of‑Memory** – erhöhen Sie den JVM‑Heap (`-Xmx`) oder verarbeiten Sie Dokumente in kleineren Stapeln. + +## Häufig gestellte Fragen +**Q: Wie löse ich Lizenzprobleme mit GroupDocs.Search?** +A: Holen Sie sich eine temporäre Lizenz von der [GroupDocs-Website](https://purchase.groupdocs.com/temporary-license/), um alle Funktionen freizuschalten. + +**Q: Was ist der beste Weg, um die Indexierung großer Dokumente zu handhaben?** +A: Nutzen Sie Multi‑Threading und Batch‑Verarbeitung, um die Leistung zu verbessern und den Speicherbedarf zu reduzieren. + +**Q: Kann ich OCR‑Einstellungen in GroupDocs.Search weiter anpassen?** +A: Ja, `IndexingOptions` ermöglicht das Feintuning des OCR‑Verhaltens, z. B. die Sprachauswahl und Bildvorverarbeitung. + +**Q: Was sind häufige Tipps zur Fehlerbehebung bei der Verwendung von GroupDocs.Search?** +A: Überprüfen Sie die Verzeichnis‑Pfade, stellen Sie sicher, dass alle Abhängigkeiten vorhanden sind, und prüfen Sie die Protokollausgabe auf fehlende Dateien. + +**Q: Wie kann ich Aspose.OCR in meine bestehende Java‑Anwendung integrieren?** +A: Implementieren Sie das `IOcrConnector`‑Interface wie oben gezeigt und stellen Sie sicher, dass Sie die Bildeingabe korrekt verarbeiten. + +## Ressourcen +- [GroupDocs.Search Documentation](https://docs.groupdocs.com/search/java/) +- [API Reference](https://reference.groupdocs.com/search/java/) + +--- + +**Zuletzt aktualisiert:** 2026-01-11 +**Getestet mit:** GroupDocs.Search 25.4, Aspose.OCR neueste Version +**Autor:** GroupDocs \ No newline at end of file diff --git a/content/greek/java/ocr-image-search/_index.md b/content/greek/java/ocr-image-search/_index.md new file mode 100644 index 00000000..c73b492c --- /dev/null +++ b/content/greek/java/ocr-image-search/_index.md @@ -0,0 +1,99 @@ +--- +date: 2026-01-11 +description: Οδηγοί βήμα-βήμα για την υλοποίηση OCR, την εξαγωγή κειμένου από εικόνες + Java και την αντίστροφη αναζήτηση εικόνας Java χρησιμοποιώντας το GroupDocs.Search. +title: Αντίστροφη Αναζήτηση Εικόνας Java – Οδηγοί OCR του GroupDocs.Search +type: docs +url: /el/java/ocr-image-search/ +weight: 7 +--- + +# Αντίστροφη Αναζήτηση Εικόνας Java – Οδηγοί OCR του GroupDocs.Search + +Σε αυτόν τον οδηγό θα σας καθοδηγήσουμε σε όλα όσα χρειάζεται να γνωρίζετε για την κατασκευή λύσεων **αντίστροφης αναζήτησης εικόνας java** με το GroupDocs.Search. Είτε προσθέτετε οπτική αναζήτηση σε μια πύλη πλούσια σε περιεχόμενο είτε χρειάζεστε εξαγωγή αναζητήσιμου κειμένου από σαρωμένα αρχεία, θα σας δείξουμε πώς να ρυθμίσετε το OCR, να εξάγετε κείμενο από εικόνες Java και να εκτελέσετε αντίστροφες αναζητήσεις εικόνας—όλα με σαφή, έτοιμα για παραγωγή παραδείγματα. + +## Γρήγορες Απαντήσεις +- **Τι κάνει η αντίστροφη αναζήτηση εικόνας Java;** Βρίσκει οπτικά παρόμοιες εικόνες σε μια ευρετηριασμένη συλλογή χρησιμοποιώντας το GroupDocs.Search. +- **Ποιος μηχανισμός OCR συνιστάται;** Το GroupDocs.Search ενσωματώνεται με το Aspose.OCR για εξαγωγή κειμένου υψηλής ακρίβειας. +- **Χρειάζομαι άδεια;** Μια προσωρινή άδεια λειτουργεί για δοκιμές· απαιτείται πλήρης άδεια για παραγωγή. +- **Ποια είναι τα κύρια προαπαιτούμενα;** Java 8+, GroupDocs.Search για Java και προαιρετικά Aspose.OCR. +- **Πόσο διαρκεί η υλοποίηση;** Μια βασική ρύθμιση μπορεί να ολοκληρωθεί σε λιγότερο από μία ώρα. + +## Τι είναι η Αντίστροφη Αναζήτηση Εικόνας Java; +Η αντίστροφη αναζήτηση εικόνας Java σας επιτρέπει να εντοπίζετε εικόνες που μοιάζουν ή περιέχουν το ίδιο οπτικό περιεχόμενο. Αντί να ψάχνετε με λέξεις‑κλειδιά, η μηχανή αναλύει τα χαρακτηριστικά της εικόνας, τα ευρετηριάζει και επιστρέφει ταιριάσματα όταν υποβάλλεται μια εικόνα‑ερώτημα. + +## Γιατί να Χρησιμοποιήσετε το GroupDocs.Search για Εργασίες Εικόνας και OCR; +- **Ενοποιημένο API** – Διαχειριστείτε το ευρετηριασμό κειμένου και εικόνας μέσω μιας μόνο βιβλιοθήκης. +- **Υψηλή απόδοση** – Βελτιστοποιημένο για μεγάλες συλλογές και γρήγορους χρόνους αναζήτησης. +- **Επεκτάσιμο** – Προσθέστε προσαρμοσμένους μηχανισμούς OCR ή εξαγωγείς χαρακτηριστικών εικόνας αν χρειαστεί. +- **Διαπλατφορμικό** – Λειτουργεί σε οποιοδήποτε περιβάλλον συμβατό με Java, από επιτραπέζιους υπολογιστές έως το cloud. + +## Προαπαιτούμενα +- Εγκατεστημένο Java 8 ή νεότερο. +- Βιβλιοθήκη GroupDocs.Search για Java προστεθειμένη στο έργο σας (Maven/Gradle). +- (Προαιρετικά) Aspose.OCR για Java αν θέλετε την καλύτερη ακρίβεια OCR. +- Ένα σύνολο εικόνων που θέλετε να ευρετηριάσετε και να αναζητήσετε. + +## Οδηγός Βήμα‑Βήμα + +### Βήμα 1: Ρύθμιση του Ευρετηρίου Αναζήτησης +Δημιουργήστε ένα νέο αντικείμενο `SearchIndex` που δείχνει σε έναν φάκελο όπου θα αποθηκευτούν τα αρχεία του ευρετηρίου. Αυτός ο φάκελος θα περιέχει τόσο κείμενο όσο και μεταδεδομένα εικόνας. + +### Βήμα 2: Ρύθμιση OCR για Αρχεία Εικόνας +Ενεργοποιήστε το OCR στις επιλογές ευρετηρίου ώστε κάθε εικόνα που προστίθεται να υποβάλλεται σε επεξεργασία εξαγωγής κειμένου. Εδώ έρχεται σε παιχνίδι η δευτερεύουσα λέξη‑κλειδί **extract text from images java**. + +### Βήμα 3: Ευρετηρίαση των Εικόνων Σας +Προσθέστε κάθε αρχείο εικόνας στο ευρετήριο. Κατά τη διάρκεια αυτής της λειτουργίας το GroupDocs.Search εξάγει οπτικά χαρακτηριστικά για την αντίστροφη αναζήτηση και εκτελεί OCR για την ανάκτηση τυχόν ενσωματωμένου κειμένου. + +### Βήμα 4: Εκτέλεση Αντίστροφης Αναζήτησης Εικόνας +Παρέχετε μια εικόνα‑ερώτημα στη μέθοδο `search`. Η μηχανή συγκρίνει οπτικά αποτυπώματα και επιστρέφει μια ταξινομημένη λίστα παρόμοιων εικόνων από το ευρετήριο. + +### Βήμα 5: Ανάκτηση Κειμένου OCR (εάν χρειάζεται) +Αν χρειάζεστε επίσης το κειμενικό περιεχόμενο που βρέθηκε μέσα στις εικόνες, ερωτήστε το ευρετήριο για το κείμενο που εξήχθη από OCR χρησιμοποιώντας την τυπική αναζήτηση λέξεων‑κλειδιών. + +## Συνηθισμένα Προβλήματα και Λύσεις +- **Δεν επιστρέχονται αποτελέσματα:** Επαληθεύστε ότι ο εξαγωγέας χαρακτηριστικών εικόνας είναι ενεργοποιημένος και ότι το ευρετήριο έχει ξαναδημιουργηθεί μετά την προσθήκη νέων εικόνων. +- **Λείπει το κείμενο OCR:** Βεβαιωθείτε ότι ο μηχανισμός OCR έχει δηλωθεί σωστά στις εξαρτήσεις του έργου και ότι η μορφή της εικόνας υποστηρίζεται (π.χ., PNG, JPEG, TIFF). +- **Μείωση απόδοσης:** Σκεφτείτε να χωρίσετε μεγάλες συλλογές εικόνων σε πολλαπλά ευρετήρια ή να χρησιμοποιήσετε επαυξητική ευρετηρίαση για να διατηρήσετε τους χρόνους αναζήτησης χαμηλούς. + +## Συχνές Ερωτήσεις + +**Ε: Μπορώ να χρησιμοποιήσω την αντίστροφη αναζήτηση εικόνας Java σε πλατφόρμες cloud;** +Α: Ναι, η βιβλιοθήκη είναι ανεξάρτητη από πλατφόρμα και λειτουργεί σε οποιοδήποτε περιβάλλον που υποστηρίζει Java, συμπεριλαμβανομένων των AWS, Azure και Google Cloud. + +**Ε: Πόσο ακριβής είναι η εξαγωγή OCR για διαφορετικές γλώσσες;** +Α: Το Aspose.OCR υποστηρίζει πάνω από 60 γλώσσες· μπορείτε να καθορίσετε τη γλώσσα στις επιλογές OCR για καλύτερη ακρίβεια. + +**Ε: Είναι δυνατόν να συνδυάσω την αναζήτηση λέξεων‑κλειδιών με την οπτική ομοιότητα;** +Α: Απόλυτα. Μπορείτε πρώτα να φιλτράρετε τα αποτελέσματα με μια ερώτηση λέξεων‑κλειδιών και στη συνέχεια να ταξινομήσετε τα υπόλοιπα στοιχεία με βάση την οπτική ομοιότητα. + +**Ε: Ποιες μορφές αρχείων υποστηρίζονται για ευρετηρίαση εικόνας;** +Α: Συνηθισμένες μορφές όπως JPEG, PNG, BMP και TIFF υποστηρίζονται πλήρως από την αρχή. + +**Ε: Πώς ενημερώνω το ευρετήριο όταν αλλάζουν οι εικόνες;** +Α: Χρησιμοποιήστε τη μέθοδο `update` για να επεξεργαστείτε ξανά τις τροποποιημένες εικόνες ή διαγράψτε και προσθέστε ξανά τις εικόνες για να διατηρήσετε το ευρετήριο ενημερωμένο. + +## Πρόσθετοι Πόροι + +### Διαθέσιμοι Οδηγοί + +#### [Διαμόρφωση Αναγνώρισης Χαρακτήρων στο GroupDocs.Search για Java: Οδηγός OCR & Αναζήτησης Εικόνας](./groupdocs-search-java-character-recognition/) +Μάθετε πώς να ρυθμίσετε την αναγνώριση χαρακτήρων χρησιμοποιώντας το GroupDocs.Search για Java, εστιάζοντας σε κανονικούς και συνδυαστικούςτή. Ενισχύστε τη διαχείριση εγγράφων σας με προηγμένες δυνατότητες αναζήτησης. + +#### [Οδηγός Ευρετηρίασης OCR σε Java με Aspose και GroupDocs: Βελτιώστε την Αναζητησιμότητα Εγγράφων](./java-ocr-indexing-aspose-groupdocs-search/) +Μάθετε να υλοποιήσετε ισχυρή ευρετηρίαση OCR σε Java χρησιμοποιώντας το GroupDocs.Search και το Aspose.OCR για βελτιωμένες δυνατότητες αναζήτησης εγγράφων. + +### Χρήσιμοι Σύνδεσμοι + +- [Τεκμηρίωση GroupDocs.Search για Java](https://docs.groupdocs.com/search/java/) +- [Αναφορά API GroupDocs.Search για Java](https://reference.groupdocs.com/search/java/) +- [Λήψη GroupDocs.Search για Java](https://releases.groupdocs.com/search/java/) +- [Φόρουμ GroupDocs.Search](https://forum.groupdocs.com/c/search) +- [Δωρεάν Υποστήριξη](https://forum.groupdocs.com/) +- [Προσωρινή Άδεια](https://purchase.groupdocs.com/temporary-license/) + +--- + +**Τελευταία Ενημέρωση:** 2026-01-11 +**Δοκιμασμένο Με:** GroupDocs.Search για Java 23.11 +**Συγγραφέας:** GroupDocs \ No newline at end of file diff --git a/content/greek/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/greek/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md new file mode 100644 index 00000000..3ed2bfa0 --- /dev/null +++ b/content/greek/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -0,0 +1,233 @@ +--- +date: '2026-01-11' +description: Μάθετε πώς να δημιουργήσετε προσαρμοσμένο ευρετήριο αναζήτησης χρησιμοποιώντας + το GroupDocs.Search για Java, ρυθμίζοντας κανονικούς και συνδυαστικούς χαρακτήρες + για προηγμένη OCR και αναζήτηση εικόνων. +keywords: +- GroupDocs.Search Java +- Java OCR character recognition +- search library Java +title: Δημιουργία προσαρμοσμένου ευρετηρίου αναζήτησης με αναγνώριση χαρακτήρων – + GroupDocs.Search Java +type: docs +url: /el/java/ocr-image-search/groupdocs-search-java-character-recognition/ +weight: 1 +--- + +# Δημιουργία Προσαρμοσμένου Ευρετηρίου Αναζήτησης με Αναγνώριση Χαρακτήρων χρησιμοποιώντας το GroupDocs.Search για Java + +Σε σύγχρονες εφαρμογές με μεγάλο όγκο εγγράφων, **η δημιουργία ενός προσαρμοσμένου ευρετηρίου αναζήτησης** που κατανοεί τις λεπτομέρειές του κειμένου σας — όπως παύλες, κάτω παύλες ή σύμβολα ειδικά για γλώσσες — είναι απαραίτητη για γρήγορη, ακριβή ανάκτηση. Αυτό το εκπαιδευτικό υλικό σας καθοδηγεί στη διαμόρφωση της αναγνώρισης χαρακτήρων στο **GroupDocs.Search για Java**, καλύπτοντας τόσο κανονικούς χαρακτήρες (γράμματα, ψηφία, κάτω παύλες) όσο και συνδυαστικούς χαρακτήρες (π.χ., παύλες). Στο τέλος, θα μπορείτε να προσαρμόσετε ένα ευρετήριο που ανταποκρίνεται στις ακριβείς ανάγκες του σεναρίου OCR ή αναζήτησης εικόνων. + +## Γρήγορες Απαντήσεις +- **Τι σημαίνει “create custom search index”;** Σημαίνει τη διαμόρφωση ενός ευρετηρίου ώστε να αντιμετωπίζει συγκεκριμένα σύμβολα ως γράμματα ή συνδυαστικούς χαρακτήρες, αντί να τα αγνοεί. +- **Ποια βιβλιοθήκη χρησιμοποιείται;** GroupDocs.Search for Java (v25.4 τη στιγμή της συγγραφής). +- **Χρειάζομαι άδεια;** Μια δωρεάν δοκιμή λειτουργεί για ανάπτυξη· απαιτείται πληρωμένη άδεια για παραγωγή. +- **Μπορώ να ευρετηριάσω τόσο PDF όσο και εικόνες;** Ναι—το GroupDocs.Search υποστηρίζει OCR σε εικόνες και PDF όταν διαμορφωθεί σωστά. +- **Απαιτείται το Maven;** Το Maven είναι η προτεινόμενη μέθοδος διαχείρισης εξαρτήσεων, αλλά μπορείτε επίσης να χρησιμοποιήσετε Gradle ή χειροκίνητα JARs. + +## Τι είναι ένα Προσαρμοσμένο Ευρετήριο Αναζήτησης; +Ένα προσαρμοσμένο ευρετήριο αναζήτησης σας επιτρέπει να ορίσετε πώς η μηχανή αναζήτησης ερμηνεύει τους χαρακτήρες. Από προεπιλογή, πολλά σύμβολα αγνοούνται, κάτι που μπορεί να οδηγήσει σε χαμένα αποτελέσματα για στοιχεία όπως αριθμούς υποθέσεων (`ABC-123`) ή αποσπάσματα κώδικα (`my_variable`). Η προσαρμογή του λεξικού αλφαβήτου σας δίνει πλήρη έλεγχο πάνω σε τι θεωρεί η μηχανή ως αναζητήσιμο κείμενο. + +## Γιατί να Διαμορφώσετε Κανονικούς και Συνδυαστικούς Χαρακτήρες; +- **Κανονικοί χαρακτήρες** (γράμματα, ψηφία, κάτω παύλες) αντιμετωπίζονται ως ανεξάρτητα διακριτικά, βελτιώνοντας τις ακριβείς αναζητήσεις. +- **Συνδυαστικοί χαρακτήρες** (παύλες, κάθετες) συνδέουν λέξεις· η διαμόρφωσή τους αποτρέπει ανεπιθύμητο διαχωρισμό διακριτικών, κάτι που είναι κρίσιμο για νομικές αναφορές, κωδικούς προϊόντων ή ευρετηρίαση πηγαίου κώδικα. + +## Προαπαιτούμενα +-JDK 8** ή νεότερο εγκατεστημένο. +- **Maven** για διαχείριση εξαρτήσεων. +- Πρόσβαση στη βιβλιοθήκη **GroupDocs.Search for Java** (λήψη μέσω Maven ή του επίσημου ιστότοπου). + +### Απαιτούμενες Βιβλιοθήκες και Εξαρτήσεις +Προσθέστε τις καταχωρήσεις αποθετηρίου και εξαρτήσεων στο `pom.xml` (όπως φαίνεται παρακάτω). Το μπλοκ XML πρέπει να παραμείνει αμετάβλητο. + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +Μπορείτε επίσης να κατεβάσετε τα πιο πρόσφατα JAR από [Κυκλοφορίες GroupDocs.Search για Java](https://releases.groupdocs.com/search/java/). + +### Απόκτηση Άδειας +- **Δωρεάν Δοκιμή** – ιδανική για αρχική πειραματισμό. +- **Προσωρινή Άδεια** – χρήσιμη για μεγαλύτερους κύκλους ανάπτυξης. +- **Άδεια Παραγωγής** – απαιτείται για εμπορική ανάπτυξη. + +Αποκτήστε άδεια από την επίσημη πύλη: [GroupDocs](https://purchase.groupdocs.com/temporary-license/). + +### Βασική Αρχικοποίηση +Το παρακάτω απόσπασμα κώδικα δείχνει τον ελάχιστο κώδικα που απαιτείται για τη δημιουργία ενός κεντρικού ευρετηρίου. Διατηρήστε το όπως είναι· θα το επεκτείνουμε αργότερα. + +```java +import com.groupdocs.search.*; + +public class GroupDocsSearchSetup { + public static void main(String[] args) { + String indexFolder = "YOUR_OUTPUT_DIRECTORY"; + String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; + + Index index = new Index(indexFolder); + + System.out.println("GroupDocs.Search setup completed!"); + } +} +``` + +## Ρύθμιση του GroupDocs.Search για Java + +### Εγκατάσταση μέσω Maven +Η διαμόρφωση Maven από την ενότητα *Προαπαιτούμενα* είναι ό,τι χρειάζεστε. Μετά την προσθήκη, εκτελέστε `mvn clean install` για να κατεβάσετε τα δυαδικά αρχεία. + +### Απαιτήσεις Ρύθμισης Περιβάλλοντος +- Βεβαιωθείτε ότι ο **φάκελος ευρετηρίου** και ο **φάκελος εγγράφων** υπάρχουν στο δίσκο. +- Χρησιμοποιήστε απόλυτες διαδρομές ή διαμορφώστε το IDE σας ώστε να επιλύει σωστά τις σχετικές διαδρομές. + +## Οδηγός Υλοποίησης + +Παρακάτω περπατάμε μέσα από δύο ξεχωριστά χαρακτηριστικά: **κανονικούς χαρακτήρες** και **συνδυαστικούς χαρακτήρες**. Κάθε χαρακτηριστικό ακολουθεί το ίδιο μοτίβο — ορισμός διαδρομών, δημιουργία ευρετηρίου, ορισμός λεξικού χαρακτήρων και τέλος ευρετηρίαση των εγγράφων σας. + +### Χαρακτηριστικό 1 – Κανονικοί Χαρακτήρες + +#### Επισκόπηση +Οι κανονικοί χαρακτήρες αντιμετωπίζονται ως ανεξάρτητα διακριτικά. Αυτό είναι ιδανικό όταν θέλετε τα ψηφία, τα γράμματα και τις κάτω παύλες να είναι αναζητήσιμα ακριβώς όπως εμφανίζονται. + +#### Υλοποίηση Βήμα‑Βήμα + +**1️⃣ Ορισμός Διαδρομών** +Ορίστε πού θα αποθηκευτεί το ευρετήριο και πού βρίσκονται τα πηγαία έγγραφά σας. + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Δημιουργία και Διαμόρφωση Ευρετηρίου** +Δημιουργήστε ένα αντικείμενο ευρετηρίου και καθαρίστε τυχόν προϋπάρχουσα διαμόρφωση αλφαβήτου. + +```java +Index index = new Index(indexFolder); +index.getDictionaries().getAlphabet().clear(); +``` + +**3️⃣ Ορισμός Κανονικών Χαρακτήρων** +Δημιουργήστε έναν πίνακα χαρακτήρων που περιλαμβάνει ψηφία, λατινικά γράμματα και την κάτω παύλα. + +```java +StringBuilder sb = new StringBuilder(); +for (char i = 0x0030; i <= 0x0039; i++) { // Digits + sb.append(i); +} +for (char i = 0x0041; i <= 0x005A; i++) { // Latin capital letters + sb.append(i); +} +sb.append(0x005F); // Underscore +for (char i = 0x0061; i <= 0x007A; i++) { // Latin small letters + sb.append(i); +} + +// Convert to character array and set as alphabet range +char[] characters = new char[sb.length()]; +sb.getChars(0, sb.length(), characters, 0); +index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); +``` + +**4️⃣ Ευρετηρίαση Εγγράφων** +Προσθέστε όλα τα αρχεία από τον φάκελο πηγής στο νεοδιαμορφωμένο ευρετήριο. + +```java +index.add(documentFolder); +``` + +### Χαρακτηριστικό 2 – Συνδυαστικοί Χαρακτήρες + +#### Επισκόπηση +Οι συνδυαστικοί χαρακτήρες (όπως οι παύλες) συχνά συνδέουν δύο λέξεις. Η σήμανσή τους ως *συνδυαστικοί* λέει στη μηχανή να διατηρεί τα γύρω διακριτικά μαζί κατά την ευρετηρίαση. + +#### Υλοποίηση Βήμα‑Βήμα + +**1️⃣ Ορισμός Διαδρομών** + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Δημιουργία και Διαμόρφωση Ευρετηρίου** + +```java +Index index = new Index(indexFolder); +``` + +**3️⃣ Ορισμός Συνδυαστικών Χαρακτήρων** +Εδώ ενημερώνουμε το λεξικό ότι η παύλα πρέπει να αντιμετωπίζεται ως συνδυαστικός χαρακτήρας. + +```java +index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); +``` + +**4️⃣ Ευρετηρίαση Εγγράφων** + +```java +index.add(documentFolder); +``` + +## Πρακτικές Εφαρμογές + +### Περίπτωση Χρήσης 1 – Διαχείριση Νομικών Εγγράφων +Τα νομικά αρχεία συχνά περιέχουν αριθμούς υποθέσεων όπως `2023-AB-456`. Με τη διαμόρφωση των κάτω παυλών και των παυλών, οι αναζητήσεις επιστρέφουν ακριβείς αντιστοιχίες χωρίς να χωρίζουν το αναγνωριστικό. + +### Περίπτωση Χρήσης 2 – Αποθετήρια Πηγαίου Κώδικα +Οι προγραμματιστές χρειάζονται να αναζητούν αποσπάσματα κώδικα όπου οι κάτω παύλες (`my_variable`) και οι παύλες (`my-function`) έχουν σημασία. Η προσαρμοσμένη αναγνώριση χαρακτήρων διασφαλίζει ότι η μηχανή αναζήτησης σέβεται αυτά τα σύμβολα. + +### Περίπτωση Χρήσης 3 – Πολυγλωσσικά Σύνολα Δεδομένων +Όταν εργάζεστε με γλώσσες που χρησιμοποιούν πρόσθετα αλφάβητα, μπορείτε να επεκτείνετε το σύνολο των κανονικών χαρακτήρων ώστε να περιλαμβάνει αυτά τα εύρη Unicode, εξασφαλίζοντας ακριβή αποτελέσματα αναζήτησης μεταξύ γλωσσών. + +## Σκέψεις για την Απόδοση +- **Διαχείριση Πόρων** – Παρακολουθείτε τη χρήση του heap· μεγάλα ευρετήρια ωφελούνται από σταδιακές υποβολές. +- **Συλλογή Απορριμμάτων** – Αποδεσμεύστε αντικείμενα `Index` όταν τελειώσετε ώστε η JVM να ανακτήσει τη μνήμη. +- **Βελτιστοποίηση Ευρετηρίου** – Καλέστε περιοδικά το `index.optimize()` (αν είναι διαθέσιμο) για συμπίεση του ευρετηρίου και βελτίωση της ταχύτητας ερωτήματος. + +## Συμπέρασμα +Τώρα γνωρίζετε πώς να **δημιουργήσετε ένα προσαρμοσμένο ευρετήριο αναζήτησης** που διακρίνει μεταξύ κανονικών και συνδυαστικών χαρακτήρων χρησιμοποιώντας το GroupDocs.Search για Java. Αυτός ο λεπτομερής έλεγχος σας δίνει τη δυνατότητα να δημιουργήσετε λύσεις αναζήτησης με γνώση OCR, υψηλής απόδοσης, προσαρμοσμένες σε νομικά, προγραμματιστικά ή πολυγλωσσικά περιβάλλοντα. + +**Επόμενα Βήματα** +- Πειραματιστείτε με πρόσθετα εύρη Unicode για μη λατινικά αλφάβητα. +- Συνδυάστε τη διαμόρφωση χαρακτήρων με άλλες δυνατότητες του GroupDocs.Search όπως stemming ή συνώνυμα. +- Ενσωματώστε το ευρετήριο σε ένα REST API για να εκθέσετε τις δυνατότητες αναζήτησης σε εφαρμογές front‑end. + +## Συχνές Ερωτήσεις + +**Q:** *Ποιος είναι ο σκοπός του `CharacterType.Letter`;* +**A:** Λέει στο ευρετήριο να αντιμετωπίζει τους παρεχόμενους χαρακτήρες ως κανονικά γράμματα, ώστε να διαχωρίζονται ως διακριτικά κατά την ευρετηρίαση. + +**Q:** *Μπορώ να συνδυάσω κανονικούς και συνδυαστικούς χαρακτήρες στο ίδιο ευρετήριο;* +**A:** Ναι—απλώς καλέστε `setRange` για κάθε τύπο· το λεξικό θα διαχειριστεί και τις δύο διαμορφώσεις ταυτόχρονα. + +**Q:** *Πρέπει να ξαναχτίσω το ευρετήριο μετά την αλλαγή του αλφαβήτου;* +**A:** Απόλυτα. Οι αλλαγές στο λεξικό χαρακτήρων επηρεάζουν τη διαχωριστική διαδικασία, επομένως πρέπει να επαναευρετηριάσετε τα έγγραφα για να εφαρμοστούν οι νέοι κανόνες. + +**Q:** *Υπάρχει όριο στον αριθμό των προσαρμοσμένων χαρακτήρων που μπορώ να ορίσω;* +**A:** Η βιβλιοθήκη υποστηρίζει ολόκληρο το εύρος Unicode· η απόδοση μπορεί να μειωθεί εάν προσθέσετε ένα εξαιρετικά μεγάλο σύνολο, γι' αυτό περιορίστε το στους χαρακτήρες που πραγματικά χρειάζεστε. + +**Q:** *Πώς αυτό επηρεάζει την ακρίβεια του OCR;* +**A:** Ευθυγραμμίζοντας το σύνολο χαρακτήρων του ευρετηρίου με την έξοδο του μηχανήματος OCR, μειώνετε τα ψευδή αρνητικά και βελτιώνετε τη συνολική σχετικότητα της αναζήτησης. + +--- + +**Τελευταία Ενημέρωση:** 2026-01-11 +**Δοκιμή Με:** GroupDocs.Search 25.4 for Java +**Συγγραφέας:** GroupDocs + +--- \ No newline at end of file diff --git a/content/greek/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/greek/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md new file mode 100644 index 00000000..41cfd58a --- /dev/null +++ b/content/greek/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -0,0 +1,185 @@ +--- +date: '2026-01-11' +description: Μάθετε πώς να χρησιμοποιείτε το GroupDocs for Java OCR indexing με το + Aspose.OCR, επιτρέποντας ισχυρές δυνατότητες αναζήτησης εγγράφων σε PDF, εικόνες + και σαρωμένα αρχεία. +keywords: +- Java OCR indexing +- document searchability +- OCR with GroupDocs +title: Πώς να χρησιμοποιήσετε το GroupDocs for Java OCR Indexing με το Aspose +type: docs +url: /el/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/ +weight: 1 +--- + +# Πώς να Χρησιμοποιήσετε το GroupDocs για Java OCR Indexing με το Aspose + +Σε αυτόν τον οδηγό θα ανακαλύψετε **πώς να χρησιμοποιήσετε το GroupDocs** για να προσθέσετε αναζήτηση με OCR στις εφαρμογές Java. Συνδυάζοντας το GroupDocs.Search με το Aspose.OCR, μπορείτε να μετατρέψετε περιεχόμενο βασισμένο σε εικόνες σε αναζητήσιμο κείμενο, καθιστώντας τα συστήματα διαχείρισης εγγράφων πολύ πιο χρήσιμα. Θα περάσουμε από τη ρύθμιση, την δημιουργία ευρετηρίου, την αναζήτηση και την προσαρμοσμένη ενσωμάτωση OCR, όλα με σαφή, βήμα‑βήμα παραδείγματα. + +## Γρήγορες Απαντήσεις +- **Ποια βιβλιοθήκη παρέχει OCR indexing;** GroupDocs.Search σε συνδυασμό με Aspose.OCR. +- **Ποια έκδοση Java απαιτείται;** JDK 8 ή νεότερη. +- **Χρειάζεται άδεια;** Διατίθεται δωρεάν δοκιμή· απαιτείται επί πληρωμή άδεια για παραγωγική χρήση. +- **Μπορώ να ευρετηριάσω τόσο ξεχωριστές όσο και ενσωματωμένες εικόνες;** Ναι, ενεργοποιήστε και τις δύο επιλογές στο `IndexingOptions`. +- **Υποστηρίζεται πολυνηματικότητα;** Ναι, μπορείτε να παραλληλοποιήσετε τη δημιουργία ευρετηρίου για μεγάλα σύνολα δεδομένων. + +## Τι είναι το OCR Indexing με το GroupDocs; +Το OCR indexing εξάγει κείμενο από εικόνες (συμπεριλαμβανομένων των σαρωμένων PDF) και το αποθηκεύει σε ένα αναζητήσιμο ευρετήριο. Το GroupDocs.Search διαχειρίζεται τη δημιουργία ευρετηρίου και την εκτέλεση ερωτημάτων, ενώ το Aspose.OCR εκτελεί την πραγματική αναγνώριση χαρακτήρων. + +## Γιατί να χρησιμοποιήσετε το GroupDocs για Java OCR indexing; +- **Υψηλή ακρίβεια** χάρη στη προηγμένη μηχανή OCR του Aspose. +- **Απρόσκοπτη ενσωμάτωση Java** μέσω Maven ή άμεσων JAR. +- **Ευέλικτη διαμόρφωση** για ξεχωριστές ή ενσωματωμένες εικόνες. +- **Κλιμακούμενη απόδοση** με πολυνηματικότητα και βελτιστοποιήσεις μνήμης. + +## Προαπαιτούμενα +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR** (τελευταία έκδοση) +- JDK 8+ και ένα IDE (IntelliJ, Eclipse, NetBeans) +- Βασικές γνώσεις Java· το Maven είναι χρήσιμο αλλά όχι υποχρεωτικό + +## Ρύθμιση του GroupDocs.Search για Java +### Χρήση Maven +Προσθέστε το αποθετήριο και την εξάρτηση στο `pom.xml`: + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +### Άμεση Λήψη +Εναλλακτικά, κατεβάστε την πιο πρόσφατη έκδοση του GroupDocs.Search για Java από το [GroupDocs releases](https://releases.groupdocs.com/search/java/). + +### Απόκτηση Άδειας +- **Δωρεάν Δοκιμή** – εξερευνήστε όλες τις λειτουργίες χωρίς κόστος. +- **Προσωρινή Άδεια** – παρατεταμένη περίοδος δοκιμής. +- **Αγορά** – απαιτείται για παραγωγικές εγκαταστάσεις. + +### Βασική Αρχικοποίηση και Ρύθμιση +Δημιουργήστε έναν φάκελο ευρετηρίου και αρχικοποιήστε το αντικείμενο `Index`: + +```java +import com.groupdocs.search.Index; +// Specify the directory where the index will be stored. +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +// Create an instance of Index class at the specified location. +Index index = new Index(indexFolder); +``` + +## Πώς να Χρησιμοποιήσετε το GroupDocs για OCR Indexing +### Δημιουργία Ευρετηρίου +Αρχικά, ρυθμίστε το φάκελο που θα κρατά τα αρχεία του ευρετηρίου: + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +Index index = new Index(indexFolder); +``` + +### Ρύθμιση Επιλογών OCR Indexing +Ενεργοποιήστε το OCR για ξεχωριστές και ενσωματωμένες εικόνες και συνδέστε έναν προσαρμοσμένο OCR connector: + +```java +import com.groupdocs.search.options.IndexingOptions; +IndexingOptions options = new IndexingOptions(); +options.getOcrIndexingOptions().setEnabledForSeparateImages(true); +options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); +// Set a custom OCR connector. +options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); +``` + +### Δημιουργία Ευρετηρίου Εγγράφων +Προσθέστε τα πηγαία έγγραφα (PDF, Word, εικόνες κ.λπ.) στο ευρετήριο: + +```java +String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; +index.add(documentsFolder, options); +``` + +### Αναζήτηση σε Ευρετήριο +Εκτελέστε ένα ερώτημα αναζήτησης στο ευρετηριασμένο περιεχόμενο: + +```java +import com.groupdocs.search.results.SearchResult; +String query = "water"; +SearchResult result = index.search(query); +``` + +### Υλοποίηση OCR Connector +Χρησιμοποιήστε το Aspose.OCR για την αναγνώριση κειμένου από εικόνες. Υλοποιήστε τη διεπαφή `IOcrConnector` όπως φαίνεται: + +```java +import com.groupdocs.search.options.IOcrConnector; +import com.groupdocs.search.options.OcrContext; +import java.awt.image.BufferedImage; +import javax.imageio.ImageIO; +import com.aspose.ocr.AsposeOCR; + +public class OcrConnector implements IOcrConnector { + @Override + public final String recognize(OcrContext context) { + if (null == context.getImageLocation()) { + throw new RuntimeException("The image type is not supported: " + context.getImageLocation()); + } + + BufferedImage image = ImageIO.read(context.getImageLocation().toFile()); + AsposeOCR api = new AsposeOCR(); + String text = api.RecognizePage(image); + return text; + } +} +``` + +## Πρακτικές Εφαρμογές +1. **Συστήματα Διαχείρισης Εγγράφων** – γρήγορη ανάκτηση εγγράφων που περιέχουν σαρωμένες εικόνες. +2. **Αναζήτηση σε Αρχεία** – εντοπισμός ιστορικών αρχείων μέσα σε τεράστιες συλλογές. +3. **Ανάλυση Νομικών Εγγράφων** – αναζήτηση συμβάσεων και αποδείξεων που περιλαμβάνουν σαρωμένες υπογραφές ή διαγράμματα. +4. **Αναζήτηση Ιατρικών Αρχείων** – ευρετηρίαση φορμών ασθενών, εργαστηριακών αποτελεσμάτων και σχολίων ακτινογραφιών. + +## Σκέψεις για την Απόδοση +- **Μέγεθος Ευρετηρίου** – εξαιρέστε περιττά μεταδεδομένα για να διατηρήσετε το ευρετήριο ελαφρύ. +- **Πολυνηματικότητα** – επεξεργαστείτε μεγάλες παρτίδες παράλληλα για ταχύτερη δημιουργία ευρετηρίου. +- **Διαχείριση Μνήμης** – παρακολουθήστε το heap της JVM όταν χειρίζεστε εικόνες υψηλής ανάλυσης. + +## Συχνά Προβλήματα και Λύσεις +- **Σφάλματα Άδειας** – βεβαιωθείτε ότι το σωστό αρχείο άδειας βρίσκεται στον φάκελο εργασίας της εφαρμογής. +- **Απουσία Εικόνων** – ελέγξτε ότι οι διαδρομές εικόνων είναι προσβάσιμες και ότι οι μορφές (PNG, JPEG, BMP) υποστηρίζονται. +- **Out‑Of‑Memory** – αυξήστε το heap της JVM (`-Xmx`) ή επεξεργαστείτε τα έγγραφα σε μικρότερες παρτίδες. + +## Συχνές Ερωτήσεις +**Ε: Πώς λύνω προβλήματα άδειας με το GroupDocs.Search;** +Α: Αποκτήστε προσωρινή άδεια από το [GroupDocs website](https://purchase.groupdocs.com/temporary-license/) για να ξεκλειδώσετε όλες τις λειτουργίες. + +**Ε: Ποιος είναι ο καλύτερος τρόπος για τη διαχείριση μεγάλων ευρετηρίων εγγράφων;** +Α: Χρησιμοποιήστε πολυνηματικότητα και επεξεργασία παρτίδων για βελτίωση της απόδοσης και μείωση της πίεσης μνήμης. + +**Ε: Μπορώ να προσαρμόσω περαιτέρω τις ρυθμίσεις OCR στο GroupDocs.Search;** +Α: Ναι, το `IndexingOptions` σας επιτρέπει να ρυθμίσετε λεπτομερώς τη συμπεριφορά OCR, όπως επιλογή γλώσσας και προεπεξεργασία εικόνας. + +**Ε: Ποια είναι μερικά κοινά συμβουλευτικά σημεία για την αντιμετώπιση προβλημάτων στο GroupDocs.Search;** +Α: Ελέγξτε ξανά τις διαδρομές καταλόγων, βεβαιωθείτε ότι όλες οι εξαρτήσεις είναι παρούσες και εξετάστε τα αρχεία καταγραφής για τυχόν ελλείποντα αρχεία. + +**Ε: Πώς μπορώ να ενσωματώσω το Aspose.OCR στην υπάρχουσα εφαρμογή Java;** +Α: Υλοποιήστε τη διεπαφή `IOcrConnector` όπως φαίνεται παραπάνω, διασφαλίζοντας ότι διαχειρίζεστε σωστά την είσοδο εικόνας. + +## Πόροι +- [GroupDocs.Search Documentation](https://docs.groupdocs.com/search/java/) +- [API Reference](https://reference.groupdocs.com/search/java/) + +--- + +**Τελευταία Ενημέρωση:** 2026-01-11 +**Δοκιμάστηκε Με:** GroupDocs.Search 25.4, Aspose.OCR τελευταία έκδοση +**Συγγραφέας:** GroupDocs \ No newline at end of file diff --git a/content/hindi/java/ocr-image-search/_index.md b/content/hindi/java/ocr-image-search/_index.md new file mode 100644 index 00000000..c620775a --- /dev/null +++ b/content/hindi/java/ocr-image-search/_index.md @@ -0,0 +1,99 @@ +--- +date: 2026-01-11 +description: GroupDocs.Search का उपयोग करके OCR लागू करने, जावा में छवियों से टेक्स्ट + निकालने, और जावा में रिवर्स इमेज सर्च के लिए चरण-दर-चरण ट्यूटोरियल। +title: रिवर्स इमेज सर्च जावा – GroupDocs.Search OCR ट्यूटोरियल्स +type: docs +url: /hi/java/ocr-image-search/ +weight: 7 +--- + +# रिवर्स इमेज सर्च Java – GroupDocs.Search OCR ट्यूटोरियल्स + +इस गाइड में हम आपको GroupDocs.Search के साथ **रिवर्स इमेज सर्च Java** समाधान बनाने के लिए आवश्यक सभी जानकारी देंगे। चाहे आप कंटेंट‑रिच पोर्टल में विज़ुअल सर्च जोड़ रहे हों या स्कैन किए गए एसेट्स से सर्चेबल टेक्स्ट निकालना चाहते हों, हम आपको OCR को कॉन्फ़िगर करने, इमेजेज़ से टेक्स्ट निकालने (Java) और रिवर्स इमेज लुक‑अप करने के स्पष्ट, प्रोडक्शन‑रेडी उदाहरण दिखाएंगे। + +## त्वरित उत्तर +- **रिवर्स इमेज सर्च Java क्या करता है?** यह GroupDocs.Search का उपयोग करके इंडेक्स्ड कलेक्शन में विज़ुअली समान इमेजेज़ खोजता है। +- **कौन सा OCR इंजन अनुशंसित है?** GroupDocs.Search उच्च‑सटीकता टेक्स्ट एक्सट्रैक्शन के लिए Aspose.OCR के साथ इंटीग्रेटेड है। +- **क्या मुझे लाइसेंस चाहिए?** परीक्षण के लिए एक टेम्पररी लाइसेंस काम करता है; प्रोडक्शन के लिए पूर्ण लाइसेंस आवश्यक है। +- **मुख्य पूर्वापेक्षाएँ क्या हैं?** Java 8+, GroupDocs.Search for Java, और वैकल्पिक रूप से Aspose.OCR। +- **इम्प्लीमेंटेशन में कितना समय लगेगा?** बेसिक सेटअप एक घंटे से कम में पूरा किया जा सकता है। + +## रिवर्स इमेज सर्च Java क्या है? +रिवर्स इमेज सर्च Java आपको ऐसे इमेजेज़ खोजने में मदद करता है जो दिखने में समान हों या समान विज़ुअल कंटेंट रखती हों। कीवर्ड की बजाय, इंजन इमेज फीचर्स का विश्लेषण करता है, उन्हें इंडेक्स करता है, और जब क्वेरी इमेज सबमिट की जाती है तो मिलान लौटाता है। + +## इमेज और OCR कार्यों के लिए GroupDocs.Search क्यों उपयोग करें? +- **Unified API** – एक ही लाइब्रेरी के माध्यम से टेक्स्ट और इमेज इंडेक्सिंग को मैनेज करें। +- **High performance** – बड़े कलेक्शन और तेज़ लुक‑अप टाइम के लिए ऑप्टिमाइज़्ड। +- **Extensible** – आवश्यकता पड़ने पर कस्टम OCR इंजन या इमेज फीचर एक्सट्रैक्टर प्लग‑इन कर सकते हैं। +- **Cross‑platform** – डेस्कटॉप से क्लाउड तक, किसी भी Java‑कम्पैटिबल एनवायरनमेंट में काम करता है। + +## पूर्वापेक्षाएँ +- Java 8 या उससे नया इंस्टॉल हो। +- अपने प्रोजेक्ट में GroupDocs.Search for Java लाइब्रेरी जोड़ें (Maven/Gradle)। +- (वैकल्पिक) सबसे बेहतर OCR सटीकता के लिए Aspose.OCR for Java। +- उन इमेजेज़ का सेट जो आप इंडेक्स और सर्च करना चाहते हैं। + +## स्टेप‑बाय‑स्टेप गाइड + +### स्टेप 1: सर्च इंडेक्स सेट अप करें +एक नया `SearchIndex` इंस्टेंस बनाएं जो उस फ़ोल्डर की ओर इशारा करे जहाँ इंडेक्स फ़ाइलें स्टोर होंगी। यह फ़ोल्डर टेक्स्ट और इमेज मेटाडेटा दोनों को रखेगा। + +### स्टेप 2: इमेज फ़ाइलों के लिए OCR कॉन्फ़िगर करें +इंडेक्सिंग ऑप्शन्स में OCR को एनेबल करें ताकि इंडेक्स में जोड़ी गई कोई भी इमेज टेक्स्ट एक्सट्रैक्शन के लिए प्रोसेस हो। यही वह जगह है जहाँ द्वितीयक कीवर्ड **extract text from images java** काम आता है। + +### स्टेप 3: अपनी इमेजेज़ को इंडेक्स करें +प्रत्येक इमेज फ़ाइल को इंडेक्स में जोड़ें। इस ऑपरेशन के दौरान GroupDocs.Search रिवर्स सर्च के लिए विज़ुअल फीचर्स एक्सट्रैक्ट करता है और किसी भी एम्बेडेड टेक्स्ट को निकालने के लिए OCR चलाता है। + +### स्टेप 4: रिवर्स इमेज सर्च करें +`search` मेथड को क्वेरी इमेज प्रदान करें। इंजन विज़ुअल फ़िंगरप्रिंट्स की तुलना करता है और इंडेक्स से समान इमेजेज़ की रैंक्ड लिस्ट लौटाता है। + +### स्टेप 5: OCR टेक्स्ट प्राप्त करें (यदि आवश्यक हो) +यदि आपको इमेजेज़ के भीतर पाया गया टेक्स्ट भी चाहिए, तो स्टैंडर्ड कीवर्ड सर्च का उपयोग करके OCR‑एक्सट्रैक्टेड टेक्स्ट के लिए इंडेक्स को क्वेरी करें। + +## सामान्य समस्याएँ और समाधान +- **कोई परिणाम नहीं मिला:** सुनिश्चित करें कि इमेज फीचर एक्सट्रैक्टर एनेबल है और नई इमेजेज़ जोड़ने के बाद इंडेक्स रीबिल्ड किया गया है। +- **OCR टेक्स्ट गायब:** प्रोजेक्ट डिपेंडेंसीज़ में OCR इंजन सही से रेफ़रेंस किया गया है और इमेज फ़ॉर्मेट सपोर्टेड है (जैसे PNG, JPEG, TIFF) यह जांचें। +- **परफ़ॉर्मेंस स्लो डाउन:** बड़े इमेज कलेक्शन को कई इंडेक्स में विभाजित करने या इन्क्रिमेंटल इंडेक्सिंग का उपयोग करने पर विचार करें ताकि सर्च टाइम कम रहे। + +## अक्सर पूछे जाने वाले प्रश्न + +**Q: क्या मैं रिवर्स इमेज सर्च Java को क्लाउड प्लेटफ़ॉर्म पर उपयोग कर सकता हूँ?** +**A:** हाँ, लाइब्रेरी प्लेटफ़ॉर्म‑अज्ञेय है और किसी भी Java‑सपोर्टेड एनवायरनमेंट पर काम करती है, जिसमें AWS, Azure और Google Cloud शामिल हैं। + +**Q: विभिन्न भाषाओं के लिए OCR एक्सट्रैक्शन की सटीकता कितनी है?** +**A:** Aspose.OCR 60 से अधिक भाषाओं को सपोर्ट करता है; बेहतर सटीकता के लिए OCR ऑप्शन्स में भाषा निर्दिष्ट कर सकते हैं। + +**Q: क्या कीवर्ड सर्च को इमेज समानता के साथ मिलाया जा सकता है?** +**A:** बिल्कुल। आप पहले कीवर्ड क्वेरी से परिणाम फ़िल्टर कर सकते हैं और फिर शेष आइटम्स को विज़ुअल समानता के आधार पर रैंक कर सकते हैं। + +**Q: इमेज इंडेक्सिंग के लिए कौन‑से फ़ाइल फ़ॉर्मेट सपोर्टेड हैं?** +**A:** JPEG, PNG, BMP और TIFF जैसे सामान्य फ़ॉर्मेट पूरी तरह से सपोर्टेड हैं। + +**Q: जब इमेजेज़ बदलें तो इंडेक्स को कैसे अपडेट करें?** +**A:** `update` मेथड का उपयोग करके संशोधित इमेजेज़ को फिर से प्रोसेस करें, या इंडेक्स को वर्तमान रखने के लिए उन्हें डिलीट करके पुनः जोड़ें। + +## अतिरिक्त संसाधन + +### उपलब्ध ट्यूटोरियल्स + +#### [Configuring Character Recognition in GroupDocs.Search for Java: An OCR & Image Search Guide](./groupdocs-search-java-character-recognition/) +GroupDocs.Search for Java का उपयोग करके कैरेक्टर रिकग्निशन को कॉन्फ़िगर करना सीखें, नियमित और मिश्रित कैरेक्टर्स पर फोकस करते हुए। उन्नत सर्च क्षमताओं के साथ अपने डॉक्यूमेंट मैनेजमेंट को बेहतर बनाएं। + +#### [Java OCR Indexing Guide with Aspose and GroupDocs: Enhance Document Searchability](./java-ocr-indexing-aspose-groupdocs-search/) +GroupDocs.Search और Aspose.OCR का उपयोग करके शक्तिशाली Java OCR इंडेक्सिंग को लागू करना सीखें, जिससे डॉक्यूमेंट सर्च क्षमता में सुधार हो। + +### उपयोगी लिंक + +- [GroupDocs.Search for Java Documentation](https://docs.groupdocs.com/search/java/) +- [GroupDocs.Search for Java API Reference](https://reference.groupdocs.com/search/java/) +- [Download GroupDocs.Search for Java](https://releases.groupdocs.com/search/java/) +- [GroupDocs.Search Forum](https://forum.groupdocs.com/c/search) +- [Free Support](https://forum.groupdocs.com/) +- [Temporary License](https://purchase.groupdocs.com/temporary-license/) + +--- + +**अंतिम अपडेट:** 2026-01-11 +**परीक्षित संस्करण:** GroupDocs.Search for Java 23.11 +**लेखक:** GroupDocs \ No newline at end of file diff --git a/content/hindi/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/hindi/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md new file mode 100644 index 00000000..1363dd9c --- /dev/null +++ b/content/hindi/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -0,0 +1,228 @@ +--- +date: '2026-01-11' +description: GroupDocs.Search for Java का उपयोग करके कस्टम सर्च इंडेक्स बनाना सीखें, + उन्नत OCR और इमेज सर्च के लिए नियमित और मिश्रित अक्षरों को कॉन्फ़िगर करें। +keywords: +- GroupDocs.Search Java +- Java OCR character recognition +- search library Java +title: अक्षर पहचान के साथ कस्टम सर्च इंडेक्स बनाएं – GroupDocs.Search Java +type: docs +url: /hi/java/ocr-image-search/groupdocs-search-java-character-recognition/ +weight: 1 +--- + +# कस्टम सर्च इंडेक्स बनाएं कैरेक्टर रिकग्निशन के साथ GroupDocs.Search for Java का उपयोग करके + +आधुनिक दस्तावेज‑भारी अनुप्रयोगों में, **creating a custom search index** जो आपके टेक्स्ट की बारीकियों—जैसे हाइफ़न, अंडरस्कोर, या भाषा‑विशिष्ट प्रतीकों—को समझता है, तेज़ और सटीक पुनर्प्राप्ति के लिए आवश्यक है। यह ट्यूटोरियल आपको **GroupDocs.Search for Java** में कैरेक्टर रिकग्निशन को कॉन्फ़िगर करने के चरणों से परिचित कराता है, जिसमें नियमित कैरेक्टर (अक्षर, अंक, अंडरस्कोर) और मिश्रित कैरेक्टर (जैसे हाइफ़न) दोनों शामिल हैं। अंत तक, आप एक ऐसा इंडेक्स तैयार कर पाएँगे जो आपके OCR या इमेज‑सर्च परिदृश्य की सटीक आवश्यकताओं को पूरा करता हो। + +## त्वरित उत्तर +- **What does “create custom search index” mean?** इसका अर्थ है एक इंडेक्स को इस तरह कॉन्फ़िगर करना कि विशिष्ट प्रतीकों को अक्षर या मिश्रित कैरेक्टर माना जाए, न कि उन्हें अनदेखा किया जाए। +- **Which library is used?** GroupDocs.Search for Java (v25.4 at the time of writing). +- **Do I need a license?** विकास के लिए एक फ्री ट्रायल काम करता है; प्रोडक्शन के लिए एक पेड लाइसेंस आवश्यक है। +- **Can I index both PDFs and images?** हाँ—जब सही तरीके से कॉन्फ़िगर किया जाए तो GroupDocs.Search इमेज और PDF पर OCR का समर्थन करता है। +- **Is Maven required?** Maven डिपेंडेंसी मैनेजमेंट के लिए अनुशंसित तरीका है, लेकिन आप Gradle या मैन्युअल JARs भी उपयोग कर सकते हैं। + +## कस्टम सर्च इंडेक्स क्या है? +एक कस्टम सर्च इंडेक्स आपको यह निर्धारित करने की अनुमति देता है कि सर्च इंजन कैरेक्टर को कैसे व्याख्या करता है। डिफ़ॉल्ट रूप से, कई प्रतीकों को अनदेखा किया जाता है, जिससे केस नंबर (`ABC-123`) या कोड स्निपेट (`my_variable`) जैसे मामलों में मिलान छूट सकता है। अल्फाबेट डिक्शनरी को समायोजित करने से आपको यह पूरी नियंत्रण मिलता है कि इंजन कौन से टेक्स्ट को सर्चेबल मानता है। + +## नियमित और मिश्रित कैरेक्टर को कॉन्फ़िगर क्यों करें? +- **Regular characters** (letters, digits, underscores) को स्वतंत्र टोकन के रूप में माना जाता है, जिससे सटीक‑मैच खोज में सुधार होता है। +- **Blended characters** (hyphens, slashes) शब्दों को जोड़ते हैं; इन्हें कॉन्फ़िगर करने से अनावश्यक टोकन विभाजन रोका जा सकता है, जो कानूनी संदर्भों, प्रोडक्ट कोड या सोर्स‑कोड इंडेक्सिंग के लिए महत्वपूर्ण है। + +## पूर्वापेक्षाएँ +- **JDK 8** या उसके बाद का संस्करण स्थापित हो। +- **Maven** डिपेंडेंसी मैनेजमेंट के लिए। +- **GroupDocs.Search for Java** लाइब्रेरी तक पहुंच (Maven या आधिकारिक साइट से डाउनलोड किया गया)। + +### आवश्यक लाइब्रेरी और डिपेंडेंसीज़ +`pom.xml` में रिपॉज़िटरी और डिपेंडेंसी एंट्री जोड़ें (नीचे दिखाए अनुसार)। XML ब्लॉक अपरिवर्तित रहना चाहिए। + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +आप नवीनतम JARs को यहाँ से भी डाउनलोड कर सकते हैं: [GroupDocs.Search for Java releases](https://releases.groupdocs.com/search/java/). + +### लाइसेंस प्राप्ति +- **Free Trial** – शुरुआती प्रयोगों के लिए उपयुक्त। +- **Temporary License** – लंबी विकास चक्रों के लिए उपयोगी। +- **Production License** – व्यावसायिक डिप्लॉयमेंट के लिए आवश्यक। + +आधिकारिक पोर्टल से लाइसेंस प्राप्त करें: [GroupDocs](https://purchase.groupdocs.com/temporary-license/). + +### बेसिक इनिशियलाइज़ेशन +नीचे दिया गया स्निपेट एक खाली इंडेक्स को शुरू करने के लिए न्यूनतम कोड दिखाता है। इसे जैसा है वैसा ही रखें; बाद में हम इस पर निर्माण करेंगे। + +```java +import com.groupdocs.search.*; + +public class GroupDocsSearchSetup { + public static void main(String[] args) { + String indexFolder = "YOUR_OUTPUT_DIRECTORY"; + String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; + + Index index = new Index(indexFolder); + + System.out.println("GroupDocs.Search setup completed!"); + } +} +``` + +## GroupDocs.Search for Java सेटअप करना + +### Maven के माध्यम से इंस्टॉलेशन +*Prerequisites* सेक्शन की Maven कॉन्फ़िगरेशन ही पर्याप्त है। इसे जोड़ने के बाद, बाइनरीज़ प्राप्त करने के लिए `mvn clean install` चलाएँ। + +### पर्यावरण सेटअप आवश्यकताएँ +- सुनिश्चित करें कि **index folder** और **document folder** डिस्क पर मौजूद हैं। +- एब्सोल्यूट पाथ्स का उपयोग करें या अपने IDE को रिले‍टिव पाथ्स सही ढंग से रिज़ॉल्व करने के लिए कॉन्फ़िगर करें। + +## इम्प्लीमेंटेशन गाइड +नीचे हम दो अलग-अलग फीचर्स पर चलते हैं: **regular characters** और **blended characters**। प्रत्येक फीचर समान पैटर्न का अनुसरण करता है—पाथ्स निर्धारित करें, इंडेक्स बनाएं, कैरेक्टर डिक्शनरी सेट करें, और अंत में अपने दस्तावेज़ों को इंडेक्स करें। + +### फीचर 1 – नियमित कैरेक्टर + +#### अवलोकन +नियमित कैरेक्टर को स्वतंत्र टोकन के रूप में माना जाता है। यह तब आदर्श है जब आप चाहते हैं कि अंक, अक्षर, और अंडरस्कोर ठीक उसी रूप में सर्चेबल हों जैसा वे दिखाई देते हैं। + +#### चरण‑दर‑चरण इम्प्लीमेंटेशन + +**1️⃣ Set Up Paths** +इंडेक्स कहाँ संग्रहीत होगा और आपके स्रोत दस्तावेज़ कहाँ स्थित हैं, इसे परिभाषित करें। + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Create and Configure Index** +इंडेक्स को इंस्टैंशिएट करें और किसी भी पूर्व‑स्थापित अल्फाबेट कॉन्फ़िगरेशन को साफ़ करें। + +```java +Index index = new Index(indexFolder); +index.getDictionaries().getAlphabet().clear(); +``` + +**3️⃣ Define Regular Characters** +एक कैरेक्टर एरे बनाएं जिसमें अंक, लैटिन अक्षर, और अंडरस्कोर शामिल हों। + +```java +StringBuilder sb = new StringBuilder(); +for (char i = 0x0030; i <= 0x0039; i++) { // Digits + sb.append(i); +} +for (char i = 0x0041; i <= 0x005A; i++) { // Latin capital letters + sb.append(i); +} +sb.append(0x005F); // Underscore +for (char i = 0x0061; i <= 0x007A; i++) { // Latin small letters + sb.append(i); +} + +// Convert to character array and set as alphabet range +char[] characters = new char[sb.length()]; +sb.getChars(0, sb.length(), characters, 0); +index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); +``` + +**4️⃣ Index Documents** +स्रोत फ़ोल्डर की सभी फ़ाइलें नए कॉन्फ़िगर किए गए इंडेक्स में जोड़ें। + +```java +index.add(documentFolder); +``` + +### फीचर 2 – मिश्रित कैरेक्टर + +#### अवलोकन +मिश्रित कैरेक्टर (जैसे हाइफ़न) अक्सर दो शब्दों को जोड़ते हैं। उन्हें *blended* के रूप में चिह्नित करने से इंजन को इंडेक्सिंग के दौरान आसपास के टोकन को साथ रखता है। + +#### चरण‑दर‑चरण इम्प्लीमेंटेशन + +**1️⃣ Set Up Paths** + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Create and Configure Index** + +```java +Index index = new Index(indexFolder); +``` + +**3️⃣ Define Blended Characters** +यहाँ हम डिक्शनरी को बताते हैं कि हाइफ़न को मिश्रित कैरेक्टर माना जाए। + +```java +index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); +``` + +**4️⃣ Index Documents** + +```java +index.add(documentFolder); +``` + +## व्यावहारिक अनुप्रयोग + +### उपयोग केस 1 – कानूनी दस्तावेज़ प्रबंधन +कानूनी फ़ाइलों में अक्सर केस नंबर जैसे `2023-AB-456` होते हैं। अंडरस्कोर और हाइफ़न को कॉन्फ़िगर करने से खोजें पहचानकर्ता को विभाजित किए बिना सटीक मिलान लौटाती हैं। + +### उपयोग केस 2 – सोर्स‑कोड रिपॉज़िटरीज़ +डेवलपर्स को कोड स्निपेट्स खोजने की आवश्यकता होती है जहाँ अंडरस्कोर (`my_variable`) और हाइफ़न (`my-function`) का अर्थ होता है। कस्टम कैरेक्टर रिकग्निशन सुनिश्चित करता है कि सर्च इंजन इन प्रतीकों का सम्मान करे। + +### उपयोग केस 3 – बहुभाषी डेटासेट्स +जब आप ऐसी भाषाओं के साथ काम करते हैं जो अतिरिक्त अल्फाबेट्स का उपयोग करती हैं, तो आप नियमित कैरेक्टर सेट को उन Unicode रेंजेज़ को शामिल करने के लिए विस्तारित कर सकते हैं, जिससे सटीक क्रॉस‑भाषा खोज परिणाम सुनिश्चित होते हैं। + +## प्रदर्शन संबंधी विचार +- **Resource Management** – हीप उपयोग पर नज़र रखें; बड़े इंडेक्स इन्क्रीमेंटल कमिट्स से लाभान्वित होते हैं। +- **Garbage Collection** – समाप्त होने पर `Index` ऑब्जेक्ट्स को रिलीज़ करें ताकि JVM मेमोरी पुनः प्राप्त कर सके। +- **Index Optimization** – समय‑समय पर `index.optimize()` (यदि उपलब्ध हो) को कॉल करें ताकि इंडेक्स को कॉम्पैक्ट किया जा सके और क्वेरी गति में सुधार हो। + +## निष्कर्ष +अब आप जानते हैं कि **create a custom search index** को कैसे बनाएं जो नियमित और मिश्रित कैरेक्टर के बीच अंतर करता है, GroupDocs.Search for Java का उपयोग करके। यह सूक्ष्म नियंत्रण आपको OCR‑सजग, उच्च‑प्रदर्शन सर्च समाधान बनाने में सक्षम बनाता है, जो कानूनी, विकास, या बहुभाषी वातावरण के लिए अनुकूलित हैं। + +**अगले कदम** +- गैर‑लैटिन अल्फाबेट्स के लिए अतिरिक्त Unicode रेंजेज़ के साथ प्रयोग करें। +- कैरेक्टर कॉन्फ़िगरेशन को अन्य GroupDocs.Search फीचर्स जैसे स्टेमिंग या साइनोनिम्स के साथ मिलाएँ। +- इंडेक्स को REST API में इंटीग्रेट करें ताकि सर्च क्षमताओं को फ्रंट‑एंड एप्लिकेशन्स तक पहुँचाया जा सके। + +## अक्सर पूछे जाने वाले प्रश्न + +**Q:** *`CharacterType.Letter` का उद्देश्य क्या है?* +**A:** यह इंडेक्स को बताता है कि प्रदान किए गए कैरेक्टर को नियमित अक्षर माना जाए, इसलिए वे इंडेक्सिंग के दौरान अलग‑अलग टोकनाइज़ होते हैं। + +**Q:** *क्या मैं एक ही इंडेक्स में नियमित और मिश्रित दोनों कैरेक्टर को मिला सकता हूँ?* +**A:** हाँ—प्रत्येक प्रकार के लिए बस `setRange` कॉल करें; डिक्शनरी दोनों कॉन्फ़िगरेशन को एक साथ संभालेगा। + +**Q:** *अल्फाबेट बदलने के बाद क्या मुझे इंडेक्स को पुनः बनाना चाहिए?* +**A:** बिल्कुल। कैरेक्टर डिक्शनरी में बदलाव टोकनाइज़ेशन को प्रभावित करते हैं, इसलिए नई नियमों को लागू करने के लिए आपको दस्तावेज़ों को पुनः‑इंडेक्स करना होगा। + +**Q:** *मैं कितने कस्टम कैरेक्टर परिभाषित कर सकता हूँ, क्या इसकी कोई सीमा है?* +**A:** लाइब्रेरी पूरी Unicode रेंज को सपोर्ट करती है; यदि आप बहुत बड़ी सेट जोड़ते हैं तो प्रदर्शन घट सकता है, इसलिए केवल आवश्यक कैरेक्टर ही जोड़ें। + +**Q:** *यह OCR की सटीकता को कैसे प्रभावित करता है?* +**A:** इंडेक्स के कैरेक्टर सेट को OCR इंजन के आउटपुट के साथ संरेखित करके आप फॉल्स नेगेटिव्स को कम करते हैं और समग्र सर्च प्रासंगिकता को सुधारते हैं। + +--- + +**अंतिम अपडेट:** 2026-01-11 +**परीक्षित संस्करण:** GroupDocs.Search 25.4 for Java +**लेखक:** GroupDocs \ No newline at end of file diff --git a/content/hindi/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/hindi/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md new file mode 100644 index 00000000..d00c1801 --- /dev/null +++ b/content/hindi/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -0,0 +1,185 @@ +--- +date: '2026-01-11' +description: GroupDocs for Java OCR इंडेक्सिंग को Aspose.OCR के साथ कैसे उपयोग करें, + सीखें, जिससे PDFs, छवियों और स्कैन की गई फ़ाइलों में शक्तिशाली दस्तावेज़ खोज क्षमताएँ + सक्षम हों। +keywords: +- Java OCR indexing +- document searchability +- OCR with GroupDocs +title: Aspose के साथ GroupDocs for Java OCR इंडेक्सिंग का उपयोग कैसे करें +type: docs +url: /hi/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/ +weight: 1 +--- + +# How to Use GroupDocs for Java OCR Indexing with Aspose + +इस गाइड में आप **GroupDocs** का उपयोग करके अपने Java एप्लिकेशन में OCR‑संचालित खोज कैसे जोड़ें, यह जानेंगे। GroupDocs.Search को Aspose.OCR के साथ मिलाकर आप इमेज‑आधारित कंटेंट को खोज योग्य टेक्स्ट में बदल सकते हैं, जिससे दस्तावेज़ प्रबंधन सिस्टम अधिक उपयोगी बनते हैं। हम सेटअप, इंडेक्सिंग, सर्च और कस्टम OCR इंटीग्रेशन को स्पष्ट, चरण‑दर‑चरण उदाहरणों के साथ देखेंगे। + +## Quick Answers +- **कौन सी लाइब्रेरी OCR इंडेक्सिंग प्रदान करती है?** GroupDocs.Search को Aspose.OCR के साथ जोड़ा जाता है। +- **कौन सा Java संस्करण आवश्यक है?** JDK 8 या उससे ऊपर। +- **क्या लाइसेंस की जरूरत है?** एक फ्री ट्रायल उपलब्ध है; प्रोडक्शन के लिए पेड लाइसेंस आवश्यक है। +- **क्या मैं अलग‑अलग और एम्बेडेड इमेज दोनों को इंडेक्स कर सकता हूँ?** हाँ, `IndexingOptions` में दोनों विकल्प सक्षम करें। +- **क्या मल्टी‑थ्रेडिंग सपोर्टेड है?** हाँ, बड़े डेटा सेट के लिए आप इंडेक्सिंग को पैरललाइज़ कर सकते हैं। + +## What is OCR Indexing with GroupDocs? +OCR इंडेक्सिंग इमेज (स्कैन किए गए PDF सहित) से टेक्स्ट निकालती है और उसे खोज योग्य इंडेक्स में संग्रहीत करती है। GroupDocs.Search इंडेक्सिंग और क्वेरी निष्पादन संभालता है, जबकि Aspose.OCR वास्तविक कैरेक्टर रिकग्निशन करता है। + +## Why use GroupDocs for Java OCR indexing? +- **उच्च सटीकता** Aspose के उन्नत OCR इंजन की वजह से। +- **सीधे Java इंटीग्रेशन** Maven या सीधे JARs के माध्यम से। +- **लचीला कॉन्फ़िगरेशन** अलग‑अलग या एम्बेडेड इमेज दोनों के लिए। +- **स्केलेबल परफ़ॉर्मेंस** मल्टी‑थ्रेडिंग और मेमोरी‑ऑप्टिमाइज़ेशन के साथ। + +## Prerequisites +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR** (नवीनतम संस्करण) +- JDK 8+ और एक IDE (IntelliJ, Eclipse, NetBeans) +- बेसिक Java ज्ञान; Maven मददगार है लेकिन अनिवार्य नहीं + +## Setting Up GroupDocs.Search for Java +### Using Maven +`pom.xml` में रिपॉज़िटरी और डिपेंडेंसी जोड़ें: + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +### Direct Download +वैकल्पिक रूप से, GroupDocs.Search for Java का नवीनतम संस्करण [GroupDocs releases](https://releases.groupdocs.com/search/java/) से डाउनलोड करें। + +### License Acquisition +- **Free Trial** – सभी फीचर बिना लागत के एक्सप्लोर करें। +- **Temporary License** – विस्तारित टेस्टिंग अवधि। +- **Purchase** – प्रोडक्शन डिप्लॉयमेंट के लिए आवश्यक। + +### Basic Initialization and Setup +इंडेक्स फ़ोल्डर बनाएं और `Index` ऑब्जेक्ट को इनिशियलाइज़ करें: + +```java +import com.groupdocs.search.Index; +// Specify the directory where the index will be stored. +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +// Create an instance of Index class at the specified location. +Index index = new Index(indexFolder); +``` + +## How to Use GroupDocs for OCR Indexing +### Creating an Index +पहले, वह फ़ोल्डर सेट करें जहाँ इंडेक्स फ़ाइलें रखी जाएँगी: + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +Index index = new Index(indexFolder); +``` + +### Setting OCR Indexing Options +अलग‑अलग और एम्बेडेड इमेज दोनों के लिए OCR सक्षम करें, और एक कस्टम OCR कनेक्टर जोड़ें: + +```java +import com.groupdocs.search.options.IndexingOptions; +IndexingOptions options = new IndexingOptions(); +options.getOcrIndexingOptions().setEnabledForSeparateImages(true); +options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); +// Set a custom OCR connector. +options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); +``` + +### Indexing Documents +अपने स्रोत दस्तावेज़ (PDF, Word फ़ाइलें, इमेज आदि) को इंडेक्स में जोड़ें: + +```java +String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; +index.add(documentsFolder, options); +``` + +### Searching in an Index +इंडेक्स किए गए कंटेंट पर सर्च क्वेरी चलाएँ: + +```java +import com.groupdocs.search.results.SearchResult; +String query = "water"; +SearchResult result = index.search(query); +``` + +### Implementing an OCR Connector +इमेज से टेक्स्ट पहचानने के लिए Aspose.OCR का उपयोग करें। `IOcrConnector` इंटरफ़ेस को नीचे दिखाए अनुसार इम्प्लीमेंट करें: + +```java +import com.groupdocs.search.options.IOcrConnector; +import com.groupdocs.search.options.OcrContext; +import java.awt.image.BufferedImage; +import javax.imageio.ImageIO; +import com.aspose.ocr.AsposeOCR; + +public class OcrConnector implements IOcrConnector { + @Override + public final String recognize(OcrContext context) { + if (null == context.getImageLocation()) { + throw new RuntimeException("The image type is not supported: " + context.getImageLocation()); + } + + BufferedImage image = ImageIO.read(context.getImageLocation().toFile()); + AsposeOCR api = new AsposeOCR(); + String text = api.RecognizePage(image); + return text; + } +} +``` + +## Practical Applications +1. **Document Management Systems** – स्कैन की गई इमेज वाले दस्तावेज़ों की तेज़ रिट्रीवल। +2. **Archival Retrieval** – बड़े आर्काइव में ऐतिहासिक रिकॉर्ड खोजें। +3. **Legal Document Analysis** – स्कैन किए गए सिग्नेचर या डायग्राम वाले कॉन्ट्रैक्ट और साक्ष्य खोजें। +4. **Medical Records Search** – रोगी फ़ॉर्म, लैब रिज़ल्ट और X‑ray एनोटेशन को इंडेक्स करें। + +## Performance Considerations +- **Index Size** – अनावश्यक मेटाडेटा को बाहर रखें ताकि इंडेक्स हल्का रहे। +- **Multi‑Threading** – बड़े बैच को पैरलल प्रोसेस करके इंडेक्सिंग गति बढ़ाएँ। +- **Memory Management** – हाई‑रिज़ॉल्यूशन इमेज प्रोसेस करते समय JVM हीप मॉनिटर करें। + +## Common Issues and Solutions +- **License Errors** – सुनिश्चित करें कि सही लाइसेंस फ़ाइल एप्लिकेशन की वर्किंग डायरेक्टरी में रखी गई है। +- **Missing Images** – इमेज पाथ एक्सेसिबल हैं और सपोर्टेड फ़ॉर्मेट (PNG, JPEG, BMP) हैं, यह जाँचें। +- **Out‑Of‑Memory** – JVM हीप (`-Xmx`) बढ़ाएँ या दस्तावेज़ों को छोटे बैच में प्रोसेस करें। + +## Frequently Asked Questions +**Q: How do I resolve licensing issues with GroupDocs.Search?** +A: पूर्ण फीचर अनलॉक करने के लिए [GroupDocs वेबसाइट](https://purchase.groupdocs.com/temporary-license/) से एक टेम्पररी लाइसेंस प्राप्त करें। + +**Q: What is the best way to handle large document indexing?** +A: मल्टी‑थ्रेडिंग और बैच प्रोसेसिंग का उपयोग करके परफ़ॉर्मेंस सुधारें और मेमोरी प्रेशर कम करें। + +**Q: Can I customize OCR settings further in GroupDocs.Search?** +A: हाँ, `IndexingOptions` आपको OCR व्यवहार को फाइन‑ट्यून करने की अनुमति देता है, जैसे भाषा चयन और इमेज प्री‑प्रोसेसिंग। + +**Q: What are some common troubleshooting tips when using GroupDocs.Search?** +A: डायरेक्टरी पाथ दोबारा चेक करें, सभी डिपेंडेंसी मौजूद हैं, और मिसिंग फ़ाइलों के लिए लॉग आउटपुट देखें। + +**Q: How can I integrate Aspose.OCR with my existing Java application?** +A: ऊपर दिखाए अनुसार `IOcrConnector` इंटरफ़ेस को इम्प्लीमेंट करें, और इमेज इनपुट को सही तरीके से हैंडल करें। + +## Resources +- [GroupDocs.Search Documentation](https://docs.groupdocs.com/search/java/) +- [API Reference](https://reference.groupdocs.com/search/java/) + +--- + +**Last Updated:** 2026-01-11 +**Tested With:** GroupDocs.Search 25.4, Aspose.OCR latest release +**Author:** GroupDocs \ No newline at end of file diff --git a/content/hongkong/java/ocr-image-search/_index.md b/content/hongkong/java/ocr-image-search/_index.md new file mode 100644 index 00000000..2024a105 --- /dev/null +++ b/content/hongkong/java/ocr-image-search/_index.md @@ -0,0 +1,98 @@ +--- +date: 2026-01-11 +description: 使用 GroupDocs.Search 的 OCR、Java 圖像文字提取與 Java 反向圖像搜尋逐步教學。 +title: 反向圖像搜尋 Java – GroupDocs.Search OCR 教程 +type: docs +url: /zh-hant/java/ocr-image-search/ +weight: 7 +--- + +# Reverse Image Search Java – GroupDocs.Search OCR 教程 + +在本指南中,我們將帶您了解使用 GroupDocs.Search 建立 **reverse image search java** 解決方案所需的全部知識。無論您是要在內容豐富的入口網站中加入視覺搜尋,或是需要從掃描資產中提取可搜尋的文字,我們都會示範如何設定 OCR、從 **extract text from images java** 中提取文字,以及執行反向圖像查詢——全部以清晰、可投入生產的範例呈現。 + +## 快速解答 +- **reverse image search Java 的功能是什麼?** 它使用 GroupDocs.Search 在已索引的集合中尋找視覺上相似的圖像。 +- **建議使用哪個 OCR 引擎?** GroupDocs.Search 整合了 Aspose.OCR,以實現高精度文字提取。 +- **我需要授權嗎?** 臨時授權可用於測試;正式環境需購買完整授權。 +- **主要前置條件是什麼?** Java 8 以上、GroupDocs.Search for Java,以及可選的 Aspose.OCR。 +- **實作需要多長時間?** 基本設定可在一小時內完成。 + +## 什麼是 Reverse Image Search Java? +Reverse image search Java 讓您能夠找出外觀相似或包含相同視覺內容的圖像。引擎不透過關鍵字搜尋,而是分析圖像特徵、建立索引,並在提交查詢圖像時返回匹配結果。 + +## 為何在圖像與 OCR 任務中使用 GroupDocs.Search? +- **Unified API** – 透過單一函式庫管理文字與圖像索引。 +- **High performance** – 為大型集合與快速查詢時間進行最佳化。 +- **Extensible** – 如有需要,可插入自訂 OCR 引擎或圖像特徵提取器。 +- **Cross‑platform** – 可在任何相容 Java 的環境中運行,從桌面到雲端皆適用。 + +## 前置條件 +- 已安裝 Java 8 或更新版本。 +- 已將 GroupDocs.Search for Java 函式庫加入專案(Maven/Gradle)。 +- (可選)Aspose.OCR for Java,若您需要最佳 OCR 精度。 +- 您想要索引與搜尋的一組圖像。 + +## 步驟說明 + +### 步驟 1:設定搜尋索引 +建立一個指向用於儲存索引檔案之資料夾的 `SearchIndex` 實例。此資料夾將同時保存文字與圖像的中繼資料。 + +### 步驟 2:為圖像檔案設定 OCR +在索引選項中啟用 OCR,使任何加入索引的圖像都會進行文字提取。這正是次要關鍵字 **extract text from images java** 發揮作用的地方。 + +### 步驟 3:索引您的圖像 +將每個圖像檔案加入索引。在此過程中,GroupDocs.Search 會提取視覺特徵以供反向搜尋,並執行 OCR 以擷取任何嵌入的文字。 + +### 步驟 4:執行反向圖像搜尋 +將查詢圖像傳入 `search` 方法。引擎會比較視覺指紋,並返回索引中相似圖像的排名列表。 + +### 步驟 5:取得 OCR 文字(如有需要) +若您也需要圖像內的文字內容,可使用標準關鍵字搜尋查詢索引中的 OCR 提取文字。 + +## 常見問題與解決方案 +- **未返回結果:** 請確認已啟用圖像特徵提取器,且在新增圖像後已重新建立索引。 +- **OCR 文字缺失:** 確保在專案相依性中正確引用 OCR 引擎,且圖像格式受支援(例如 PNG、JPEG、TIFF)。 +- **效能下降:** 可考慮將大型圖像集合拆分為多個索引,或使用增量索引以維持快速搜尋時間。 + +## 常見問答 + +**Q: 我可以在雲端平台上使用 reverse image search Java 嗎?** +A: 可以,該函式庫與平台無關,可在任何支援 Java 的環境中運行,包括 AWS、Azure 與 Google Cloud。 + +**Q: OCR 提取對不同語言的準確度如何?** +A: Aspose.OCR 支援超過 60 種語言;您可在 OCR 選項中指定語言以提升準確度。 + +**Q: 能否將關鍵字搜尋與圖像相似度結合?** +A: 完全可以。您可以先以關鍵字查詢過濾結果,然後再依視覺相似度對剩餘項目排序。 + +**Q: 支援哪些圖像檔案格式進行索引?** +A: 常見的 JPEG、PNG、BMP 與 TIFF 格式皆可直接使用。 + +**Q: 圖像變更時如何更新索引?** +A: 使用 `update` 方法重新處理已修改的圖像,或刪除後重新加入,以保持索引為最新。 + +## 其他資源 + +### 可用教學 + +#### [在 GroupDocs.Search for Java 中設定字元辨識: OCR 與圖像搜尋指南](./groupdocs-search-java-character-recognition/) +了解如何使用 GroupDocs.Search for Java 設定字元辨識,重點涵蓋一般與混合字元。提升文件管理的進階搜尋功能。 + +#### [使用 Aspose 與 GroupDocs 的 Java OCR 索引指南: 提升文件可搜尋性](./java-ocr-indexing-aspose-groupdocs-search/) +學習如何利用 GroupDocs.Search 與 Aspose.OCR 實作強大的 Java OCR 索引,以增強文件搜尋能力。 + +### 有用連結 + +- [GroupDocs.Search for Java 文件](https://docs.groupdocs.com/search/java/) +- [GroupDocs.Search for Java API 參考](https://reference.groupdocs.com/search/java/) +- [下載 GroupDocs.Search for Java](https://releases.groupdocs.com/search/java/) +- [GroupDocs.Search 論壇](https://forum.groupdocs.com/c/search) +- [免費支援](https://forum.groupdocs.com/) +- [臨時授權](https://purchase.groupdocs.com/temporary-license/) + +--- + +**最後更新:** 2026-01-11 +**測試版本:** GroupDocs.Search for Java 23.11 +**作者:** GroupDocs \ No newline at end of file diff --git a/content/hongkong/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/hongkong/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md new file mode 100644 index 00000000..ba0880e4 --- /dev/null +++ b/content/hongkong/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -0,0 +1,232 @@ +--- +date: '2026-01-11' +description: 學習如何使用 GroupDocs.Search for Java 建立自訂搜尋索引,設定常規與混合字元,以實現進階 OCR 與影像搜尋。 +keywords: +- GroupDocs.Search Java +- Java OCR character recognition +- search library Java +title: 建立自訂搜尋索引與字元辨識 – GroupDocs.Search Java +type: docs +url: /zh-hant/java/ocr-image-search/groupdocs-search-java-character-recognition/ +weight: 1 +--- + +# 使用 GroupDocs.Search for Java 建立具字符辨識的自訂搜尋索引 + +在現代文件密集的應用程式中,**建立自訂搜尋索引** 能夠理解文字中的細微差異——例如連字符、底線或語言特有符號——對於快速且精確的檢索至關重要。本教學將帶您設定 **GroupDocs.Search for Java** 的字符辨識,涵蓋一般字符(字母、數字、底線)與混合字符(例如連字符)。完成後,您將能夠打造符合 OCR 或影像搜尋情境的精確索引。 + +## 快速解答 +- **「建立自訂搜尋索引」是什麼意思?** 意指將索引設定為將特定符號視為字母或混合字符,而非直接忽略。 +- **使用哪個函式庫?** GroupDocs.Search for Java(撰寫時為 v25.4)。 +- **需要授權嗎?** 開發階段可使用免費試用版;正式上線須購買授權。 +- **可以同時索引 PDF 與影像嗎?** 可以——只要正確設定,GroupDocs.Search 會對影像與 PDF 執行 OCR。 +- **必須使用 Maven 嗎?** Maven 為建議的相依管理方式,亦可使用 Gradle 或手動 JAR。 + +## 什麼是自訂搜尋索引? +自訂搜尋索引讓您定義搜尋引擎如何解讀字符。預設情況下,許多符號會被忽略,這可能導致找不到如案件編號 (`ABC-123`) 或程式碼片段 (`my_variable`) 等關鍵字。調整字母字典即可完全掌控引擎將哪些字符視為可搜尋的文字。 + +## 為什麼要設定一般字符與混合字符? +- **一般字符**(字母、數字、底線)會被視為獨立的詞彙,有助於精確匹配搜尋。 +- **混合字符**(連字符、斜線)會連接詞彙;將其設定為混合字符可避免不必要的詞彙切割,對法律條文、產品代碼或原始碼索引尤為重要。 + +## 前置條件 +- 已安裝 **JDK 8** 或更新版本。 +- 已安裝 **Maven** 以管理相依。 +- 取得 **GroupDocs.Search for Java** 函式庫(可透過 Maven 或官方網站下載)。 + +### 必要的函式庫與相依 +將以下儲存庫與相依項目加入 `pom.xml`(如範例所示)。此 XML 區塊必須保持原樣。 + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +您也可以從 [GroupDocs.Search for Java 版本發布頁面](https://releases.groupdocs.com/search/java/) 下載最新的 JAR。 + +### 授權取得 +- **免費試用** – 適合早期實驗。 +- **臨時授權** – 方便較長的開發週期。 +- **正式授權** – 商業部署時必須使用。 + +從官方入口取得授權:[GroupDocs](https://purchase.groupdocs.com/temporary-license/)。 + +### 基本初始化 +以下程式碼片段示範建立空索引的最小需求。請保持原樣,我們稍後會在此基礎上擴充。 + +```java +import com.groupdocs.search.*; + +public class GroupDocsSearchSetup { + public static void main(String[] args) { + String indexFolder = "YOUR_OUTPUT_DIRECTORY"; + String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; + + Index index = new Index(indexFolder); + + System.out.println("GroupDocs.Search setup completed!"); + } +} +``` + +## 設定 GroupDocs.Search for Java + +### 透過 Maven 安裝 +在 *前置條件* 章節中提供的 Maven 設定即為全部需求。加入後執行 `mvn clean install` 下載相應的二進位檔。 + +### 環境設定需求 +- 確認 **索引資料夾** 與 **文件資料夾** 已存在於磁碟上。 +- 使用絕對路徑或在 IDE 中正確設定相對路徑的解析。 + +## 實作指南 + +以下說明兩項不同功能:**一般字符** 與 **混合字符**。每項功能的流程相同——設定路徑、建立索引、設定字符字典,最後將文件加入索引。 + +### 功能 1 – 一般字符 + +#### 概觀 +一般字符會被視為獨立的詞彙。當您希望數字、字母與底線能夠精確搜尋時,此設定最為理想。 + +#### 步驟實作 + +**1️⃣ 設定路徑** +定義索引要儲存的位置以及來源文件所在的資料夾。 + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ 建立並設定索引** +實例化索引並清除先前的字母設定。 + +```java +Index index = new Index(indexFolder); +index.getDictionaries().getAlphabet().clear(); +``` + +**3️⃣ 定義一般字符** +建立包含數字、拉丁字母與底線的字符陣列。 + +```java +StringBuilder sb = new StringBuilder(); +for (char i = 0x0030; i <= 0x0039; i++) { // Digits + sb.append(i); +} +for (char i = 0x0041; i <= 0x005A; i++) { // Latin capital letters + sb.append(i); +} +sb.append(0x005F); // Underscore +for (char i = 0x0061; i <= 0x007A; i++) { // Latin small letters + sb.append(i); +} + +// Convert to character array and set as alphabet range +char[] characters = new char[sb.length()]; +sb.getChars(0, sb.length(), characters, 0); +index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); +``` + +**4️⃣ 索引文件** +將來源資料夾中的所有檔案加入新建立的索引。 + +```java +index.add(documentFolder); +``` + +### 功能 2 – 混合字符 + +#### 概觀 +混合字符(例如連字符)常用於連接兩個詞彙。將其標記為 *混合* 後,索引時會保留相鄰詞彙的完整性。 + +#### 步驟實作 + +**1️⃣ 設定路徑** + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ 建立並設定索引** + +```java +Index index = new Index(indexFolder); +``` + +**3️⃣ 定義混合字符** +此處告訴字典將連字符視為混合字符。 + +```java +index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); +``` + +**4️⃣ 索引文件** + +```java +index.add(documentFolder); +``` + +## 實務應用 + +### 用例 1 – 法律文件管理 +法律文件常包含如 `2023-AB-456` 的案件編號。透過設定底線與連字符,可在搜尋時取得完整匹配,而不會被切割。 + +### 用例 2 – 原始碼倉庫 +開發者需要搜尋包含底線 (`my_variable`) 與連字符 (`my-function`) 的程式碼片段。自訂字符辨識確保搜尋引擎正確處理這些符號。 + +### 用例 3 – 多語言資料集 +處理使用額外字母表的語言時,可將一般字符集擴充至相應的 Unicode 範圍,確保跨語言搜尋的準確性。 + +## 效能考量 + +- **資源管理** – 留意堆積記憶體使用量;大型索引建議使用增量提交。 +- **垃圾回收** – 完成後釋放 `Index` 物件,以讓 JVM 回收記憶體。 +- **索引最佳化** – 定期呼叫 `index.optimize()`(若有提供)以壓縮索引並提升查詢速度。 + +## 結論 + +您現在已掌握如何使用 GroupDocs.Search for Java **建立自訂搜尋索引**,並分別設定一般字符與混合字符。這種細緻的控制讓您能夠打造具 OCR 感知、高效能的搜尋解決方案,適用於法律、開發或多語言環境。 + +**後續步驟** +- 嘗試為非拉丁字母加入額外的 Unicode 範圍。 +- 結合字符設定與 GroupDocs.Search 的其他功能,如詞幹分析或同義詞。 +- 將索引整合至 REST API,為前端應用提供搜尋服務。 + +## 常見問題 + +**Q:** *`CharacterType.Letter` 的用途是什麼?* +**A:** 它告訴索引將提供的字符視為一般字母,於索引時會被獨立切分為詞彙。 + +**Q:** *我可以在同一個索引中同時使用一般字符與混合字符嗎?* +**A:** 可以——只要分別呼叫 `setRange` 設定兩種型別,字典會同時處理這兩種配置。 + +**Q:** *變更字母表後需要重新建立索引嗎?* +**A:** 必須。字符字典的變更會影響切詞方式,必須重新索引文件才能套用新規則。 + +**Q:** *自訂字符的數量有限制嗎?* +**A:** 函式庫支援完整的 Unicode 範圍;若加入過多字符可能會影響效能,建議僅加入實際需要的字符。 + +**Q:** *這會如何影響 OCR 的準確度?* +**A:** 透過讓索引的字符集與 OCR 輸出保持一致,可減少偽陰性,提升整體搜尋相關性。 + +--- + +**最後更新:** 2026-01-11 +**測試環境:** GroupDocs.Search 25.4 for Java +**作者:** GroupDocs + +--- \ No newline at end of file diff --git a/content/hongkong/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/hongkong/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md new file mode 100644 index 00000000..71d45151 --- /dev/null +++ b/content/hongkong/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -0,0 +1,183 @@ +--- +date: '2026-01-11' +description: 學習如何使用 GroupDocs for Java OCR 索引結合 Aspose.OCR,為 PDF、圖像及掃描檔案提供強大的文件搜尋功能。 +keywords: +- Java OCR indexing +- document searchability +- OCR with GroupDocs +title: 如何使用 GroupDocs for Java 進行 OCR 索引與 Aspose +type: docs +url: /zh-hant/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/ +weight: 1 +--- + +# 如何在 Java 中使用 GroupDocs 進行 OCR 索引(搭配 Aspose) + +在本指南中,您將了解 **如何使用 GroupDocs** 為您的 Java 應用程式加入 OCR 驅動的搜尋功能。結合 GroupDocs.Search 與 Aspose.OCR,您可以將基於影像的內容轉換為可搜尋的文字,讓文件管理系統的效用大幅提升。我們將逐步說明設定、索引、搜尋以及自訂 OCR 整合的完整流程,並提供清晰的範例程式碼。 + +## 快速答覆 +- **哪個函式庫提供 OCR 索引功能?** GroupDocs.Search 搭配 Aspose.OCR。 +- **需要哪個 Java 版本?** JDK 8 或以上。 +- **需要授權嗎?** 提供免費試用版;正式上線需購買授權。 +- **可以同時索引獨立與嵌入式影像嗎?** 可以,於 `IndexingOptions` 中啟用兩者。 +- **支援多執行緒嗎?** 支援,您可以為大量資料集平行化索引程序。 + +## 什麼是使用 GroupDocs 的 OCR 索引? +OCR 索引會從影像(包括掃描的 PDF)中擷取文字,並將其儲存於可搜尋的索引中。GroupDocs.Search 負責索引與查詢執行,而 Aspose.OCR 則執行實際的字元辨識。 + +## 為什麼要使用 GroupDocs 進行 Java OCR 索引? +- **高精度**:得益於 Aspose 先進的 OCR 引擎。 +- **無縫 Java 整合**:可透過 Maven 或直接使用 JAR 檔。 +- **彈性設定**:支援獨立或嵌入式影像。 +- **可擴充效能**:支援多執行緒與記憶體最佳化。 + +## 前置條件 +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR**(最新版本) +- JDK 8+ 以及 IDE(IntelliJ、Eclipse、NetBeans) +- 基本的 Java 知識;Maven 有助於管理相依性,但非必須 + +## 設定 GroupDocs.Search for Java +### 使用 Maven +將儲存庫與相依性加入 `pom.xml`: + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +### 直接下載 +或是從 [GroupDocs releases](https://releases.groupdocs.com/search/java/) 下載最新的 GroupDocs.Search for Java 版本。 + +### 取得授權 +- **免費試用** – 無償探索全部功能。 +- **臨時授權** – 延長測試期間。 +- **購買授權** – 正式上線時必須取得。 + +### 基本初始化與設定 +建立索引資料夾並初始化 `Index` 物件: + +```java +import com.groupdocs.search.Index; +// Specify the directory where the index will be stored. +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +// Create an instance of Index class at the specified location. +Index index = new Index(indexFolder); +``` + +## 如何使用 GroupDocs 進行 OCR 索引 +### 建立索引 +首先,設定用來存放索引檔案的資料夾: + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +Index index = new Index(indexFolder); +``` + +### 設定 OCR 索引選項 +啟用對獨立與嵌入式影像的 OCR,並插入自訂 OCR 連接器: + +```java +import com.groupdocs.search.options.IndexingOptions; +IndexingOptions options = new IndexingOptions(); +options.getOcrIndexingOptions().setEnabledForSeparateImages(true); +options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); +// Set a custom OCR connector. +options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); +``` + +### 索引文件 +將來源文件(PDF、Word、影像等)加入索引: + +```java +String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; +index.add(documentsFolder, options); +``` + +### 在索引中搜尋 +對已索引的內容執行搜尋查詢: + +```java +import com.groupdocs.search.results.SearchResult; +String query = "water"; +SearchResult result = index.search(query); +``` + +### 實作 OCR 連接器 +使用 Aspose.OCR 進行影像文字辨識。依照下例實作 `IOcrConnector` 介面: + +```java +import com.groupdocs.search.options.IOcrConnector; +import com.groupdocs.search.options.OcrContext; +import java.awt.image.BufferedImage; +import javax.imageio.ImageIO; +import com.aspose.ocr.AsposeOCR; + +public class OcrConnector implements IOcrConnector { + @Override + public final String recognize(OcrContext context) { + if (null == context.getImageLocation()) { + throw new RuntimeException("The image type is not supported: " + context.getImageLocation()); + } + + BufferedImage image = ImageIO.read(context.getImageLocation().toFile()); + AsposeOCR api = new AsposeOCR(); + String text = api.RecognizePage(image); + return text; + } +} +``` + +## 實務應用 +1. **文件管理系統** – 快速取得含掃描影像的文件。 +2. **檔案庫檢索** – 在龐大檔案庫中定位歷史紀錄。 +3. **法律文件分析** – 搜尋包含掃描簽名或圖表的合約與證據。 +4. **醫療紀錄搜尋** – 索引患者表單、檢驗結果與 X 光註解。 + +## 效能考量 +- **索引大小** – 排除不必要的中繼資料以保持索引精簡。 +- **多執行緒** – 以平行方式處理大批次資料,加速索引速度。 +- **記憶體管理** – 處理高解析度影像時,需監控 JVM 堆積使用情形。 + +## 常見問題與解決方案 +- **授權錯誤** – 確認正確的授權檔已放置於應用程式的工作目錄。 +- **影像遺失** – 檢查影像路徑是否可存取,且格式支援 (PNG、JPEG、BMP)。 +- **記憶體不足** – 增加 JVM 堆積 (`-Xmx`) 或將文件分批處理。 + +## 常見問答 +**Q: 如何解決 GroupDocs.Search 的授權問題?** +A: 從 [GroupDocs website](https://purchase.groupdocs.com/temporary-license/) 取得臨時授權,以解鎖全部功能。 + +**Q: 大量文件索引的最佳做法是什麼?** +A: 使用多執行緒與批次處理,可提升效能並減少記憶體壓力。 + +**Q: 能否在 GroupDocs.Search 中進一步自訂 OCR 設定?** +A: 可以,`IndexingOptions` 允許微調 OCR 行為,例如語言選擇與影像前處理。 + +**Q: 使用 GroupDocs.Search 時常見的除錯技巧有哪些?** +A: 再次確認目錄路徑、確保所有相依性已正確加入,並檢查日誌輸出是否有遺失檔案的訊息。 + +**Q: 如何將 Aspose.OCR 整合至現有的 Java 應用程式?** +A: 如上所示實作 `IOcrConnector` 介面,並確保正確處理影像輸入。 + +## 參考資源 +- [GroupDocs.Search Documentation](https://docs.groupdocs.com/search/java/) +- [API Reference](https://reference.groupdocs.com/search/java/) + +--- + +**最後更新:** 2026-01-11 +**測試環境:** GroupDocs.Search 25.4、Aspose.OCR 最新版 +**作者:** GroupDocs \ No newline at end of file diff --git a/content/hungarian/java/ocr-image-search/_index.md b/content/hungarian/java/ocr-image-search/_index.md new file mode 100644 index 00000000..770759b5 --- /dev/null +++ b/content/hungarian/java/ocr-image-search/_index.md @@ -0,0 +1,100 @@ +--- +date: 2026-01-11 +description: Lépésről lépésre útmutatók az OCR megvalósításához, képek szövegének + Java‑ban történő kinyeréséhez, valamint a fordított képkereséshez Java‑ban a GroupDocs.Search + használatával. +title: Fordított képkeresés Java – GroupDocs.Search OCR oktatóanyagok +type: docs +url: /hu/java/ocr-image-search/ +weight: 7 +--- + +# Fordított Képkeresés Java – GroupDocs.Search OCR Oktatóanyagok + +Ebben az útmutatóban végigvezetünk mindenen, amit tudnod kell a **reverse image search java** megoldások építéséhez a GroupDocs.Search segítségével. Akár vizuális keresést szeretnél hozzáadni egy tartalomgazdag portálhoz, akár kereshető szöveget kell kinyerned beolvasott eszközökből, megmutatjuk, hogyan konfiguráld az OCR‑t, hogyan nyerj ki szöveget a képekből Java‑ban, és hogyan hajts végre fordított képkereséseket – mindezt világos, termelésre kész példákkal. + +## Gyors válaszok +- **Mit csinál a reverse image search Java?** A GroupDocs.Search segítségével vizuálisan hasonló képeket talál egy indexelt gyűjteményben. +- **Melyik OCR‑motor ajánlott?** A GroupDocs.Search az Aspose.OCR‑rel integrálódik a magas pontosságú szövegkinyerés érdekében. +- **Szükség van licencre?** Ideiglenes licenc teszteléshez elegendő; a termeléshez teljes licenc szükséges. +- **Mik a fő előkövetelmények?** Java 8+, GroupDocs.Search for Java, opcionálisan Aspose.OCR. +- **Mennyi időt vesz igénybe a megvalósítás?** Egy alapbeállítás kevesebb, mint egy óra alatt elkészíthető. + +## Mi az a Reverse Image Search Java? +A Reverse Image Search Java lehetővé teszi, hogy olyan képeket találj, amelyek hasonlóak vagy ugyanazt a vizuális tartalmat tartalmazzák. A kulcsszavak helyett a motor a képjellemzőket elemzi, indexeli, és a lekérdezett kép alapján ad vissza egyezéseket. + +## Miért használjuk a GroupDocs.Search‑t képek és OCR feladatokhoz? +- **Egységes API** – Szöveg- és képindexelést egyetlen könyvtárral kezelhetsz. +- **Magas teljesítmény** – Nagy gyűjteményekhez és gyors keresési időkhöz optimalizálva. +- **Bővíthető** – Szükség esetén saját OCR‑motorok vagy képjellemző‑kivonók csatlakoztathatók. +- **Keresztplatformos** – Bármely Java‑kompatibilis környezetben működik, asztali géptől a felhőig. + +## Előkövetelmények +- Telepített Java 8 vagy újabb. +- A projektedhez hozzáadott GroupDocs.Search for Java könyvtár (Maven/Gradle). +- (Opcionálisan) Aspose.OCR for Java, ha a legjobb OCR‑pontosságra vágysz. +- Egy képgyűjtemény, amelyet indexelni és keresni szeretnél. + +## Lépésről‑lépésre útmutató + +### 1. lépés: A keresőindex beállítása +Hozz létre egy új `SearchIndex` példányt, amely egy olyan mappára mutat, ahol az indexfájlok tárolódnak. Ez a mappa a szöveg‑ és képadat‑metaadatokat egyaránt tartalmazza. + +### 2. lépés: OCR konfigurálása képfájlokhoz +Engedélyezd az OCR‑t az indexelési beállításokban, hogy minden indexelt kép szövegkinyerésen menjen keresztül. Itt jön képbe a másodlagos kulcsszó **extract text from images java**. + +### 3. lépés: Képek indexelése +Adj minden képfájlt az indexhez. Ezalatt a GroupDocs.Search kinyeri a vizuális jellemzőket a fordított kereséshez, és futtatja az OCR‑t a beágyazott szöveg kinyeréséhez. + +### 4. lépés: Fordított képkeresés végrehajtása +Adj meg egy lekérdező képet a `search` metódusnak. A motor összehasonlítja a vizuális ujjlenyomatokat, és rangsorolt listát ad vissza a hasonló képekről. + +### 5. lépés: OCR‑szöveg lekérése (ha szükséges) +Ha a képekben található szöveget is szeretnéd, kérdezd le az indexet a OCR‑kivont szöveg alapján a szokásos kulcsszavas kereséssel. + +## Gyakori problémák és megoldások +- **Nincs eredmény:** Ellenőrizd, hogy a képjellemző‑kivonó engedélyezve van, és hogy az új képek hozzáadása után újraépítetted-e az indexet. +- **Hiányzik az OCR‑szöveg:** Győződj meg róla, hogy az OCR‑motor helyesen van hivatkozva a projekt függőségeiben, és hogy a képformátum támogatott (pl. PNG, JPEG, TIFF). +- **Teljesítménycsökkenés:** Fontold meg a nagy képgyűjtemények több indexre bontását vagy inkrementális indexelés használatát a keresési idő alacsonyan tartásához. + +## Gyakran feltett kérdések + +**K: Használhatom a reverse image search Java‑t felhőplatformokon?** +V: Igen, a könyvtár platform‑független, és bármely Java‑t támogató környezetben működik, beleértve az AWS‑t, Azure‑t és a Google Cloud‑ot. + +**K: Mennyire pontos az OCR‑kivonás különböző nyelvek esetén?** +V: Az Aspose.OCR több mint 60 nyelvet támogat; a nyelvet az OCR‑beállításokban megadhatod a jobb pontosság érdekében. + +**K: Lehet-e kombinálni a kulcsszavas keresést a kép‑hasonlósággal?** +V: Természetesen. Először szűrheted az eredményeket egy kulcsszavas lekérdezéssel, majd a maradék elemeket rangsorolhatod vizuális hasonlóság alapján. + +**K: Mely fájlformátumok támogatottak a képindexeléshez?** +V: A gyakori formátumok, mint a JPEG, PNG, BMP és TIFF teljes mértékben támogatottak. + +**K: Hogyan frissíthetem az indexet, ha a képek változnak?** +V: Használd az `update` metódust a módosított képek újrafeldolgozásához, vagy töröld és add hozzá újra őket az index naprakészen tartásához. + +## További források + +### Elérhető oktatóanyagok + +#### [A karakterfelismerés konfigurálása a GroupDocs.Search for Java-ban: OCR és Képkeresési útmutató](./groupdocs-search-java-character-recognition/) +Ismerd meg a karakterfelismerés beállítását a GroupDocs.Search for Java használatával, a szabályos és kevert karakterekre fókuszálva. Bővítsd dokumentumkezelésedet fejlett keresési lehetőségekkel. + +#### [Java OCR Indexelési útmutató Aspose‑szal és GroupDocs‑szal: Dokumentumkeresés javítása](./java-ocr-indexing-aspose-groupdocs-search/) +Tanuld meg, hogyan valósíts meg hatékony Java OCR indexelést a GroupDocs.Search és az Aspose.OCR segítségével a dokumentumkeresés fejlesztéséhez. + +### Hasznos linkek + +- [GroupDocs.Search for Java Dokumentáció](https://docs.groupdocs.com/search/java/) +- [GroupDocs.Search for Java API Referencia](https://reference.groupdocs.com/search/java/) +- [GroupDocs.Search for Java Letöltése](https://releases.groupdocs.com/search/java/) +- [GroupDocs.Search Fórum](https://forum.groupdocs.com/c/search) +- [Ingyenes támogatás](https://forum.groupdocs.com/) +- [Ideiglenes licenc](https://purchase.groupdocs.com/temporary-license/) + +--- + +**Utoljára frissítve:** 2026-01-11 +**Tesztelve a következővel:** GroupDocs.Search for Java 23.11 +**Szerző:** GroupDocs \ No newline at end of file diff --git a/content/hungarian/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/hungarian/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md new file mode 100644 index 00000000..1d4629b7 --- /dev/null +++ b/content/hungarian/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -0,0 +1,230 @@ +--- +date: '2026-01-11' +description: Ismerje meg, hogyan hozhat létre egyedi keresési indexet a GroupDocs.Search + for Java segítségével, szabályos és kevert karakterek beállításával a fejlett OCR-hez + és képkereséshez. +keywords: +- GroupDocs.Search Java +- Java OCR character recognition +- search library Java +title: Egyéni keresési index létrehozása karakterfelismeréssel – GroupDocs.Search + Java +type: docs +url: /hu/java/ocr-image-search/groupdocs-search-java-character-recognition/ +weight: 1 +--- + +# Egyedi keresési index létrehozása karakterfelismeréssel a GroupDocs.Search for Java használatával + +A modern, dokumentum‑intenzív alkalmazásokban elengedhetetlen a **custom search index** létrehozása, amely megérti a szöveg finomságait – például a kötőjeleket, aláhúzásokat vagy nyelvspecifikus szimbólumokat – a gyors és pontos visszakeresés érdekében. Ez az útmutató végigvezet a karakterfelismerés konfigurálásán a **GroupDocs.Search for Java**‑ban, mind a szabályos karakterek (betűk, számjegyek, aláhúzások), mind a kevert karakterek (pl. kötőjelek) tekintetében. A végére képes lesz egy olyan index testreszabására, amely pontosan megfelel az OCR vagy képkeresési forgatókönyvének. + +## Gyors válaszok +- **Mi jelenti a „create custom search index” kifejezést?** Ez azt jelenti, hogy egy indexet úgy konfigurálunk, hogy bizonyos szimbólumokat betűként vagy kevert karakterként kezelje, ahelyett, hogy figyelmen kívül hagyná őket. +- **Melyik könyvtár van használatban?** GroupDocs.Search for Java (v25.4 a írás időpontjában). +- **Szükségem van licencre?** A fejlesztéshez egy ingyenes próba verzió elegendő; a termeléshez fizetett licenc szükséges. +- **Indexelhetek PDF‑eket és képeket is?** Igen – a GroupDocs.Search megfelelő beállítás esetén támogatja az OCR‑t képeken és PDF‑eken. +- **Kell Maven?** A Maven a függőségek kezelésének ajánlott módja, de használhat Gradle‑t vagy manuális JAR‑okat is. + +## Mi az egyedi keresési index? +Az egyedi keresési index lehetővé teszi, hogy meghatározd, a keresőmotor hogyan értelmezi a karaktereket. Alapértelmezés szerint sok szimbólum figyelmen kívül marad, ami hiányzó találatokhoz vezethet például ügyiratszámok (`ABC-123`) vagy kódrészletek (`my_variable`) esetén. Az ábécé szótár módosításával teljes irányítást kapsz arról, hogy a motor mit tekint kereshető szövegnek. + +## Miért konfiguráljuk a szabályos és kevert karaktereket? +- **Szabályos karakterek** (betűk, számjegyek, aláhúzások) önálló tokenként kezelődnek, javítva a pontos egyezésű kereséseket. +- **Kevert karakterek** (kötőjelek, perjelek) összekapcsolják a szavakat; ezek konfigurálása megakadályozza a nem kívánt token szétválasztást, ami kulcsfontosságú jogi hivatkozások, termékkódok vagy forráskód indexelése esetén. + +## Előfeltételek +- **JDK 8** vagy újabb telepítve. +- **Maven** a függőségek kezeléséhez. +- Hozzáférés a **GroupDocs.Search for Java** könyvtárhoz (Maven‑en vagy a hivatalos weboldalon keresztül letölthető). + +### Szükséges könyvtárak és függőségek +Adja hozzá a tárolót és a függőségi bejegyzéseket a `pom.xml` fájlhoz (az alább látható módon). Az XML blokkot változatlanul kell hagyni. + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +A legújabb JAR‑okat letöltheti a [GroupDocs.Search for Java releases](https://releases.groupdocs.com/search/java/) oldalról. + +### Licenc beszerzése +- **Free Trial** – tökéletes a korai kísérletezéshez. +- **Temporary License** – hasznos hosszabb fejlesztési ciklusokhoz. +- **Production License** – szükséges a kereskedelmi üzembe helyezéshez. + +Licencet szerezhet a hivatalos portálon: [GroupDocs](https://purchase.groupdocs.com/temporary-license/). + +### Alap inicializálás +Az alábbi kódrészlet mutatja a minimális kódot egy üres index elindításához. Hagyja változatlanul; később bővítjük. + +```java +import com.groupdocs.search.*; + +public class GroupDocsSearchSetup { + public static void main(String[] args) { + String indexFolder = "YOUR_OUTPUT_DIRECTORY"; + String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; + + Index index = new Index(indexFolder); + + System.out.println("GroupDocs.Search setup completed!"); + } +} +``` + +## A GroupDocs.Search for Java beállítása + +### Telepítés Maven‑en keresztül +A *Prerequisites* szakaszból származó Maven‑konfiguráció minden, amire szüksége van. Hozzáadás után futtassa a `mvn clean install` parancsot a binárisok letöltéséhez. + +### Környezet beállítási követelmények +- Győződjön meg arról, hogy a **index mappa** és a **dokumentum mappa** létezik a lemezen. +- Használjon abszolút útvonalakat, vagy konfigurálja az IDE‑t, hogy helyesen oldja fel a relatív útvonalakat. + +## Implementációs útmutató +Az alábbiakban két különálló funkciót mutatunk be: **regular characters** és **blended characters**. Minden funkció ugyanazt a mintát követi – meghatározza az útvonalakat, létrehozza az indexet, beállítja a karakter szótárat, és végül indexeli a dokumentumokat. + +### 1. funkció – Szabályos karakterek + +#### Áttekintés +A szabályos karakterek független tokenként kezelődnek. Ideális, ha a számjegyeket, betűket és aláhúzásokat pontosan úgy szeretné keresni, ahogy megjelennek. + +#### Lépésről‑lépésre megvalósítás + +**1️⃣ Útvonalak beállítása** +Határozza meg, hogy hol tárolja az indexet, és hol vannak a forrásdokumentumok. + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Index létrehozása és konfigurálása** +Példányosítsa az indexet, és törölje az esetleg már meglévő ábécé beállítást. + +```java +Index index = new Index(indexFolder); +index.getDictionaries().getAlphabet().clear(); +``` + +**3️⃣ Szabályos karakterek meghatározása** +Készítsen karaktertömböt, amely tartalmazza a számjegyeket, a latin betűket és az aláhúzást. + +```java +StringBuilder sb = new StringBuilder(); +for (char i = 0x0030; i <= 0x0039; i++) { // Digits + sb.append(i); +} +for (char i = 0x0041; i <= 0x005A; i++) { // Latin capital letters + sb.append(i); +} +sb.append(0x005F); // Underscore +for (char i = 0x0061; i <= 0x007A; i++) { // Latin small letters + sb.append(i); +} + +// Convert to character array and set as alphabet range +char[] characters = new char[sb.length()]; +sb.getChars(0, sb.length(), characters, 0); +index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); +``` + +**4️⃣ Dokumentumok indexelése** +Adja hozzá az összes fájlt a forrásmappából az újonnan konfigurált indexhez. + +```java +index.add(documentFolder); +``` + +### 2. funkció – Kevert karakterek + +#### Áttekintés +A kevert karakterek (például a kötőjelek) gyakran összekapcsolnak két szót. Ha *blended*-ként jelöljük őket, a motor az indexelés során egyben tartja a környező tokeneket. + +#### Lépésről‑lépésre megvalósítás + +**1️⃣ Útvonalak beállítása** + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Index létrehozása és konfigurálása** + +```java +Index index = new Index(indexFolder); +``` + +**3️⃣ Kevert karakterek meghatározása** +Itt azt mondjuk meg a szótárnak, hogy a kötőjelet kevert karakterként kezelje. + +```java +index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); +``` + +**4️⃣ Dokumentumok indexelése** + +```java +index.add(documentFolder); +``` + +## Gyakorlati alkalmazások + +### 1. eset – Jogi dokumentumkezelés +A jogi fájlok gyakran tartalmaznak ügyiratszámokat, például `2023-AB-456`. Az aláhúzások és kötőjelek konfigurálásával a keresés pontos egyezéseket ad vissza, anélkül, hogy szétválasztaná az azonosítót. + +### 2. eset – Forráskód tárolók +A fejlesztőknek olyan kódrészleteket kell keresniük, ahol az aláhúzások (`my_variable`) és a kötőjelek (`my-function`) jelentőséggel bírnak. Az egyedi karakterfelismerés biztosítja, hogy a keresőmotor tiszteletben tartja ezeket a szimbólumokat. + +### 3. eset – Többnyelvű adathalmazok +Ha olyan nyelvekkel dolgozik, amelyek további ábécéket használnak, kibővítheti a szabályos karakterkészletet a megfelelő Unicode tartományokkal, ezáltal biztosítva a pontos többnyelvű keresési eredményeket. + +## Teljesítménybeli megfontolások +- **Resource Management** – Figyelje a heap használatot; a nagy indexek előnyben részesítik az inkrementális commit‑okat. +- **Garbage Collection** – Szabadítsa fel az `Index` objektumokat, amikor már nincs rájuk szükség, hogy a JVM visszanyerje a memóriát. +- **Index Optimization** – Időnként hívja meg a `index.optimize()` metódust (ha elérhető), hogy tömörítse az indexet és javítsa a lekérdezési sebességet. + +## Következtetés +Most már tudja, hogyan **hozzon létre egy egyedi keresési indexet**, amely megkülönbözteti a szabályos és kevert karaktereket a GroupDocs.Search for Java használatával. Ez a finomhangolt vezérlés lehetővé teszi, hogy OCR‑tudatos, nagy teljesítményű keresési megoldásokat építsen, amelyek a jogi, fejlesztői vagy többnyelvű környezetekhez igazodnak. + +**Következő lépések** +- Kísérletezzen további Unicode tartományokkal a nem latin ábécékhez. +- Kombinálja a karakterkonfigurációt más GroupDocs.Search funkciókkal, például stemminggel vagy szinonimákkal. +- Integrálja az indexet egy REST API‑ba, hogy a keresési képességeket front‑end alkalmazások számára tegye elérhetővé. + +## Gyakran ismételt kérdések + +**Q:** *Mi a `CharacterType.Letter` célja?* +**A:** Azt mondja az indexnek, hogy a megadott karaktereket szabályos betűként kezelje, így az indexelés során külön tokenekre bontja őket. + +**Q:** *Keverhetek szabályos és kevert karaktereket ugyanabban az indexben?* +**A:** Igen – egyszerűen hívja meg a `setRange` metódust minden típusra; a szótár egyidejűleg kezeli mindkét konfigurációt. + +**Q:** *Újra kell építeni az indexet az ábécé módosítása után?* +**A:** Teljesen igaz. A karakter szótár változásai befolyásolják a tokenizálást, ezért újra kell indexelni a dokumentumokat az új szabályok alkalmazásához. + +**Q:** *Van korlát a definiálható egyedi karakterek számában?* +**A:** A könyvtár támogatja a teljes Unicode tartományt; a teljesítmény romolhat, ha rendkívül nagy halmazt ad hozzá, ezért korlátozza a ténylegesen szükséges karakterekre. + +**Q:** *Hogyan befolyásolja ez az OCR pontosságát?* +**A:** Az index karakterkészletének az OCR motor kimenetéhez való igazításával csökkenti a hamis negatív eredményeket és javítja a keresés általános relevanciáját. + +--- + +**Utoljára frissítve:** 2026-01-11 +**Tesztelve:** GroupDocs.Search 25.4 for Java +**Szerző:** GroupDocs \ No newline at end of file diff --git a/content/hungarian/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/hungarian/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md new file mode 100644 index 00000000..e87845e9 --- /dev/null +++ b/content/hungarian/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -0,0 +1,185 @@ +--- +date: '2026-01-11' +description: Tanulja meg, hogyan használja a GroupDocs for Java OCR indexelést az + Aspose.OCR segítségével, amely lehetővé teszi a PDF-ek, képek és beolvasott fájlok + hatékony keresését. +keywords: +- Java OCR indexing +- document searchability +- OCR with GroupDocs +title: Hogyan használjuk a GroupDocs for Java OCR indexelését az Aspose-szal +type: docs +url: /hu/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/ +weight: 1 +--- + +# Hogyan használjuk a GroupDocs-ot Java OCR indexeléshez az Aspose-szal + +Ebben az útmutatóban felfedezheti, **hogyan használja a GroupDocs-ot**, hogy OCR‑alapú keresést adjon Java alkalmazásaihoz. A GroupDocs.Search és az Aspose.OCR kombinálásával a képalapú tartalmat kereshető szöveggé alakíthatja, így a dokumentumkezelő rendszerek sokkal hasznosabbá válnak. Lépésről‑lépésre bemutatjuk a beállítást, indexelést, keresést és az egyedi OCR integrációt, mind világos példákkal. + +## Gyors válaszok +- **Melyik könyvtár biztosítja az OCR indexelést?** GroupDocs.Search párosítva az Aspose.OCR-rel. +- **Melyik Java verzió szükséges?** JDK 8 vagy újabb. +- **Szükségem van licencre?** Elérhető egy ingyenes próba, a termeléshez fizetett licenc szükséges. +- **Indexelhetek különálló és beágyazott képeket is?** Igen, engedélyezze mindkét opciót az `IndexingOptions`-ban. +- **Támogatott a több szálas feldolgozás?** Igen, párhuzamosíthatja az indexelést nagy adathalmazok esetén. + +## Mi az OCR indexelés a GroupDocs-szal? +Az OCR indexelés a képekből (beleértve a beolvasott PDF-eket) szöveget nyer ki, és egy kereshető indexben tárolja. A GroupDocs.Search kezeli az indexelést és a lekérdezés végrehajtását, míg az Aspose.OCR végzi a tényleges karakterfelismerést. + +## Miért használjuk a GroupDocs-ot Java OCR indexeléshez? +- **Magas pontosság** az Aspose fejlett OCR motorjának köszönhetően. +- **Zökkenőmentes Java integráció** Maven vagy közvetlen JAR fájlok segítségével. +- **Rugalmas konfiguráció** különálló vagy beágyazott képekhez. +- **Skálázható teljesítmény** több szálas feldolgozással és memóriaoptimalizálással. + +## Előfeltételek +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR** (legújabb verzió) +- JDK 8+ és egy IDE (IntelliJ, Eclipse, NetBeans) +- Alapvető Java ismeretek; a Maven hasznos, de nem kötelező + +## A GroupDocs.Search beállítása Java-hoz +### Maven használata +Adja hozzá a tárolót és a függőséget a `pom.xml`-hez: + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +### Közvetlen letöltés +Alternatívaként töltse le a GroupDocs.Search legújabb Java verzióját a [GroupDocs releases](https://releases.groupdocs.com/search/java/) oldalról. + +### Licenc beszerzése +- **Ingyenes próba** – minden funkció kipróbálása költség nélkül. +- **Ideiglenes licenc** – meghosszabbított tesztelési időszak. +- **Vásárlás** – szükséges a termelési környezethez. + +### Alapvető inicializálás és beállítás +Hozzon létre egy index mappát, és inicializálja az `Index` objektumot: + +```java +import com.groupdocs.search.Index; +// Specify the directory where the index will be stored. +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +// Create an instance of Index class at the specified location. +Index index = new Index(indexFolder); +``` + +## Hogyan használjuk a GroupDocs-ot OCR indexeléshez +### Index létrehozása +Először állítsa be a mappát, amely az index fájlokat tárolja: + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +Index index = new Index(indexFolder); +``` + +### OCR indexelési beállítások konfigurálása +Engedélyezze az OCR-t a különálló és beágyazott képekhez, és csatlakoztasson egy egyedi OCR csatlakozót: + +```java +import com.groupdocs.search.options.IndexingOptions; +IndexingOptions options = new IndexingOptions(); +options.getOcrIndexingOptions().setEnabledForSeparateImages(true); +options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); +// Set a custom OCR connector. +options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); +``` + +### Dokumentumok indexelése +Adja hozzá a forrásdokumentumokat (PDF-ek, Word fájlok, képek stb.) az indexhez: + +```java +String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; +index.add(documentsFolder, options); +``` + +### Keresés egy indexben +Futtasson keresési lekérdezést az indexelt tartalomra: + +```java +import com.groupdocs.search.results.SearchResult; +String query = "water"; +SearchResult result = index.search(query); +``` + +### OCR csatlakozó megvalósítása +Használja az Aspose.OCR-t a képek szövegének felismeréséhez. Valósítsa meg a `IOcrConnector` interfészt a következő módon: + +```java +import com.groupdocs.search.options.IOcrConnector; +import com.groupdocs.search.options.OcrContext; +import java.awt.image.BufferedImage; +import javax.imageio.ImageIO; +import com.aspose.ocr.AsposeOCR; + +public class OcrConnector implements IOcrConnector { + @Override + public final String recognize(OcrContext context) { + if (null == context.getImageLocation()) { + throw new RuntimeException("The image type is not supported: " + context.getImageLocation()); + } + + BufferedImage image = ImageIO.read(context.getImageLocation().toFile()); + AsposeOCR api = new AsposeOCR(); + String text = api.RecognizePage(image); + return text; + } +} +``` + +## Gyakorlati alkalmazások +1. **Dokumentumkezelő rendszerek** – gyors visszakeresés a beolvasott képeket tartalmazó dokumentumok között. +2. **Archívum visszakeresés** – történelmi feljegyzések megtalálása hatalmas archívumokban. +3. **Jogi dokumentumelemzés** – szerződések és bizonyítékok keresése, amelyek beolvasott aláírásokat vagy diagramokat tartalmaznak. +4. **Orvosi feljegyzések keresése** – beteg űrlapok, laboreredmények és röntgen annotációk indexelése. + +## Teljesítmény szempontok +- **Index mérete** – hagyja ki a felesleges metaadatokat, hogy az index karcsú maradjon. +- **Több szálas feldolgozás** – nagy kötegeket párhuzamosan dolgozzon fel az indexelés felgyorsításához. +- **Memória kezelés** – figyelje a JVM heapet nagy felbontású képek kezelésekor. + +## Gyakori problémák és megoldások +- **Licenc hibák** – győződjön meg arról, hogy a megfelelő licencfájl az alkalmazás munkakönyvtárában van. +- **Hiányzó képek** – ellenőrizze, hogy a kép útvonalak elérhetők és a támogatott formátumok (PNG, JPEG, BMP) használatban vannak. +- **Memóriahiány** – növelje a JVM heapet (`-Xmx`) vagy dolgozzon kisebb kötegekkel. + +## Gyakran ismételt kérdések +**Q: Hogyan oldjam meg a licencelési problémákat a GroupDocs.Search-nél?** +A: Szerezzen be egy ideiglenes licencet a [GroupDocs weboldaláról](https://purchase.groupdocs.com/temporary-license/), hogy feloldja a teljes funkciókészletet. + +**Q: Mi a legjobb módja a nagy dokumentumok indexelésének?** +A: Használjon több szálas feldolgozást és kötegelt feldolgozást a teljesítmény javításához és a memória terhelés csökkentéséhez. + +**Q: Testreszabhatom tovább az OCR beállításokat a GroupDocs.Search-ben?** +A: Igen, az `IndexingOptions` lehetővé teszi az OCR viselkedés finomhangolását, például a nyelvválasztást és a kép előfeldolgozást. + +**Q: Melyek a gyakori hibaelhárítási tippek a GroupDocs.Search használatakor?** +A: Ellenőrizze újra a könyvtár útvonalakat, győződjön meg arról, hogy minden függőség jelen van, és tekintse át a napló kimenetet a hiányzó fájlokért. + +**Q: Hogyan integrálhatom az Aspose.OCR-t a meglévő Java alkalmazásomba?** +A: Valósítsa meg a `IOcrConnector` interfészt a fent bemutatott módon, ügyelve arra, hogy helyesen kezelje a kép bemenetet. + +## Források +- [GroupDocs.Search Documentation](https://docs.groupdocs.com/search/java/) +- [API Reference](https://reference.groupdocs.com/search/java/) + +--- + +**Utoljára frissítve:** 2026-01-11 +**Tesztelve a következőkkel:** GroupDocs.Search 25.4, Aspose.OCR legújabb kiadás +**Szerző:** GroupDocs \ No newline at end of file diff --git a/content/indonesian/java/ocr-image-search/_index.md b/content/indonesian/java/ocr-image-search/_index.md new file mode 100644 index 00000000..25291a85 --- /dev/null +++ b/content/indonesian/java/ocr-image-search/_index.md @@ -0,0 +1,100 @@ +--- +date: 2026-01-11 +description: Tutorial langkah demi langkah untuk mengimplementasikan OCR, mengekstrak + teks dari gambar menggunakan Java, dan pencarian gambar terbalik dengan Java menggunakan + GroupDocs.Search. +title: Pencarian Gambar Terbalik Java – Tutorial OCR GroupDocs.Search +type: docs +url: /id/java/ocr-image-search/ +weight: 7 +--- + +# Reverse Image Search Java – Tutorial OCR GroupDocs.Search + +Dalam panduan ini kami akan memandu Anda melalui semua yang perlu Anda ketahui untuk membangun solusi **reverse image search java** dengan GroupDocs.Search. Baik Anda menambahkan pencarian visual ke portal yang kaya konten atau perlu mengambil teks yang dapat dicari dari aset yang dipindai, kami akan menunjukkan cara mengonfigurasi OCR, mengekstrak teks dari gambar Java, dan melakukan pencarian gambar terbalik—semua dengan contoh yang jelas dan siap produksi. + +## Quick Answers +- **Apa yang dilakukan reverse image search Java?** Ia menemukan gambar yang secara visual mirip dalam koleksi terindeks menggunakan GroupDocs.Search. +- **Engine OCR mana yang direkomendasikan?** GroupDocs.Search terintegrasi dengan Aspose.OCR untuk ekstraksi teks dengan akurasi tinggi. +- **Apakah saya memerlukan lisensi?** Lisensi sementara dapat digunakan untuk pengujian; lisensi penuh diperlukan untuk produksi. +- **Apa saja prasyarat utama?** Java 8+, GroupDocs.Search for Java, dan opsional Aspose.OCR. +- **Berapa lama waktu implementasinya?** Penyiapan dasar dapat diselesaikan dalam waktu kurang dari satu jam. + +## What is Reverse Image Search Java? +Reverse image search Java memungkinkan Anda menemukan gambar yang tampak serupa atau mengandung konten visual yang sama. Alih-alih mencari dengan kata kunci, mesin menganalisis fitur gambar, mengindeksnya, dan mengembalikan hasil yang cocok ketika gambar kueri diajukan. + +## Why Use GroupDocs.Search for Image and OCR Tasks? +- **Unified API** – Kelola pengindeksan teks dan gambar melalui satu pustaka. +- **High performance** – Dioptimalkan untuk koleksi besar dan waktu pencarian cepat. +- **Extensible** – Pasang mesin OCR khusus atau ekstraktor fitur gambar bila diperlukan. +- **Cross‑platform** – Berfungsi pada lingkungan apa pun yang kompatibel dengan Java, dari desktop hingga cloud. + +## Prerequisites +- Java 8 atau yang lebih baru terpasang. +- Pustaka GroupDocs.Search for Java ditambahkan ke proyek Anda (Maven/Gradle). +- (Opsional) Aspose.OCR untuk Java jika Anda menginginkan akurasi OCR terbaik. +- Sekumpulan gambar yang ingin Anda indeks dan cari. + +## Step‑by‑Step Guide + +### Step 1: Set Up the Search Index +Buat instance `SearchIndex` baru yang menunjuk ke folder tempat file indeks akan disimpan. Folder ini akan menyimpan metadata teks dan gambar. + +### Step 2: Configure OCR for Image Files +Aktifkan OCR dalam opsi pengindeksan sehingga setiap gambar yang ditambahkan ke indeks diproses untuk ekstraksi teks. Di sinilah kata kunci sekunder **extract text from images java** berperan. + +### Step 3: Index Your Images +Tambahkan setiap file gambar ke indeks. Selama operasi ini GroupDocs.Search mengekstrak fitur visual untuk pencarian terbalik dan menjalankan OCR untuk mengambil teks yang tertanam. + +### Step 4: Perform a Reverse Image Search +Berikan gambar kueri ke metode `search`. Mesin membandingkan sidik jari visual dan mengembalikan daftar berperingkat gambar serupa dari indeks. + +### Step 5: Retrieve OCR Text (If Needed) +Jika Anda juga memerlukan konten teks yang ditemukan di dalam gambar, lakukan kueri pada indeks untuk teks yang diekstrak OCR menggunakan pencarian kata kunci standar. + +## Common Issues and Solutions +- **Tidak ada hasil yang dikembalikan:** Pastikan ekstraktor fitur gambar diaktifkan dan indeks telah dibangun ulang setelah menambahkan gambar baru. +- **Teks OCR tidak ada:** Pastikan mesin OCR direferensikan dengan benar dalam dependensi proyek Anda dan format gambar didukung (mis., PNG, JPEG, TIFF). +- **Penurunan kinerja:** Pertimbangkan membagi koleksi gambar besar menjadi beberapa indeks atau menggunakan pengindeksan inkremental untuk menjaga waktu pencarian tetap rendah. + +## Frequently Asked Questions + +**T: Bisakah saya menggunakan reverse image search Java di platform cloud?** +J: Ya, pustaka ini bersifat platform‑agnostic dan berfungsi di lingkungan apa pun yang mendukung Java, termasuk AWS, Azure, dan Google Cloud. + +**T: Seberapa akurat ekstraksi OCR untuk berbagai bahasa?** +J: Aspose.OCR mendukung lebih dari 60 bahasa; Anda dapat menentukan bahasa dalam opsi OCR untuk akurasi yang lebih baik. + +**T: Apakah memungkinkan menggabungkan pencarian kata kunci dengan kemiripan gambar?** +J: Tentu saja. Anda dapat pertama-tama menyaring hasil dengan kueri kata kunci dan kemudian memberi peringkat pada item yang tersisa berdasarkan kemiripan visual. + +**T: Format file apa yang didukung untuk pengindeksan gambar?** +J: Format umum seperti JPEG, PNG, BMP, dan TIFF didukung sepenuhnya secara default. + +**T: Bagaimana cara memperbarui indeks ketika gambar berubah?** +J: Gunakan metode `update` untuk memproses ulang gambar yang dimodifikasi, atau hapus dan tambahkan kembali untuk menjaga indeks tetap terbaru. + +## Additional Resources + +### Available Tutorials + +#### [Mengonfigurasi Pengenalan Karakter di GroupDocs.Search untuk Java: Panduan OCR & Pencarian Gambar](./groupdocs-search-java-character-recognition/) +Pelajari cara mengonfigurasi pengenalan karakter menggunakan GroupDocs.Search untuk Java, fokus pada karakter reguler dan campuran. Tingkatkan manajemen dokumen Anda dengan kemampuan pencarian lanjutan. + +#### [Panduan Pengindeksan OCR Java dengan Aspose dan GroupDocs: Tingkatkan Ketercarian Dokumen](./java-ocr-indexing-aspose-groupdocs-search/) +Pelajari cara mengimplementasikan pengindeksan OCR Java yang kuat menggunakan GroupDocs.Search dan Aspose.OCR untuk meningkatkan kemampuan pencarian dokumen. + +### Helpful Links + +- [Dokumentasi GroupDocs.Search untuk Java](https://docs.groupdocs.com/search/java/) +- [Referensi API GroupDocs.Search untuk Java](https://reference.groupdocs.com/search/java/) +- [Unduh GroupDocs.Search untuk Java](https://releases.groupdocs.com/search/java/) +- [Forum GroupDocs.Search](https://forum.groupdocs.com/c/search) +- [Dukungan Gratis](https://forum.groupdocs.com/) +- [Lisensi Sementara](https://purchase.groupdocs.com/temporary-license/) + +--- + +**Terakhir Diperbarui:** 2026-01-11 +**Diuji Dengan:** GroupDocs.Search for Java 23.11 +**Penulis:** GroupDocs \ No newline at end of file diff --git a/content/indonesian/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/indonesian/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md new file mode 100644 index 00000000..65492072 --- /dev/null +++ b/content/indonesian/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -0,0 +1,233 @@ +--- +date: '2026-01-11' +description: Pelajari cara membuat indeks pencarian khusus menggunakan GroupDocs.Search + untuk Java, mengonfigurasi karakter reguler dan campuran untuk OCR lanjutan serta + pencarian gambar. +keywords: +- GroupDocs.Search Java +- Java OCR character recognition +- search library Java +title: Buat Indeks Pencarian Kustom dengan Pengenalan Karakter – GroupDocs.Search + Java +type: docs +url: /id/java/ocr-image-search/groupdocs-search-java-character-recognition/ +weight: 1 +--- + +# Buat Indeks Pencarian Kustom dengan Pengenalan Karakter menggunakan GroupDocs.Search untuk Java + +Pada aplikasi modern yang berfokus pada dokumen, **membuat indeks pencarian kustom** yang memahami nuansa teks Anda—seperti tanda hubung, garis bawah, atau simbol khusus bahasa—sangat penting untuk pengambilan yang cepat dan akurat. Tutorial ini memandu Anda melalui konfigurasi pengenalan karakter dalam **GroupDocs.Search for Java**, mencakup baik karakter reguler (huruf, digit, garis bawah) maupun karakter gabungan (misalnya tanda hubung). Pada akhir tutorial, Anda akan dapat menyesuaikan indeks yang sesuai dengan kebutuhan tepat OCR atau skenario pencarian gambar Anda. + +## Jawaban Cepat +- **Apa arti “create custom search index”?** Itu berarti mengkonfigurasi indeks untuk memperlakukan simbol tertentu sebagai huruf atau karakter gabungan, bukan mengabaikannya. +- **Pustaka mana yang digunakan?** GroupDocs.Search for Java (v25.4 pada saat penulisan). +- **Apakah saya memerlukan lisensi?** Versi percobaan gratis dapat digunakan untuk pengembangan; lisensi berbayar diperlukan untuk produksi. +- **Bisakah saya mengindeks PDF dan gambar?** Ya—GroupDocs.Search mendukung OCR pada gambar dan PDF bila dikonfigurasi dengan benar. +- **Apakah Maven diperlukan?** Maven adalah cara yang direkomendasikan untuk mengelola dependensi, tetapi Anda juga dapat menggunakan Gradle atau JAR manual. + +## Apa itu Indeks Pencarian Kustom? +Indeks pencarian kustom memungkinkan Anda menentukan bagaimana mesin pencari menafsirkan karakter. Secara default, banyak simbol diabaikan, yang dapat menyebabkan tidak terdeteksinya pencocokan untuk hal-hal seperti nomor kasus (`ABC-123`) atau potongan kode (`my_variable`). Menyesuaikan kamus alfabet memberi Anda kontrol penuh atas apa yang dianggap mesin sebagai teks yang dapat dicari. + +## Mengapa Mengonfigurasi Karakter Reguler dan Gabungan? +- **Karakter reguler** (huruf, digit, garis bawah) diperlakukan sebagai token terpisah, meningkatkan pencarian dengan kecocokan tepat. +- **Karakter gabungan** (tanda hubung, garis miring) menghubungkan kata; mengkonfigurasinya mencegah pemisahan token yang tidak diinginkan, yang penting untuk referensi hukum, kode produk, atau pengindeksan kode sumber. + +## Prasyarat +- **JDK 8** atau yang lebih baru terpasang. +- **Maven** untuk manajemen dependensi. +- Akses ke pustaka **GroupDocs.Search for Java** (diunduh melalui Maven atau situs resmi). + +### Pustaka dan Dependensi yang Diperlukan +Tambahkan entri repositori dan dependensi ke `pom.xml` Anda (seperti yang ditunjukkan di bawah). Blok XML harus tetap tidak berubah. + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +Anda juga dapat mengunduh JAR terbaru dari [GroupDocs.Search for Java releases](https://releases.groupdocs.com/search/java/). + +### Akuisisi Lisensi +- **Free Trial** – sempurna untuk percobaan awal. +- **Temporary License** – berguna untuk siklus pengembangan yang lebih lama. +- **Production License** – diperlukan untuk penyebaran komersial. + +Dapatkan lisensi dari portal resmi: [GroupDocs](https://purchase.groupdocs.com/temporary-license/). + +### Inisialisasi Dasar +Potongan kode di bawah menunjukkan kode minimal yang diperlukan untuk membuat indeks kosong. Biarkan apa adanya; kita akan mengembangkannya nanti. + +```java +import com.groupdocs.search.*; + +public class GroupDocsSearchSetup { + public static void main(String[] args) { + String indexFolder = "YOUR_OUTPUT_DIRECTORY"; + String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; + + Index index = new Index(indexFolder); + + System.out.println("GroupDocs.Search setup completed!"); + } +} +``` + +## Menyiapkan GroupDocs.Search untuk Java + +### Instalasi via Maven +Konfigurasi Maven dari bagian *Prerequisites* sudah cukup. Setelah menambahkannya, jalankan `mvn clean install` untuk mengambil binary. + +### Persyaratan Penyiapan Lingkungan +- Pastikan **folder indeks** dan **folder dokumen** ada di disk. +- Gunakan path absolut atau konfigurasikan IDE Anda untuk menyelesaikan path relatif dengan benar. + +## Panduan Implementasi + +Di bawah ini kami menjelaskan dua fitur berbeda: **karakter reguler** dan **karakter gabungan**. Setiap fitur mengikuti pola yang sama—menentukan path, membuat indeks, mengatur kamus karakter, dan akhirnya mengindeks dokumen Anda. + +### Fitur 1 – Karakter Reguler + +#### Gambaran Umum +Karakter reguler diperlakukan sebagai token independen. Ini ideal ketika Anda ingin digit, huruf, dan garis bawah dapat dicari persis seperti yang muncul. + +#### Implementasi Langkah‑per‑Langkah + +**1️⃣ Atur Path** +Tentukan di mana indeks akan disimpan dan di mana dokumen sumber Anda berada. + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Buat dan Konfigurasikan Indeks** +Instansiasi indeks dan bersihkan konfigurasi alfabet yang sudah ada sebelumnya. + +```java +Index index = new Index(indexFolder); +index.getDictionaries().getAlphabet().clear(); +``` + +**3️⃣ Definisikan Karakter Reguler** +Buat array karakter yang mencakup digit, huruf Latin, dan garis bawah. + +```java +StringBuilder sb = new StringBuilder(); +for (char i = 0x0030; i <= 0x0039; i++) { // Digits + sb.append(i); +} +for (char i = 0x0041; i <= 0x005A; i++) { // Latin capital letters + sb.append(i); +} +sb.append(0x005F); // Underscore +for (char i = 0x0061; i <= 0x007A; i++) { // Latin small letters + sb.append(i); +} + +// Convert to character array and set as alphabet range +char[] characters = new char[sb.length()]; +sb.getChars(0, sb.length(), characters, 0); +index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); +``` + +**4️⃣ Indeks Dokumen** +Tambahkan semua file dari folder sumber ke indeks yang baru dikonfigurasi. + +```java +index.add(documentFolder); +``` + +### Fitur 2 – Karakter Gabungan + +#### Gambaran Umum +Karakter gabungan (seperti tanda hubung) sering menghubungkan dua kata. Menandainya sebagai *blended* memberi tahu mesin untuk menjaga token di sekitarnya tetap bersama selama pengindeksan. + +#### Implementasi Langkah‑per‑Langkah + +**1️⃣ Atur Path** + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Buat dan Konfigurasikan Indeks** + +```java +Index index = new Index(indexFolder); +``` + +**3️⃣ Definisikan Karakter Gabungan** +Di sini kami memberi tahu kamus bahwa tanda hubung harus diperlakukan sebagai karakter gabungan. + +```java +index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); +``` + +**4️⃣ Indeks Dokumen** + +```java +index.add(documentFolder); +``` + +## Aplikasi Praktis + +### Kasus Penggunaan 1 – Manajemen Dokumen Hukum +File hukum sering berisi nomor kasus seperti `2023-AB-456`. Dengan mengkonfigurasi garis bawah dan tanda hubung, pencarian mengembalikan kecocokan tepat tanpa memisahkan identifier. + +### Kasus Penggunaan 2 – Repositori Kode Sumber +Pengembang perlu mencari potongan kode di mana garis bawah (`my_variable`) dan tanda hubung (`my-function`) memiliki makna. Pengenalan karakter kustom memastikan mesin pencari menghormati simbol-simbol ini. + +### Kasus Penggunaan 3 – Dataset Multibahasa +Saat bekerja dengan bahasa yang menggunakan alfabet tambahan, Anda dapat memperluas set karakter reguler untuk menyertakan rentang Unicode tersebut, menjamin hasil pencarian lintas bahasa yang akurat. + +## Pertimbangan Kinerja + +- **Manajemen Sumber Daya** – Pantau penggunaan heap; indeks besar mendapat manfaat dari commit inkremental. +- **Garbage Collection** – Lepaskan objek `Index` setelah selesai agar JVM dapat mengambil kembali memori. +- **Optimisasi Indeks** – Secara periodik panggil `index.optimize()` (jika tersedia) untuk memadatkan indeks dan meningkatkan kecepatan kueri. + +## Kesimpulan + +Anda kini tahu cara **membuat indeks pencarian kustom** yang membedakan antara karakter reguler dan gabungan menggunakan GroupDocs.Search untuk Java. Kontrol detail ini memungkinkan Anda membangun solusi pencarian berperforma tinggi yang sadar OCR, disesuaikan untuk lingkungan hukum, pengembangan, atau multibahasa. + +**Langkah Selanjutnya** +- Bereksperimen dengan rentang Unicode tambahan untuk alfabet non‑Latin. +- Gabungkan konfigurasi karakter dengan fitur GroupDocs.Search lainnya seperti stemming atau sinonim. +- Integrasikan indeks ke dalam REST API untuk mengekspos kemampuan pencarian ke aplikasi front‑end. + +## Pertanyaan yang Sering Diajukan + +**Q:** *Apa tujuan `CharacterType.Letter`?* +**A:** Itu memberi tahu indeks untuk memperlakukan karakter yang diberikan sebagai huruf reguler, sehingga mereka ditokenisasi secara terpisah selama pengindeksan. + +**Q:** *Bisakah saya mencampur karakter reguler dan gabungan dalam satu indeks?* +**A:** Ya—cukup panggil `setRange` untuk setiap tipe; kamus akan menangani kedua konfigurasi secara bersamaan. + +**Q:** *Apakah saya perlu membangun ulang indeks setelah mengubah alfabet?* +**A:** Tentu saja. Perubahan kamus karakter memengaruhi tokenisasi, sehingga Anda harus mengindeks ulang dokumen untuk menerapkan aturan baru. + +**Q:** *Apakah ada batasan jumlah karakter kustom yang dapat saya definisikan?* +**A:** Pustaka mendukung seluruh rentang Unicode; kinerja dapat menurun jika Anda menambahkan set yang sangat besar, jadi batasi pada karakter yang memang Anda butuhkan. + +**Q:** *Bagaimana ini memengaruhi akurasi OCR?* +**A:** Dengan menyelaraskan set karakter indeks dengan output mesin OCR, Anda mengurangi false negative dan meningkatkan relevansi pencarian secara keseluruhan. + +--- + +**Last Updated:** 2026-01-11 +**Tested With:** GroupDocs.Search 25.4 for Java +**Author:** GroupDocs \ No newline at end of file diff --git a/content/indonesian/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/indonesian/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md new file mode 100644 index 00000000..01743e9d --- /dev/null +++ b/content/indonesian/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -0,0 +1,185 @@ +--- +date: '2026-01-11' +description: Pelajari cara menggunakan GroupDocs for Java OCR indexing dengan Aspose.OCR, + yang memungkinkan kemampuan pencarian dokumen yang kuat di seluruh PDF, gambar, + dan file hasil pemindaian. +keywords: +- Java OCR indexing +- document searchability +- OCR with GroupDocs +title: Cara Menggunakan GroupDocs untuk OCR Indexing Java dengan Aspose +type: docs +url: /id/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/ +weight: 1 +--- + +# Cara Menggunakan GroupDocs untuk OCR Indexing Java dengan Aspose + +Dalam panduan ini Anda akan menemukan **cara menggunakan GroupDocs** untuk menambahkan pencarian berbasis OCR ke aplikasi Java Anda. Dengan menggabungkan GroupDocs.Search dengan Aspose.OCR, Anda dapat mengubah konten berbasis gambar menjadi teks yang dapat dicari, membuat sistem manajemen dokumen jauh lebih berguna. Kami akan membahas langkah-langkah penyiapan, pengindeksan, pencarian, dan integrasi OCR khusus, semuanya dengan contoh langkah demi langkah yang jelas. + +## Jawaban Cepat +- **Perpustakaan apa yang menyediakan OCR indexing?** GroupDocs.Search dipasangkan dengan Aspose.OCR. +- **Versi Java apa yang diperlukan?** JDK 8 atau lebih tinggi. +- **Apakah saya memerlukan lisensi?** Versi percobaan gratis tersedia; lisensi berbayar diperlukan untuk produksi. +- **Bisakah saya mengindeks gambar terpisah dan tersemat?** Ya, aktifkan kedua opsi di `IndexingOptions`. +- **Apakah multi‑threading didukung?** Ya, Anda dapat memparalelkan pengindeksan untuk kumpulan data besar. + +## Apa itu OCR Indexing dengan GroupDocs? +OCR indexing mengekstrak teks dari gambar (termasuk PDF yang dipindai) dan menyimpannya dalam indeks yang dapat dicari. GroupDocs.Search menangani proses pengindeksan dan eksekusi kueri, sementara Aspose.OCR melakukan pengenalan karakter sebenarnya. + +## Mengapa menggunakan GroupDocs untuk OCR indexing Java? +- **Akurasi tinggi** berkat mesin OCR canggih dari Aspose. +- **Integrasi Java yang mulus** melalui Maven atau JAR langsung. +- **Konfigurasi fleksibel** untuk gambar terpisah atau tersemat. +- **Kinerja skalabel** dengan multi‑threading dan optimasi memori. + +## Prerequisites +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR** (latest version) +- JDK 8+ and an IDE (IntelliJ, Eclipse, NetBeans) +- Basic Java knowledge; Maven is helpful but not mandatory + +## Menyiapkan GroupDocs.Search untuk Java +### Using Maven +Tambahkan repositori dan dependensi ke `pom.xml` Anda: + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +### Direct Download +Atau, unduh versi terbaru GroupDocs.Search untuk Java dari [GroupDocs releases](https://releases.groupdocs.com/search/java/). + +### License Acquisition +- **Free Trial** – jelajahi semua fitur tanpa biaya. +- **Temporary License** – periode pengujian yang diperpanjang. +- **Purchase** – diperlukan untuk penyebaran produksi. + +### Basic Initialization and Setup +Buat folder indeks dan inisialisasi objek `Index`: + +```java +import com.groupdocs.search.Index; +// Specify the directory where the index will be stored. +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +// Create an instance of Index class at the specified location. +Index index = new Index(indexFolder); +``` + +## Cara Menggunakan GroupDocs untuk OCR Indexing +### Creating an Index +Pertama, siapkan folder yang akan menyimpan file indeks: + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +Index index = new Index(indexFolder); +``` + +### Setting OCR Indexing Options +Aktifkan OCR untuk gambar terpisah dan tersemat, serta sambungkan konektor OCR khusus: + +```java +import com.groupdocs.search.options.IndexingOptions; +IndexingOptions options = new IndexingOptions(); +options.getOcrIndexingOptions().setEnabledForSeparateImages(true); +options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); +// Set a custom OCR connector. +options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); +``` + +### Indexing Documents +Tambahkan dokumen sumber Anda (PDF, file Word, gambar, dll.) ke indeks: + +```java +String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; +index.add(documentsFolder, options); +``` + +### Searching in an Index +Jalankan kueri pencarian terhadap konten yang diindeks: + +```java +import com.groupdocs.search.results.SearchResult; +String query = "water"; +SearchResult result = index.search(query); +``` + +### Implementing an OCR Connector +Gunakan Aspose.OCR untuk mengenali teks dari gambar. Implementasikan antarmuka `IOcrConnector` seperti yang ditunjukkan: + +```java +import com.groupdocs.search.options.IOcrConnector; +import com.groupdocs.search.options.OcrContext; +import java.awt.image.BufferedImage; +import javax.imageio.ImageIO; +import com.aspose.ocr.AsposeOCR; + +public class OcrConnector implements IOcrConnector { + @Override + public final String recognize(OcrContext context) { + if (null == context.getImageLocation()) { + throw new RuntimeException("The image type is not supported: " + context.getImageLocation()); + } + + BufferedImage image = ImageIO.read(context.getImageLocation().toFile()); + AsposeOCR api = new AsposeOCR(); + String text = api.RecognizePage(image); + return text; + } +} +``` + +## Aplikasi Praktis +1. **Sistem Manajemen Dokumen** – pengambilan cepat dokumen yang berisi gambar yang dipindai. +2. **Pengambilan Arsip** – menemukan catatan historis dalam arsip besar. +3. **Analisis Dokumen Hukum** – mencari kontrak dan bukti yang mencakup tanda tangan atau diagram yang dipindai. +4. **Pencarian Rekam Medis** – mengindeks formulir pasien, hasil laboratorium, dan anotasi X‑ray. + +## Pertimbangan Kinerja +- **Ukuran Indeks** – kecualikan metadata yang tidak diperlukan untuk menjaga indeks tetap ringan. +- **Multi‑Threading** – proses batch besar secara paralel untuk mempercepat pengindeksan. +- **Manajemen Memori** – pantau heap JVM saat menangani gambar resolusi tinggi. + +## Masalah Umum dan Solusinya +- **Kesalahan Lisensi** – pastikan file lisensi yang benar ditempatkan di direktori kerja aplikasi. +- **Gambar Hilang** – verifikasi jalur gambar dapat diakses dan format yang didukung (PNG, JPEG, BMP). +- **Out‑Of‑Memory** – tingkatkan heap JVM (`-Xmx`) atau proses dokumen dalam batch yang lebih kecil. + +## Pertanyaan yang Sering Diajukan +**Q: Bagaimana cara mengatasi masalah lisensi dengan GroupDocs.Search?** +A: Dapatkan lisensi sementara dari [situs GroupDocs](https://purchase.groupdocs.com/temporary-license/) untuk membuka semua fitur. + +**Q: Apa cara terbaik menangani pengindeksan dokumen besar?** +A: Manfaatkan multi‑threading dan pemrosesan batch untuk meningkatkan kinerja dan mengurangi tekanan memori. + +**Q: Bisakah saya menyesuaikan pengaturan OCR lebih lanjut di GroupDocs.Search?** +A: Ya, `IndexingOptions` memungkinkan Anda menyesuaikan perilaku OCR, seperti pemilihan bahasa dan pra‑pemrosesan gambar. + +**Q: Apa saja tips pemecahan masalah umum saat menggunakan GroupDocs.Search?** +A: Periksa kembali jalur direktori, pastikan semua dependensi ada, dan tinjau output log untuk file yang hilang. + +**Q: Bagaimana cara mengintegrasikan Aspose.OCR dengan aplikasi Java saya yang ada?** +A: Implementasikan antarmuka `IOcrConnector` seperti yang ditunjukkan di atas, pastikan Anda menangani input gambar dengan benar. + +## Resources +- [GroupDocs.Search Documentation](https://docs.groupdocs.com/search/java/) +- [API Reference](https://reference.groupdocs.com/search/java/) + +--- + +**Last Updated:** 2026-01-11 +**Tested With:** GroupDocs.Search 25.4, Aspose.OCR latest release +**Author:** GroupDocs \ No newline at end of file diff --git a/content/italian/java/ocr-image-search/_index.md b/content/italian/java/ocr-image-search/_index.md new file mode 100644 index 00000000..e3ae5338 --- /dev/null +++ b/content/italian/java/ocr-image-search/_index.md @@ -0,0 +1,99 @@ +--- +date: 2026-01-11 +description: Tutorial passo-passo per implementare OCR, estrarre testo da immagini + Java e ricerca inversa di immagini Java usando GroupDocs.Search. +title: Ricerca inversa di immagini Java – Tutorial OCR di GroupDocs.Search +type: docs +url: /it/java/ocr-image-search/ +weight: 7 +--- + +# Ricerca Immagine Inversa Java – Tutorial OCR di GroupDocs.Search + +In questa guida ti mostreremo tutto ciò che devi sapere per creare soluzioni **reverse image search java** con GroupDocs.Search. Che tu stia aggiungendo la ricerca visiva a un portale ricco di contenuti o abbia bisogno di estrarre testo ricercabile da risorse scansionate, ti mostreremo come configurare l'OCR, estrarre testo dalle immagini Java e eseguire ricerche inverse di immagini — il tutto con esempi chiari, pronti per la produzione. + +## Risposte Rapide +- **Che cosa fa reverse image search Java?** Trova immagini visivamente simili in una collezione indicizzata usando GroupDocs.Search. +- **Quale motore OCR è consigliato?** GroupDocs.Search si integra con Aspose.OCR per un'estrazione di testo ad alta precisione. +- **Ho bisogno di una licenza?** Una licenza temporanea funziona per i test; è necessaria una licenza completa per la produzione. +- **Quali sono i prerequisiti principali?** Java 8+, GroupDocs.Search per Java e, facoltativamente, Aspose.OCR. +- **Quanto tempo richiede l'implementazione?** Una configurazione di base può essere completata in meno di un'ora. + +## Cos'è Reverse Image Search Java? +Reverse image search Java ti consente di individuare immagini che hanno un aspetto simile o contengono lo stesso contenuto visivo. Invece di cercare per parole chiave, il motore analizza le caratteristiche dell'immagine, le indicizza e restituisce corrispondenze quando viene inviata un'immagine di query. + +## Perché usare GroupDocs.Search per attività di Immagine e OCR? +- **Unified API** – Gestisci l'indicizzazione di testo e immagini tramite un'unica libreria. +- **High performance** – Ottimizzato per collezioni di grandi dimensioni e tempi di ricerca rapidi. +- **Extensible** – Inserisci motori OCR personalizzati o estrattori di caratteristiche delle immagini se necessario. +- **Cross‑platform** – Funziona su qualsiasi ambiente compatibile con Java, dal desktop al cloud. + +## Prerequisiti +- Java 8 o versioni successive installate. +- Libreria GroupDocs.Search per Java aggiunta al tuo progetto (Maven/Gradle). +- (Facoltativo) Aspose.OCR per Java se desideri la massima precisione OCR. +- Un set di immagini che desideri indicizzare e cercare. + +## Guida Passo‑Passo + +### Passo 1: Configura l'Indice di Ricerca +Crea una nuova istanza `SearchIndex` che punti a una cartella dove verranno memorizzati i file dell'indice. Questa cartella conterrà sia i metadati di testo che quelli delle immagini. + +### Passo 2: Configura OCR per i File Immagine +Abilita l'OCR nelle opzioni di indicizzazione in modo che ogni immagine aggiunta all'indice venga elaborata per l'estrazione del testo. È qui che entra in gioco la parola chiave secondaria **extract text from images java**. + +### Passo 3: Indicizza le Tue Immagini +Aggiungi ogni file immagine all'indice. Durante questa operazione GroupDocs.Search estrae le caratteristiche visive per la ricerca inversa ed esegue l'OCR per estrarre eventuali testi incorporati. + +### Passo 4: Esegui una Ricerca Immagine Inversa +Fornisci un'immagine di query al metodo `search`. Il motore confronta le impronte visive e restituisce una lista ordinata di immagini simili presenti nell'indice. + +### Passo 5: Recupera il Testo OCR (Se Necessario) +Se hai anche bisogno del contenuto testuale trovato all'interno delle immagini, interroga l'indice per il testo estratto dall'OCR usando la ricerca standard per parole chiave. + +## Problemi Comuni e Soluzioni +- **Nessun risultato restituito:** Verifica che l'estrattore di caratteristiche delle immagini sia abilitato e che l'indice sia stato ricostruito dopo aver aggiunto nuove immagini. +- **Il testo OCR è mancante:** Assicurati che il motore OCR sia correttamente referenziato nelle dipendenze del progetto e che il formato dell'immagine sia supportato (ad esempio PNG, JPEG, TIFF). +- **Rallentamento delle prestazioni:** Considera di suddividere grandi collezioni di immagini in più indici o di utilizzare l'indicizzazione incrementale per mantenere bassi i tempi di ricerca. + +## Domande Frequenti + +**Q: Posso usare reverse image search Java su piattaforme cloud?** +A: Sì, la libreria è indipendente dalla piattaforma e funziona su qualsiasi ambiente che supporta Java, inclusi AWS, Azure e Google Cloud. + +**Q: Quanto è accurata l'estrazione OCR per diverse lingue?** +A: Aspose.OCR supporta oltre 60 lingue; è possibile specificare la lingua nelle opzioni OCR per una migliore precisione. + +**Q: È possibile combinare la ricerca per parole chiave con la similarità delle immagini?** +A: Assolutamente. Puoi prima filtrare i risultati con una query di parole chiave e poi ordinare gli elementi rimanenti per similarità visiva. + +**Q: Quali formati di file sono supportati per l'indicizzazione delle immagini?** +A: Formati comuni come JPEG, PNG, BMP e TIFF sono pienamente supportati di default. + +**Q: Come aggiorno l'indice quando le immagini cambiano?** +A: Usa il metodo `update` per rielaborare le immagini modificate, oppure elimina e riaggiungile per mantenere l'indice aggiornato. + +## Risorse Aggiuntive + +### Tutorial Disponibili + +#### [Configuring Character Recognition in GroupDocs.Search for Java: An OCR & Image Search Guide](./groupdocs-search-java-character-recognition/) +Scopri come configurare il riconoscimento dei caratteri usando GroupDocs.Search per Java, concentrandoti su caratteri regolari e misti. Migliora la gestione dei documenti con funzionalità di ricerca avanzate. + +#### [Java OCR Indexing Guide with Aspose and GroupDocs: Enhance Document Searchability](./java-ocr-indexing-aspose-groupdocs-search/) +Impara a implementare un potente indicizzazione OCR in Java usando GroupDocs.Search e Aspose.OCR per migliorare le capacità di ricerca dei documenti. + +### Link Utili + +- [GroupDocs.Search for Java Documentation](https://docs.groupdocs.com/search/java/) +- [GroupDocs.Search for Java API Reference](https://reference.groupdocs.com/search/java/) +- [Download GroupDocs.Search for Java](https://releases.groupdocs.com/search/java/) +- [GroupDocs.Search Forum](https://forum.groupdocs.com/c/search) +- [Free Support](https://forum.groupdocs.com/) +- [Temporary License](https://purchase.groupdocs.com/temporary-license/) + +--- + +**Ultimo aggiornamento:** 2026-01-11 +**Testato con:** GroupDocs.Search per Java 23.11 +**Autore:** GroupDocs \ No newline at end of file diff --git a/content/italian/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/italian/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md new file mode 100644 index 00000000..d58433cb --- /dev/null +++ b/content/italian/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -0,0 +1,233 @@ +--- +date: '2026-01-11' +description: Scopri come creare un indice di ricerca personalizzato usando GroupDocs.Search + per Java, configurando caratteri regolari e misti per la ricerca avanzata OCR e + di immagini. +keywords: +- GroupDocs.Search Java +- Java OCR character recognition +- search library Java +title: Crea indice di ricerca personalizzato con riconoscimento dei caratteri – GroupDocs.Search + Java +type: docs +url: /it/java/ocr-image-search/groupdocs-search-java-character-recognition/ +weight: 1 +--- + +# Crea un indice di ricerca personalizzato con riconoscimento dei caratteri usando GroupDocs.Search per Java + +In applicazioni moderne con una grande quantità di documenti, **creare un indice di ricerca personalizzato** che comprenda le sfumature del tuo testo—come trattini, underscore o simboli specifici di una lingua—è fondamentale per un recupero rapido e preciso. Questo tutorial ti guida nella configurazione del riconoscimento dei caratteri in **GroupDocs.Search per Java**, coprendo sia i caratteri regolari (lettere, cifre, underscore) sia i caratteri misti (ad es. i trattini). Alla fine, sarai in grado di personalizzare un indice che soddisfi esattamente le esigenze del tuo scenario OCR o di ricerca di immagini. + +## Risposte rapide +- **Cosa significa “creare un indice di ricerca personalizzato”?** Significa configurare un indice per trattare simboli specifici come lettere o caratteri misti, anziché ignorarli. +- **Quale libreria viene utilizzata?** GroupDocs.Search per Java (v25.4 al momento della stesura). +- **È necessaria una licenza?** Una prova gratuita funziona per lo sviluppo; è richiesta una licenza a pagamento per la produzione. +- **Posso indicizzare sia PDF che immagini?** Sì—GroupDocs.Search supporta OCR su immagini e PDF quando configurato correttamente. +- **Maven è obbligatorio?** Maven è il metodo consigliato per gestire le dipendenze, ma è possibile usare anche Gradle o JAR manuali. + +## Cos’è un indice di ricerca personalizzato? +Un indice di ricerca personalizzato ti consente di definire come il motore di ricerca interpreta i caratteri. Per impostazione predefinita, molti simboli vengono ignorati, il che può provocare mancati risultati per elementi come numeri di pratica (`ABC-123`) o frammenti di codice (`my_variable`). Modificando il dizionario dell’alfabeto ottieni il pieno controllo su ciò che il motore considera testo ricercabile. + +## Perché configurare caratteri regolari e misti? +- **Caratteri regolari** (lettere, cifre, underscore) sono trattati come token autonomi, migliorando le ricerche a corrispondenza esatta. +- **Caratteri misti** (trattini, slash) collegano parole; configurarli impedisce la divisione indesiderata dei token, fondamentale per riferimenti legali, codici prodotto o indicizzazione di codice sorgente. + +## Prerequisiti +- **JDK 8** o versioni successive installate. +- **Maven** per la gestione delle dipendenze. +- Accesso alla libreria **GroupDocs.Search per Java** (scaricata via Maven o dal sito ufficiale). + +### Librerie e dipendenze richieste +Aggiungi il repository e le voci di dipendenza al tuo `pom.xml` (come mostrato di seguito). Il blocco XML deve rimanere invariato. + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +Puoi anche scaricare gli ultimi JAR da [GroupDocs.Search for Java releases](https://releases.groupdocs.com/search/java/). + +### Acquisizione della licenza +- **Free Trial** – perfetta per le prime sperimentazioni. +- **Temporary License** – utile per cicli di sviluppo più lunghi. +- **Production License** – richiesta per il deployment commerciale. + +Ottieni una licenza dal portale ufficiale: [GroupDocs](https://purchase.groupdocs.com/temporary-license/). + +### Inizializzazione di base +Il frammento qui sotto mostra il codice minimo necessario per avviare un indice vuoto. Lascialo così com’è; lo estenderemo più avanti. + +```java +import com.groupdocs.search.*; + +public class GroupDocsSearchSetup { + public static void main(String[] args) { + String indexFolder = "YOUR_OUTPUT_DIRECTORY"; + String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; + + Index index = new Index(indexFolder); + + System.out.println("GroupDocs.Search setup completed!"); + } +} +``` + +## Configurazione di GroupDocs.Search per Java + +### Installazione via Maven +La configurazione Maven della sezione *Prerequisiti* è tutto ciò di cui hai bisogno. Dopo averla aggiunta, esegui `mvn clean install` per scaricare i binari. + +### Requisiti per la configurazione dell’ambiente +- Assicurati che la **cartella dell’indice** e la **cartella dei documenti** esistano sul disco. +- Usa percorsi assoluti o configura il tuo IDE per risolvere correttamente i percorsi relativi. + +## Guida all’implementazione + +Di seguito descriviamo due funzionalità distinte: **caratteri regolari** e **caratteri misti**. Ogni funzionalità segue lo stesso schema—definisci i percorsi, crea l’indice, imposta il dizionario dei caratteri e, infine, indicizza i documenti. + +### Funzionalità 1 – Caratteri regolari + +#### Panoramica +I caratteri regolari sono trattati come token indipendenti. Questo è ideale quando vuoi che cifre, lettere e underscore siano ricercabili esattamente così come appaiono. + +#### Implementazione passo‑a‑passo + +**1️⃣ Imposta i percorsi** +Definisci dove verrà memorizzato l’indice e dove risiedono i documenti sorgente. + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Crea e configura l’indice** +Istanzia l’indice e cancella qualsiasi configurazione dell’alfabeto preesistente. + +```java +Index index = new Index(indexFolder); +index.getDictionaries().getAlphabet().clear(); +``` + +**3️⃣ Definisci i caratteri regolari** +Costruisci un array di caratteri che includa cifre, lettere latine e l’underscore. + +```java +StringBuilder sb = new StringBuilder(); +for (char i = 0x0030; i <= 0x0039; i++) { // Digits + sb.append(i); +} +for (char i = 0x0041; i <= 0x005A; i++) { // Latin capital letters + sb.append(i); +} +sb.append(0x005F); // Underscore +for (char i = 0x0061; i <= 0x007A; i++) { // Latin small letters + sb.append(i); +} + +// Convert to character array and set as alphabet range +char[] characters = new char[sb.length()]; +sb.getChars(0, sb.length(), characters, 0); +index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); +``` + +**4️⃣ Indicizza i documenti** +Aggiungi tutti i file dalla cartella sorgente al nuovo indice configurato. + +```java +index.add(documentFolder); +``` + +### Funzionalità 2 – Caratteri misti + +#### Panoramica +I caratteri misti (come i trattini) collegano spesso due parole. Segnarli come *misti* indica al motore di mantenere insieme i token circostanti durante l’indicizzazione. + +#### Implementazione passo‑a‑passo + +**1️⃣ Imposta i percorsi** + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Crea e configura l’indice** + +```java +Index index = new Index(indexFolder); +``` + +**3️⃣ Definisci i caratteri misti** +Qui indichiamo al dizionario che il trattino deve essere trattato come carattere misto. + +```java +index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); +``` + +**4️⃣ Indicizza i documenti** + +```java +index.add(documentFolder); +``` + +## Applicazioni pratiche + +### Caso d’uso 1 – Gestione di documenti legali +I file legali contengono spesso numeri di pratica come `2023-AB-456`. Configurando underscore e trattini, le ricerche restituiscono corrispondenze esatte senza dividere l’identificatore. + +### Caso d’uso 2 – Repository di codice sorgente +Gli sviluppatori hanno bisogno di cercare frammenti di codice dove underscore (`my_variable`) e trattini (`my-function`) sono significativi. Il riconoscimento personalizzato dei caratteri garantisce che il motore di ricerca rispetti questi simboli. + +### Caso d’uso 3 – Set di dati multilingue +Quando si lavora con lingue che utilizzano alfabeti aggiuntivi, è possibile estendere il set di caratteri regolari includendo quegli intervalli Unicode, garantendo risultati di ricerca accurati tra più lingue. + +## Considerazioni sulle prestazioni + +- **Resource Management** – Monitora l’utilizzo dell’heap; gli indici di grandi dimensioni beneficiano di commit incrementali. +- **Garbage Collection** – Rilascia gli oggetti `Index` al termine per consentire alla JVM di recuperare la memoria. +- **Index Optimization** – Chiama periodicamente `index.optimize()` (se disponibile) per compattare l’indice e migliorare la velocità delle query. + +## Conclusione + +Ora sai come **creare un indice di ricerca personalizzato** che distingue tra caratteri regolari e misti usando GroupDocs.Search per Java. Questo controllo fine ti permette di costruire soluzioni di ricerca ad alte prestazioni, consapevoli dell’OCR, adatte a contesti legali, di sviluppo o multilingue. + +**Passi successivi** +- Sperimenta con intervalli Unicode aggiuntivi per alfabeti non latini. +- Combina la configurazione dei caratteri con altre funzionalità di GroupDocs.Search come stemming o sinonimi. +- Integra l’indice in un’API REST per esporre le capacità di ricerca alle applicazioni front‑end. + +## Domande frequenti + +**Q:** *Qual è lo scopo di `CharacterType.Letter`?* +**A:** Indica all’indice di trattare i caratteri forniti come lettere regolari, così da tokenizzarli separatamente durante l’indicizzazione. + +**Q:** *Posso mescolare caratteri regolari e misti nello stesso indice?* +**A:** Sì—basta chiamare `setRange` per ciascun tipo; il dizionario gestirà entrambe le configurazioni contemporaneamente. + +**Q:** *Devo ricostruire l’indice dopo aver modificato l’alfabeto?* +**A:** Assolutamente. Le modifiche al dizionario dei caratteri influenzano la tokenizzazione, quindi è necessario re‑indicizzare i documenti per applicare le nuove regole. + +**Q:** *Esiste un limite al numero di caratteri personalizzati che posso definire?* +**A:** La libreria supporta l’intero intervallo Unicode; le prestazioni potrebbero degradare se aggiungi un set estremamente ampio, quindi limitati ai caratteri realmente necessari. + +**Q:** *Come influisce tutto ciò sulla precisione dell’OCR?* +**A:** Allineando il set di caratteri dell’indice con l’output del motore OCR, riduci i falsi negativi e migliori la rilevanza complessiva della ricerca. + +--- + +**Ultimo aggiornamento:** 2026-01-11 +**Testato con:** GroupDocs.Search 25.4 per Java +**Autore:** GroupDocs \ No newline at end of file diff --git a/content/italian/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/italian/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md new file mode 100644 index 00000000..2e73027a --- /dev/null +++ b/content/italian/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -0,0 +1,185 @@ +--- +date: '2026-01-11' +description: Scopri come utilizzare l'indicizzazione OCR di GroupDocs per Java con + Aspose.OCR, abilitando potenti capacità di ricerca dei documenti su PDF, immagini + e file scansionati. +keywords: +- Java OCR indexing +- document searchability +- OCR with GroupDocs +title: Come usare GroupDocs per Java per l'indicizzazione OCR con Aspose +type: docs +url: /it/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/ +weight: 1 +--- + +# Come utilizzare GroupDocs per l'OCR indexing in Java con Aspose + +In questa guida scoprirai **come utilizzare GroupDocs** per aggiungere la ricerca basata su OCR alle tue applicazioni Java. Combinando GroupDocs.Search con Aspose.OCR, puoi trasformare i contenuti basati su immagini in testo ricercabile, rendendo i sistemi di gestione documentale molto più utili. Ti guideremo attraverso la configurazione, l'indicizzazione, la ricerca e l'integrazione OCR personalizzata, il tutto con esempi chiari passo‑a‑passo. + +## Risposte rapide +- **Quale libreria fornisce l'indicizzazione OCR?** GroupDocs.Search paired with Aspose.OCR. +- **Quale versione di Java è richiesta?** JDK 8 or higher. +- **È necessaria una licenza?** A free trial is available; a paid license is required for production. +- **Posso indicizzare sia immagini separate che incorporate?** Yes, enable both options in `IndexingOptions`. +- **Il multi‑threading è supportato?** Yes, you can parallelize indexing for large data sets. + +## Cos'è l'indicizzazione OCR con GroupDocs? +L'indicizzazione OCR estrae il testo dalle immagini (inclusi PDF scansionati) e lo memorizza in un indice ricercabile. GroupDocs.Search gestisce l'indicizzazione e l'esecuzione delle query, mentre Aspose.OCR esegue il riconoscimento dei caratteri. + +## Perché utilizzare GroupDocs per l'indicizzazione OCR in Java? +- **Alta precisione** grazie al motore OCR avanzato di Aspose. +- **Integrazione Java senza soluzione di continuità** tramite Maven o JAR diretti. +- **Configurazione flessibile** per immagini separate o incorporate. +- **Prestazioni scalabili** con multi‑threading e ottimizzazioni della memoria. + +## Prerequisiti +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR** (latest version) +- JDK 8+ and an IDE (IntelliJ, Eclipse, NetBeans) +- Basic Java knowledge; Maven is helpful but not mandatory + +## Configurazione di GroupDocs.Search per Java +### Utilizzo di Maven +Add the repository and dependency to your `pom.xml`: + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +### Download diretto +In alternativa, scarica l'ultima versione di GroupDocs.Search per Java da [GroupDocs releases](https://releases.groupdocs.com/search/java/). + +### Acquisizione della licenza +- **Free Trial** – explore all features without cost. +- **Temporary License** – extended testing period. +- **Purchase** – required for production deployments. + +### Inizializzazione e configurazione di base +Create an index folder and initialize the `Index` object: + +```java +import com.groupdocs.search.Index; +// Specify the directory where the index will be stored. +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +// Create an instance of Index class at the specified location. +Index index = new Index(indexFolder); +``` + +## Come utilizzare GroupDocs per l'indicizzazione OCR +### Creazione di un indice +First, set up the folder that will hold the index files: + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +Index index = new Index(indexFolder); +``` + +### Configurazione delle opzioni di indicizzazione OCR +Enable OCR for both separate and embedded images, and plug in a custom OCR connector: + +```java +import com.groupdocs.search.options.IndexingOptions; +IndexingOptions options = new IndexingOptions(); +options.getOcrIndexingOptions().setEnabledForSeparateImages(true); +options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); +// Set a custom OCR connector. +options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); +``` + +### Indicizzazione dei documenti +Add your source documents (PDFs, Word files, images, etc.) to the index: + +```java +String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; +index.add(documentsFolder, options); +``` + +### Ricerca in un indice +Run a search query against the indexed content: + +```java +import com.groupdocs.search.results.SearchResult; +String query = "water"; +SearchResult result = index.search(query); +``` + +### Implementazione di un connettore OCR +Use Aspose.OCR to recognize text from images. Implement the `IOcrConnector` interface as shown: + +```java +import com.groupdocs.search.options.IOcrConnector; +import com.groupdocs.search.options.OcrContext; +import java.awt.image.BufferedImage; +import javax.imageio.ImageIO; +import com.aspose.ocr.AsposeOCR; + +public class OcrConnector implements IOcrConnector { + @Override + public final String recognize(OcrContext context) { + if (null == context.getImageLocation()) { + throw new RuntimeException("The image type is not supported: " + context.getImageLocation()); + } + + BufferedImage image = ImageIO.read(context.getImageLocation().toFile()); + AsposeOCR api = new AsposeOCR(); + String text = api.RecognizePage(image); + return text; + } +} +``` + +## Applicazioni pratiche +1. **Document Management Systems** – fast retrieval of documents containing scanned images. +2. **Archival Retrieval** – locate historical records within massive archives. +3. **Legal Document Analysis** – search contracts and evidence that include scanned signatures or diagrams. +4. **Medical Records Search** – index patient forms, lab results, and X‑ray annotations. + +## Considerazioni sulle prestazioni +- **Index Size** – exclude unnecessary metadata to keep the index lean. +- **Multi‑Threading** – process large batches in parallel to speed up indexing. +- **Memory Management** – monitor JVM heap when handling high‑resolution images. + +## Problemi comuni e soluzioni +- **License Errors** – ensure the correct license file is placed in the application’s working directory. +- **Missing Images** – verify image paths are accessible and supported formats (PNG, JPEG, BMP). +- **Out‑Of‑Memory** – increase JVM heap (`-Xmx`) or process documents in smaller batches. + +## Domande frequenti +**Q: Come risolvere i problemi di licenza con GroupDocs.Search?** +A: Ottieni una licenza temporanea dal [sito GroupDocs](https://purchase.groupdocs.com/temporary-license/) per sbloccare tutte le funzionalità. + +**Q: Qual è il modo migliore per gestire l'indicizzazione di grandi documenti?** +A: Utilizza il multi‑threading e l'elaborazione a batch per migliorare le prestazioni e ridurre la pressione sulla memoria. + +**Q: Posso personalizzare ulteriormente le impostazioni OCR in GroupDocs.Search?** +A: Sì, `IndexingOptions` consente di regolare finemente il comportamento OCR, come la selezione della lingua e la pre‑elaborazione delle immagini. + +**Q: Quali sono alcuni consigli comuni per la risoluzione dei problemi quando si utilizza GroupDocs.Search?** +A: Verifica nuovamente i percorsi delle directory, assicurati che tutte le dipendenze siano presenti e controlla l'output dei log per eventuali file mancanti. + +**Q: Come posso integrare Aspose.OCR nella mia applicazione Java esistente?** +A: Implementa l'interfaccia `IOcrConnector` come mostrato sopra, assicurandoti di gestire correttamente l'input delle immagini. + +## Risorse +- [GroupDocs.Search Documentation](https://docs.groupdocs.com/search/java/) +- [API Reference](https://reference.groupdocs.com/search/java/) + +--- + +**Last Updated:** 2026-01-11 +**Tested With:** GroupDocs.Search 25.4, Aspose.OCR latest release +**Author:** GroupDocs \ No newline at end of file diff --git a/content/japanese/java/ocr-image-search/_index.md b/content/japanese/java/ocr-image-search/_index.md new file mode 100644 index 00000000..c73b7894 --- /dev/null +++ b/content/japanese/java/ocr-image-search/_index.md @@ -0,0 +1,98 @@ +--- +date: 2026-01-11 +description: GroupDocs.Search を使用した OCR の実装、Java で画像からテキストを抽出、そして Java での逆画像検索のステップバイステップチュートリアル。 +title: リバース画像検索 Java – GroupDocs.Search OCR チュートリアル +type: docs +url: /ja/java/ocr-image-search/ +weight: 7 +--- + +# 逆画像検索 Java – GroupDocs.Search OCR チュートリアル + +このガイドでは、GroupDocs.Search を使用して **reverse image search java** ソリューションを構築するために必要なすべてを順を追って説明します。コンテンツが豊富なポータルにビジュアル検索を追加したい場合や、スキャンされた資産から検索可能なテキストを取得したい場合でも、OCR の設定方法、Java で画像からテキストを抽出する方法、逆画像検索の実行方法を、明確で本番環境向けの例とともに示します。 + +## クイック回答 +- **reverse image search Java は何をしますか?** GroupDocs.Search を使用してインデックス化されたコレクション内で視覚的に類似した画像を検索します。 +- **推奨される OCR エンジンはどれですか?** GroupDocs.Search は高精度テキスト抽出のために Aspose.OCR と統合されています。 +- **ライセンスは必要ですか?** テスト用には一時ライセンスで動作しますが、本番環境ではフルライセンスが必要です。 +- **主な前提条件は何ですか?** Java 8 以上、GroupDocs.Search for Java、オプションで Aspose.OCR が必要です。 +- **実装にどれくらい時間がかかりますか?** 基本的なセットアップは1時間未満で完了できます。 + +## Reverse Image Search Java とは? +Reverse image search Java を使用すると、見た目が似ている、または同じビジュアルコンテンツを含む画像を見つけることができます。キーワードで検索する代わりに、エンジンは画像の特徴を解析し、インデックス化し、クエリ画像が送信されると一致する画像を返します。 + +## 画像および OCR タスクに GroupDocs.Search を使用する理由 +- **Unified API** – 単一のライブラリでテキストと画像のインデックスを管理します。 +- **High performance** – 大規模コレクションと高速検索に最適化されています。 +- **Extensible** – 必要に応じてカスタム OCR エンジンや画像特徴抽出器をプラグインできます。 +- **Cross‑platform** – デスクトップからクラウドまで、Java 対応環境で動作します。 + +## 前提条件 +- Java 8 以上がインストールされていること。 +- プロジェクトに GroupDocs.Search for Java ライブラリを追加する(Maven/Gradle)。 +- (オプション)最高の OCR 精度が必要な場合は Aspose.OCR for Java。 +- インデックス化および検索対象とする画像のセット。 + +## ステップバイステップガイド + +### 手順 1: 検索インデックスの設定 +`SearchIndex` の新しいインスタンスを作成し、インデックスファイルを保存するフォルダーを指すようにします。このフォルダーにはテキストと画像メタデータの両方が格納されます。 + +### 手順 2: 画像ファイル用 OCR の設定 +インデックスオプションで OCR を有効にし、インデックスに追加されたすべての画像がテキスト抽出の対象になるようにします。ここで二次キーワード **extract text from images java** が重要になります。 + +### 手順 3: 画像のインデックス作成 +各画像ファイルをインデックスに追加します。この操作中に GroupDocs.Search は逆検索用の視覚的特徴を抽出し、埋め込まれたテキストを取得するために OCR を実行します。 + +### 手順 4: 逆画像検索の実行 +`search` メソッドにクエリ画像を渡します。エンジンは視覚的フィンガープリントを比較し、インデックスから類似画像のランク付けされたリストを返します。 + +### 手順 5: OCR テキストの取得(必要な場合) +画像内に見つかったテキストコンテンツも必要な場合は、標準のキーワード検索を使用して OCR 抽出テキストをインデックスに問い合わせます。 + +## よくある問題と解決策 +- **結果が返されない:** 画像特徴抽出器が有効になっていることと、新しい画像を追加した後にインデックスが再構築されていることを確認してください。 +- **OCR テキストが欠落している:** プロジェクトの依存関係で OCR エンジンが正しく参照されていること、画像形式がサポートされていること(例: PNG、JPEG、TIFF)を確認してください。 +- **パフォーマンス低下:** 大規模な画像コレクションを複数のインデックスに分割するか、インクリメンタルインデックスを使用して検索時間を低く保つことを検討してください。 + +## よくある質問 + +**Q: reverse image search Java をクラウドプラットフォームで使用できますか?** +A: はい、このライブラリはプラットフォームに依存せず、Java をサポートする任意の環境(AWS、Azure、Google Cloud を含む)で動作します。 + +**Q: 言語ごとの OCR 抽出精度はどの程度ですか?** +A: Aspose.OCR は 60 以上の言語をサポートしており、OCR オプションで言語を指定することで精度を向上させることができます。 + +**Q: キーワード検索と画像類似性を組み合わせることは可能ですか?** +A: もちろんです。まずキーワードクエリで結果をフィルタリングし、残りの項目を視覚的類似性でランク付けできます。 + +**Q: 画像インデックスに対応しているファイル形式は何ですか?** +A: JPEG、PNG、BMP、TIFF などの一般的な形式はすべて標準で完全にサポートされています。 + +**Q: 画像が変更されたときにインデックスを更新するにはどうすればよいですか?** +A: `update` メソッドを使用して変更された画像を再処理するか、削除して再度追加してインデックスを最新の状態に保ちます。 + +## 追加リソース + +### 利用可能なチュートリアル + +#### [GroupDocs.Search for Java における文字認識の設定: OCR と画像検索ガイド](./groupdocs-search-java-character-recognition/) +GroupDocs.Search for Java を使用した文字認識の設定方法を学び、通常文字と混合文字に焦点を当てます。高度な検索機能でドキュメント管理を強化します。 + +#### [Aspose と GroupDocs を使用した Java OCR インデックスガイド: ドキュメント検索性の向上](./java-ocr-indexing-aspose-groupdocs-search/) +GroupDocs.Search と Aspose.OCR を活用した強力な Java OCR インデックスの実装方法を学び、ドキュメント検索機能を向上させます。 + +### 便利なリンク + +- [GroupDocs.Search for Java ドキュメント](https://docs.groupdocs.com/search/java/) +- [GroupDocs.Search for Java API リファレンス](https://reference.groupdocs.com/search/java/) +- [GroupDocs.Search for Java のダウンロード](https://releases.groupdocs.com/search/java/) +- [GroupDocs.Search フォーラム](https://forum.groupdocs.com/c/search) +- [無料サポート](https://forum.groupdocs.com/) +- [一時ライセンス](https://purchase.groupdocs.com/temporary-license/) + +--- + +**最終更新日:** 2026-01-11 +**テスト環境:** GroupDocs.Search for Java 23.11 +**作者:** GroupDocs \ No newline at end of file diff --git a/content/japanese/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/japanese/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md new file mode 100644 index 00000000..0705f011 --- /dev/null +++ b/content/japanese/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -0,0 +1,228 @@ +--- +date: '2026-01-11' +description: GroupDocs.Search for Java を使用してカスタム検索インデックスを作成し、通常文字とブレンド文字を設定して高度な OCR + と画像検索を実現する方法を学びましょう。 +keywords: +- GroupDocs.Search Java +- Java OCR character recognition +- search library Java +title: 文字認識を使用したカスタム検索インデックスの作成 – GroupDocs.Search Java +type: docs +url: /ja/java/ocr-image-search/groupdocs-search-java-character-recognition/ +weight: 1 +--- + +# 文字認識を使用したカスタム検索インデックスの作成(GroupDocs.Search for Java) + +現代の文書が大量に扱われるアプリケーションでは、**カスタム検索インデックスの作成**が、ハイフン、アンダースコア、言語固有の記号などテキストのニュアンスを理解できることが、迅速かつ正確な検索に不可欠です。このチュートリアルでは、**GroupDocs.Search for Java** における文字認識の設定方法を、通常文字(文字、数字、アンダースコア)と混合文字(例:ハイフン)の両方をカバーしながら解説します。最後まで読むと、OCR や画像検索シナリオの正確な要件に合わせたインデックスを作成できるようになります。 + +## クイック回答 +- **「create custom search index」とは何ですか?** インデックスを構成し、特定の記号を無視せずに文字または混合文字として扱うことを意味します。 +- **使用されているライブラリはどれですか?** GroupDocs.Search for Java(執筆時点のバージョンは v25.4)。 +- **ライセンスは必要ですか?** 開発には無料トライアルで十分ですが、本番環境では有料ライセンスが必要です。 +- **PDF と画像の両方をインデックスできますか?** はい。適切に構成すれば、GroupDocs.Search は画像と PDF の OCR をサポートします。 +- **Maven は必須ですか?** 依存関係の管理には Maven が推奨されますが、Gradle や手動で JAR を使用することも可能です。 + +## カスタム検索インデックスとは? +カスタム検索インデックスを使用すると、検索エンジンが文字をどのように解釈するかを定義できます。デフォルトでは多くの記号が無視されるため、ケース番号(`ABC-123`)やコードスニペット(`my_variable`)などの一致が見逃されることがあります。アルファベット辞書を調整することで、エンジンが検索対象のテキストとして扱うものを完全にコントロールできます。 + +## なぜ通常文字と混合文字を設定するのか? +- **Regular characters**(文字、数字、アンダースコア)は単独のトークンとして扱われ、完全一致検索が向上します。 +- **Blended characters**(ハイフン、スラッシュ)は単語を結合します。これらを設定することで不要なトークン分割を防ぎ、法的参照、製品コード、ソースコードのインデックス作成に重要です。 + +## 前提条件 +- **JDK 8** 以上がインストールされていること。 +- **Maven** が依存関係管理に使用できること。 +- **GroupDocs.Search for Java** ライブラリへのアクセス(Maven または公式サイトからダウンロード)。 + +### 必要なライブラリと依存関係 +`pom.xml` にリポジトリと依存関係のエントリを追加します(以下参照)。XML ブロックは変更せずにそのままにしてください。 + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +最新の JAR は [GroupDocs.Search for Java リリース](https://releases.groupdocs.com/search/java/) からもダウンロードできます。 + +### ライセンス取得 +- **Free Trial** – 初期の実験に最適です。 +- **Temporary License** – 長期の開発サイクルに便利です。 +- **Production License** – 商用展開には必須です。 + +公式ポータルからライセンスを取得してください: [GroupDocs](https://purchase.groupdocs.com/temporary-license/)。 + +### 基本的な初期化 +以下のスニペットは空のインデックスを作成するために必要な最小コードを示しています。そのまま保持してください。後でこの上に構築します。 + +```java +import com.groupdocs.search.*; + +public class GroupDocsSearchSetup { + public static void main(String[] args) { + String indexFolder = "YOUR_OUTPUT_DIRECTORY"; + String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; + + Index index = new Index(indexFolder); + + System.out.println("GroupDocs.Search setup completed!"); + } +} +``` + +## GroupDocs.Search for Java の設定 + +### Maven でのインストール +*Prerequisites* セクションの Maven 設定がすべてです。追加したら `mvn clean install` を実行してバイナリを取得してください。 + +### 環境設定要件 +- **index folder** と **document folder** がディスク上に存在することを確認してください。 +- 絶対パスを使用するか、IDE が相対パスを正しく解決するように設定してください。 + +## 実装ガイド +以下では、**regular characters** と **blended characters** の 2 つの機能を順に解説します。各機能は同じパターンに従います—パスを定義し、インデックスを作成し、文字辞書を設定し、最後にドキュメントをインデックスします。 + +### 機能 1 – 通常文字 + +#### 概要 +通常文字は独立したトークンとして扱われます。数字、文字、アンダースコアをそのまま検索可能にしたい場合に最適です。 + +#### 手順実装 + +**1️⃣ Set Up Paths** +インデックスの保存場所とソースドキュメントの場所を定義します。 + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Create and Configure Index** +インデックスをインスタンス化し、既存のアルファベット設定をクリアします。 + +```java +Index index = new Index(indexFolder); +index.getDictionaries().getAlphabet().clear(); +``` + +**3️⃣ Define Regular Characters** +数字、ラテン文字、アンダースコアを含む文字配列を作成します。 + +```java +StringBuilder sb = new StringBuilder(); +for (char i = 0x0030; i <= 0x0039; i++) { // Digits + sb.append(i); +} +for (char i = 0x0041; i <= 0x005A; i++) { // Latin capital letters + sb.append(i); +} +sb.append(0x005F); // Underscore +for (char i = 0x0061; i <= 0x007A; i++) { // Latin small letters + sb.append(i); +} + +// Convert to character array and set as alphabet range +char[] characters = new char[sb.length()]; +sb.getChars(0, sb.length(), characters, 0); +index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); +``` + +**4️⃣ Index Documents** +ソースフォルダー内のすべてのファイルを新しく構成したインデックスに追加します。 + +```java +index.add(documentFolder); +``` + +### 機能 2 – 混合文字 + +#### 概要 +混合文字(ハイフンなど)はしばしば2つの単語を結びつけます。これらを *blended* とマークすると、インデックス作成時にエンジンは周囲のトークンを一緒に保持します。 + +#### 手順実装 + +**1️⃣ Set Up Paths** + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Create and Configure Index** + +```java +Index index = new Index(indexFolder); +``` + +**3️⃣ Define Blended Characters** +ここでは、ハイフンを混合文字として扱うよう辞書に指示します。 + +```java +index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); +``` + +**4️⃣ Index Documents** + +```java +index.add(documentFolder); +``` + +## 実用的な応用例 + +### ユースケース 1 – 法務文書管理 +法務文書には `2023-AB-456` のようなケース番号が含まれることが多いです。アンダースコアとハイフンを設定することで、識別子が分割されずに正確な一致が検索されます。 + +### ユースケース 2 – ソースコードリポジトリ +開発者は、アンダースコア(`my_variable`)やハイフン(`my-function`)が意味を持つコードスニペットを検索する必要があります。カスタム文字認識により、検索エンジンがこれらの記号を尊重します。 + +### ユースケース 3 – 多言語データセット +追加のアルファベットを使用する言語を扱う場合、通常文字セットにそれらの Unicode 範囲を拡張でき、正確な多言語検索結果が保証されます。 + +## パフォーマンス考慮事項 +- **Resource Management** – ヒープ使用量に注意してください。大規模インデックスはインクリメンタルコミットで恩恵を受けます。 +- **Garbage Collection** – 終了時に `Index` オブジェクトを解放し、JVM にメモリ回収させます。 +- **Index Optimization** – 定期的に `index.optimize()`(利用可能な場合)を呼び出してインデックスを圧縮し、クエリ速度を向上させます。 + +## 結論 +これで、GroupDocs.Search for Java を使用して **custom search index** を作成し、通常文字と混合文字を区別できるようになりました。この細かな制御により、法務、開発、または多言語環境に合わせた OCR 対応の高性能検索ソリューションを構築できます。 + +**次のステップ** +- ラテン文字以外のアルファベット用に追加の Unicode 範囲を試してみてください。 +- 文字設定をステミングや同義語など、他の GroupDocs.Search 機能と組み合わせます。 +- インデックスを REST API に統合し、フロントエンドアプリケーションに検索機能を提供します。 + +## よくある質問 + +**Q:** *`CharacterType.Letter` の目的は何ですか?* +**A:** インデックスに対し、提供された文字を通常の文字として扱うよう指示し、インデックス作成時に個別にトークン化されます。 + +**Q:** *同じインデックスで通常文字と混合文字を混在させられますか?* +**A:** はい。各タイプに対して `setRange` を呼び出すだけで、辞書は両方の設定を同時に処理します。 + +**Q:** *アルファベットを変更した後、インデックスを再構築する必要がありますか?* +**A:** 必要です。文字辞書の変更はトークン化に影響するため、新しいルールを適用するにはドキュメントを再インデックスする必要があります。 + +**Q:** *定義できるカスタム文字の数に制限はありますか?* +**A:** ライブラリは Unicode 全域をサポートしていますが、非常に大量の文字を追加するとパフォーマンスが低下する可能性があるため、実際に必要な文字に限定してください。 + +**Q:** *これが OCR の精度にどのように影響しますか?* +**A:** インデックスの文字セットを OCR エンジンの出力と合わせることで、偽陰性を減らし、検索の関連性全体を向上させます。 + +--- + +**最終更新日:** 2026-01-11 +**テスト環境:** GroupDocs.Search 25.4 for Java +**作者:** GroupDocs \ No newline at end of file diff --git a/content/japanese/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/japanese/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md new file mode 100644 index 00000000..d97c83a2 --- /dev/null +++ b/content/japanese/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -0,0 +1,183 @@ +--- +date: '2026-01-11' +description: GroupDocs for Java の OCR インデックス作成を Aspose.OCR と組み合わせて使用する方法を学び、PDF、画像、スキャンファイル全体で強力な文書検索機能を実現します。 +keywords: +- Java OCR indexing +- document searchability +- OCR with GroupDocs +title: Aspose と共に GroupDocs for Java の OCR インデックスを使用する方法 +type: docs +url: /ja/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/ +weight: 1 +--- + +# GroupDocs for Java OCR インデックスを Aspose と共に使用する方法 + +このガイドでは、**GroupDocs** を使用して Java アプリケーションに OCR 機能付き検索を追加する方法を紹介します。GroupDocs.Search と Aspose.OCR を組み合わせることで、画像ベースのコンテンツを検索可能なテキストに変換し、文書管理システムの有用性を大幅に向上させます。セットアップ、インデックス作成、検索、カスタム OCR 統合の手順を、分かりやすいステップバイステップの例とともに解説します。 + +## Quick Answers +- **どのライブラリが OCR インデックスを提供しますか?** GroupDocs.Search と Aspose.OCR の組み合わせです。 +- **必要な Java バージョンは?** JDK 8 以上。 +- **ライセンスは必要ですか?** 無料トライアルが利用可能です。製品版では有料ライセンスが必要です。 +- **個別画像と埋め込み画像の両方をインデックスできますか?** はい、`IndexingOptions` で両方のオプションを有効にします。 +- **マルチスレッドはサポートされていますか?** はい、大規模データセット向けにインデックス作成を並列化できます。 + +## GroupDocs の OCR インデックスとは? +OCR インデックスは、画像(スキャンした PDF も含む)からテキストを抽出し、検索可能なインデックスに格納します。GroupDocs.Search がインデックス作成とクエリ実行を担当し、Aspose.OCR が実際の文字認識を行います。 + +## Java 用 GroupDocs の OCR インデックスを使用すべき理由 +- **高精度** – Aspose の高度な OCR エンジンによるもの。 +- **シームレスな Java 統合** – Maven または直接 JAR で利用可能。 +- **柔軟な設定** – 個別画像または埋め込み画像のどちらでも対応。 +- **スケーラブルなパフォーマンス** – マルチスレッドとメモリ最適化に対応。 + +## 前提条件 +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR**(最新バージョン) +- JDK 8+ と IDE(IntelliJ、Eclipse、NetBeans) +- 基本的な Java 知識;Maven があれば便利ですが必須ではありません + +## GroupDocs.Search for Java の設定 +### Maven を使用する場合 +`pom.xml` にリポジトリと依存関係を追加します。 + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +### 直接ダウンロード +あるいは、[GroupDocs releases](https://releases.groupdocs.com/search/java/) から最新バージョンの GroupDocs.Search for Java をダウンロードしてください。 + +### ライセンス取得 +- **無料トライアル** – すべての機能を費用なしで試せます。 +- **一時ライセンス** – テスト期間を延長できます。 +- **購入** – 本番環境での使用にはライセンスが必要です。 + +### 基本的な初期化と設定 +インデックスフォルダーを作成し、`Index` オブジェクトを初期化します。 + +```java +import com.groupdocs.search.Index; +// Specify the directory where the index will be stored. +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +// Create an instance of Index class at the specified location. +Index index = new Index(indexFolder); +``` + +## GroupDocs を使用した OCR インデックスの利用方法 +### インデックスの作成 +まず、インデックスファイルを格納するフォルダーを設定します。 + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +Index index = new Index(indexFolder); +``` + +### OCR インデックスオプションの設定 +個別画像と埋め込み画像の両方で OCR を有効にし、カスタム OCR コネクタを組み込みます。 + +```java +import com.groupdocs.search.options.IndexingOptions; +IndexingOptions options = new IndexingOptions(); +options.getOcrIndexingOptions().setEnabledForSeparateImages(true); +options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); +// Set a custom OCR connector. +options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); +``` + +### ドキュメントのインデックス作成 +ソースドキュメント(PDF、Word、画像など)をインデックスに追加します。 + +```java +String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; +index.add(documentsFolder, options); +``` + +### インデックス内検索 +インデックス化されたコンテンツに対して検索クエリを実行します。 + +```java +import com.groupdocs.search.results.SearchResult; +String query = "water"; +SearchResult result = index.search(query); +``` + +### OCR コネクタの実装 +Aspose.OCR を使用して画像からテキストを認識します。以下のように `IOcrConnector` インターフェイスを実装してください。 + +```java +import com.groupdocs.search.options.IOcrConnector; +import com.groupdocs.search.options.OcrContext; +import java.awt.image.BufferedImage; +import javax.imageio.ImageIO; +import com.aspose.ocr.AsposeOCR; + +public class OcrConnector implements IOcrConnector { + @Override + public final String recognize(OcrContext context) { + if (null == context.getImageLocation()) { + throw new RuntimeException("The image type is not supported: " + context.getImageLocation()); + } + + BufferedImage image = ImageIO.read(context.getImageLocation().toFile()); + AsposeOCR api = new AsposeOCR(); + String text = api.RecognizePage(image); + return text; + } +} +``` + +## 実用例 +1. **文書管理システム** – スキャン画像を含む文書の高速検索。 +2. **アーカイブ検索** – 大規模アーカイブ内の歴史的記録を特定。 +3. **法務文書分析** – スキャンされた署名や図面を含む契約書・証拠の検索。 +4. **医療記録検索** – 患者フォーム、検査結果、X 線注釈などのインデックス化。 + +## パフォーマンス上の考慮点 +- **インデックスサイズ** – 不要なメタデータを除外してインデックスを軽量化。 +- **マルチスレッド** – 大量バッチを並列処理してインデックス作成を高速化。 +- **メモリ管理** – 高解像度画像を扱う際は JVM ヒープを監視。 + +## よくある問題と対策 +- **ライセンスエラー** – 正しいライセンスファイルがアプリケーションの作業ディレクトリに配置されていることを確認。 +- **画像が見つからない** – 画像パスがアクセス可能で、サポート形式(PNG、JPEG、BMP)であることを確認。 +- **メモリ不足** – JVM ヒープ (`-Xmx`) を増やすか、ドキュメントを小さなバッチに分割して処理。 + +## FAQ +**Q: GroupDocs.Search のライセンス問題を解決するには?** +A: 完全機能を有効化するために、[GroupDocs のウェブサイト](https://purchase.groupdocs.com/temporary-license/) から一時ライセンスを取得してください。 + +**Q: 大量文書のインデックス作成に最適な方法は?** +A: マルチスレッドとバッチ処理を活用して、パフォーマンスを向上させメモリ負荷を軽減します。 + +**Q: GroupDocs.Search の OCR 設定をさらにカスタマイズできますか?** +A: はい、`IndexingOptions` で言語選択や画像前処理など OCR 動作を細かく調整できます。 + +**Q: GroupDocs.Search 使用時の一般的なトラブルシューティングは?** +A: ディレクトリパスを再確認し、すべての依存関係が揃っているか確認し、ログ出力で欠損ファイルをチェックしてください。 + +**Q: Aspose.OCR を既存の Java アプリに統合するには?** +A: 上記のように `IOcrConnector` インターフェイスを実装し、画像入力を正しく処理するようにしてください。 + +## リソース +- [GroupDocs.Search Documentation](https://docs.groupdocs.com/search/java/) +- [API Reference](https://reference.groupdocs.com/search/java/) + +--- + +**最終更新日:** 2026-01-11 +**テスト環境:** GroupDocs.Search 25.4、Aspose.OCR 最新リリース +**作成者:** GroupDocs \ No newline at end of file diff --git a/content/korean/java/ocr-image-search/_index.md b/content/korean/java/ocr-image-search/_index.md new file mode 100644 index 00000000..13558d64 --- /dev/null +++ b/content/korean/java/ocr-image-search/_index.md @@ -0,0 +1,99 @@ +--- +date: 2026-01-11 +description: GroupDocs.Search를 사용하여 OCR 구현, Java에서 이미지 텍스트 추출 및 Java에서 역 이미지 검색을 위한 + 단계별 튜토리얼. +title: 역 이미지 검색 Java – GroupDocs.Search OCR 튜토리얼 +type: docs +url: /ko/java/ocr-image-search/ +weight: 7 +--- + +# 리버스 이미지 검색 Java – GroupDocs.Search OCR 튜토리얼 + +이 가이드에서는 GroupDocs.Search를 사용하여 **reverse image search java** 솔루션을 구축하는 데 필요한 모든 내용을 단계별로 안내합니다. 콘텐츠가 풍부한 포털에 시각 검색을 추가하거나 스캔된 자산에서 검색 가능한 텍스트를 추출해야 하는 경우, OCR을 구성하고, images Java에서 텍스트를 추출하며, 리버스 이미지 조회를 수행하는 방법을 명확하고 프로덕션 준비된 예제로 보여드립니다. + +## 빠른 답변 +- **reverse image search Java가 무엇을 하나요?** GroupDocs.Search를 사용하여 인덱스된 컬렉션에서 시각적으로 유사한 이미지를 찾습니다. +- **추천되는 OCR 엔진은 무엇인가요?** GroupDocs.Search는 고정밀 텍스트 추출을 위해 Aspose.OCR와 통합됩니다. +- **라이선스가 필요합니까?** 테스트용으로는 임시 라이선스로 동작하지만, 프로덕션에서는 정식 라이선스가 필요합니다. +- **주요 전제 조건은 무엇인가요?** Java 8+, GroupDocs.Search for Java, 그리고 선택적으로 Aspose.OCR. +- **구현에 얼마나 걸립니까?** 기본 설정은 1시간 이내에 완료할 수 있습니다. + +## Reverse Image Search Java란 무엇인가요? +Reverse image search Java은 시각적으로 유사하거나 동일한 시각 콘텐츠를 포함하는 이미지를 찾을 수 있게 해줍니다. 키워드 검색 대신 엔진이 이미지 특징을 분석하고 인덱싱하여, 쿼리 이미지를 제출하면 일치하는 결과를 반환합니다. + +## 이미지 및 OCR 작업에 GroupDocs.Search를 사용하는 이유는? +- **Unified API** – 단일 라이브러리를 통해 텍스트와 이미지 인덱싱을 관리합니다. +- **High performance** – 대규모 컬렉션 및 빠른 조회 시간을 위해 최적화되었습니다. +- **Extensible** – 필요에 따라 맞춤형 OCR 엔진이나 이미지 특징 추출기를 플러그인할 수 있습니다. +- **Cross‑platform** – 데스크톱부터 클라우드까지 모든 Java 호환 환경에서 작동합니다. + +## 전제 조건 +- Java 8 또는 그 이상의 버전이 설치되어 있어야 합니다. +- 프로젝트에 GroupDocs.Search for Java 라이브러리를 추가합니다 (Maven/Gradle). +- (Optional) Aspose.OCR for Java – 최고의 OCR 정확도를 원한다면 선택 사항입니다. +- 인덱싱하고 검색하려는 이미지 세트. + +## 단계별 가이드 + +### Step 1: 검색 인덱스 설정 +`SearchIndex` 인스턴스를 새로 생성하고 인덱스 파일이 저장될 폴더를 지정합니다. 이 폴더는 텍스트와 이미지 메타데이터를 모두 보관합니다. + +### Step 2: 이미지 파일에 대한 OCR 구성 +인덱싱 옵션에서 OCR을 활성화하면 인덱스에 추가되는 모든 이미지가 텍스트 추출을 위해 처리됩니다. 여기에서 보조 키워드 **extract text from images java**가 사용됩니다. + +### Step 3: 이미지 인덱싱 +각 이미지 파일을 인덱스에 추가합니다. 이 과정에서 GroupDocs.Search는 리버스 검색을 위한 시각적 특징을 추출하고 OCR을 실행하여 포함된 텍스트를 추출합니다. + +### Step 4: 리버스 이미지 검색 수행 +`search` 메서드에 쿼리 이미지를 제공하십시오. 엔진은 시각적 지문을 비교하고 인덱스에서 유사한 이미지의 순위 목록을 반환합니다. + +### Step 5: OCR 텍스트 검색 (필요한 경우) +이미지 내부에 있는 텍스트 콘텐츠도 필요하면, 표준 키워드 검색을 사용하여 OCR 추출 텍스트를 인덱스에서 조회하십시오. + +## 일반적인 문제 및 해결책 +- **결과가 반환되지 않음:** 이미지 특징 추출기가 활성화되어 있는지, 새로운 이미지를 추가한 후 인덱스가 재구성되었는지 확인하십시오. +- **OCR 텍스트가 누락됨:** 프로젝트 의존성에 OCR 엔진이 올바르게 참조되어 있는지, 이미지 형식이 지원되는지 확인하십시오 (예: PNG, JPEG, TIFF). +- **성능 저하:** 대용량 이미지 컬렉션을 여러 인덱스로 분할하거나 증분 인덱싱을 사용하여 검색 시간을 낮게 유지하는 것을 고려하십시오. + +## 자주 묻는 질문 + +**Q: reverse image search Java을 클라우드 플랫폼에서 사용할 수 있나요?** +A: 예, 이 라이브러리는 플랫폼에 구애받지 않으며 Java를 지원하는 모든 환경에서 작동합니다. AWS, Azure, Google Cloud 등을 포함합니다. + +**Q: 다양한 언어에 대한 OCR 추출 정확도는 어느 정도인가요?** +A: Aspose.OCR는 60개 이상의 언어를 지원합니다; 더 높은 정확도를 위해 OCR 옵션에서 언어를 지정할 수 있습니다. + +**Q: 키워드 검색과 이미지 유사성을 결합할 수 있나요?** +A: 물론 가능합니다. 먼저 키워드 쿼리로 결과를 필터링한 다음, 남은 항목을 시각적 유사도로 순위 매길 수 있습니다. + +**Q: 이미지 인덱싱에 지원되는 파일 형식은 무엇인가요?** +A: JPEG, PNG, BMP, TIFF와 같은 일반적인 형식이 기본적으로 완전 지원됩니다. + +**Q: 이미지가 변경될 때 인덱스를 어떻게 업데이트하나요?** +A: `update` 메서드를 사용하여 수정된 이미지를 재처리하거나, 인덱스를 최신 상태로 유지하기 위해 삭제 후 재추가하십시오. + +## 추가 리소스 + +### 사용 가능한 튜토리얼 + +#### [GroupDocs.Search for Java에서 문자 인식 구성: OCR 및 이미지 검색 가이드](./groupdocs-search-java-character-recognition/) +GroupDocs.Search for Java를 사용하여 문자 인식을 구성하는 방법을 배우고, 일반 문자와 혼합 문자에 중점을 둡니다. 고급 검색 기능으로 문서 관리를 향상시킵니다. + +#### [Aspose와 GroupDocs를 활용한 Java OCR 인덱싱 가이드: 문서 검색성 향상](./java-ocr-indexing-aspose-groupdocs-search/) +GroupDocs.Search와 Aspose.OCR를 사용하여 강력한 Java OCR 인덱싱을 구현하고 문서 검색 기능을 향상시키는 방법을 배웁니다. + +### 유용한 링크 + +- [GroupDocs.Search for Java 문서](https://docs.groupdocs.com/search/java/) +- [GroupDocs.Search for Java API 레퍼런스](https://reference.groupdocs.com/search/java/) +- [GroupDocs.Search for Java 다운로드](https://releases.groupdocs.com/search/java/) +- [GroupDocs.Search 포럼](https://forum.groupdocs.com/c/search) +- [무료 지원](https://forum.groupdocs.com/) +- [임시 라이선스](https://purchase.groupdocs.com/temporary-license/) + +--- + +**마지막 업데이트:** 2026-01-11 +**테스트 환경:** GroupDocs.Search for Java 23.11 +**작성자:** GroupDocs \ No newline at end of file diff --git a/content/korean/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/korean/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md new file mode 100644 index 00000000..1c8b701e --- /dev/null +++ b/content/korean/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -0,0 +1,231 @@ +--- +date: '2026-01-11' +description: GroupDocs.Search for Java를 사용하여 맞춤 검색 인덱스를 만드는 방법을 배우고, 고급 OCR 및 이미지 + 검색을 위해 일반 문자와 혼합 문자를 구성합니다. +keywords: +- GroupDocs.Search Java +- Java OCR character recognition +- search library Java +title: 문자 인식을 통한 맞춤 검색 인덱스 생성 – GroupDocs.Search Java +type: docs +url: /ko/java/ocr-image-search/groupdocs-search-java-character-recognition/ +weight: 1 +--- + +# 문자 인식을 활용한 맞춤 검색 인덱스 생성 (GroupDocs.Search for Java 사용) + +현대의 문서‑중심 애플리케이션에서는 **맞춤 검색 인덱스 생성**이 텍스트의 하이픈, 언더스코어, 언어‑특정 기호와 같은 미묘한 차이를 이해하도록 하는 데 필수적이며, 이를 통해 빠르고 정확한 검색이 가능합니다. 이 튜토리얼에서는 **GroupDocs.Search for Java**에서 문자 인식을 구성하는 방법을 단계별로 안내합니다. 일반 문자(알파벳, 숫자, 언더스코어)와 혼합 문자(예: 하이픈)를 모두 다루며, 최종적으로 OCR 또는 이미지‑검색 시나리오에 맞는 인덱스를 만들 수 있게 됩니다. + +## 빠른 답변 +- **“맞춤 검색 인덱스 생성”은 무엇을 의미하나요?** 특정 기호를 문자 또는 혼합 문자로 취급하도록 인덱스를 구성하는 것을 의미합니다. +- **어떤 라이브러리를 사용하나요?** GroupDocs.Search for Java (작성 시점 v25.4). +- **라이선스가 필요합니까?** 개발 단계에서는 무료 체험판으로 충분하며, 운영 환경에서는 유료 라이선스가 필요합니다. +- **PDF와 이미지 모두 인덱싱할 수 있나요?** 예—GroupDocs.Search는 적절히 구성하면 이미지와 PDF에 대한 OCR을 지원합니다. +- **Maven이 필수인가요?** Maven이 권장되는 의존성 관리 방법이지만, Gradle 또는 수동 JAR 사용도 가능합니다. + +## 맞춤 검색 인덱스란? +맞춤 검색 인덱스를 사용하면 검색 엔진이 문자를 해석하는 방식을 정의할 수 있습니다. 기본적으로 많은 기호가 무시되는데, 이는 `ABC-123` 같은 사건 번호나 `my_variable` 같은 코드 스니펫을 놓치게 만들 수 있습니다. 알파벳 사전을 조정하면 엔진이 검색 가능한 텍스트로 취급하는 내용을 완전히 제어할 수 있습니다. + +## 일반 문자와 혼합 문자를 구성해야 하는 이유 +- **일반 문자**(알파벳, 숫자, 언더스코어)는 독립 토큰으로 처리되어 정확한 일치 검색이 향상됩니다. +- **혼합 문자**(하이픈, 슬래시 등)는 단어를 연결합니다. 이를 구성하면 원하지 않는 토큰 분할을 방지할 수 있어, 법률 문서, 제품 코드, 소스 코드 인덱싱에 필수적입니다. + +## 사전 요구 사항 +- **JDK 8** 이상이 설치되어 있어야 합니다. +- **Maven**을 사용한 의존성 관리가 필요합니다. +- **GroupDocs.Search for Java** 라이브러리에 접근할 수 있어야 합니다( Maven 또는 공식 사이트를 통해 다운로드). + +### 필수 라이브러리 및 의존성 +아래와 같이 `pom.xml`에 저장소와 의존성을 추가합니다. XML 블록은 그대로 유지되어야 합니다. + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +또한 최신 JAR 파일은 [GroupDocs.Search for Java releases](https://releases.groupdocs.com/search/java/)에서 다운로드할 수 있습니다. + +### 라이선스 획득 +- **무료 체험** – 초기 실험에 적합합니다. +- **임시 라이선스** – 장기 개발 주기에 유용합니다. +- **프로덕션 라이선스** – 상용 배포에 필요합니다. + +공식 포털에서 라이선스를 받으세요: [GroupDocs](https://purchase.groupdocs.com/temporary-license/). + +### 기본 초기화 +아래 스니펫은 빈 인덱스를 시작하기 위한 최소 코드입니다. 그대로 유지하고, 이후 단계에서 확장합니다. + +```java +import com.groupdocs.search.*; + +public class GroupDocsSearchSetup { + public static void main(String[] args) { + String indexFolder = "YOUR_OUTPUT_DIRECTORY"; + String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; + + Index index = new Index(indexFolder); + + System.out.println("GroupDocs.Search setup completed!"); + } +} +``` + +## GroupDocs.Search for Java 설정 + +### Maven을 통한 설치 +*사전 요구 사항* 섹션에 소개된 Maven 설정만 있으면 됩니다. 추가 후 `mvn clean install`을 실행하여 바이너리를 가져옵니다. + +### 환경 설정 요구 사항 +- **인덱스 폴더**와 **문서 폴더**가 디스크에 존재하는지 확인합니다. +- 절대 경로를 사용하거나 IDE가 상대 경로를 올바르게 해석하도록 구성합니다. + +## 구현 가이드 + +아래에서는 **일반 문자**와 **혼합 문자** 두 가지 기능을 각각 살펴봅니다. 각 기능은 동일한 흐름을 따릅니다—경로 정의, 인덱스 생성, 문자 사전 설정, 마지막으로 문서 인덱싱. + +### 기능 1 – 일반 문자 + +#### 개요 +일반 문자는 독립 토큰으로 취급됩니다. 이는 숫자, 알파벳, 언더스코어를 그대로 검색 가능하게 하고자 할 때 이상적입니다. + +#### 단계별 구현 + +**1️⃣ 경로 설정** +인덱스가 저장될 위치와 원본 문서가 위치한 폴더를 정의합니다. + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ 인덱스 생성 및 구성** +인덱스를 인스턴스화하고 기존 알파벳 구성을 모두 초기화합니다. + +```java +Index index = new Index(indexFolder); +index.getDictionaries().getAlphabet().clear(); +``` + +**3️⃣ 일반 문자 정의** +숫자, 라틴 알파벳, 언더스코어를 포함하는 문자 배열을 만듭니다. + +```java +StringBuilder sb = new StringBuilder(); +for (char i = 0x0030; i <= 0x0039; i++) { // Digits + sb.append(i); +} +for (char i = 0x0041; i <= 0x005A; i++) { // Latin capital letters + sb.append(i); +} +sb.append(0x005F); // Underscore +for (char i = 0x0061; i <= 0x007A; i++) { // Latin small letters + sb.append(i); +} + +// Convert to character array and set as alphabet range +char[] characters = new char[sb.length()]; +sb.getChars(0, sb.length(), characters, 0); +index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); +``` + +**4️⃣ 문서 인덱싱** +소스 폴더의 모든 파일을 새로 구성한 인덱스에 추가합니다. + +```java +index.add(documentFolder); +``` + +### 기능 2 – 혼합 문자 + +#### 개요 +혼합 문자(예: 하이픈)는 두 단어를 연결합니다. 이를 *혼합*으로 지정하면 인덱싱 시 주변 토큰이 함께 유지됩니다. + +#### 단계별 구현 + +**1️⃣ 경로 설정** + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ 인덱스 생성 및 구성** + +```java +Index index = new Index(indexFolder); +``` + +**3️⃣ 혼합 문자 정의** +여기서는 하이픈을 혼합 문자로 처리하도록 사전에 지정합니다. + +```java +index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); +``` + +**4️⃣ 문서 인덱싱** + +```java +index.add(documentFolder); +``` + +## 실용적인 적용 사례 + +### 사용 사례 1 – 법률 문서 관리 +법률 파일에는 `2023-AB-456`와 같은 사건 번호가 자주 등장합니다. 언더스코어와 하이픈을 구성하면 식별자를 분할하지 않고 정확히 매치할 수 있습니다. + +### 사용 사례 2 – 소스 코드 저장소 +개발자는 `my_variable`(언더스코어)와 `my-function`(하이픈) 같은 기호가 의미 있는 코드 스니펫을 검색해야 합니다. 맞춤 문자 인식으로 검색 엔진이 이러한 기호를 올바르게 처리하도록 합니다. + +### 사용 사례 3 – 다국어 데이터셋 +추가 알파벳이 필요한 언어를 다룰 때, 정규 문자 집합에 해당 Unicode 범위를 확장하면 교차 언어 검색 결과의 정확성을 보장할 수 있습니다. + +## 성능 고려 사항 + +- **리소스 관리** – 힙 사용량을 모니터링하세요; 대형 인덱스는 증분 커밋이 유리합니다. +- **가비지 컬렉션** – 작업이 끝난 `Index` 객체를 해제하여 JVM이 메모리를 회수하도록 합니다. +- **인덱스 최적화** – 가능하면 `index.optimize()`(존재하는 경우)를 주기적으로 호출해 인덱스를 압축하고 조회 속도를 높입니다. + +## 결론 + +이제 **GroupDocs.Search for Java**를 사용해 일반 문자와 혼합 문자를 구분하는 **맞춤 검색 인덱스**를 만드는 방법을 알게 되었습니다. 이 세밀한 제어를 통해 법률, 개발, 다국어 환경에 최적화된 OCR‑인식 고성능 검색 솔루션을 구축할 수 있습니다. + +**다음 단계** +- 비라틴 알파벳을 위한 추가 Unicode 범위를 실험해 보세요. +- 문자 구성을 스테밍이나 동의어와 같은 다른 GroupDocs.Search 기능과 결합하세요. +- 인덱스를 REST API에 통합해 프런트‑엔드 애플리케이션에 검색 기능을 제공하세요. + +## 자주 묻는 질문 + +**Q:** *`CharacterType.Letter`의 목적은 무엇인가요?* +**A:** 제공된 문자를 일반 문자로 취급하도록 인덱스에 알려 주어, 인덱싱 시 별도 토큰으로 분리됩니다. + +**Q:** *같은 인덱스에 일반 문자와 혼합 문자를 동시에 사용할 수 있나요?* +**A:** 예—각 타입에 대해 `setRange`를 호출하면 사전이 두 구성을 동시에 처리합니다. + +**Q:** *알파벳을 변경한 후 인덱스를 재구성해야 하나요?* +**A:** 반드시 그렇습니다. 문자 사전 변경은 토큰화에 영향을 미치므로, 새로운 규칙을 적용하려면 문서를 다시 인덱싱해야 합니다. + +**Q:** *정의할 수 있는 맞춤 문자 수에 제한이 있나요?* +**A:** 라이브러리는 전체 Unicode 범위를 지원합니다. 그러나 지나치게 많은 문자를 추가하면 성능이 저하될 수 있으니 실제 필요한 문자만 정의하세요. + +**Q:** *이 설정이 OCR 정확도에 어떤 영향을 미치나요?* +**A:** 인덱스의 문자 집합을 OCR 엔진 출력과 일치시키면 false negative를 줄이고 전체 검색 관련성을 향상시킵니다. + +--- + +**최종 업데이트:** 2026-01-11 +**테스트 환경:** GroupDocs.Search 25.4 for Java +**작성자:** GroupDocs \ No newline at end of file diff --git a/content/korean/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/korean/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md new file mode 100644 index 00000000..d25288c6 --- /dev/null +++ b/content/korean/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -0,0 +1,184 @@ +--- +date: '2026-01-11' +description: GroupDocs for Java OCR 인덱싱을 Aspose.OCR와 함께 사용하는 방법을 배우고, PDF, 이미지 및 스캔 + 파일 전반에 걸친 강력한 문서 검색 기능을 구현하세요. +keywords: +- Java OCR indexing +- document searchability +- OCR with GroupDocs +title: Aspose와 함께 GroupDocs for Java OCR 인덱싱을 사용하는 방법 +type: docs +url: /ko/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/ +weight: 1 +--- + +# GroupDocs를 Java OCR 인덱싱에 Aspose와 함께 사용하는 방법 + +이 가이드에서는 **GroupDocs 사용 방법**을 알아보고 Java 애플리케이션에 OCR‑기반 검색을 추가하는 방법을 배웁니다. GroupDocs.Search와 Aspose.OCR를 결합하면 이미지 기반 콘텐츠를 검색 가능한 텍스트로 변환하여 문서 관리 시스템을 훨씬 더 유용하게 만들 수 있습니다. 설정, 인덱싱, 검색 및 맞춤 OCR 통합 과정을 단계별 예제와 함께 안내합니다. + +## 빠른 답변 +- **OCR 인덱싱을 제공하는 라이브러리는?** GroupDocs.Search와 Aspose.OCR를 결합한 것입니다. +- **필요한 Java 버전은?** JDK 8 이상. +- **라이선스가 필요합니까?** 무료 체험을 사용할 수 있으며, 프로덕션에서는 유료 라이선스가 필요합니다. +- **별도 이미지와 포함된 이미지를 모두 인덱싱할 수 있나요?** 예, `IndexingOptions`에서 두 옵션을 모두 활성화하십시오. +- **멀티스레딩을 지원합니까?** 예, 대용량 데이터 세트에 대해 인덱싱을 병렬 처리할 수 있습니다. + +## GroupDocs와 함께하는 OCR 인덱싱이란? +OCR 인덱싱은 이미지(스캔된 PDF 포함)에서 텍스트를 추출하여 검색 가능한 인덱스에 저장합니다. GroupDocs.Search는 인덱싱 및 쿼리 실행을 담당하고, Aspose.OCR는 실제 문자 인식을 수행합니다. + +## Java OCR 인덱싱에 GroupDocs를 사용하는 이유 +- **높은 정확도** – Aspose의 고급 OCR 엔진 덕분입니다. +- **원활한 Java 통합** – Maven 또는 직접 JAR을 통해 가능합니다. +- **유연한 구성** – 별도 이미지와 포함된 이미지 모두 지원합니다. +- **확장 가능한 성능** – 멀티스레딩 및 메모리 최적화 기능을 제공합니다. + +## 사전 요구 사항 +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR** (최신 버전) +- JDK 8 이상 및 IDE (IntelliJ, Eclipse, NetBeans) +- 기본 Java 지식; Maven은 도움이 되지만 필수는 아닙니다 + +## Java용 GroupDocs.Search 설정 +### Maven 사용 +Add the repository and dependency to your `pom.xml`: + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +### 직접 다운로드 +또는 [GroupDocs releases](https://releases.groupdocs.com/search/java/)에서 최신 버전의 GroupDocs.Search for Java를 다운로드하십시오. + +### 라이선스 획득 +- **무료 체험** – 비용 없이 모든 기능을 탐색할 수 있습니다. +- **임시 라이선스** – 테스트 기간을 연장합니다. +- **구매** – 프로덕션 배포에 필요합니다. + +### 기본 초기화 및 설정 +Create an index folder and initialize the `Index` object: + +```java +import com.groupdocs.search.Index; +// Specify the directory where the index will be stored. +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +// Create an instance of Index class at the specified location. +Index index = new Index(indexFolder); +``` + +## OCR 인덱싱에 GroupDocs 사용 방법 +### 인덱스 생성 +First, set up the folder that will hold the index files: + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +Index index = new Index(indexFolder); +``` + +### OCR 인덱싱 옵션 설정 +Enable OCR for both separate and embedded images, and plug in a custom OCR connector: + +```java +import com.groupdocs.search.options.IndexingOptions; +IndexingOptions options = new IndexingOptions(); +options.getOcrIndexingOptions().setEnabledForSeparateImages(true); +options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); +// Set a custom OCR connector. +options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); +``` + +### 문서 인덱싱 +Add your source documents (PDFs, Word files, images, etc.) to the index: + +```java +String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; +index.add(documentsFolder, options); +``` + +### 인덱스 검색 +Run a search query against the indexed content: + +```java +import com.groupdocs.search.results.SearchResult; +String query = "water"; +SearchResult result = index.search(query); +``` + +### OCR 커넥터 구현 +Use Aspose.OCR to recognize text from images. Implement the `IOcrConnector` interface as shown: + +```java +import com.groupdocs.search.options.IOcrConnector; +import com.groupdocs.search.options.OcrContext; +import java.awt.image.BufferedImage; +import javax.imageio.ImageIO; +import com.aspose.ocr.AsposeOCR; + +public class OcrConnector implements IOcrConnector { + @Override + public final String recognize(OcrContext context) { + if (null == context.getImageLocation()) { + throw new RuntimeException("The image type is not supported: " + context.getImageLocation()); + } + + BufferedImage image = ImageIO.read(context.getImageLocation().toFile()); + AsposeOCR api = new AsposeOCR(); + String text = api.RecognizePage(image); + return text; + } +} +``` + +## 실용적인 적용 사례 +1. **문서 관리 시스템** – 스캔된 이미지가 포함된 문서를 빠르게 검색합니다. +2. **아카이브 검색** – 방대한 아카이브 내에서 역사적 기록을 찾아냅니다. +3. **법률 문서 분석** – 스캔된 서명이나 도면이 포함된 계약서 및 증거를 검색합니다. +4. **의료 기록 검색** – 환자 양식, 검사 결과, X‑ray 주석 등을 인덱싱합니다. + +## 성능 고려 사항 +- **인덱스 크기** – 불필요한 메타데이터를 제외하여 인덱스를 가볍게 유지합니다. +- **멀티스레딩** – 대용량 배치를 병렬 처리하여 인덱싱 속도를 높입니다. +- **메모리 관리** – 고해상도 이미지를 처리할 때 JVM 힙을 모니터링합니다. + +## 일반적인 문제와 해결책 +- **라이선스 오류** – 올바른 라이선스 파일이 애플리케이션 작업 디렉터리에 배치되어 있는지 확인하십시오. +- **이미지 누락** – 이미지 경로가 접근 가능하고 지원되는 형식(PNG, JPEG, BMP)인지 확인하십시오. +- **메모리 부족** – JVM 힙(`-Xmx`)을 늘리거나 문서를 더 작은 배치로 처리하십시오. + +## 자주 묻는 질문 +**Q: GroupDocs.Search의 라이선스 문제를 어떻게 해결하나요?** +A: 전체 기능을 사용하려면 [GroupDocs 웹사이트](https://purchase.groupdocs.com/temporary-license/)에서 임시 라이선스를 받으십시오. + +**Q: 대용량 문서 인덱싱을 처리하는 최선의 방법은 무엇인가요?** +A: 멀티스레딩 및 배치 처리를 활용하여 성능을 향상하고 메모리 부담을 줄이십시오. + +**Q: GroupDocs.Search에서 OCR 설정을 더 세부적으로 맞춤화할 수 있나요?** +A: 예, `IndexingOptions`를 사용하면 언어 선택 및 이미지 전처리와 같은 OCR 동작을 세밀하게 조정할 수 있습니다. + +**Q: GroupDocs.Search를 사용할 때 흔히 발생하는 문제 해결 팁은 무엇인가요?** +A: 디렉터리 경로를 다시 확인하고, 모든 종속성이 존재하는지 검증하며, 누락된 파일에 대한 로그 출력을 검토하십시오. + +**Q: 기존 Java 애플리케이션에 Aspose.OCR를 어떻게 통합할 수 있나요?** +A: 위에서 보여준 대로 `IOcrConnector` 인터페이스를 구현하고 이미지 입력을 올바르게 처리하십시오. + +## 리소스 +- [GroupDocs.Search 문서](https://docs.groupdocs.com/search/java/) +- [API 레퍼런스](https://reference.groupdocs.com/search/java/) + +--- + +**마지막 업데이트:** 2026-01-11 +**테스트 환경:** GroupDocs.Search 25.4, Aspose.OCR 최신 릴리스 +**작성자:** GroupDocs \ No newline at end of file diff --git a/content/polish/java/ocr-image-search/_index.md b/content/polish/java/ocr-image-search/_index.md new file mode 100644 index 00000000..762ccbf7 --- /dev/null +++ b/content/polish/java/ocr-image-search/_index.md @@ -0,0 +1,99 @@ +--- +date: 2026-01-11 +description: Krok po kroku poradniki dotyczące implementacji OCR, wyodrębniania tekstu + z obrazów w Javie oraz wyszukiwania obrazów odwrotnych w Javie przy użyciu GroupDocs.Search. +title: Wyszukiwanie obrazem w Java – Samouczki OCR GroupDocs.Search +type: docs +url: /pl/java/ocr-image-search/ +weight: 7 +--- + +# Wyszukiwanie odwrotne obrazów Java – Samouczki OCR GroupDocs.Search + +W tym przewodniku przeprowadzimy Cię przez wszystko, co musisz wiedzieć, aby zbudować rozwiązania **reverse image search java** z GroupDocs.Search. Niezależnie od tego, czy dodajesz wyszukiwanie wizualne do portalu bogatego w treść, czy potrzebujesz wyciągnąć tekst możliwy do przeszukania ze skanowanych zasobów, pokażemy Ci, jak skonfigurować OCR, **extract text from images Java**, i wykonać odwrócone wyszukiwanie obrazów — wszystko z jasnymi, gotowymi do produkcji przykładami. + +## Szybkie odpowiedzi +- **Co robi reverse image search Java?** Znajduje wizualnie podobne obrazy w zindeksowanej kolekcji przy użyciu GroupDocs.Search. +- **Który silnik OCR jest zalecany?** GroupDocs.Search integruje się z Aspose.OCR w celu uzyskania wysokiej dokładności wyodrębniania tekstu. +- **Czy potrzebna jest licencja?** Tymczasowa licencja działa w trybie testowym; pełna licencja jest wymagana w środowisku produkcyjnym. +- **Jakie są główne wymagania wstępne?** Java 8+, GroupDocs.Search for Java oraz opcjonalnie Aspose.OCR. +- **Jak długo trwa implementacja?** Podstawowa konfiguracja może zostać zakończona w mniej niż godzinę. + +## Co to jest Reverse Image Search Java? +Reverse image search Java pozwala znaleźć obrazy, które wyglądają podobnie lub zawierają tę samą treść wizualną. Zamiast wyszukiwać po słowach kluczowych, silnik analizuje cechy obrazu, indeksuje je i zwraca dopasowania po przesłaniu obrazu zapytania. + +## Dlaczego używać GroupDocs.Search do zadań związanych z obrazami i OCR? +- **Unified API** – Zarządzaj indeksowaniem tekstu i obrazów za pomocą jednej biblioteki. +- **High performance** – Optymalizowane pod kątem dużych kolekcji i szybkich czasów wyszukiwania. +- **Extensible** – Dodaj własne silniki OCR lub ekstraktory cech obrazu w razie potrzeby. +- **Cross‑platform** – Działa w każdym środowisku kompatybilnym z Javą, od komputerów stacjonarnych po chmurę. + +## Wymagania wstępne +- Zainstalowana Java 8 lub nowsza. +- Biblioteka GroupDocs.Search for Java dodana do projektu (Maven/Gradle). +- (Opcjonalnie) Aspose.OCR for Java, jeśli potrzebujesz najwyższej dokładności OCR. +- Zestaw obrazów, które chcesz indeksować i przeszukiwać. + +## Przewodnik krok po kroku + +### Krok 1: Konfiguracja indeksu wyszukiwania +Utwórz nową instancję `SearchIndex`, wskazującą folder, w którym będą przechowywane pliki indeksu. Ten folder będzie zawierał zarówno metadane tekstu, jak i obrazu. + +### Krok 2: Konfiguracja OCR dla plików obrazów +Włącz OCR w opcjach indeksowania, aby każdy obraz dodany do indeksu był przetwarzany pod kątem wyodrębniania tekstu. To właśnie tutaj w grę wchodzi drugorzędne słowo kluczowe **extract text from images java**. + +### Krok 3: Indeksowanie obrazów +Dodaj każdy plik obrazu do indeksu. Podczas tej operacji GroupDocs.Search wyodrębnia cechy wizualne do wyszukiwania odwrotnego i uruchamia OCR, aby pobrać wszelki osadzony tekst. + +### Krok 4: Wykonanie odwróconego wyszukiwania obrazu +Przekaż obraz zapytania do metody `search`. Silnik porównuje odciski wizualne i zwraca posortowaną listę podobnych obrazów z indeksu. + +### Krok 5: Pobranie tekstu OCR (jeśli potrzebny) +Jeśli potrzebujesz również treści tekstowej znalezionej w obrazach, zapytaj indeks o tekst wyodrębniony przez OCR, używając standardowego wyszukiwania słów kluczowych. + +## Typowe problemy i rozwiązania +- **Brak wyników:** Sprawdź, czy ekstraktor cech obrazu jest włączony oraz czy indeks został przebudowany po dodaniu nowych obrazów. +- **Brak tekstu OCR:** Upewnij się, że silnik OCR jest prawidłowo odwołany w zależnościach projektu i że format obrazu jest obsługiwany (np. PNG, JPEG, TIFF). +- **Spowolnienie wydajności:** Rozważ podzielenie dużych kolekcji obrazów na wiele indeksów lub użycie indeksowania przyrostowego, aby utrzymać krótkie czasy wyszukiwania. + +## Najczęściej zadawane pytania + +**Q: Czy mogę używać reverse image search Java na platformach chmurowych?** +A: Tak, biblioteka jest niezależna od platformy i działa w każdym środowisku obsługującym Javę, w tym AWS, Azure i Google Cloud. + +**Q: Jak dokładna jest ekstrakcja OCR dla różnych języków?** +A: Aspose.OCR obsługuje ponad 60 języków; możesz określić język w opcjach OCR, aby uzyskać lepszą dokładność. + +**Q: Czy można połączyć wyszukiwanie słów kluczowych z podobieństwem obrazów?** +A: Oczywiście. Najpierw możesz przefiltrować wyniki zapytaniem słów kluczowych, a następnie ocenić pozostałe elementy pod kątem podobieństwa wizualnego. + +**Q: Jakie formaty plików są obsługiwane przy indeksowaniu obrazów?** +A: Powszechne formaty, takie jak JPEG, PNG, BMP i TIFF, są w pełni obsługiwane od razu. + +**Q: Jak zaktualizować indeks, gdy obrazy ulegną zmianie?** +A: Użyj metody `update`, aby ponownie przetworzyć zmodyfikowane obrazy, lub usuń i ponownie dodaj je, aby utrzymać indeks aktualnym. + +## Dodatkowe zasoby + +### Dostępne samouczki + +#### [Konfigurowanie rozpoznawania znaków w GroupDocs.Search for Java: Przewodnik po OCR i wyszukiwaniu obrazów](./groupdocs-search-java-character-recognition/) +Dowiedz się, jak skonfigurować rozpoznawanie znaków przy użyciu GroupDocs.Search for Java, koncentrując się na znakach regularnych i mieszanych. Ulepsz zarządzanie dokumentami dzięki zaawansowanym możliwościom wyszukiwania. + +#### [Przewodnik po indeksowaniu OCR w Javie z Aspose i GroupDocs: Zwiększ możliwości wyszukiwania dokumentów](./java-ocr-indexing-aspose-groupdocs-search/) +Naucz się wdrażać wydajne indeksowanie OCR w Javie przy użyciu GroupDocs.Search i Aspose.OCR, aby zwiększyć możliwości wyszukiwania dokumentów. + +### Przydatne linki + +- [Dokumentacja GroupDocs.Search for Java](https://docs.groupdocs.com/search/java/) +- [Referencja API GroupDocs.Search for Java](https://reference.groupdocs.com/search/java/) +- [Pobierz GroupDocs.Search for Java](https://releases.groupdocs.com/search/java/) +- [Forum GroupDocs.Search](https://forum.groupdocs.com/c/search) +- [Bezpłatne wsparcie](https://forum.groupdocs.com/) +- [Licencja tymczasowa](https://purchase.groupdocs.com/temporary-license/) + +--- + +**Ostatnia aktualizacja:** 2026-01-11 +**Testowano z:** GroupDocs.Search for Java 23.11 +**Autor:** GroupDocs \ No newline at end of file diff --git a/content/polish/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/polish/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md new file mode 100644 index 00000000..bc0b4cd6 --- /dev/null +++ b/content/polish/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -0,0 +1,235 @@ +--- +date: '2026-01-11' +description: Dowiedz się, jak utworzyć niestandardowy indeks wyszukiwania przy użyciu + GroupDocs.Search dla Javy, konfigurując zwykłe i mieszane znaki dla zaawansowanego + OCR i wyszukiwania obrazów. +keywords: +- GroupDocs.Search Java +- Java OCR character recognition +- search library Java +title: Utwórz niestandardowy indeks wyszukiwania z rozpoznawaniem znaków – GroupDocs.Search + Java +type: docs +url: /pl/java/ocr-image-search/groupdocs-search-java-character-recognition/ +weight: 1 +--- + +# Tworzenie niestandardowego indeksu wyszukiwania z rozpoznawaniem znaków przy użyciu GroupDocs.Search for Java + +W nowoczesnych aplikacjach intensywnie pracujących z dokumentami, **tworzenie niestandardowego indeksu wyszukiwania**, który rozumie niuanse Twojego tekstu — takie jak myślniki, podkreślenia czy symbole specyficzne dla języka — jest niezbędne dla szybkiego i dokładnego wyszukiwania. Ten samouczek przeprowadzi Cię przez konfigurowanie rozpoznawania znaków w **GroupDocs.Search for Java**, obejmując zarówno zwykłe znaki (litery, cyfry, podkreślenia), jak i znaki mieszane (np. myślniki). Po zakończeniu będziesz mógł dostosować indeks do dokładnych potrzeb scenariusza OCR lub wyszukiwania obrazów. + +## Szybkie odpowiedzi +- **Co oznacza „create custom search index”?** Oznacza to konfigurowanie indeksu tak, aby traktował określone symbole jako litery lub znaki mieszane, zamiast je ignorować. +- **Jakiej biblioteki użyto?** GroupDocs.Search for Java (v25.4 w momencie pisania). +- **Czy potrzebna jest licencja?** Bezpłatna wersja próbna działa w fazie rozwoju; płatna licencja jest wymagana w środowisku produkcyjnym. +- **Czy mogę indeksować zarówno pliki PDF, jak i obrazy?** Tak — GroupDocs.Search obsługuje OCR na obrazach i plikach PDF po odpowiedniej konfiguracji. +- **Czy Maven jest wymagany?** Maven jest zalecanym sposobem zarządzania zależnościami, ale można również używać Gradle lub ręcznych plików JAR. + +## Czym jest niestandardowy indeks wyszukiwania? +Niestandardowy indeks wyszukiwania pozwala określić, jak silnik wyszukiwania interpretuje znaki. Domyślnie wiele symboli jest ignorowanych, co może prowadzić do pominięcia dopasowań, np. numerów spraw (`ABC-123`) lub fragmentów kodu (`my_variable`). Dostosowanie słownika alfabetu daje pełną kontrolę nad tym, co silnik traktuje jako tekst podlegający wyszukiwaniu. + +## Dlaczego konfigurować znaki zwykłe i mieszane? +- **Znaki zwykłe** (litery, cyfry, podkreślenia) są traktowane jako odrębne tokeny, co poprawia wyszukiwania dokładnych dopasowań. +- **Znaki mieszane** (myślniki, ukośniki) łączą słowa; ich konfiguracja zapobiega niepożądanemu dzieleniu tokenów, co jest kluczowe dla odniesień prawnych, kodów produktów lub indeksowania kodu źródłowego. + +## Wymagania wstępne +- **JDK 8** lub nowszy zainstalowany. +- **Maven** do zarządzania zależnościami. +- Dostęp do biblioteki **GroupDocs.Search for Java** (pobranej przez Maven lub ze strony oficjalnej). + +### Wymagane biblioteki i zależności +Dodaj wpisy repozytorium i zależności do pliku `pom.xml` (jak pokazano poniżej). Blok XML musi pozostać niezmieniony. + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +Możesz także pobrać najnowsze pliki JAR z [Wydania GroupDocs.Search for Java](https://releases.groupdocs.com/search/java/). + +### Uzyskanie licencji +- **Bezpłatna wersja próbna** – idealna do wczesnych eksperymentów. +- **Licencja tymczasowa** – przydatna przy dłuższych cyklach rozwoju. +- **Licencja produkcyjna** – wymagana przy wdrożeniu komercyjnym. + +Uzyskaj licencję z oficjalnego portalu: [GroupDocs](https://purchase.groupdocs.com/temporary-license/). + +### Podstawowa inicjalizacja +Poniższy fragment kodu pokazuje minimalny kod potrzebny do uruchomienia pustego indeksu. Zachowaj go w niezmienionej formie; później rozbudujemy go. + +```java +import com.groupdocs.search.*; + +public class GroupDocsSearchSetup { + public static void main(String[] args) { + String indexFolder = "YOUR_OUTPUT_DIRECTORY"; + String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; + + Index index = new Index(indexFolder); + + System.out.println("GroupDocs.Search setup completed!"); + } +} +``` + +## Konfiguracja GroupDocs.Search for Java + +### Instalacja za pomocą Maven +Konfiguracja Maven z sekcji *Wymagania wstępne* to wszystko, czego potrzebujesz. Po jej dodaniu uruchom `mvn clean install`, aby pobrać pliki binarne. + +### Wymagania dotyczące konfiguracji środowiska +- Upewnij się, że **folder indeksu** i **folder dokumentów** istnieją na dysku. +- Używaj ścieżek bezwzględnych lub skonfiguruj IDE tak, aby poprawnie rozwiązywało ścieżki względne. + +## Przewodnik implementacji + +Poniżej przeprowadzimy Cię przez dwie odrębne funkcje: **znaki zwykłe** i **znaki mieszane**. Każda funkcja podąża za tym samym schematem — definiowanie ścieżek, tworzenie indeksu, ustawienie słownika znaków i w końcu indeksowanie dokumentów. + +### Funkcja 1 – Znaki zwykłe + +#### Przegląd +Znaki zwykłe są traktowane jako niezależne tokeny. Jest to idealne, gdy chcesz, aby cyfry, litery i podkreślenia były wyszukiwalne dokładnie tak, jak się pojawiają. + +#### Implementacja krok po kroku + +**1️⃣ Ustawienie ścieżek** +Określ, gdzie będzie przechowywany indeks oraz gdzie znajdują się źródłowe dokumenty. + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Utworzenie i konfiguracja indeksu** +Zainicjuj indeks i wyczyść wszelką istniejącą wcześniej konfigurację alfabetu. + +```java +Index index = new Index(indexFolder); +index.getDictionaries().getAlphabet().clear(); +``` + +**3️⃣ Definicja znaków zwykłych** +Utwórz tablicę znaków, która zawiera cyfry, litery łacińskie oraz podkreślenie. + +```java +StringBuilder sb = new StringBuilder(); +for (char i = 0x0030; i <= 0x0039; i++) { // Digits + sb.append(i); +} +for (char i = 0x0041; i <= 0x005A; i++) { // Latin capital letters + sb.append(i); +} +sb.append(0x005F); // Underscore +for (char i = 0x0061; i <= 0x007A; i++) { // Latin small letters + sb.append(i); +} + +// Convert to character array and set as alphabet range +char[] characters = new char[sb.length()]; +sb.getChars(0, sb.length(), characters, 0); +index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); +``` + +**4️⃣ Indeksowanie dokumentów** +Dodaj wszystkie pliki z folderu źródłowego do nowo skonfigurowanego indeksu. + +```java +index.add(documentFolder); +``` + +### Funkcja 2 – Znaki mieszane + +#### Przegląd +Znaki mieszane (np. myślniki) często łączą dwa słowa. Oznaczenie ich jako *mieszane* informuje silnik, aby podczas indeksowania utrzymał otaczające tokeny razem. + +#### Implementacja krok po kroku + +**1️⃣ Ustawienie ścieżek** + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Utworzenie i konfiguracja indeksu** + +```java +Index index = new Index(indexFolder); +``` + +**3️⃣ Definicja znaków mieszanych** +Tutaj informujemy słownik, że myślnik powinien być traktowany jako znak mieszany. + +```java +index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); +``` + +**4️⃣ Indeksowanie dokumentów** + +```java +index.add(documentFolder); +``` + +## Praktyczne zastosowania + +### Przypadek użycia 1 – Zarządzanie dokumentami prawnymi +Pliki prawne często zawierają numery spraw, np. `2023-AB-456`. Dzięki konfiguracji podkreśleń i myślników, wyszukiwania zwracają dokładne dopasowania bez rozdzielania identyfikatora. + +### Przypadek użycia 2 – Repozytoria kodu źródłowego +Programiści muszą przeszukiwać fragmenty kodu, w których podkreślenia (`my_variable`) i myślniki (`my-function`) mają znaczenie. Niestandardowe rozpoznawanie znaków zapewnia, że silnik wyszukiwania respektuje te symbole. + +### Przypadek użycia 3 – Zbiory danych wielojęzycznych +Pracując z językami używającymi dodatkowych alfabetów, możesz rozszerzyć zestaw znaków zwykłych o te zakresy Unicode, co zapewnia dokładne wyniki wyszukiwania międzyjęzykowego. + +## Rozważania dotyczące wydajności + +- **Zarządzanie zasobami** – Monitoruj zużycie pamięci heap; duże indeksy korzystają z przyrostowych commitów. +- **Garbage Collection** – Zwolnij obiekty `Index` po zakończeniu, aby JVM mogło odzyskać pamięć. +- **Optymalizacja indeksu** – Okresowo wywołuj `index.optimize()` (jeśli dostępne), aby skompaktować indeks i zwiększyć szybkość zapytań. + +## Zakończenie + +Teraz wiesz, jak **tworzyć niestandardowy indeks wyszukiwania**, który rozróżnia znaki zwykłe i mieszane przy użyciu GroupDocs.Search for Java. Ta precyzyjna kontrola umożliwia budowanie rozwiązań wyszukiwania z uwzględnieniem OCR, o wysokiej wydajności, dostosowanych do środowisk prawnych, deweloperskich lub wielojęzycznych. + +**Kolejne kroki** +- Eksperymentuj z dodatkowymi zakresami Unicode dla alfabetów niełacińskich. +- Połącz konfigurację znaków z innymi funkcjami GroupDocs.Search, takimi jak stemming czy synonimy. +- Zintegruj indeks z API REST, aby udostępnić możliwości wyszukiwania aplikacjom front‑end. + +## Najczęściej zadawane pytania + +**P:** *Jaki jest cel `CharacterType.Letter`?* +**O:** Informuje indeks, aby traktował podane znaki jako zwykłe litery, dzięki czemu są tokenizowane osobno podczas indeksowania. + +**P:** *Czy mogę mieszać znaki zwykłe i mieszane w tym samym indeksie?* +**O:** Tak — po prostu wywołaj `setRange` dla każdego typu; słownik obsłuży obie konfiguracje jednocześnie. + +**P:** *Czy muszę przebudować indeks po zmianie alfabetu?* +**O:** Zdecydowanie tak. Zmiany w słowniku znaków wpływają na tokenizację, więc musisz ponownie zindeksować dokumenty, aby zastosować nowe reguły. + +**P:** *Czy istnieje limit liczby niestandardowych znaków, które mogę zdefiniować?* +**O:** Biblioteka obsługuje pełny zakres Unicode; wydajność może spaść, jeśli dodasz bardzo dużą liczbę znaków, więc ogranicz je do rzeczywiście potrzebnych. + +**P:** *Jak to wpływa na dokładność OCR?* +**O:** Dopasowując zestaw znaków indeksu do wyjścia silnika OCR, zmniejszasz liczbę fałszywych negatywów i poprawiasz ogólną trafność wyników wyszukiwania. + +--- + +**Ostatnia aktualizacja:** 2026-01-11 +**Testowano z:** GroupDocs.Search 25.4 for Java +**Autor:** GroupDocs + +--- \ No newline at end of file diff --git a/content/polish/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/polish/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md new file mode 100644 index 00000000..374ae46f --- /dev/null +++ b/content/polish/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -0,0 +1,185 @@ +--- +date: '2026-01-11' +description: Dowiedz się, jak używać GroupDocs for Java OCR do indeksowania z Aspose.OCR, + umożliwiając potężne możliwości wyszukiwania dokumentów w plikach PDF, obrazach + i zeskanowanych dokumentach. +keywords: +- Java OCR indexing +- document searchability +- OCR with GroupDocs +title: Jak używać GroupDocs for Java do indeksowania OCR z Aspose +type: docs +url: /pl/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/ +weight: 1 +--- + +# Jak używać GroupDocs do indeksowania OCR w Javie z Aspose + +W tym przewodniku dowiesz się **jak używać GroupDocs**, aby dodać wyszukiwanie oparte na OCR do swoich aplikacji Java. Łącząc GroupDocs.Search z Aspose.OCR, możesz przekształcić zawartość opartą na obrazach w tekst przeszukiwalny, co sprawia, że systemy zarządzania dokumentami są znacznie bardziej użyteczne. Przejdziemy przez konfigurację, indeksowanie, wyszukiwanie i własną integrację OCR, wszystko z jasnymi, krok po kroku przykładami. + +## Szybkie odpowiedzi +- **Jaka biblioteka zapewnia indeksowanie OCR?** GroupDocs.Search w połączeniu z Aspose.OCR. +- **Jakiej wersji Java wymaga?** JDK 8 lub wyższa. +- **Czy potrzebna jest licencja?** Dostępna jest bezpłatna wersja próbna; płatna licencja jest wymagana w środowisku produkcyjnym. +- **Czy mogę indeksować zarówno osobne, jak i osadzone obrazy?** Tak, włącz obie opcje w `IndexingOptions`. +- **Czy obsługiwane jest wielowątkowość?** Tak, możesz równolegle indeksować duże zestawy danych. + +## Czym jest indeksowanie OCR w GroupDocs? +Indeksowanie OCR wyodrębnia tekst z obrazów (w tym zeskanowanych plików PDF) i zapisuje go w przeszukiwalnym indeksie. GroupDocs.Search obsługuje indeksowanie i wykonywanie zapytań, natomiast Aspose.OCR wykonuje rzeczywiste rozpoznawanie znaków. + +## Dlaczego używać GroupDocs do indeksowania OCR w Javie? +- **Wysoka dokładność** dzięki zaawansowanemu silnikowi OCR od Aspose. +- **Bezproblemowa integracja z Javą** poprzez Maven lub bezpośrednie pliki JAR. +- **Elastyczna konfiguracja** dla osobnych lub osadzonych obrazów. +- **Skalowalna wydajność** dzięki wielowątkowości i optymalizacji pamięci. + +## Prerequisites +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR** (latest version) +- JDK 8+ and an IDE (IntelliJ, Eclipse, NetBeans) +- Podstawowa znajomość Java; Maven jest pomocny, ale nieobowiązkowy + +## Konfiguracja GroupDocs.Search dla Java +### Using Maven +Dodaj repozytorium i zależność do swojego `pom.xml`: + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +### Direct Download +Alternatywnie, pobierz najnowszą wersję GroupDocs.Search dla Java z [wydania GroupDocs](https://releases.groupdocs.com/search/java/). + +### License Acquisition +- **Bezpłatna wersja próbna** – przetestuj wszystkie funkcje bez kosztów. +- **Licencja tymczasowa** – wydłużony okres testowy. +- **Zakup** – wymagany przy wdrożeniach produkcyjnych. + +### Basic Initialization and Setup +Utwórz folder indeksu i zainicjalizuj obiekt `Index`: + +```java +import com.groupdocs.search.Index; +// Specify the directory where the index will be stored. +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +// Create an instance of Index class at the specified location. +Index index = new Index(indexFolder); +``` + +## Jak używać GroupDocs do indeksowania OCR +### Creating an Index +Najpierw skonfiguruj folder, w którym będą przechowywane pliki indeksu: + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +Index index = new Index(indexFolder); +``` + +### Setting OCR Indexing Options +Włącz OCR zarówno dla osobnych, jak i osadzonych obrazów oraz podłącz własny łącznik OCR: + +```java +import com.groupdocs.search.options.IndexingOptions; +IndexingOptions options = new IndexingOptions(); +options.getOcrIndexingOptions().setEnabledForSeparateImages(true); +options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); +// Set a custom OCR connector. +options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); +``` + +### Indexing Documents +Dodaj swoje dokumenty źródłowe (PDF, pliki Word, obrazy itp.) do indeksu: + +```java +String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; +index.add(documentsFolder, options); +``` + +### Searching in an Index +Uruchom zapytanie wyszukiwania na zindeksowanej zawartości: + +```java +import com.groupdocs.search.results.SearchResult; +String query = "water"; +SearchResult result = index.search(query); +``` + +### Implementing an OCR Connector +Użyj Aspose.OCR do rozpoznawania tekstu z obrazów. Zaimplementuj interfejs `IOcrConnector` jak pokazano: + +```java +import com.groupdocs.search.options.IOcrConnector; +import com.groupdocs.search.options.OcrContext; +import java.awt.image.BufferedImage; +import javax.imageio.ImageIO; +import com.aspose.ocr.AsposeOCR; + +public class OcrConnector implements IOcrConnector { + @Override + public final String recognize(OcrContext context) { + if (null == context.getImageLocation()) { + throw new RuntimeException("The image type is not supported: " + context.getImageLocation()); + } + + BufferedImage image = ImageIO.read(context.getImageLocation().toFile()); + AsposeOCR api = new AsposeOCR(); + String text = api.RecognizePage(image); + return text; + } +} +``` + +## Praktyczne zastosowania +1. **Systemy zarządzania dokumentami** – szybkie wyszukiwanie dokumentów zawierających zeskanowane obrazy. +2. **Wyszukiwanie w archiwach** – odnajdywanie historycznych rekordów w ogromnych archiwach. +3. **Analiza dokumentów prawnych** – przeszukiwanie umów i dowodów zawierających zeskanowane podpisy lub diagramy. +4. **Wyszukiwanie w dokumentacji medycznej** – indeksowanie formularzy pacjentów, wyników laboratoriów i adnotacji z rentgenów. + +## Uwagi dotyczące wydajności +- **Rozmiar indeksu** – wyklucz niepotrzebne metadane, aby utrzymać indeks w lekkiej formie. +- **Wielowątkowość** – przetwarzaj duże partie równolegle, aby przyspieszyć indeksowanie. +- **Zarządzanie pamięcią** – monitoruj stertę JVM przy obsłudze obrazów wysokiej rozdzielczości. + +## Typowe problemy i rozwiązania +- **Błędy licencji** – upewnij się, że prawidłowy plik licencji znajduje się w katalogu roboczym aplikacji. +- **Brakujące obrazy** – sprawdź, czy ścieżki do obrazów są dostępne i czy formaty są obsługiwane (PNG, JPEG, BMP). +- **Out‑Of‑Memory** – zwiększ stertę JVM (`-Xmx`) lub przetwarzaj dokumenty w mniejszych partiach. + +## Najczęściej zadawane pytania +**P: Jak rozwiązać problemy z licencjonowaniem w GroupDocs.Search?** +A: Uzyskaj tymczasową licencję ze [strony GroupDocs](https://purchase.groupdocs.com/temporary-license/), aby odblokować wszystkie funkcje. + +**P: Jaki jest najlepszy sposób obsługi indeksowania dużych dokumentów?** +A: Wykorzystaj wielowątkowość i przetwarzanie wsadowe, aby poprawić wydajność i zmniejszyć obciążenie pamięci. + +**P: Czy mogę dalej dostosować ustawienia OCR w GroupDocs.Search?** +A: Tak, `IndexingOptions` pozwala precyzyjnie dostroić zachowanie OCR, np. wybór języka i wstępne przetwarzanie obrazu. + +**P: Jakie są typowe wskazówki rozwiązywania problemów przy używaniu GroupDocs.Search?** +A: Sprawdź dokładnie ścieżki katalogów, upewnij się, że wszystkie zależności są dostępne, oraz przejrzyj logi pod kątem brakujących plików. + +**P: Jak mogę zintegrować Aspose.OCR z istniejącą aplikacją Java?** +A: Zaimplementuj interfejs `IOcrConnector` jak pokazano powyżej, zapewniając prawidłowe obsłużenie wejścia obrazu. + +## Resources +- [Dokumentacja GroupDocs.Search](https://docs.groupdocs.com/search/java/) +- [Referencja API](https://reference.groupdocs.com/search/java/) + +--- + +**Ostatnia aktualizacja:** 2026-01-11 +**Testowano z:** GroupDocs.Search 25.4, Aspose.OCR najnowsza wersja +**Author:** GroupDocs \ No newline at end of file diff --git a/content/portuguese/java/ocr-image-search/_index.md b/content/portuguese/java/ocr-image-search/_index.md new file mode 100644 index 00000000..6ce7f17a --- /dev/null +++ b/content/portuguese/java/ocr-image-search/_index.md @@ -0,0 +1,99 @@ +--- +date: 2026-01-11 +description: Tutoriais passo a passo para implementar OCR, extrair texto de imagens + em Java e pesquisa reversa de imagens em Java usando o GroupDocs.Search. +title: Pesquisa Reversa de Imagem Java – Tutoriais OCR do GroupDocs.Search +type: docs +url: /pt/java/ocr-image-search/ +weight: 7 +--- + +# Pesquisa Reversa de Imagem Java – Tutoriais OCR do GroupDocs.Search + +Neste guia, vamos percorrer tudo o que você precisa saber para criar soluções de **reverse image search java** com o GroupDocs.Search. Seja adicionando busca visual a um portal rico em conteúdo ou precisando extrair texto pesquisável de ativos digitalizados, mostraremos como configurar OCR, extrair texto de imagens Java e realizar buscas reversas de imagens — tudo com exemplos claros e prontos para produção. + +## Respostas Rápidas +- **O que o reverse image search Java faz?** Ele encontra imagens visualmente semelhantes em uma coleção indexada usando o GroupDocs.Search. +- **Qual motor OCR é recomendado?** O GroupDocs.Search integra-se ao Aspose.OCR para extração de texto de alta precisão. +- **Preciso de uma licença?** Uma licença temporária funciona para testes; uma licença completa é necessária para produção. +- **Quais são os pré-requisitos principais?** Java 8+, GroupDocs.Search for Java e, opcionalmente, Aspose.OCR. +- **Quanto tempo leva a implementação?** Uma configuração básica pode ser concluída em menos de uma hora. + +## O que é Reverse Image Search Java? +O Reverse image search Java permite localizar imagens que se parecem ou contêm o mesmo conteúdo visual. Em vez de buscar por palavras‑chave, o mecanismo analisa recursos das imagens, indexa‑os e retorna correspondências quando uma imagem de consulta é enviada. + +## Por que usar o GroupDocs.Search para tarefas de Imagem e OCR? +- **Unified API** – Gerencie a indexação de texto e imagem através de uma única biblioteca. +- **High performance** – Otimizado para grandes coleções e tempos de busca rápidos. +- **Extensible** – Integre motores OCR personalizados ou extratores de recursos de imagem, se necessário. +- **Cross‑platform** – Funciona em qualquer ambiente compatível com Java, desde desktop até a nuvem. + +## Pré‑requisitos +- Java 8 ou superior instalado. +- Biblioteca GroupDocs.Search for Java adicionada ao seu projeto (Maven/Gradle). +- (Opcional) Aspose.OCR for Java se você quiser a melhor precisão de OCR. +- Um conjunto de imagens que você deseja indexar e pesquisar. + +## Guia Passo a Passo + +### Etapa 1: Configurar o Índice de Busca +Crie uma nova instância `SearchIndex` apontando para uma pasta onde os arquivos de índice serão armazenados. Esta pasta conterá tanto metadados de texto quanto de imagem. + +### Etapa 2: Configurar OCR para Arquivos de Imagem +Habilite OCR nas opções de indexação para que qualquer imagem adicionada ao índice seja processada para extração de texto. É aqui que a palavra‑chave secundária **extract text from images java** entra em ação. + +### Etapa 3: Indexar Suas Imagens +Adicione cada arquivo de imagem ao índice. Durante esta operação, o GroupDocs.Search extrai recursos visuais para busca reversa e executa OCR para obter qualquer texto incorporado. + +### Etapa 4: Executar uma Busca Reversa de Imagem +Forneça uma imagem de consulta ao método `search`. O mecanismo compara impressões digitais visuais e retorna uma lista classificada de imagens semelhantes do índice. + +### Etapa 5: Recuperar Texto OCR (Se Necessário) +Se você também precisar do conteúdo textual encontrado dentro das imagens, consulte o índice pelo texto extraído via OCR usando a busca padrão por palavras‑chave. + +## Problemas Comuns e Soluções +- **Nenhum resultado retornado:** Verifique se o extrator de recursos de imagem está habilitado e se o índice foi reconstruído após a adição de novas imagens. +- **Texto OCR ausente:** Certifique‑se de que o motor OCR está corretamente referenciado nas dependências do seu projeto e de que o formato da imagem é suportado (ex.: PNG, JPEG, TIFF). +- **Desaceleração de desempenho:** Considere dividir grandes coleções de imagens em múltiplos índices ou usar indexação incremental para manter os tempos de busca baixos. + +## Perguntas Frequentes + +**Q: Posso usar reverse image search Java em plataformas de nuvem?** +A: Sim, a biblioteca é independente de plataforma e funciona em qualquer ambiente que suporte Java, incluindo AWS, Azure e Google Cloud. + +**Q: Quão precisa é a extração OCR para diferentes idiomas?** +A: O Aspose.OCR suporta mais de 60 idiomas; você pode especificar o idioma nas opções de OCR para melhorar a precisão. + +**Q: É possível combinar busca por palavras‑chave com similaridade de imagem?** +A: Absolutamente. Você pode primeiro filtrar os resultados com uma consulta de palavra‑chave e depois classificar os itens restantes por similaridade visual. + +**Q: Quais formatos de arquivo são suportados para indexação de imagens?** +A: Formatos comuns como JPEG, PNG, BMP e TIFF são totalmente suportados nativamente. + +**Q: Como atualizo o índice quando as imagens mudam?** +A: Use o método `update` para reprocessar imagens modificadas, ou exclua‑as e adicione‑as novamente para manter o índice atualizado. + +## Recursos Adicionais + +### Tutoriais Disponíveis + +#### [Configurando o Reconhecimento de Caracteres no GroupDocs.Search para Java: Um Guia de OCR e Busca de Imagens](./groupdocs-search-java-character-recognition/) +Aprenda a configurar o reconhecimento de caracteres usando o GroupDocs.Search para Java, focando em caracteres regulares e combinados. Aprimore o gerenciamento de documentos com recursos avançados de busca. + +#### [Guia de Indexação OCR em Java com Aspose e GroupDocs: Aprimore a Pesquisabilidade de Documentos](./java-ocr-indexing-aspose-groupdocs-search/) +Aprenda a implementar indexação OCR poderosa em Java usando o GroupDocs.Search e o Aspose.OCR para recursos aprimorados de busca de documentos. + +### Links Úteis + +- [Documentação do GroupDocs.Search for Java](https://docs.groupdocs.com/search/java/) +- [Referência da API do GroupDocs.Search for Java](https://reference.groupdocs.com/search/java/) +- [Download do GroupDocs.Search for Java](https://releases.groupdocs.com/search/java/) +- [Fórum do GroupDocs.Search](https://forum.groupdocs.com/c/search) +- [Suporte Gratuito](https://forum.groupdocs.com/) +- [Licença Temporária](https://purchase.groupdocs.com/temporary-license/) + +--- + +**Última Atualização:** 2026-01-11 +**Testado com:** GroupDocs.Search for Java 23.11 +**Autor:** GroupDocs \ No newline at end of file diff --git a/content/portuguese/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/portuguese/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md new file mode 100644 index 00000000..cf2f3254 --- /dev/null +++ b/content/portuguese/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -0,0 +1,231 @@ +--- +date: '2026-01-11' +description: Aprenda a criar um índice de pesquisa personalizado usando o GroupDocs.Search + para Java, configurando caracteres regulares e mesclados para OCR avançado e pesquisa + de imagens. +keywords: +- GroupDocs.Search Java +- Java OCR character recognition +- search library Java +title: Criar índice de pesquisa personalizado com reconhecimento de caracteres – GroupDocs.Search + Java +type: docs +url: /pt/java/ocr-image-search/groupdocs-search-java-character-recognition/ +weight: 1 +--- + +# Criar Índice de Busca Personalizado com Reconhecimento de Caracteres usando GroupDocs.Search para Java + +Em aplicações modernas que lidam com muitos documentos, **criar um índice de busca personalizado** que compreenda as nuances do seu texto — como hífens, sublinhados ou símbolos específicos de idioma — é essencial para uma recuperação rápida e precisa. Este tutorial orienta você na configuração do reconhecimento de caracteres no **GroupDocs.Search para Java**, abordando tanto caracteres regulares (letras, dígitos, sublinhados) quanto caracteres combinados (por exemplo, hífens). Ao final, você poderá adaptar um índice atenda exatamente às necessidades do seu cenário de OCR ou busca de imagens. + +## Respostas Rápidas +- **O que significa “criar índice de busca personalizado”?** Significa configurar um índice para tratar símbolos específicos como letras ou caracteres combinados, em vez de ignorá‑los. +- **Qual biblioteca é usada?** GroupDocs.Search para Java (v25.4 no momento da escrita). +- **Preciso de uma licença?** Uma versão de avaliação gratuita funciona para desenvolvimento; uma licença paga é necessária para produção. +- **Posso indexar PDFs e imagens?** Sim — o GroupDocs.Search suporta OCR em imagens e PDFs quando configurado corretamente. +- **O Maven é obrigatório?** O Maven é a forma recomendada de gerenciar dependências, mas você também pode usar Gradle ou JARs manuais. + +## O que é um Índice de Busca Personalizado? +Um índice de busca personalizado permite definir como o motor de busca interpreta os caracteres. Por padrão, muitos símbolos são ignorados, o que pode levar a correspondências perdidas para itens como números de processo (`ABC-123`) ou trechos de código (`my_variable`). Ajustar o dicionário de alfabeto lhe dá controle total sobre o que o motor trata como texto pesquisável. + +## Por que Configurar Caracteres Regulares e Combinados? +- **Caracteres regulares** (letras, dígitos, sublinhados) são tratados como tokens independentes, melhorando buscas de correspondência exata. +- **Caracteres combinados** (hífens, barras) conectam palavras; configurá‑los evita a divisão indesejada de tokens, o que é crucial para referências legais, códigos de produto ou indexação de código‑fonte. + +## Pré‑requisitos +- **JDK 8** ou superior instalado. +- **Maven** para gerenciamento de dependências. +- Acesso à biblioteca **GroupDocs.Search para Java** (baixada via Maven ou site oficial). + +### Bibliotecas e Dependências Necessárias +Adicione o repositório e as entradas de dependência ao seu `pom.xml` (conforme mostrado abaixo). O bloco XML deve permanecer inalterado. + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +Você também pode baixar os JARs mais recentes em [GroupDocs.Search for Java releases](https://releases.groupdocs.com/search/java/). + +### Aquisição de Licença +- **Teste Gratuito** – perfeito para experimentação inicial. +- **Licença Temporária** – útil para ciclos de desenvolvimento mais longos. +- **Licença de Produção** – necessária para implantação comercial. + +Obtenha uma licença no portal oficial: [GroupDocs](https://purchase.groupdocs.com/temporary-license/). + +### Inicialização Básica +O trecho abaixo mostra o código mínimo necessário para criar um índice vazio. Mantenha‑o como está; construiremos sobre ele mais tarde. + +```java +import com.groupdocs.search.*; + +public class GroupDocsSearchSetup { + public static void main(String[] args) { + String indexFolder = "YOUR_OUTPUT_DIRECTORY"; + String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; + + Index index = new Index(indexFolder); + + System.out.println("GroupDocs.Search setup completed!"); + } +} +``` + +## Configurando GroupDocs.Search para Java + +### Instalação via Maven +A configuração Maven da seção *Pré‑requisitos* é tudo o que você precisa. Após adicioná‑la, execute `mvn clean install` para baixar os binários. + +### Requisitos de Configuração do Ambiente +- Certifique‑se de que a **pasta de índice** e a **pasta de documentos** existam no disco. +- Use caminhos absolutos ou configure sua IDE para resolver caminhos relativos corretamente. + +## Guia de Implementação + +A seguir, percorremos duas funcionalidades distintas: **caracteres regulares** e **caracteres combinados**. Cada funcionalidade segue o mesmo padrão — definir caminhos, criar o índice, definir o dicionário de caracteres e, finalmente, indexar seus documentos. + +### Recurso 1 – Caracteres Regulares + +#### Visão geral +Caracteres regulares são tratados como tokens independentes. Isso é ideal quando você deseja que dígitos, letras e sublinhados sejam pesquisáveis exatamente como aparecem. + +#### Implementação Passo a Passo + +**1️⃣ Definir Caminhos** +Defina onde o índice será armazenado e onde seus documentos de origem estão. + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Criar e Configurar o Índice** +Instancie o índice e limpe qualquer configuração de alfabeto pré‑existente. + +```java +Index index = new Index(indexFolder); +index.getDictionaries().getAlphabet().clear(); +``` + +**3️⃣ Definir Caracteres Regulares** +Construa um array de caracteres que inclua dígitos, letras latinas e o sublinhado. + +```java +StringBuilder sb = new StringBuilder(); +for (char i = 0x0030; i <= 0x0039; i++) { // Digits + sb.append(i); +} +for (char i = 0x0041; i <= 0x005A; i++) { // Latin capital letters + sb.append(i); +} +sb.append(0x005F); // Underscore +for (char i = 0x0061; i <= 0x007A; i++) { // Latin small letters + sb.append(i); +} + +// Convert to character array and set as alphabet range +char[] characters = new char[sb.length()]; +sb.getChars(0, sb.length(), characters, 0); +index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); +``` + +**4️⃣ Indexar Documentos** +Adicione todos os arquivos da pasta de origem ao índice recém‑configurado. + +```java +index.add(documentFolder); +``` + +### Recurso 2 – Caracteres Combinados + +#### Visão geral +Caracteres combinados (como hífens) frequentemente conectam duas palavras. Marcá‑los como *combinados* indica ao motor que mantenha os tokens ao redor juntos durante a indexação. + +#### Implementação Passo a Passo + +**1️⃣ Definir Caminhos** + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Criar e Configurar o Índice** + +```java +Index index = new Index(indexFolder); +``` + +**3️⃣ Definir Caracteres Combinados** +Aqui informamos ao dicionário que o hífen deve ser tratado como um caractere combinado. + +```java +index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); +``` + +**4️⃣ Indexar Documentos** + +```java +index.add(documentFolder); +``` + +## Aplicações Práticas + +### Caso de Uso 1 – Gerenciamento de Documentos Legais +Arquivos legais frequentemente contêm números de processo como `2023-AB-456`. Ao configurar sublinhados e hífens, as buscas retornam correspondências exatas sem dividir o identificador. + +### Caso de Uso 2 – Repositórios de Código‑Fonte +Desenvolvedores precisam buscar trechos de código onde sublinhados (`my_variable`) e hífens (`my-function`) são significativos. O reconhecimento de caracteres personalizado garante que o motor de busca respeite esses símbolos. + +### Caso de Uso 3 – Conjuntos de Dados Multilíngues +Ao trabalhar com idiomas que utilizam alfabetos adicionais, você pode ampliar o conjunto de caracteres regulares para incluir esses intervalos Unicode, garantindo resultados de busca precisos entre idiomas. + +## Considerações de Desempenho + +- **Gerenciamento de Recursos** – Fique atento ao uso de heap; índices grandes se beneficiam de commits incrementais. +- **Coleta de Lixo** – Libere objetos `Index` quando terminar para que a JVM recupere a memória. +- **Otimização do Índice** – Chame periodicamente `index.optimize()` (se disponível) para compactar o índice e melhorar a velocidade das consultas. + +## Conclusão + +Agora você sabe como **criar um índice de busca personalizado** que distingue entre caracteres regulares e combinados usando o GroupDocs.Search para Java. Esse controle detalhado permite que você construa soluções de busca de alto desempenho e compatíveis com OCR, adaptadas a ambientes legais, de desenvolvimento ou multilíngues. + +**Próximos Passos** +- Experimente intervalos Unicode adicionais para alfabetos não latinos. +- Combine a configuração de caracteres com outros recursos do GroupDocs.Search, como stemming ou sinônimos. +- Integre o índice a uma API REST para expor as funcionalidades de busca a aplicações front‑end. + +## Perguntas Frequentes + +**Q:** *Qual é o propósito de `CharacterType.Letter`?* +**A:** Indica ao índice que trate os caracteres fornecidos como letras regulares, de modo que sejam tokenizados separadamente durante a indexação. + +**Q:** *Posso misturar caracteres regulares e combinados no mesmo índice?* +**A:** Sim — basta chamar `setRange` para cada tipo; o dicionário lidará com ambas as configurações simultaneamente. + +**Q:** *Preciso reconstruir o índice após alterar o alfabeto?* +**A:** Absolutamente. Alterações no dicionário de caracteres afetam a tokenização, portanto você deve re‑indexar os documentos para aplicar as novas regras. + +**Q:** *Existe um limite para o número de caracteres personalizados que posso definir?* +**A:** A biblioteca suporta todo o intervalo Unicode; o desempenho pode degradar se você adicionar um conjunto extremamente grande, portanto limite aos caracteres que realmente necessita. + +**Q:** *Como isso afeta a precisão do OCR?* +**A:** Ao alinhar o conjunto de caracteres do índice com a saída do motor OCR, você reduz falsos negativos e melhora a relevância geral da busca. + +**Última Atualização:** 2026-01-11 +**Testado com:** GroupDocs.Search 25.4 para Java +**Autor:** GroupDocs \ No newline at end of file diff --git a/content/portuguese/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/portuguese/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md new file mode 100644 index 00000000..901b2f72 --- /dev/null +++ b/content/portuguese/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -0,0 +1,184 @@ +--- +date: '2026-01-11' +description: Aprenda a usar o GroupDocs for Java OCR indexing com Aspose.OCR, permitindo + recursos poderosos de pesquisa de documentos em PDFs, imagens e arquivos digitalizados. +keywords: +- Java OCR indexing +- document searchability +- OCR with GroupDocs +title: Como usar o GroupDocs para Java OCR Indexing com Aspose +type: docs +url: /pt/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/ +weight: 1 +--- + +# Como Usar o GroupDocs para Indexação OCR em Java com Aspose + +Neste guia você descobrirá **como usar o GroupDocs** para adicionar pesquisa alimentada por OCR aos seus aplicativos Java. Ao combinar GroupDocs.Search com Aspose.OCR, você pode transformar conteúdo baseado em imagens em texto pesquisável, tornando os sistemas de gerenciamento de documentos muito mais úteis. Vamos percorrer a configuração, indexação, pesquisa e integração personalizada de OCR, tudo com exemplos claros, passo a passo. + +## Respostas Rápidas +- **Qual biblioteca fornece indexação OCR?** GroupDocs.Search paired with Aspose.OCR. +- **Qual versão do Java é necessária?** JDK 8 or higher. +- **Preciso de uma licença?** A free trial is available; a paid license is required for production. +- **Posso indexar imagens separadas e incorporadas?** Yes, enable both options in `IndexingOptions`. +- **O multi‑threading é suportado?** Yes, you can parallelize indexing for large data sets. + +## O que é Indexação OCR com GroupDocs? +A indexação OCR extrai texto de imagens (incluindo PDFs escaneados) e o armazena em um índice pesquisável. O GroupDocs.Search lida com a indexação e a execução de consultas, enquanto o Aspose.OCR realiza o reconhecimento real de caracteres. + +## Por que usar o GroupDocs para indexação OCR em Java? +- **Alta precisão** graças ao avançado motor OCR da Aspose. +- **Integração Java perfeita** via Maven ou JARs diretos. +- **Configuração flexível** para imagens separadas ou incorporadas. +- **Desempenho escalável** com multi‑threading e otimizações de memória. + +## Pré-requisitos +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR** (versão mais recente) +- JDK 8+ e uma IDE (IntelliJ, Eclipse, NetBeans) +- Conhecimento básico de Java; Maven é útil, mas não obrigatório + +## Configurando o GroupDocs.Search para Java +### Usando Maven +Add the repository and dependency to your `pom.xml`: + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +### Download Direto +Alternativamente, faça download da versão mais recente do GroupDocs.Search para Java em [GroupDocs releases](https://releases.groupdocs.com/search/java/). + +### Aquisição de Licença +- **Free Trial** – explore todos os recursos sem custo. +- **Temporary License** – período de teste estendido. +- **Purchase** – necessário para implantações em produção. + +### Inicialização e Configuração Básicas +Create an index folder and initialize the `Index` object: + +```java +import com.groupdocs.search.Index; +// Specify the directory where the index will be stored. +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +// Create an instance of Index class at the specified location. +Index index = new Index(indexFolder); +``` + +## Como Usar o GroupDocs para Indexação OCR +### Criando um Índice +First, set up the folder that will hold the index files: + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +Index index = new Index(indexFolder); +``` + +### Configurando Opções de Indexação OCR +Enable OCR for both separate and embedded images, and plug in a custom OCR connector: + +```java +import com.groupdocs.search.options.IndexingOptions; +IndexingOptions options = new IndexingOptions(); +options.getOcrIndexingOptions().setEnabledForSeparateImages(true); +options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); +// Set a custom OCR connector. +options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); +``` + +### Indexando Documentos +Add your source documents (PDFs, Word files, images, etc.) to the index: + +```java +String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; +index.add(documentsFolder, options); +``` + +### Pesquisando em um Índice +Run a search query against the indexed content: + +```java +import com.groupdocs.search.results.SearchResult; +String query = "water"; +SearchResult result = index.search(query); +``` + +### Implementando um Conector OCR +Use Aspose.OCR to recognize text from images. Implement the `IOcrConnector` interface as shown: + +```java +import com.groupdocs.search.options.IOcrConnector; +import com.groupdocs.search.options.OcrContext; +import java.awt.image.BufferedImage; +import javax.imageio.ImageIO; +import com.aspose.ocr.AsposeOCR; + +public class OcrConnector implements IOcrConnector { + @Override + public final String recognize(OcrContext context) { + if (null == context.getImageLocation()) { + throw new RuntimeException("The image type is not supported: " + context.getImageLocation()); + } + + BufferedImage image = ImageIO.read(context.getImageLocation().toFile()); + AsposeOCR api = new AsposeOCR(); + String text = api.RecognizePage(image); + return text; + } +} +``` + +## Aplicações Práticas +1. **Document Management Systems** – recuperação rápida de documentos que contêm imagens escaneadas. +2. **Archival Retrieval** – localizar registros históricos dentro de arquivos massivos. +3. **Legal Document Analysis** – pesquisar contratos e evidências que incluem assinaturas ou diagramas escaneados. +4. **Medical Records Search** – indexar formulários de pacientes, resultados de laboratório e anotações de raios‑X. + +## Considerações de Desempenho +- **Index Size** – exclua metadados desnecessários para manter o índice enxuto. +- **Multi‑Threading** – processe grandes lotes em paralelo para acelerar a indexação. +- **Memory Management** – monitore o heap da JVM ao lidar com imagens de alta resolução. + +## Problemas Comuns e Soluções +- **License Errors** – garanta que o arquivo de licença correto esteja colocado no diretório de trabalho da aplicação. +- **Missing Images** – verifique se os caminhos das imagens são acessíveis e se os formatos são suportados (PNG, JPEG, BMP). +- **Out‑Of‑Memory** – aumente o heap da JVM (`-Xmx`) ou processe documentos em lotes menores. + +## Perguntas Frequentes +**Q: Como resolvo problemas de licenciamento com o GroupDocs.Search?** +A: Obtenha uma licença temporária no [site da GroupDocs](https://purchase.groupdocs.com/temporary-license/) para desbloquear todos os recursos. + +**Q: Qual a melhor maneira de lidar com a indexação de documentos grandes?** +A: Utilize multi‑threading e processamento em lotes para melhorar o desempenho e reduzir a pressão de memória. + +**Q: Posso personalizar ainda mais as configurações de OCR no GroupDocs.Search?** +A: Sim, `IndexingOptions` permite ajustar finamente o comportamento do OCR, como seleção de idioma e pré-processamento de imagens. + +**Q: Quais são algumas dicas comuns de solução de problemas ao usar o GroupDocs.Search?** +A: Verifique novamente os caminhos dos diretórios, confirme que todas as dependências estão presentes e revise a saída de logs para arquivos ausentes. + +**Q: Como posso integrar o Aspose.OCR ao meu aplicativo Java existente?** +A: Implemente a interface `IOcrConnector` como demonstrado acima, garantindo que você trate a entrada de imagens corretamente. + +## Recursos +- [Documentação do GroupDocs.Search](https://docs.groupdocs.com/search/java/) +- [Referência da API](https://reference.groupdocs.com/search/java/) + +--- + +**Última Atualização:** 2026-01-11 +**Testado com:** GroupDocs.Search 25.4, Aspose.OCR última versão +**Autor:** GroupDocs \ No newline at end of file diff --git a/content/russian/java/ocr-image-search/_index.md b/content/russian/java/ocr-image-search/_index.md new file mode 100644 index 00000000..581ee471 --- /dev/null +++ b/content/russian/java/ocr-image-search/_index.md @@ -0,0 +1,99 @@ +--- +date: 2026-01-11 +description: Пошаговые руководства по реализации OCR, извлечению текста из изображений + на Java и обратному поиску изображений на Java с использованием GroupDocs.Search. +title: Обратный поиск изображений Java – Руководства по OCR в GroupDocs.Search +type: docs +url: /ru/java/ocr-image-search/ +weight: 7 +--- + +# Обратный поиск изображений Java – Руководства по OCR в GroupDocs.Search + +В этом руководстве мы подробно расскажем, что нужно знать для создания **reverse image search java** решений с использованием GroupDocs.Search. Независимо от того, добавляете ли вы визуальный поиск в контент‑насыщенный портал или вам необходимо извлекать поисковый текст из отсканированных ресурсов, мы покажем, как настроить OCR, извлекать текст из изображений Java и выполнять обратный поиск изображений — всё с понятными, готовыми к продакшну примерами. + +## Быстрые ответы +- **Что делает reverse image search Java?** Он находит визуально похожие изображения в индексированной коллекции с помощью GroupDocs.Search. +- **Какой OCR‑движок рекомендуется?** GroupDocs.Search интегрируется с Aspose.OCR для высокоточного извлечения текста. +- **Нужна ли лицензия?** Временная лицензия подходит для тестирования; полная лицензия требуется для продакшна. +- **Какие основные предварительные требования?** Java 8+, GroupDocs.Search for Java и, при желании, Aspose.OCR. +- **Сколько времени занимает реализация?** Базовую настройку можно выполнить менее чем за час. + +## Что такое Reverse Image Search Java? +Reverse image search Java позволяет находить изображения, похожие друг на друга или содержащие одинаковый визуальный контент. Вместо поиска по ключевым словам движок анализирует особенности изображений, индексирует их и возвращает совпадения при отправке изображения‑запроса. + +## Почему стоит использовать GroupDocs.Search для задач с изображениями и OCR? +- **Unified API** – Управляйте индексацией текста и изображений через одну библиотеку. +- **High performance** – Оптимизировано для больших коллекций и быстрых запросов. +- **Extensible** – При необходимости подключайте собственные OCR‑движки или извлекатели признаков изображений. +- **Cross‑platform** – Работает в любой Java‑совместимой среде, от настольных приложений до облака. + +## Предварительные требования +- Установлена Java 8 или новее. +- Библиотека GroupDocs.Search for Java добавлена в ваш проект (Maven/Gradle). +- (Опционально) Aspose.OCR for Java, если вам нужна наивысшая точность OCR. +- Набор изображений, которые вы хотите индексировать и использовать для поиска. + +## Пошаговое руководство + +### Шаг 1: Настройка поискового индекса +Создайте новый экземпляр `SearchIndex`, указывающий папку, где будут храниться файлы индекса. Эта папка будет содержать как текстовые, так и метаданные изображений. + +### Шаг 2: Настройка OCR для файлов изображений +Включите OCR в параметрах индексации, чтобы любое изображение, добавляемое в индекс, обрабатывалось для извлечения текста. Здесь в дело вступает вторичное ключевое слово **extract text from images java**. + +### Шаг 3: Индексация изображений +Добавьте каждый файл изображения в индекс. Во время этой операции GroupDocs.Search извлекает визуальные признаки для обратного поиска и запускает OCR, чтобы получить любой встроенный текст. + +### Шаг 4: Выполнение обратного поиска изображений +Передайте изображение‑запрос в метод `search`. Движок сравнивает визуальные отпечатки и возвращает ранжированный список похожих изображений из индекса. + +### Шаг 5: Получение OCR‑текста (при необходимости) +Если вам также нужен текстовый контент, найденный внутри изображений, выполните запрос к индексу для OCR‑извлечённого текста с помощью обычного поиска по ключевым словам. + +## Распространённые проблемы и решения +- **No results returned:** Убедитесь, что извлекатель признаков изображений включён и индекс был перестроен после добавления новых изображений. +- **OCR text is missing:** Проверьте, что OCR‑движок правильно указан в зависимостях проекта и что формат изображения поддерживается (например, PNG, JPEG, TIFF). +- **Performance slowdown:** Рассмотрите возможность разбивки больших коллекций изображений на несколько индексов или используйте инкрементальную индексацию, чтобы поддерживать быстрые времена поиска. + +## Часто задаваемые вопросы + +**Q: Можно ли использовать reverse image search Java на облачных платформах?** +A: Да, библиотека не зависит от платформы и работает в любой среде, поддерживающей Java, включая AWS, Azure и Google Cloud. + +**Q: Насколько точным является извлечение OCR для разных языков?** +A: Aspose.OCR поддерживает более 60 языков; вы можете указать язык в параметрах OCR для повышения точности. + +**Q: Можно ли комбинировать поиск по ключевым словам с поиском по схожести изображений?** +A: Абсолютно. Сначала можно отфильтровать результаты запросом по ключевому слову, а затем ранжировать оставшиеся элементы по визуальной схожести. + +**Q: Какие форматы файлов поддерживаются для индексации изображений?** +A: Распространённые форматы, такие как JPEG, PNG, BMP и TIFF, полностью поддерживаются «из коробки». + +**Q: Как обновить индекс, когда изображения меняются?** +A: Используйте метод `update` для повторной обработки изменённых изображений или удалите и заново добавьте их, чтобы индекс оставался актуальным. + +## Дополнительные ресурсы + +### Доступные руководства + +#### [Настройка распознавания символов в GroupDocs.Search для Java: Руководство по OCR & поиску изображений](./groupdocs-search-java-character-recognition/) +Узнайте, как настроить распознавание символов с помощью GroupDocs.Search for Java, сосредотачиваясь на обычных и комбинированных символах. Улучшите управление документами с помощью расширенных возможностей поиска. + +#### [Руководство по индексации OCR в Java с Aspose и GroupDocs: Повышение поисковой доступности документов](./java-ocr-indexing-aspose-groupdocs-search/) +Изучите, как реализовать мощную индексацию OCR в Java, используя GroupDocs.Search и Aspose.OCR для улучшения возможностей поиска по документам. + +### Полезные ссылки + +- [Документация GroupDocs.Search for Java](https://docs.groupdocs.com/search/java/) +- [Справочник API GroupDocs.Search for Java](https://reference.groupdocs.com/search/java/) +- [Скачать GroupDocs.Search for Java](https://releases.groupdocs.com/search/java/) +- [Форум GroupDocs.Search](https://forum.groupdocs.com/c/search) +- [Бесплатная поддержка](https://forum.groupdocs.com/) +- [Временная лицензия](https://purchase.groupdocs.com/temporary-license/) + +--- + +**Last Updated:** 2026-01-11 +**Tested With:** GroupDocs.Search for Java 23.11 +**Author:** GroupDocs \ No newline at end of file diff --git a/content/russian/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/russian/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md new file mode 100644 index 00000000..f1f27efb --- /dev/null +++ b/content/russian/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -0,0 +1,235 @@ +--- +date: '2026-01-11' +description: Узнайте, как создать пользовательский поисковый индекс с помощью GroupDocs.Search + для Java, настроив обычные и комбинированные символы для продвинутого OCR и поиска + по изображениям. +keywords: +- GroupDocs.Search Java +- Java OCR character recognition +- search library Java +title: Создание пользовательского поискового индекса с распознаванием символов – GroupDocs.Search + Java +type: docs +url: /ru/java/ocr-image-search/groupdocs-search-java-character-recognition/ +weight: 1 +--- + +# Создание пользовательского поискового индекса с распознаванием символов с помощью GroupDocs.Search для Java + +В современных приложениях, работающих с большим количеством документов, **создание пользовательского поискового индекса**, который понимает нюансы вашего текста — такие как дефисы, подчёркивания или специфические для языка символы — является необходимым для быстрого и точного поиска. В этом руководстве мы покажем, как настроить распознавание символов в **GroupDocs.Search для Java**, охватывая как обычные символы (буквы, цифры, подчёркивания), так и комбинированные символы (например, дефисы). По завершении вы сможете адаптировать индекс под точные требования вашего OCR‑или поиска по изображениям. + +## Быстрые ответы +- **Что означает «создание пользовательского поискового индекса»?** Это настройка индекса так, чтобы определённые символы рассматривались как буквы или комбинированные символы, а не игнорировались. +- **Какая библиотека используется?** GroupDocs.Search для Java (v25.4 на момент написания). +- **Нужна ли лицензия?** Бесплатная пробная версия подходит для разработки; платная лицензия требуется для продакшн‑использования. +- **Можно ли индексировать и PDF, и изображения?** Да — GroupDocs.Search поддерживает OCR для изображений и PDF при правильной конфигурации. +- **Обязательно ли использовать Maven?** Maven — рекомендованный способ управления зависимостями, но можно также использовать Gradle или подключать JAR‑файлы вручную. + +## Что такое пользовательский поисковый индекс? +Пользовательский поисковый индекс позволяет задать, как поисковый движок интерпретирует символы. По умолчанию многие символы игнорируются, что может приводить к пропуску совпадений, например, номеров дел (`ABC-123`) или фрагментов кода (`my_variable`). Настройка словаря алфавита даёт полный контроль над тем, какие символы считаются поисковым текстом. + +## Почему нужно настраивать обычные и комбинированные символы? +- **Обычные символы** (буквы, цифры, подчёркивания) рассматриваются как отдельные токены, улучшая точный поиск. +- **Комбинированные символы** (дефисы, слеши) соединяют слова; их настройка предотвращает нежелательное разбиение токенов, что критично для юридических ссылок, артикулов продукции или индексации исходного кода. + +## Предварительные требования +- **JDK 8** или более новая версия. +- **Maven** для управления зависимостями. +- Доступ к библиотеке **GroupDocs.Search для Java** (скачивается через Maven или с официального сайта). + +### Необходимые библиотеки и зависимости +Добавьте репозиторий и зависимости в ваш `pom.xml` (как показано ниже). XML‑блок должен оставаться без изменений. + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +Вы также можете загрузить последние JAR‑файлы по ссылке [GroupDocs.Search for Java releases](https://releases.groupdocs.com/search/java/). + +### Приобретение лицензии +- **Free Trial** — идеален для ранних экспериментов. +- **Temporary License** — полезна для длительных циклов разработки. +- **Production License** — требуется для коммерческого развертывания. + +Получить лицензию можно на официальном портале: [GroupDocs](https://purchase.groupdocs.com/temporary-license/). + +### Базовая инициализация +Ниже приведён минимальный код для создания пустого индекса. Оставьте его без изменений; позже мы будем его расширять. + +```java +import com.groupdocs.search.*; + +public class GroupDocsSearchSetup { + public static void main(String[] args) { + String indexFolder = "YOUR_OUTPUT_DIRECTORY"; + String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; + + Index index = new Index(indexFolder); + + System.out.println("GroupDocs.Search setup completed!"); + } +} +``` + +## Настройка GroupDocs.Search для Java + +### Установка через Maven +Конфигурация Maven из раздела *Предварительные требования* — всё, что нужно. После добавления выполните `mvn clean install` для загрузки бинарных файлов. + +### Требования к окружению +- Убедитесь, что **папка индекса** и **папка документов** существуют на диске. +- Используйте абсолютные пути или настройте IDE для корректного разрешения относительных путей. + +## Руководство по реализации + +Ниже рассмотрены две отдельные функции: **обычные символы** и **комбинированные символы**. Каждая функция следует одинаковому шаблону — задаём пути, создаём индекс, настраиваем словарь символов и, наконец, индексируем документы. + +### Функция 1 — Обычные символы + +#### Обзор +Обычные символы рассматриваются как независимые токены. Это удобно, когда нужно, чтобы цифры, буквы и подчёркивания искались точно в том виде, в каком они записаны. + +#### Пошаговая реализация + +**1️⃣ Задание путей** +Определите, где будет храниться индекс и где находятся исходные документы. + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Создание и настройка индекса** +Создайте объект индекса и очистите любую предустановленную конфигурацию алфавита. + +```java +Index index = new Index(indexFolder); +index.getDictionaries().getAlphabet().clear(); +``` + +**3️⃣ Определение обычных символов** +Сформируйте массив символов, включающий цифры, латинские буквы и подчёркивание. + +```java +StringBuilder sb = new StringBuilder(); +for (char i = 0x0030; i <= 0x0039; i++) { // Digits + sb.append(i); +} +for (char i = 0x0041; i <= 0x005A; i++) { // Latin capital letters + sb.append(i); +} +sb.append(0x005F); // Underscore +for (char i = 0x0061; i <= 0x007A; i++) { // Latin small letters + sb.append(i); +} + +// Convert to character array and set as alphabet range +char[] characters = new char[sb.length()]; +sb.getChars(0, sb.length(), characters, 0); +index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); +``` + +**4️⃣ Индексация документов** +Добавьте все файлы из исходной папки в только что настроенный индекс. + +```java +index.add(documentFolder); +``` + +### Функция 2 — Комбинированные символы + +#### Обзор +Комбинированные символы (например, дефис) часто соединяют два слова. Пометка их как *комбинированных* заставляет движок сохранять окружающие токены вместе при индексации. + +#### Пошаговая реализация + +**1️⃣ Задание путей** + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Создание и настройка индекса** + +```java +Index index = new Index(indexFolder); +``` + +**3️⃣ Определение комбинированных символов** +Здесь мы указываем словарю, что дефис следует рассматривать как комбинированный символ. + +```java +index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); +``` + +**4️⃣ Индексация документов** + +```java +index.add(documentFolder); +``` + +## Практические применения + +### Сценарий 1 — Управление юридическими документами +Юридические файлы часто содержат номера дел, например `2023-AB-456`. Настроив подчёркивания и дефисы, поиск будет возвращать точные совпадения без разбиения идентификатора. + +### Сценарий 2 — Репозитории исходного кода +Разработчикам необходимо искать фрагменты кода, где подчёркивания (`my_variable`) и дефисы (`my-function`) имеют смысл. Пользовательское распознавание символов гарантирует, что поисковый движок учитывает эти знаки. + +### Сценарий 3 — Многоязычные наборы данных +Работая с языками, использующими дополнительные алфавиты, можно расширить набор обычных символов, включив соответствующие диапазоны Unicode, обеспечивая точный кросс‑языковой поиск. + +## Соображения по производительности + +- **Управление ресурсами** — следите за использованием heap; большие индексы выигрывают от инкрементных коммитов. +- **Сборка мусора** — освобождайте объекты `Index`, когда они больше не нужны, чтобы JVM могла вернуть память. +- **Оптимизация индекса** — периодически вызывайте `index.optimize()` (если доступно) для уплотнения индекса и ускорения запросов. + +## Заключение + +Теперь вы знаете, как **создать пользовательский поисковый индекс**, различающий обычные и комбинированные символы с помощью GroupDocs.Search для Java. Такой тонко настроенный контроль позволяет строить OCR‑ориентированные, высокопроизводительные поисковые решения для юридических, разработческих или многоязычных окружений. + +**Следующие шаги** +- Поэкспериментировать с дополнительными диапазонами Unicode для нелатинских алфавитов. +- Скомбинировать настройку символов с другими возможностями GroupDocs.Search, такими как стемминг или синонимы. +- Интегрировать индекс в REST‑API для предоставления поисковых возможностей фронтенд‑приложениям. + +## Часто задаваемые вопросы + +**В:** *Какова цель `CharacterType.Letter`?* +**О:** Он указывает индексу рассматривать переданные символы как обычные буквы, поэтому они токенизируются отдельно при индексации. + +**В:** *Можно ли смешивать обычные и комбинированные символы в одном индексе?* +**О:** Да — достаточно вызвать `setRange` для каждого типа; словарь одновременно обработает обе конфигурации. + +**В:** *Нужно ли перестраивать индекс после изменения алфавита?* +**О:** Обязательно. Изменения в словаре символов влияют на токенизацию, поэтому необходимо переиндексировать документы, чтобы новые правила вступили в силу. + +**В:** *Есть ли ограничение на количество пользовательских символов?* +**О:** Библиотека поддерживает полный диапазон Unicode; производительность может ухудшиться при добавлении чрезвычайно большого набора, поэтому ограничьте его только необходимыми символами. + +**В:** *Как это влияет на точность OCR?* +**О:** Согласование набора символов индекса с выводом OCR‑движка уменьшает количество ложных отрицаний и повышает общую релевантность поиска. + +--- + +**Последнее обновление:** 2026-01-11 +**Тестировано с:** GroupDocs.Search 25.4 для Java +**Автор:** GroupDocs + +--- \ No newline at end of file diff --git a/content/russian/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/russian/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md new file mode 100644 index 00000000..3ce1ac21 --- /dev/null +++ b/content/russian/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -0,0 +1,185 @@ +--- +date: '2026-01-11' +description: Узнайте, как использовать GroupDocs для Java OCR‑индексацию с Aspose.OCR, + обеспечивая мощные возможности поиска документов в PDF, изображениях и отсканированных + файлах. +keywords: +- Java OCR indexing +- document searchability +- OCR with GroupDocs +title: Как использовать GroupDocs для Java OCR‑индексации с Aspose +type: docs +url: /ru/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/ +weight: 1 +--- + +# Как использовать GroupDocs для OCR‑индексации в Java с Aspose + +В этом руководстве вы узнаете **как использовать GroupDocs** для добавления поиска на основе OCR в ваши Java‑приложения. Комбинируя GroupDocs.Search с Aspose.OCR, вы можете преобразовать контент, представленный в виде изображений, в поисковый текст, делая системы управления документами гораздо более полезными. Мы пройдем настройку, индексацию, поиск и пользовательскую интеграцию OCR, предоставив понятные пошаговые примеры. + +## Быстрые ответы +- **Какая библиотека обеспечивает OCR‑индексацию?** GroupDocs.Search в паре с Aspose.OCR. +- **Какая версия Java требуется?** JDK 8 или выше. +- **Нужна ли лицензия?** Доступна бесплатная пробная версия; платная лицензия требуется для продакшн‑использования. +- **Можно ли индексировать как отдельные, так и встроенные изображения?** Да, включите обе опции в `IndexingOptions`. +- **Поддерживается ли многопоточность?** Да, индексацию можно параллелизировать для больших наборов данных. + +## Что такое OCR‑индексация с GroupDocs? +OCR‑индексация извлекает текст из изображений (включая отсканированные PDF) и сохраняет его в поисковом индексе. GroupDocs.Search отвечает за индексацию и выполнение запросов, а Aspose.OCR выполняет собственно распознавание символов. + +## Почему стоит использовать GroupDocs для OCR‑индексации в Java? +- **Высокая точность** благодаря продвинутому OCR‑движку Aspose. +- **Бесшовная интеграция с Java** через Maven или прямые JAR‑файлы. +- **Гибкая конфигурация** для отдельных и встроенных изображений. +- **Масштабируемая производительность** с поддержкой многопоточности и оптимизаций памяти. + +## Требования +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR** (последняя версия) +- JDK 8+ и IDE (IntelliJ, Eclipse, NetBeans) +- Базовые знания Java; Maven полезен, но не обязателен + +## Настройка GroupDocs.Search для Java +### Использование Maven +Добавьте репозиторий и зависимость в ваш `pom.xml`: + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +### Прямая загрузка +Или скачайте последнюю версию GroupDocs.Search для Java с [GroupDocs releases](https://releases.groupdocs.com/search/java/). + +### Приобретение лицензии +- **Бесплатная пробная версия** – исследуйте все функции без оплаты. +- **Временная лицензия** – продлённый тестовый период. +- **Покупка** – требуется для продакшн‑развёртываний. + +### Базовая инициализация и настройка +Создайте папку индекса и инициализируйте объект `Index`: + +```java +import com.groupdocs.search.Index; +// Specify the directory where the index will be stored. +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +// Create an instance of Index class at the specified location. +Index index = new Index(indexFolder); +``` + +## Как использовать GroupDocs для OCR‑индексации +### Создание индекса +Сначала настройте папку, в которой будут храниться файлы индекса: + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +Index index = new Index(indexFolder); +``` + +### Настройка параметров OCR‑индексации +Включите OCR для отдельных и встроенных изображений и подключите пользовательский OCR‑коннектор: + +```java +import com.groupdocs.search.options.IndexingOptions; +IndexingOptions options = new IndexingOptions(); +options.getOcrIndexingOptions().setEnabledForSeparateImages(true); +options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); +// Set a custom OCR connector. +options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); +``` + +### Индексация документов +Добавьте исходные документы (PDF, Word, изображения и т.д.) в индекс: + +```java +String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; +index.add(documentsFolder, options); +``` + +### Поиск в индексе +Выполните поисковый запрос по проиндексированному контенту: + +```java +import com.groupdocs.search.results.SearchResult; +String query = "water"; +SearchResult result = index.search(query); +``` + +### Реализация OCR‑коннектора +Используйте Aspose.OCR для распознавания текста из изображений. Реализуйте интерфейс `IOcrConnector`, как показано: + +```java +import com.groupdocs.search.options.IOcrConnector; +import com.groupdocs.search.options.OcrContext; +import java.awt.image.BufferedImage; +import javax.imageio.ImageIO; +import com.aspose.ocr.AsposeOCR; + +public class OcrConnector implements IOcrConnector { + @Override + public final String recognize(OcrContext context) { + if (null == context.getImageLocation()) { + throw new RuntimeException("The image type is not supported: " + context.getImageLocation()); + } + + BufferedImage image = ImageIO.read(context.getImageLocation().toFile()); + AsposeOCR api = new AsposeOCR(); + String text = api.RecognizePage(image); + return text; + } +} +``` + +## Практические применения +1. **Системы управления документами** – быстрый поиск документов, содержащих отсканированные изображения. +2. **Архивный поиск** – нахождение исторических записей в огромных архивах. +3. **Анализ юридических документов** – поиск по контрактам и доказательствам, включающим сканированные подписи или схемы. +4. **Поиск в медицинских записях** – индексация форм пациентов, лабораторных результатов и аннотаций к рентгеновским снимкам. + +## Соображения по производительности +- **Размер индекса** – исключайте ненужные метаданные, чтобы индекс оставался компактным. +- **Многопоточность** – обрабатывайте большие партии параллельно для ускорения индексации. +- **Управление памятью** – следите за кучей JVM при работе с изображениями высокого разрешения. + +## Распространённые проблемы и решения +- **Ошибки лицензии** – убедитесь, что правильный файл лицензии размещён в рабочем каталоге приложения. +- **Отсутствие изображений** – проверьте доступность путей к изображениям и поддерживаемые форматы (PNG, JPEG, BMP). +- **Out‑Of‑Memory** – увеличьте размер кучи JVM (`-Xmx`) или обрабатывайте документы небольшими партиями. + +## Часто задаваемые вопросы +**В: Как решить проблемы с лицензированием GroupDocs.Search?** +О: Получите временную лицензию на [сайте GroupDocs](https://purchase.groupdocs.com/temporary-license/), чтобы разблокировать все функции. + +**В: Как лучше всего обрабатывать индексацию больших объёмов документов?** +О: Используйте многопоточность и пакетную обработку для повышения производительности и снижения нагрузки на память. + +**В: Можно ли дополнительно настроить параметры OCR в GroupDocs.Search?** +О: Да, `IndexingOptions` позволяет тонко настраивать поведение OCR, например, выбор языка и предобработку изображений. + +**В: Какие типичные советы по устранению неполадок при работе с GroupDocs.Search?** +О: Проверьте пути к каталогам, убедитесь, что все зависимости присутствуют, и изучите вывод логов на предмет отсутствующих файлов. + +**В: Как интегрировать Aspose.OCR в существующее Java‑приложение?** +О: Реализуйте интерфейс `IOcrConnector`, как показано выше, и корректно обрабатывайте ввод изображений. + +## Ресурсы +- [GroupDocs.Search Documentation](https://docs.groupdocs.com/search/java/) +- [API Reference](https://reference.groupdocs.com/search/java/) + +--- + +**Последнее обновление:** 2026-01-11 +**Тестировано с:** GroupDocs.Search 25.4, Aspose.OCR последняя версия +**Автор:** GroupDocs \ No newline at end of file diff --git a/content/spanish/java/ocr-image-search/_index.md b/content/spanish/java/ocr-image-search/_index.md new file mode 100644 index 00000000..e11d7f7b --- /dev/null +++ b/content/spanish/java/ocr-image-search/_index.md @@ -0,0 +1,97 @@ +--- +date: 2026-01-11 +description: Tutoriales paso a paso para implementar OCR, extraer texto de imágenes + en Java y búsqueda inversa de imágenes en Java usando GroupDocs.Search. +title: Búsqueda inversa de imágenes Java – Tutoriales OCR de GroupDocs.Search +type: docs +url: /es/java/ocr-image-search/ +weight: 7 +--- + +# Búsqueda inversa de imágenes Java – Tutoriales OCR de GroupDocs.Search + +En esta guía le mostraremos todo lo que necesita saber para crear soluciones de **reverse image search java** con GroupDocs.Search. Ya sea que esté añadiendo búsqueda visual a un portal rico en contenido o necesite extraer texto buscable de activos escaneados, le mostraremos cómo configurar OCR, extraer texto de imágenes Java y realizar búsquedas inversas de imágenes, todo con ejemplos claros y listos para producción. + +## Respuestas rápidas +- **¿Qué hace reverse image search Java?** Encuentra imágenes visualmente similares en una colección indexada usando GroupDocs.Search. +- **¿Qué motor OCR se recomienda?** GroupDocs.Search se integra con Aspose.OCR para una extracción de texto de alta precisión. +- **¿Necesito una licencia?** Una licencia temporal funciona para pruebas; se requiere una licencia completa para producción. +- **¿Cuáles son los requisitos principales?** Java 8+, GroupDocs.Search for Java y, opcionalmente, Aspose.OCR. +- **¿Cuánto tiempo lleva la implementación?** Una configuración básica se puede completar en menos de una hora. + +## ¿Qué es Reverse Image Search Java? +Reverse image search Java le permite localizar imágenes que se parecen o contienen el mismo contenido visual. En lugar de buscar por palabras clave, el motor analiza las características de la imagen, las indexa y devuelve coincidencias cuando se envía una imagen de consulta. + +## ¿Por qué usar GroupDocs.Search para tareas de imágenes y OCR? +- **Unified API** – Administre la indexación de texto e imágenes a través de una única biblioteca. +- **High performance** – Optimizado para colecciones grandes y tiempos de búsqueda rápidos. +- **Extensible** – Integre motores OCR personalizados o extractores de características de imágenes si es necesario. +- **Cross‑platform** – Funciona en cualquier entorno compatible con Java, desde escritorio hasta la nube. + +## Requisitos previos +- Java 8 o superior instalado. +- Biblioteca GroupDocs.Search for Java añadida a su proyecto (Maven/Gradle). +- (Opcional) Aspose.OCR for Java si desea la mejor precisión OCR. +- Un conjunto de imágenes que desea indexar y buscar. + +## Guía paso a paso + +### Paso 1: Configurar el índice de búsqueda +Cree una nueva instancia de `SearchIndex` que apunte a una carpeta donde se almacenarán los archivos del índice. Esta carpeta contendrá tanto metadatos de texto como de imágenes. + +### Paso 2: Configurar OCR para archivos de imagen +Active OCR en las opciones de indexación para que cualquier imagen añadida al índice se procese para la extracción de texto. Aquí es donde entra en juego la palabra clave secundaria **extract text from images java**. + +### Paso 3: Indexar sus imágenes +Añada cada archivo de imagen al índice. Durante esta operación GroupDocs.Search extrae características visuales para la búsqueda inversa y ejecuta OCR para obtener cualquier texto incrustado. + +### Paso 4: Realizar una búsqueda inversa de imágenes +Proporcione una imagen de consulta al método `search`. El motor compara huellas visuales y devuelve una lista clasificada de imágenes similares del índice. + +### Paso 5: Recuperar texto OCR (si es necesario) +Si también necesita el contenido textual encontrado dentro de las imágenes, consulte el índice para obtener el texto extraído por OCR usando la búsqueda estándar por palabras clave. + +## Problemas comunes y soluciones +- **No se devolvieron resultados:** Verifique que el extractor de características de imagen esté habilitado y que el índice se haya reconstruido después de agregar nuevas imágenes. +- **Falta texto OCR:** Asegúrese de que el motor OCR esté correctamente referenciado en las dependencias de su proyecto y que el formato de imagen sea compatible (p. ej., PNG, JPEG, TIFF). +- **Ralentización del rendimiento:** Considere dividir colecciones grandes de imágenes en varios índices o usar indexación incremental para mantener bajos los tiempos de búsqueda. + +## Preguntas frecuentes + +**Q: ¿Puedo usar reverse image search Java en plataformas cloud?** +R: Sí, la biblioteca es independiente de la plataforma y funciona en cualquier entorno que soporte Java, incluyendo AWS, Azure y Google Cloud. + +**Q: ¿Qué tan precisa es la extracción OCR para diferentes idiomas?** +R: Aspose.OCR soporta más de 60 idiomas; puede especificar el idioma en las opciones de OCR para mayor precisión. + +**Q: ¿Es posible combinar búsqueda por palabras clave con similitud de imágenes?** +R: Absolutamente. Puede primero filtrar resultados con una consulta de palabras clave y luego clasificar los elementos restantes por similitud visual. + +**Q: ¿Qué formatos de archivo son compatibles para la indexación de imágenes?** +R: Formatos comunes como JPEG, PNG, BMP y TIFF son totalmente compatibles desde el inicio. + +**Q: ¿Cómo actualizo el índice cuando cambian las imágenes?** +R: Use el método `update` para volver a procesar imágenes modificadas, o elimínelas y vuelva a añadirlas para mantener el índice actualizado. + +## Recursos adicionales + +### Tutoriales disponibles + +#### [Configuración del reconocimiento de caracteres en GroupDocs.Search para Java: Guía OCR y búsqueda de imágenes](./groupdocs-search-java-character-recognition/) +Aprenda a configurar el reconocimiento de caracteres usando GroupDocs.Search para Java, enfocándose en caracteres regulares y combinados. Mejore la gestión de documentos con capacidades avanzadas de búsqueda. + +#### [Guía de indexación OCR Java con Aspose y GroupDocs: Mejore la buscabilidad de documentos](./java-ocr-indexing-aspose-groupdocs-search/) +Aprenda a implementar una potente indexación OCR Java usando GroupDocs.Search y Aspose.OCR para mejorar la capacidad de búsqueda de documentos. + +### Enlaces útiles + +- [GroupDocs.Search for Java Documentation](https://docs.groupdocs.com/search/java/) +- [GroupDocs.Search for Java API Reference](https://reference.groupdocs.com/search/java/) +- [Download GroupDocs.Search for Java](https://releases.groupdocs.com/search/java/) +- [GroupDocs.Search Forum](https://forum.groupdocs.com/c/search) +- [Free Support](https://forum.groupdocs.com/) +- [Temporary License](https://purchase.groupdocs.com/temporary-license/) + +**Última actualización:** 2026-01-11 +**Probado con:** GroupDocs.Search for Java 23.11 +**Autor:** GroupDocs \ No newline at end of file diff --git a/content/spanish/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/spanish/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md new file mode 100644 index 00000000..bbaaa203 --- /dev/null +++ b/content/spanish/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -0,0 +1,235 @@ +--- +date: '2026-01-11' +description: Aprende a crear un índice de búsqueda personalizado usando GroupDocs.Search + para Java, configurando caracteres regulares y combinados para OCR avanzado y búsqueda + de imágenes. +keywords: +- GroupDocs.Search Java +- Java OCR character recognition +- search library Java +title: Crear índice de búsqueda personalizado con reconocimiento de caracteres – GroupDocs.Search + Java +type: docs +url: /es/java/ocr-image-search/groupdocs-search-java-character-recognition/ +weight: 1 +--- + +# Crear un índice de búsqueda personalizado con reconocimiento de caracteres usando GroupDocs.Search para Java + +En aplicaciones modernas con gran cantidad de documentos, **crear un índice de búsqueda personalizado** que comprenda los matices de su texto—como guiones, guiones bajos o símbolos específicos de idioma—es esencial para una recuperación rápida y precisa. Este tutorial le guía a través de la configuración del reconocimiento de caracteres en **GroupDocs.Search para Java**, cubriendo tanto caracteres regulares (letras, dígitos, guiones bajos) como caracteres combinados (p. ej., guiones). Al final, podrá personalizar un índice que se ajuste a las necesidades exactas de su escenario de OCR o búsqueda de imágenes. + +## Respuestas rápidas +- **¿Qué significa “crear un índice de búsqueda personalizado”?** Significa configurar un índice para tratar símbolos específicos como letras o caracteres combinados, en lugar de ignorarlos. +- **¿Qué biblioteca se utiliza?** GroupDocs.Search para Java (v25.4 al momento de escribir). +- **¿Necesito una licencia?** Una prueba gratuita funciona para desarrollo; se requiere una licencia de pago para producción. +- **¿Puedo indexar tanto PDFs como imágenes?** Sí—GroupDocs.Search admite OCR en imágenes y PDFs cuando está configurado correctamente. +- **¿Se requiere Maven?** Maven es la forma recomendada para gestionar dependencias, pero también puede usar Gradle o JARs manuales. + +## Qué es un índice de búsqueda personalizado? +Un índice de búsqueda personalizado le permite definir cómo el motor de búsqueda interpreta los caracteres. Por defecto, muchos símbolos se ignoran, lo que puede provocar coincidencias perdidas para cosas como números de caso (`ABC-123`) o fragmentos de código (`my_variable`). Ajustar el diccionario del alfabeto le brinda control total sobre lo que el motor trata como texto buscable. + +## Por qué configurar caracteres regulares y combinados? +- **Caracteres regulares** (letras, dígitos, guiones bajos) se tratan como tokens independientes, mejorando las búsquedas de coincidencia exacta. +- **Caracteres combinados** (guiones, barras) conectan palabras; configurarlos evita la división no deseada de tokens, lo cual es crucial para referencias legales, códigos de producto o indexación de código fuente. + +## Requisitos previos +- **JDK 8** o posterior instalado. +- **Maven** para la gestión de dependencias. +- Acceso a la biblioteca **GroupDocs.Search para Java** (descargada vía Maven o del sitio oficial). + +### Bibliotecas y dependencias requeridas +Agregue el repositorio y las entradas de dependencia a su `pom.xml` (como se muestra a continuación). El bloque XML debe permanecer sin cambios. + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +También puede descargar los JARs más recientes desde [GroupDocs.Search for Java releases](https://releases.groupdocs.com/search/java/). + +### Obtención de licencia +- **Prueba gratuita** – perfecta para la experimentación inicial. +- **Licencia temporal** – útil para ciclos de desarrollo más largos. +- **Licencia de producción** – requerida para despliegue comercial. + +Obtenga una licencia en el portal oficial: [GroupDocs](https://purchase.groupdocs.com/temporary-license/). + +### Inicialización básica +El fragmento a continuación muestra el código mínimo necesario para crear un índice vacío. Manténgalo tal cual; lo ampliaremos más adelante. + +```java +import com.groupdocs.search.*; + +public class GroupDocsSearchSetup { + public static void main(String[] args) { + String indexFolder = "YOUR_OUTPUT_DIRECTORY"; + String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; + + Index index = new Index(indexFolder); + + System.out.println("GroupDocs.Search setup completed!"); + } +} +``` + +## Configuración de GroupDocs.Search para Java + +### Instalación vía Maven +La configuración de Maven de la sección *Requisitos previos* es todo lo que necesita. Después de agregarla, ejecute `mvn clean install` para obtener los binarios. + +### Requisitos de configuración del entorno +- Asegúrese de que la **carpeta de índice** y la **carpeta de documentos** existan en el disco. +- Use rutas absolutas o configure su IDE para resolver rutas relativas correctamente. + +## Guía de implementación + +A continuación, recorremos dos características distintas: **caracteres regulares** y **caracteres combinados**. Cada característica sigue el mismo patrón: definir rutas, crear el índice, establecer el diccionario de caracteres y, finalmente, indexar sus documentos. + +### Característica 1 – Caracteres regulares + +#### Visión general +Los caracteres regulares se tratan como tokens independientes. Esto es ideal cuando desea que los dígitos, letras y guiones bajos sean buscables exactamente como aparecen. + +#### Implementación paso a paso + +**1️⃣ Configurar rutas** +Defina dónde se almacenará el índice y dónde se encuentran sus documentos fuente. + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Crear y configurar el índice** +ancie el índice y borre cualquier configuración de alfabeto preexistente. + +```java +Index index = new Index(indexFolder); +index.getDictionaries().getAlphabet().clear(); +``` + +**3️⃣ Definir caracteres regulares** +Construya una matriz de caracteres que incluya dígitos, letras latinas y el guión bajo. + +```java +StringBuilder sb = new StringBuilder(); +for (char i = 0x0030; i <= 0x0039; i++) { // Digits + sb.append(i); +} +for (char i = 0x0041; i <= 0x005A; i++) { // Latin capital letters + sb.append(i); +} +sb.append(0x005F); // Underscore +for (char i = 0x0061; i <= 0x007A; i++) { // Latin small letters + sb.append(i); +} + +// Convert to character array and set as alphabet range +char[] characters = new char[sb.length()]; +sb.getChars(0, sb.length(), characters, 0); +index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); +``` + +**4️⃣ Indexar documentos** +Agregue todos los archivos de la carpeta fuente al índice recién configurado. + +```java +index.add(documentFolder); +``` + +### Característica 2 – Caracteres combinados + +#### Visión general +Los caracteres combinados (como los guiones) a menudo conectan dos palabras. Marcarlos como *combinados* indica al motor que mantenga los tokens circundantes juntos durante la indexación. + +#### Implementación paso a paso + +**1️⃣ Configurar rutas** + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Crear y configurar el índice** + +```java +Index index = new Index(indexFolder); +``` + +**3️⃣ Definir caracteres combinados** +Aquí indicamos al diccionario que el guión debe tratarse como un carácter combinado. + +```java +index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); +``` + +**4️⃣ Indexar documentos** + +```java +index.add(documentFolder); +``` + +## Aplicaciones prácticas + +### Caso de uso 1 – Gestión de documentos legales +Los archivos legales a menudo contienen números de caso como `2023-AB-456`. Al configurar guiones bajos y guiones, las búsquedas devuelven coincidencias exactas sin dividir el identificador. + +### Caso de uso 2 – Repositorios de código fuente +Los desarrolladores necesitan buscar fragmentos de código donde los guiones bajos (`my_variable`) y los guiones (`my-function`) son significativos. El reconocimiento de caracteres personalizado garantiza que el motor de búsqueda respete estos símbolos. + +### Caso de uso 3 – Conjuntos de datos multilingües +Al trabajar con idiomas que utilizan alfabetos adicionales, puede ampliar el conjunto de caracteres regulares para incluir esos rangos Unicode, garantizando resultados de búsqueda precisos entre idiomas. + +## Consideraciones de rendimiento + +- **Gestión de recursos** – Vigile el uso del heap; los índices grandes se benefician de confirmaciones incrementales. +- **Recolección de basura** – Libere los objetos `Index` cuando haya terminado para que la JVM recupere la memoria. +- **Optimización del índice** – Llame periódicamente a `index.optimize()` (si está disponible) para compactar el índice y mejorar la velocidad de consulta. + +## Conclusión + +Ahora sabe cómo **crear un índice de búsqueda personalizado** que distingue entre caracteres regulares y combinados usando GroupDocs.Search para Java. Este control detallado le permite crear soluciones de búsqueda de alto rendimiento y conscientes de OCR, adaptadas a entornos legales, de desarrollo o multilingües. + +**Próximos pasos** +- Experimente con rangos Unicode adicionales para alfabetos no latinos. +- Combine la configuración de caracteres con otras funciones de GroupDocs.Search como stemming o sinónimos. +- Integre el índice en una API REST para exponer capacidades de búsqueda a aplicaciones front‑end. + +## Preguntas frecuentes + +**P:** *¿Cuál es el propósito de `CharacterType.Letter`?* +**R:** Indica al índice que trate los caracteres proporcionados como letras regulares, de modo que se tokenicen por separado durante la indexación. + +**P:** *¿Puedo mezclar caracteres regulares y combinados en el mismo índice?* +**R:** Sí—simplemente llame a `setRange` para cada tipo; el diccionario manejará ambas configuraciones simultáneamente. + +**P:** *¿Necesito reconstruir el índice después de cambiar el alfabeto?* +**R:** Absolutamente. Los cambios en el diccionario de caracteres afectan la tokenización, por lo que debe volver a indexar los documentos para aplicar las nuevas reglas. + +**P:** *¿Existe un límite al número de caracteres personalizados que puedo definir?* +**R:** La biblioteca admite todo el rango Unicode; el rendimiento puede degradarse si agrega un conjunto extremadamente grande, así que limítelo a los caracteres que realmente necesita. + +**P:** *¿Cómo afecta esto a la precisión del OCR?* +**R:** Al alinear el conjunto de caracteres del índice con la salida del motor OCR, reduce los falsos negativos y mejora la relevancia general de la búsqueda. + +--- + +**Última actualización:** 2026-01-11 +**Probado con:** GroupDocs.Search 25.4 para Java +**Autor:** GroupDocs + +--- \ No newline at end of file diff --git a/content/spanish/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/spanish/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md new file mode 100644 index 00000000..961e0f7e --- /dev/null +++ b/content/spanish/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -0,0 +1,184 @@ +--- +date: '2026-01-11' +description: Aprende a usar GroupDocs para Java OCR indexing con Aspose.OCR, habilitando + potentes capacidades de búsqueda de documentos en PDFs, imágenes y archivos escaneados. +keywords: +- Java OCR indexing +- document searchability +- OCR with GroupDocs +title: Cómo usar GroupDocs para Java con indexación OCR y Aspose +type: docs +url: /es/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/ +weight: 1 +--- + +# Cómo usar GroupDocs para la indexación OCR en Java con Aspose + +En esta guía descubrirás **cómo usar GroupDocs** para añadir búsqueda impulsada por OCR a tus aplicaciones Java. Al combinar GroupDocs.Search con Aspose.OCR, puedes convertir contenido basado en imágenes en texto buscable, haciendo que los sistemas de gestión documental sean mucho más útiles. Recorreremos la configuración, la indexación, la búsqueda y la integración personalizada de OCR, todo con ejemplos claros paso a paso. + +## Respuestas rápidas +- **¿Qué biblioteca proporciona la indexación OCR?** GroupDocs.Search junto con Aspose.OCR. +- **¿Qué versión de Java se requiere?** JDK 8 o superior. +- **¿Necesito una licencia?** Hay una prueba gratuita disponible; se requiere una licencia de pago para producción. +- **¿Puedo indexar imágenes separadas y embebidas?** Sí, habilita ambas opciones en `IndexingOptions`. +- **¿Se admite el multihilo?** Sí, puedes paralelizar la indexación para conjuntos de datos grandes. + +## ¿Qué es la indexación OCR con GroupDocs? +La indexación OCR extrae texto de imágenes (incluidos PDFs escaneados) y lo almacena en un índice buscable. GroupDocs.Search se encarga de la indexación y la ejecución de consultas, mientras que Aspose.OCR realiza el reconocimiento real de caracteres. + +## ¿Por qué usar GroupDocs para la indexación OCR en Java? +- **Alta precisión** gracias al avanzado motor OCR de Aspose. +- **Integración Java sin problemas** mediante Maven o JARs directos. +- **Configuración flexible** para imágenes separadas o embebidas. +- **Rendimiento escalable** con multihilo y optimizaciones de memoria. + +## Requisitos previos +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR** (última versión) +- JDK 8+ y un IDE (IntelliJ, Eclipse, NetBeans) +- Conocimientos básicos de Java; Maven es útil pero no obligatorio + +## Configuración de GroupDocs.Search para Java +### Usando Maven +Agrega el repositorio y la dependencia a tu `pom.xml`: + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +### Descarga directa +Alternativamente, descarga la última versión de GroupDocs.Search para Java desde [lanzamientos de GroupDocs](https://releases.groupdocs.com/search/java/). + +### Obtención de licencia +- **Prueba gratuita** – explora todas las funciones sin costo. +- **Licencia temporal** – período de prueba extendido. +- **Compra** – requerida para despliegues en producción. + +### Inicialización y configuración básicas +Crea una carpeta de índice e inicializa el objeto `Index`: + +```java +import com.groupdocs.search.Index; +// Specify the directory where the index will be stored. +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +// Create an instance of Index class at the specified location. +Index index = new Index(indexFolder); +``` + +## Cómo usar GroupDocs para la indexación OCR +### Creación de un índice +Primero, configura la carpeta que contendrá los archivos del índice: + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +Index index = new Index(indexFolder); +``` + +### Configuración de opciones de indexación OCR +Habilita OCR tanto para imágenes separadas como embebidas, y conecta un conector OCR personalizado: + +```java +import com.groupdocs.search.options.IndexingOptions; +IndexingOptions options = new IndexingOptions(); +options.getOcrIndexingOptions().setEnabledForSeparateImages(true); +options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); +// Set a custom OCR connector. +options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); +``` + +### Indexación de documentos +Añade tus documentos fuente (PDFs, archivos Word, imágenes, etc.) al índice: + +```java +String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; +index.add(documentsFolder, options); +``` + +### Búsqueda en un índice +Ejecuta una consulta de búsqueda contra el contenido indexado: + +```java +import com.groupdocs.search.results.SearchResult; +String query = "water"; +SearchResult result = index.search(query); +``` + +### Implementación de un conector OCR +Utiliza Aspose.OCR para reconocer texto de imágenes. Implementa la interfaz `IOcrConnector` como se muestra: + +```java +import com.groupdocs.search.options.IOcrConnector; +import com.groupdocs.search.options.OcrContext; +import java.awt.image.BufferedImage; +import javax.imageio.ImageIO; +import com.aspose.ocr.AsposeOCR; + +public class OcrConnector implements IOcrConnector { + @Override + public final String recognize(OcrContext context) { + if (null == context.getImageLocation()) { + throw new RuntimeException("The image type is not supported: " + context.getImageLocation()); + } + + BufferedImage image = ImageIO.read(context.getImageLocation().toFile()); + AsposeOCR api = new AsposeOCR(); + String text = api.RecognizePage(image); + return text; + } +} +``` + +## Aplicaciones prácticas +1. **Sistemas de gestión documental** – recuperación rápida de documentos que contienen imágenes escaneadas. +2. **Recuperación de archivos archivados** – localizar registros históricos dentro de archivos masivos. +3. **Análisis de documentos legales** – buscar contratos y evidencias que incluyan firmas o diagramas escaneados. +4. **Búsqueda en registros médicos** – indexar formularios de pacientes, resultados de laboratorio y anotaciones de rayos X. + +## Consideraciones de rendimiento +- **Tamaño del índice** – excluye metadatos innecesarios para mantener el índice liviano. +- **Multihilo** – procesa lotes grandes en paralelo para acelerar la indexación. +- **Gestión de memoria** – monitorea el heap de la JVM al manejar imágenes de alta resolución. + +## Problemas comunes y soluciones +- **Errores de licencia** – asegúrate de que el archivo de licencia correcto esté colocado en el directorio de trabajo de la aplicación. +- **Imágenes faltantes** – verifica que las rutas de imagen sean accesibles y que los formatos estén soportados (PNG, JPEG, BMP). +- **Falta de memoria** – incrementa el heap de la JVM (`-Xmx`) o procesa los documentos en lotes más pequeños. + +## Preguntas frecuentes +**P: ¿Cómo resuelvo problemas de licencia con GroupDocs.Search?** +R: Obtén una licencia temporal desde el [sitio web de GroupDocs](https://purchase.groupdocs.com/temporary-license/) para desbloquear todas las funciones. + +**P: ¿Cuál es la mejor manera de manejar la indexación de documentos grandes?** +R: Utiliza multihilo y procesamiento por lotes para mejorar el rendimiento y reducir la presión de memoria. + +**P: ¿Puedo personalizar aún más la configuración de OCR en GroupDocs.Search?** +R: Sí, `IndexingOptions` te permite afinar el comportamiento de OCR, como la selección de idioma y el preprocesamiento de imágenes. + +**P: ¿Cuáles son algunos consejos comunes de solución de problemas al usar GroupDocs.Search?** +R: Verifica nuevamente las rutas de los directorios, confirma que todas las dependencias estén presentes y revisa la salida de logs para detectar archivos faltantes. + +**P: ¿Cómo puedo integrar Aspose.OCR con mi aplicación Java existente?** +R: Implementa la interfaz `IOcrConnector` como se demostró arriba, asegurándote de manejar correctamente la entrada de imágenes. + +## Recursos +- [Documentación de GroupDocs.Search](https://docs.groupdocs.com/search/java/) +- [Referencia de API](https://reference.groupdocs.com/search/java/) + +--- + +**Última actualización:** 2026-01-11 +**Probado con:** GroupDocs.Search 25.4, Aspose.OCR última versión +**Autor:** GroupDocs \ No newline at end of file diff --git a/content/swedish/java/ocr-image-search/_index.md b/content/swedish/java/ocr-image-search/_index.md new file mode 100644 index 00000000..fcbf1221 --- /dev/null +++ b/content/swedish/java/ocr-image-search/_index.md @@ -0,0 +1,99 @@ +--- +date: 2026-01-11 +description: Steg‑för‑steg‑handledningar för att implementera OCR, extrahera text + från bilder i Java och omvänd bildsökning i Java med GroupDocs.Search. +title: Omvänd bildsökning Java – GroupDocs.Search OCR-handledningar +type: docs +url: /sv/java/ocr-image-search/ +weight: 7 +--- + +# Reverse Image Search Java – GroupDocs.Search OCR‑handledning + +I den här guiden går vi igenom allt du behöver veta för att bygga **reverse image search java**‑lösningar med GroupDocs.Search. Oavsett om du lägger till visuell sökning i en innehållsrik portal eller behöver hämta sökbar text från skannade resurser, visar vi hur du konfigurerar OCR, extraherar text från bilder Java, och utför omvända bildsökningar — allt med tydliga, produktionsklara exempel. + +## Snabba svar +- **Vad gör reverse image search Java?** Den hittar visuellt liknande bilder i en indexerad samling med hjälp av GroupDocs.Search. +- **Vilken OCR‑motor rekommenderas?** GroupDocs.Search integreras med Aspose.OCR för högprecisions‑textutdragning. +- **Behöver jag en licens?** En tillfällig licens fungerar för testning; en full licens krävs för produktion. +- **Vad är de viktigaste förutsättningarna?** Java 8+, GroupDocs.Search for Java och eventuellt Aspose.OCR. +- **Hur lång tid tar implementeringen?** En grundläggande installation kan slutföras på under en timme. + +## Vad är Reverse Image Search Java? +Reverse image search Java låter dig hitta bilder som ser lika ut eller innehåller samma visuella innehåll. Istället för att söka med nyckelord analyserar motorn bildfunktioner, indexerar dem och returnerar matchningar när en frågebild skickas in. + +## Varför använda GroupDocs.Search för bild‑ och OCR‑uppgifter? +- **Unified API** – Hantera text‑ och bildindexering via ett enda bibliotek. +- **High performance** – Optimerad för stora samlingar och snabba uppslagningstider. +- **Extensible** – Anslut anpassade OCR‑motorer eller bildfunktionsextraheringsverktyg vid behov. +- **Cross‑platform** – Fungerar i alla Java‑kompatibla miljöer, från skrivbord till moln. + +## Förutsättningar +- Java 8 eller nyare installerat. +- GroupDocs.Search for Java‑biblioteket tillagt i ditt projekt (Maven/Gradle). +- (Valfritt) Aspose.OCR för Java om du vill ha bästa OCR‑noggrannhet. +- En samling bilder som du vill indexera och söka mot. + +## Steg‑för‑steg‑guide + +### Steg 1: Skapa sökindexet +Skapa en ny `SearchIndex`‑instans som pekar på en mapp där indexfilerna kommer att lagras. Denna mapp kommer att innehålla både text‑ och bildmetadata. + +### Steg 2: Konfigurera OCR för bildfiler +Aktivera OCR i indexeringsalternativen så att varje bild som läggs till i indexet bearbetas för textutdragning. Här kommer det sekundära nyckelordet **extract text from images java** in i bilden. + +### Steg 3: Indexera dina bilder +Lägg till varje bildfil i indexet. Under denna operation extraherar GroupDocs.Search visuella funktioner för omvänd sökning och kör OCR för att hämta eventuell inbäddad text. + +### Steg 4: Utför en omvänd bildsökning +Skicka en frågebild till `search`‑metoden. Motorn jämför visuella fingeravtryck och returnerar en rangordnad lista med liknande bilder från indexet. + +### Steg 5: Hämta OCR‑text (om behövs) +Om du också behöver den text som finns i bilderna, fråga indexet efter den OCR‑extraherade texten med en vanlig nyckelordssökning. + +## Vanliga problem och lösningar +- **No results returned:** Verifiera att bildfunktionsextraheringen är aktiverad och att indexet har byggts om efter att nya bilder lagts till. +- **OCR text is missing:** Säkerställ att OCR‑motorn är korrekt refererad i dina projektberoenden och att bildformatet stöds (t.ex. PNG, JPEG, TIFF). +- **Performance slowdown:** Överväg att dela upp stora bildsamlingar i flera index eller använda inkrementell indexering för att hålla söktiderna låga. + +## Vanliga frågor + +**Q: Kan jag använda reverse image search Java på molnplattformar?** +A: Ja, biblioteket är plattformsoberoende och fungerar i alla miljöer som stödjer Java, inklusive AWS, Azure och Google Cloud. + +**Q: Hur exakt är OCR‑utdragningen för olika språk?** +A: Aspose.OCR stödjer över 60 språk; du kan ange språket i OCR‑alternativen för bättre noggrannhet. + +**Q: Är det möjligt att kombinera nyckelordssökning med bildlikhet?** +A: Absolut. Du kan först filtrera resultat med en nyckelordsfråga och sedan rangordna de återstående objekten efter visuell likhet. + +**Q: Vilka filformat stöds för bildindexering?** +A: Vanliga format som JPEG, PNG, BMP och TIFF stöds fullt ut direkt. + +**Q: Hur uppdaterar jag indexet när bilder ändras?** +A: Använd `update`‑metoden för att bearbeta om modifierade bilder, eller ta bort och lägg till dem igen för att hålla indexet aktuellt. + +## Ytterligare resurser + +### Tillgängliga handledningar + +#### [Konfigurera teckenigenkänning i GroupDocs.Search för Java: En OCR‑ och bildsökningsguide](./groupdocs-search-java-character-recognition/) +Lär dig hur du konfigurerar teckenigenkänning med GroupDocs.Search för Java, med fokus på vanliga och blandade tecken. Förbättra din dokumenthantering med avancerade sökfunktioner. + +#### [Java OCR‑indexeringsguide med Aspose och GroupDocs: Förbättra dokumentets sökbarhet](./java-ocr-indexing-aspose-groupdocs-search/) +Lär dig implementera kraftfull Java OCR‑indexering med GroupDocs.Search och Aspose.OCR för förbättrade dokument‑sökfunktioner. + +### Användbara länkar + +- [GroupDocs.Search for Java Documentation](https://docs.groupdocs.com/search/java/) +- [GroupDocs.Search for Java API Reference](https://reference.groupdocs.com/search/java/) +- [Download GroupDocs.Search for Java](https://releases.groupdocs.com/search/java/) +- [GroupDocs.Search Forum](https://forum.groupdocs.com/c/search) +- [Free Support](https://forum.groupdocs.com/) +- [Temporary License](https://purchase.groupdocs.com/temporary-license/) + +--- + +**Last Updated:** 2026-01-11 +**Tested With:** GroupDocs.Search for Java 23.11 +**Author:** GroupDocs \ No newline at end of file diff --git a/content/swedish/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/swedish/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md new file mode 100644 index 00000000..91cd3b4e --- /dev/null +++ b/content/swedish/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -0,0 +1,233 @@ +--- +date: '2026-01-11' +description: Lär dig hur du skapar ett anpassat sökindex med GroupDocs.Search för + Java, konfigurerar vanliga och blandade tecken för avancerad OCR och bildsökning. +keywords: +- GroupDocs.Search Java +- Java OCR character recognition +- search library Java +title: Skapa anpassat sökindex med teckenigenkänning – GroupDocs.Search Java +type: docs +url: /sv/java/ocr-image-search/groupdocs-search-java-character-recognition/ +weight: 1 +--- + +# Skapa anpassat sökindex med teckenigenkänning med GroupDocs.Search för Java + +I moderna dokumenttunga applikationer är **att skapa ett anpassat sökindex** som förstår nyanserna i din text—såsom bindestreck, understreck eller språk‑specifika symboler—avgörande för snabb och exakt återhämtning. Denna handledning guidar dig genom att konfigurera teckenigenkänning i **GroupDocs.Search för Java**, och täcker både vanliga tecken (bokstäver, siffror, understreck) och blandade tecken (t.ex. bindestreck). I slutet kommer du kunna skräddarsy ett index som passar exakt dina OCR‑ eller bildsök‑scenarier. + +## Snabba svar +- **Vad betyder “skapa anpassat sökindex”?** Det innebär att konfigurera ett index så att specifika symboler behandlas som bokstäver eller blandade tecken, snarare än att ignoreras. +- **Vilket bibliotek används?** GroupDocs.Search för Java (v25.4 vid skrivtillfället). +- **Behöver jag en licens?** En gratis provversion fungerar för utveckling; en betald licens krävs för produktion. +- **Kan jag indexera både PDF‑filer och bilder?** Ja—GroupDocs.Search stödjer OCR på bilder och PDF‑filer när det är korrekt konfigurerat. +- **Krävs Maven?** Maven är det rekommenderade sättet att hantera beroenden, men du kan också använda Gradle eller manuella JAR‑filer. + +## Vad är ett anpassat sökindex? +Ett anpassat sökindex låter dig definiera hur sökmotorn tolkar tecken. Som standard ignoreras många symboler, vilket kan leda till missade träffar för exempelvis ärendenummer (`ABC-123`) eller kodsnuttar (`my_variable`). Genom att justera alfabet‑ordlistan får du full kontroll över vad motorn betraktar som sökbar text. + +## Varför konfigurera vanliga och blandade tecken? +- **Vanliga tecken** (bokstäver, siffror, understreck) behandlas som fristående token, vilket förbättrar exakt‑match‑sökningar. +- **Blandade tecken** (bindestreck, snedstreck) förenar ord; att konfigurera dem förhindrar oönskad token‑uppdelning, vilket är kritiskt för juridiska referenser, produktkoder eller källkod‑indexering. + +## Förutsättningar +- **JDK 8** eller senare installerad. +- **Maven** för beroendehantering. +- Tillgång till **GroupDocs.Search för Java**‑biblioteket (nedladdat via Maven eller den officiella webbplatsen). + +### Nödvändiga bibliotek och beroenden +Lägg till repository‑ och beroende‑poster i din `pom.xml` (som visas nedan). XML‑blocket får inte ändras. + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +Du kan också ladda ner de senaste JAR‑filerna från [GroupDocs.Search för Java‑releaser](https://releases.groupdocs.com/search/java/). + +### Licensanskaffning +- **Gratis prov** – perfekt för tidig experimentering. +- **Tillfällig licens** – användbar för längre utvecklingscykler. +- **Produktionslicens** – krävs för kommersiell driftsättning. + +Skaffa en licens via den officiella portalen: [GroupDocs](https://purchase.groupdocs.com/temporary-license/). + +### Grundläggande initialisering +Kodsnutten nedan visar den minsta koden som behövs för att starta ett tomt index. Behåll den oförändrad; vi bygger vidare på den senare. + +```java +import com.groupdocs.search.*; + +public class GroupDocsSearchSetup { + public static void main(String[] args) { + String indexFolder = "YOUR_OUTPUT_DIRECTORY"; + String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; + + Index index = new Index(indexFolder); + + System.out.println("GroupDocs.Search setup completed!"); + } +} +``` + +## Installera GroupDocs.Search för Java + +### Installation via Maven +Maven‑konfigurationen från avsnittet *Förutsättningar* är allt du behöver. Efter att du lagt till den kör du `mvn clean install` för att hämta binärerna. + +### Miljöinställningar +- Säkerställ att **indexmappen** och **dokumentmappen** finns på disken. +- Använd absoluta sökvägar eller konfigurera din IDE så att relativa sökvägar löses korrekt. + +## Implementeringsguide + +Nedan går vi igenom två separata funktioner: **vanliga tecken** och **blandade tecken**. Varje funktion följer samma mönster—definiera sökvägar, skapa indexet, sätt teckensnitt‑ordlistan och indexera slutligen dina dokument. + +### Funktion 1 – Vanliga tecken + +#### Översikt +Vanliga tecken behandlas som oberoende token. Detta är idealiskt när du vill att siffror, bokstäver och understreck ska vara sökbara exakt som de visas. + +#### Steg‑för‑steg‑implementering + +**1️⃣ Ange sökvägar** +Definiera var indexet ska lagras och var dina källdokument finns. + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Skapa och konfigurera index** +Instansiera indexet och rensa eventuell befintlig alfabet‑konfiguration. + +```java +Index index = new Index(indexFolder); +index.getDictionaries().getAlphabet().clear(); +``` + +**3️⃣ Definiera vanliga tecken** +Bygg en teckenarray som inkluderar siffror, latinska bokstäver och understreck. + +```java +StringBuilder sb = new StringBuilder(); +for (char i = 0x0030; i <= 0x0039; i++) { // Digits + sb.append(i); +} +for (char i = 0x0041; i <= 0x005A; i++) { // Latin capital letters + sb.append(i); +} +sb.append(0x005F); // Underscore +for (char i = 0x0061; i <= 0x007A; i++) { // Latin small letters + sb.append(i); +} + +// Convert to character array and set as alphabet range +char[] characters = new char[sb.length()]; +sb.getChars(0, sb.length(), characters, 0); +index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); +``` + +**4️⃣ Indexera dokument** +Lägg till alla filer från källmappen till det nykonfigurerade indexet. + +```java +index.add(documentFolder); +``` + +### Funktion 2 – Blandade tecken + +#### Översikt +Blandade tecken (som bindestreck) förenar ofta två ord. Att markera dem som *blandade* talar om för motorn att hålla de omgivande token‑erna ihop under indexeringen. + +#### Steg‑för‑steg‑implementering + +**1️⃣ Ange sökvägar** + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Skapa och konfigurera index** + +```java +Index index = new Index(indexFolder); +``` + +**3️⃣ Definiera blandade tecken** +Här talar vi om för ordlistan att bindestrecket ska behandlas som ett blandat tecken. + +```java +index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); +``` + +**4️⃣ Indexera dokument** + +```java +index.add(documentFolder); +``` + +## Praktiska tillämpningar + +### Användningsfall 1 – Juridisk dokumenthantering +Juridiska filer innehåller ofta ärendenummer som `2023-AB-456`. Genom att konfigurera understreck och bindestreck returnerar sökningar exakta träffar utan att dela upp identifieraren. + +### Användningsfall 2 – Källkodsförråd +Utvecklare behöver söka i kodsnuttar där understreck (`my_variable`) och bindestreck (`my-function`) är meningsfulla. Anpassad teckenigenkänning säkerställer att sökmotorn respekterar dessa symboler. + +### Användningsfall 3 – Flerspråkiga dataset +När du arbetar med språk som använder ytterligare alfabet kan du utöka den vanliga teckenmängden för att inkludera dessa Unicode‑intervall, vilket garanterar korrekta korsspråkliga sökresultat. + +## Prestanda‑överväganden + +- **Resurshantering** – Håll koll på heap‑användning; stora index drar nytta av inkrementella commit‑s. +- **Garbage Collection** – Frigör `Index`‑objekt när de är klara så att JVM kan återvinna minnet. +- **Indexoptimering** – Anropa periodiskt `index.optimize()` (om tillgängligt) för att komprimera indexet och förbättra frågehastigheten. + +## Slutsats + +Du vet nu hur du **skapar ett anpassat sökindex** som skiljer mellan vanliga och blandade tecken med GroupDocs.Search för Java. Denna fin‑granulerade kontroll ger dig möjlighet att bygga OCR‑medvetna, högpresterande söklösningar skräddarsydda för juridiska, utvecklings‑ eller flerspråkiga miljöer. + +**Nästa steg** +- Experimentera med ytterligare Unicode‑intervall för icke‑latinska alfabet. +- Kombinera teckenkonfiguration med andra GroupDocs.Search‑funktioner som stemming eller synonymer. +- Integrera indexet i ett REST‑API för att exponera sökfunktionalitet till front‑end‑applikationer. + +## Vanliga frågor + +**Q:** *Vad är syftet med `CharacterType.Letter`?* +**A:** Det talar om för indexet att behandla de angivna tecknen som vanliga bokstäver, så att de tokeniseras separat under indexeringen. + +**Q:** *Kan jag blanda vanliga och blandade tecken i samma index?* +**A:** Ja—anropa helt enkelt `setRange` för varje typ; ordlistan hanterar båda konfigurationerna samtidigt. + +**Q:** *Behöver jag bygga om indexet efter att ha ändrat alfabetet?* +**A:** Absolut. Ändringar i teckenordlistan påverkar tokeniseringen, så du måste åter‑indexera dokumenten för att tillämpa de nya reglerna. + +**Q:** *Finns det en gräns för hur många anpassade tecken jag kan definiera?* +**A:** Biblioteket stödjer hela Unicode‑området; prestandan kan försämras om du lägger till en extremt stor mängd, så begränsa dig till de tecken du faktiskt behöver. + +**Q:** *Hur påverkar detta OCR‑noggrannheten?* +**A:** Genom att anpassa indexets teckenmängd till OCR‑motorns utdata minskar du falska negativa och förbättrar den övergripande sökrelevansen. + +--- + +**Senast uppdaterad:** 2026-01-11 +**Testat med:** GroupDocs.Search 25.4 för Java +**Författare:** GroupDocs + +--- \ No newline at end of file diff --git a/content/swedish/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/swedish/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md new file mode 100644 index 00000000..e35f1f23 --- /dev/null +++ b/content/swedish/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -0,0 +1,185 @@ +--- +date: '2026-01-11' +description: Lär dig hur du använder GroupDocs för Java OCR-indexering med Aspose.OCR, + vilket möjliggör kraftfulla dokumentsökfunktioner för PDF-filer, bilder och skannade + filer. +keywords: +- Java OCR indexing +- document searchability +- OCR with GroupDocs +title: Hur man använder GroupDocs för Java OCR-indexering med Aspose +type: docs +url: /sv/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/ +weight: 1 +--- + +# Så använder du GroupDocs för Java OCR-indexering med Aspose + +I den här guiden kommer du att upptäcka **hur du använder GroupDocs** för att lägga till OCR‑driven sökning i dina Java‑applikationer. Genom att kombinera GroupDocs.Search med Aspose.OCR kan du omvandla bildbaserat innehåll till sökbar text, vilket gör dokumenthanteringssystem mycket mer användbara. Vi går igenom installation, indexering, sökning och anpassad OCR‑integration, allt med tydliga, steg‑för‑steg‑exempel. + +## Snabba svar +- **Vilket bibliotek tillhandahåller OCR-indexering?** GroupDocs.Search i kombination med Aspose.OCR. +- **Vilken Java‑version krävs?** JDK 8 eller högre. +- **Behöver jag en licens?** En gratis provperiod finns tillgänglig; en betald licens krävs för produktion. +- **Kan jag indexera både separata och inbäddade bilder?** Ja, aktivera båda alternativen i `IndexingOptions`. +- **Stöds multi‑threading?** Ja, du kan parallellisera indexeringen för stora datamängder. + +## Vad är OCR-indexering med GroupDocs? +OCR-indexering extraherar text från bilder (inklusive skannade PDF‑filer) och lagrar den i ett sökbart index. GroupDocs.Search hanterar indexeringen och frågeutförandet, medan Aspose.OCR utför den faktiska teckenigenkänningen. + +## Varför använda GroupDocs för Java OCR-indexering? +- **Hög noggrannhet** tack vare Asposes avancerade OCR‑motor. +- **Sömlös Java‑integration** via Maven eller direkta JAR‑filer. +- **Flexibel konfiguration** för separata eller inbäddade bilder. +- **Skalbar prestanda** med multi‑threading och minnesoptimeringar. + +## Förutsättningar +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR** (senaste versionen) +- JDK 8+ och en IDE (IntelliJ, Eclipse, NetBeans) +- Grundläggande Java‑kunskaper; Maven är hjälpsamt men inte obligatoriskt + +## Konfigurera GroupDocs.Search för Java +### Använd Maven +Lägg till repository och beroende i din `pom.xml`: + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +### Direkt nedladdning +Alternativt, ladda ner den senaste versionen av GroupDocs.Search för Java från [GroupDocs releases](https://releases.groupdocs.com/search/java/). + +### Licensanskaffning +- **Gratis provperiod** – utforska alla funktioner utan kostnad. +- **Tillfällig licens** – förlängd testperiod. +- **Köp** – krävs för produktionsdistributioner. + +### Grundläggande initiering och konfiguration +Skapa en indexmapp och initiera `Index`‑objektet: + +```java +import com.groupdocs.search.Index; +// Specify the directory where the index will be stored. +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +// Create an instance of Index class at the specified location. +Index index = new Index(indexFolder); +``` + +## Så använder du GroupDocs för OCR-indexering +### Skapa ett index +Först, konfigurera mappen som ska innehålla indexfilerna: + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +Index index = new Index(indexFolder); +``` + +### Ställa in OCR-indexeringsalternativ +Aktivera OCR för både separata och inbäddade bilder, och anslut en anpassad OCR‑kopplare: + +```java +import com.groupdocs.search.options.IndexingOptions; +IndexingOptions options = new IndexingOptions(); +options.getOcrIndexingOptions().setEnabledForSeparateImages(true); +options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); +// Set a custom OCR connector. +options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); +``` + +### Indexera dokument +Lägg till dina källdokument (PDF‑filer, Word‑filer, bilder osv.) i indexet: + +```java +String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; +index.add(documentsFolder, options); +``` + +### Söka i ett index +Kör en sökfråga mot det indexerade innehållet: + +```java +import com.groupdocs.search.results.SearchResult; +String query = "water"; +SearchResult result = index.search(query); +``` + +### Implementera en OCR‑kopplare +Använd Aspose.OCR för att känna igen text från bilder. Implementera `IOcrConnector`‑gränssnittet som visas: + +```java +import com.groupdocs.search.options.IOcrConnector; +import com.groupdocs.search.options.OcrContext; +import java.awt.image.BufferedImage; +import javax.imageio.ImageIO; +import com.aspose.ocr.AsposeOCR; + +public class OcrConnector implements IOcrConnector { + @Override + public final String recognize(OcrContext context) { + if (null == context.getImageLocation()) { + throw new RuntimeException("The image type is not supported: " + context.getImageLocation()); + } + + BufferedImage image = ImageIO.read(context.getImageLocation().toFile()); + AsposeOCR api = new AsposeOCR(); + String text = api.RecognizePage(image); + return text; + } +} +``` + +## Praktiska tillämpningar +1. **Dokumenthanteringssystem** – snabb hämtning av dokument som innehåller skannade bilder. +2. **Arkivhämtning** – hitta historiska handlingar i enorma arkiv. +3. **Juridisk dokumentanalys** – sök i avtal och bevis som innehåller skannade signaturer eller diagram. +4. **Sökning i medicinska journaler** – indexera patientformulär, laboratorieresultat och röntgenanteckningar. + +## Prestandaöverväganden +- **Indexstorlek** – uteslut onödig metadata för att hålla indexet kompakt. +- **Multi‑Threading** – bearbeta stora batcher parallellt för att snabba upp indexeringen. +- **Minneshantering** – övervaka JVM‑heap när du hanterar högupplösta bilder. + +## Vanliga problem och lösningar +- **Licensfel** – se till att rätt licensfil är placerad i applikationens arbetskatalog. +- **Saknade bilder** – verifiera att bildvägar är åtkomliga och att formatet stöds (PNG, JPEG, BMP). +- **Out‑Of‑Memory** – öka JVM‑heap (`-Xmx`) eller bearbeta dokument i mindre batcher. + +## Vanliga frågor +**Q: Hur löser jag licensproblem med GroupDocs.Search?** +A: Skaffa en tillfällig licens från [GroupDocs webbplats](https://purchase.groupdocs.com/temporary-license/) för att låsa upp alla funktioner. + +**Q: Vad är det bästa sättet att hantera stor dokumentindexering?** +A: Använd multi‑threading och batch‑bearbetning för att förbättra prestanda och minska minnesbelastningen. + +**Q: Kan jag anpassa OCR‑inställningarna ytterligare i GroupDocs.Search?** +A: Ja, `IndexingOptions` låter dig finjustera OCR‑beteendet, såsom språkval och bildförbehandling. + +**Q: Vilka är vanliga felsökningstips när man använder GroupDocs.Search?** +A: Dubbelkolla katalogvägar, verifiera att alla beroenden finns och granska loggutdata för saknade filer. + +**Q: Hur kan jag integrera Aspose.OCR med min befintliga Java‑applikation?** +A: Implementera `IOcrConnector`‑gränssnittet som demonstrerats ovan och se till att du hanterar bildinmatning korrekt. + +## Resurser +- [GroupDocs.Search Documentation](https://docs.groupdocs.com/search/java/) +- [API Reference](https://reference.groupdocs.com/search/java/) + +--- + +**Senast uppdaterad:** 2026-01-11 +**Testad med:** GroupDocs.Search 25.4, Aspose.OCR senaste release +**Författare:** GroupDocs \ No newline at end of file diff --git a/content/thai/java/ocr-image-search/_index.md b/content/thai/java/ocr-image-search/_index.md new file mode 100644 index 00000000..3a9ed644 --- /dev/null +++ b/content/thai/java/ocr-image-search/_index.md @@ -0,0 +1,99 @@ +--- +date: 2026-01-11 +description: บทแนะนำแบบขั้นตอนสำหรับการใช้งาน OCR, การดึงข้อความจากภาพด้วย Java, และการค้นหาภาพย้อนกลับด้วย + Java โดยใช้ GroupDocs.Search. +title: การค้นหารูปภาพย้อนกลับด้วย Java – บทเรียน OCR ของ GroupDocs.Search +type: docs +url: /th/java/ocr-image-search/ +weight: 7 +--- + +# Reverse Image Search Java – GroupDocs.Search OCR Tutorials + +ในคู่มือนี้ เราจะพาคุณผ่านทุกอย่างที่คุณต้องรู้เพื่อสร้าง **reverse image search java** ด้วย GroupDocs.Search ไม่ว่าคุณจะเพิ่มการค้นหาภาพในพอร์ทัลที่มีเนื้อหามากหรือจำเป็นต้องดึงข้อความที่สามารถค้นหาได้จากทรัพยากรที่สแกน เราจะแสดงวิธีการกำหนดค่า OCR, **extract text from images java**, และทำการค้นหาภาพย้อนกลับ—ทั้งหมดด้วยตัวอย่างที่ชัดเจนและพร้อมใช้งานในสภาพแวดล้อมการผลิต + +## คำตอบด่วน +- **Reverse image search Java ทำอะไร?** It finds visually similar images in an indexed collection using GroupDocs.Search. +- **เครื่องมือ OCR ใดที่แนะนำ?** GroupDocs.Search integrates with Aspose.OCR for high‑accuracy text extraction. +- **ฉันต้องการใบอนุญาตหรือไม่?** A temporary license works for testing; a full license is required for production. +- **ข้อกำหนดเบื้องต้นคืออะไร?** Java 8+, GroupDocs.Search for Java, and optionally Aspose.OCR. +- **การดำเนินการใช้เวลานานเท่าไหร่?** A basic setup can be completed in under an hour. + +## Reverse Image Search Java คืออะไร? +Reverse image search Java ช่วยให้คุณค้นหาภาพที่ดูคล้ายกันหรือมีเนื้อหาภาพเดียวกัน แทนการค้นหาด้วยคีย์เวิร์ด, เอนจินจะวิเคราะห์คุณลักษณะของภาพ, ทำดัชนี, และคืนผลลัพธ์ที่ตรงกันเมื่อมีการส่งภาพค้นหา + +## ทำไมต้องใช้ GroupDocs.Search สำหรับงานภาพและ OCR? +- **Unified API** – จัดการการทำดัชนีข้อความและภาพผ่านไลบรารีเดียว. +- **High performance** – ปรับให้เหมาะกับคอลเลกชันขนาดใหญ่และเวลาการค้นหาที่รวดเร็ว. +- **Extensible** – สามารถเชื่อมต่อ OCR เอนจินหรือเครื่องมือสกัดคุณลักษณะภาพที่กำหนดเองได้หากต้องการ. +- **Cross‑platform** – ทำงานบนสภาพแวดล้อมที่รองรับ Java ใดก็ได้ ตั้งแต่เดสก์ท็อปจนถึงคลาวด์. + +## ข้อกำหนดเบื้องต้น +- ติดตั้ง Java 8 หรือใหม่กว่า. +- เพิ่มไลบรารี GroupDocs.Search for Java ลงในโปรเจคของคุณ (Maven/Gradle). +- (Optional) Aspose.OCR for Java หากคุณต้องการความแม่นยำสูงสุดของ OCR. +- ชุดภาพที่คุณต้องการทำดัชนีและค้นหา. + +## คู่มือขั้นตอนต่อขั้นตอน + +### ขั้นตอน 1: ตั้งค่าดัชนีการค้นหา +สร้างอินสแตนซ์ `SearchIndex` ใหม่ที่ชี้ไปยังโฟลเดอร์ที่ไฟล์ดัชนีจะถูกเก็บ โฟลเดอร์นี้จะบรรจุเมตาดาต้าของข้อความและภาพ. + +### ขั้นตอน 2: กำหนดค่า OCR สำหรับไฟล์ภาพ +เปิดใช้งาน OCR ในตัวเลือกการทำดัชนีเพื่อให้ภาพใด ๆ ที่เพิ่มเข้าไปในดัชนีถูกประมวลผลเพื่อสกัดข้อความ นี่คือจุดที่คีย์เวิร์ดรอง **extract text from images java** มีบทบาท. + +### ขั้นตอน 3: ทำดัชนีภาพของคุณ +เพิ่มไฟล์ภาพแต่ละไฟล์ลงในดัชนี ระหว่างการดำเนินการนี้ GroupDocs.Search จะสกัดคุณลักษณะภาพสำหรับการค้นหาผลลัพธ์ย้อนกลับและรัน OCR เพื่อดึงข้อความที่ฝังอยู่. + +### ขั้นตอน 4: ทำการค้นหาภาพย้อนกลับ +ส่งภาพคำค้นไปยังเมธอด `search` เอนจินจะเปรียบเทียบลายนิ้วมือภาพและคืนรายการภาพที่คล้ายกันตามลำดับจากดัชนี. + +### ขั้นตอน 5: ดึงข้อความ OCR (หากต้องการ) +หากคุณต้องการเนื้อหาข้อความที่พบภายในภาพ, ให้ทำการค้นหาในดัชนีสำหรับข้อความที่สกัดโดย OCR โดยใช้การค้นหาคีย์เวิร์ดมาตรฐาน. + +## ปัญหาทั่วไปและวิธีแก้ +- **No results returned:** ตรวจสอบว่า image feature extractor ถูกเปิดใช้งานและดัชนีได้ถูกสร้างใหม่หลังจากเพิ่มภาพใหม่. +- **OCR text is missing:** ตรวจสอบว่า OCR engine ถูกอ้างอิงอย่างถูกต้องใน dependencies ของโปรเจคและรูปแบบภาพได้รับการสนับสนุน (เช่น PNG, JPEG, TIFF). +- **Performance slowdown:** พิจารณาแบ่งคอลเลกชันภาพขนาดใหญ่เป็นหลายดัชนีหรือใช้การทำดัชนีแบบเพิ่มขั้นเพื่อให้เวลาการค้นหาต่ำ. + +## คำถามที่พบบ่อย + +**Q: ฉันสามารถใช้ reverse image search Java บนแพลตฟอร์มคลาวด์ได้หรือไม่?** +A: ได้, ไลบรารีนี้เป็น platform‑agnostic และทำงานบนสภาพแวดล้อมใด ๆ ที่รองรับ Java รวมถึง AWS, Azure, และ Google Cloud. + +**Q: การสกัดข้อความ OCR มีความแม่นยำแค่ไหนสำหรับภาษาต่าง ๆ?** +A: Aspose.OCR รองรับมากกว่า 60 ภาษา; คุณสามารถระบุภาษาภายในตัวเลือก OCR เพื่อความแม่นยำที่ดียิ่งขึ้น. + +**Q: สามารถผสานการค้นหาคีย์เวิร์ดกับความคล้ายคลึงของภาพได้หรือไม่?** +A: แน่นอน. คุณสามารถกรองผลลัพธ์ด้วยคีย์เวิร์ดก่อนแล้วจัดอันดับรายการที่เหลือโดยความคล้ายคลึงของภาพ. + +**Q: รูปแบบไฟล์ใดที่รองรับการทำดัชนีภาพ?** +A: รูปแบบทั่วไปเช่น JPEG, PNG, BMP, และ TIFF ได้รับการสนับสนุนเต็มที่โดยอัตโนมัติ. + +**Q: ฉันจะอัปเดตดัชนีเมื่อภาพมีการเปลี่ยนแปลงอย่างไร?** +A: ใช้เมธอด `update` เพื่อประมวลผลภาพที่แก้ไขใหม่, หรือทำการลบและเพิ่มใหม่เพื่อให้ดัชนีเป็นปัจจุบัน. + +## แหล่งข้อมูลเพิ่มเติม + +### บทแนะนำที่มีให้ + +#### [การกำหนดค่าการจดจำอักขระใน GroupDocs.Search สำหรับ Java: คู่มือ OCR & การค้นหาภาพ](./groupdocs-search-java-character-recognition/) +เรียนรู้วิธีกำหนดค่าการจดจำอักขระโดยใช้ GroupDocs.Search สำหรับ Java โดยเน้นที่อักขระปกติและอักขระผสม. ปรับปรุงการจัดการเอกสารของคุณด้วยความสามารถการค้นหาขั้นสูง. + +#### [คู่มือการทำดัชนี OCR ด้วย Java ด้วย Aspose และ GroupDocs: เพิ่มความสามารถการค้นหาเอกสาร](./java-ocr-indexing-aspose-groupdocs-search/) +เรียนรู้การนำไปใช้การทำดัชนี OCR ด้วย Java อย่างมีประสิทธิภาพโดยใช้ GroupDocs.Search และ Aspose.OCR เพื่อเพิ่มความสามารถในการค้นหาเอกสาร. + +### ลิงก์ที่เป็นประโยชน์ + +- [เอกสาร GroupDocs.Search สำหรับ Java](https://docs.groupdocs.com/search/java/) +- [อ้างอิง API GroupDocs.Search สำหรับ Java](https://reference.groupdocs.com/search/java/) +- [ดาวน์โหลด GroupDocs.Search สำหรับ Java](https://releases.groupdocs.com/search/java/) +- [ฟอรั่ม GroupDocs.Search](https://forum.groupdocs.com/c/search) +- [สนับสนุนฟรี](https://forum.groupdocs.com/) +- [ใบอนุญาตชั่วคราว](https://purchase.groupdocs.com/temporary-license/) + +--- + +**อัปเดตล่าสุด:** 2026-01-11 +**ทดสอบด้วย:** GroupDocs.Search for Java 23.11 +**ผู้เขียน:** GroupDocs \ No newline at end of file diff --git a/content/thai/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/thai/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md new file mode 100644 index 00000000..54ea2cb2 --- /dev/null +++ b/content/thai/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -0,0 +1,230 @@ +--- +date: '2026-01-11' +description: เรียนรู้วิธีสร้างดัชนีการค้นหาที่กำหนดเองโดยใช้ GroupDocs.Search สำหรับ + Java พร้อมกำหนดค่าตัวอักษรปกติและตัวอักษรผสมสำหรับ OCR ขั้นสูงและการค้นหารูปภาพ +keywords: +- GroupDocs.Search Java +- Java OCR character recognition +- search library Java +title: สร้างดัชนีการค้นหาแบบกำหนดเองด้วยการจดจำอักขระ – GroupDocs.Search Java +type: docs +url: /th/java/ocr-image-search/groupdocs-search-java-character-recognition/ +weight: 1 +--- + +# สร้างดัชนีการค้นหาที่กำหนดเองพร้อมการรับรู้ตัวอักษรโดยใช้ GroupDocs.Search สำหรับ Java + +ในแอปพลิเคชันที่มีเอกสารจำนวนมากในยุคปัจจุบัน, **การสร้างดัชนีการค้นหาที่กำหนดเอง** ที่เข้าใจความละเอียดของข้อความของคุณ—เช่น เครื่องหมายขีดกลาง, เครื่องหมายขีดล่าง, หรือสัญลักษณ์เฉพาะของภาษา—เป็นสิ่งสำคัญสำหรับการดึงข้อมูลที่รวดเร็วและแม่นยำ. บทเรียนนี้จะพาคุณผ่านการกำหนดค่าการรับรู้ตัวอักษรใน **GroupDocs.Search สำหรับ Java**, ครอบคลุมทั้งตัวอักษรปกติ (ตัวอักษร, ตัวเลข, เครื่องหมายขีดล่าง) และตัวอักษรผสม (เช่น เครื่องหมายขีดกลาง). เมื่อเสร็จสิ้น, คุณจะสามารถปรับแต่งดัชนีให้ตรงกับความต้องการของสถานการณ์ OCR หรือการค้นหาภาพของคุณได้อย่างแม่นยำ. + +## คำตอบสั้น ๆ +- **“สร้างดัชนีการค้นหาที่กำหนดเอง” หมายถึงอะไร?** หมายถึงการกำหนดค่าดัชนีให้จัดการกับสัญลักษณ์เฉพาะเป็นตัวอักษรหรือเป็นตัวอักษรผสม, แทนที่จะละเลยมัน. +- **ใช้ไลบรารีอะไร?** GroupDocs.Search สำหรับ Java (เวอร์ชัน 25.4 ณ เวลาที่เขียน). +- **ต้องการไลเซนส์หรือไม่?** ทดลองใช้ฟรีทำงานได้สำหรับการพัฒนา; ต้องมีไลเซนส์แบบชำระเงินสำหรับการใช้งานในผลิตภัณฑ์. +- **สามารถทำดัชนีทั้ง PDF และรูปภาพได้หรือไม่?** ได้—GroupDocs.Search รองรับ OCR บนรูปภาพและ PDF เมื่อกำหนดค่าอย่างเหม- **ต้องใช้ Maven หรือไม่?** Maven เป็นวิธีที่แนะนำสำหรับการจัดการ dependencies, แต่คุณก็สามารถใช้ Gradle หรือ JAR แบบแมนนวลได้เช่นกัน. + +## ดัชนีการค้นหาที่กำหนดเองคืออะไร? +ดัชนีการค้นหาที่กำหนดเองช่วยให้คุณกำหนดวิธีที่เครื่องมือค้นหาแปลความหมายของตัวอักษร. โดยค่าเริ่มต้น, สัญลักษณ์หลายอย่างจะถูกละเลย, ซึ่งอาจทำให้พลาดการจับคู่สำหรับข้อมูลเช่นหมายเลขคดี (`ABC-123`) หรือโค้ดส่วนหนึ่ง (`my_variable`). การปรับพจนานุกรมอัลฟาเบตให้คุณควบคุมได้เต็มที่ว่าตัวอักษรใดจะถือเป็นข้อความที่สามารถค้นหาได้. + +## ทำไมต้องกำหนดค่าตัวอักษรปกติและตัวอักษรผสม? +- **ตัวอักษรปกติ** (ตัวอักษร, ตัวเลข, เครื่องหมายขีดล่าง) จะถูกจัดเป็นโทเคนแยก, ช่วยให้การค้นหาแบบตรงกันเต็มที่มีประสิทธิภาพมากขึ้น. +- **ตัวอักษรผสม** (เครื่องหมายขีดกลาง, เครื่องหมายทับ) เชื่อมคำ; การกำหนดค่าพวกมันจะป้องกันการแยกโทเคนที่ไม่ต้องการ, ซึ่งสำคัญสำหรับการอ้างอิงทางกฎหมาย, รหัสสินค้า, หรือการทำดัชนีโค้ดต้นฉบับ. + +## ข้อกำหนดเบื้องต้น +- **JDK 8** หรือใหม่กว่าได้ถูกติดตั้ง. +- **Maven** สำหรับการจัดการ dependencies. +- เข้าถึงไลบรารี **GroupDocs.Search สำหรับ Java** (ดาวน์โหลดผ่าน Maven หรือเว็บไซต์ทางการ). + +### ไลบรารีและ Dependencies ที่จำเป็น +เพิ่ม repository และ dependency ลงในไฟล์ `pom.xml` ของคุณ (ตามตัวอย่างด้านล่าง). ส่วน XML ต้องคงไว้โดยไม่แก้ไข. + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +คุณยังสามารถดาวน์โหลด JAR ล่าสุดจาก [การปล่อย GroupDocs.Search สำหรับ Java](https://releases.groupdocs.com/search/java/). + +### การรับไลเซนส์ +- **Free Trial** – เหมาะสำหรับการทดลองในขั้นต้น. +- **Temporary License** – มีประโยชน์สำหรับระยะเวลาการพัฒนานานขึ้น. +- **Production License** – จำเป็นสำหรับการใช้งานเชิงพาณิชย์. + +รับไลเซนส์จากพอร์ทัลทางการ: [GroupDocs](https://purchase.groupdocs.com/temporary-license/). + +### การเริ่มต้นพื้นฐาน +โค้ดตัวอย่างด้านล่างแสดงวิธีการสร้างดัชนีเปล่าอย่างน้อยที่สุด. คงไว้ตามเดิม; เราจะต่อยอดจากนี้ในภายหลัง. + +```java +import com.groupdocs.search.*; + +public class GroupDocsSearchSetup { + public static void main(String[] args) { + String indexFolder = "YOUR_OUTPUT_DIRECTORY"; + String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; + + Index index = new Index(indexFolder); + + System.out.println("GroupDocs.Search setup completed!"); + } +} +``` + +## การตั้งค่า GroupDocs.Search สำหรับ Java + +### การติดตั้งผ่าน Maven +การกำหนดค่า Maven จากส่วน *ข้อกำหนดเบื้องต้น* คือทั้งหมดที่คุณต้องการ. หลังจากเพิ่มแล้ว, รัน `mvn clean install` เพื่อดึงไบนารีที่จำเป็น. + +### ความต้องการการตั้งค่าสภาพแวดล้อม +- ตรวจสอบให้แน่ใจว่า **โฟลเดอร์ดัชนี** และ **โฟลเดอร์เอกสาร** มีอยู่บนดิสก์. +- ใช้เส้นทางแบบ absolute หรือกำหนดค่า IDE ของคุณให้แก้ไขเส้นทางแบบ relative อย่างถูกต้อง. + +## คู่มือการดำเนินการ + +ด้านล่างเราจะอธิบายสองฟีเจอร์ที่แตกต่างกัน: **ตัวอักษรปกติ** และ **ตัวอักษรผสม**. แต่ละฟีเจอร์ทำตามรูปแบบเดียวกัน—กำหนดเส้นทาง, สร้างดัชนี, ตั้งค่าพจนานุกรมตัวอักษร, และสุดท้ายทำการทำดัชนีเอกสารของคุณ. + +### ฟีเจอร์ 1 – ตัวอักษรปกติ + +#### ภาพรวม +ตัวอักษรปกติจะถูกจัดเป็นโทเคนอิสระ. เหมาะเมื่อคุณต้องการให้ตัวเลข, ตัวอักษร, และเครื่องหมายขีดล่างสามารถค้นหาได้ตรงตามที่ปรากฏ. + +#### การดำเนินการแบบขั้นตอน + +**1️⃣ ตั้งค่าเส้นทาง** +กำหนดตำแหน่งที่ดัชนีจะถูกเก็บและตำแหน่งที่เอกสารต้นฉบับของคุณอยู่. + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ สร้างและกำหนดค่าดัชนี** +สร้างอินสแตนซ์ของดัชนีและล้างการกำหนดค่าอัลฟาเบตที่มีอยู่ก่อนหน้า. + +```java +Index index = new Index(indexFolder); +index.getDictionaries().getAlphabet().clear(); +``` + +**3️⃣ กำหนดตัวอักษรปกติ** +สร้างอาเรย์ของตัวอักษรที่รวมตัวเลข, ตัวอักษรละติน, และเครื่องหมายขีดล่าง. + +```java +StringBuilder sb = new StringBuilder(); +for (char i = 0x0030; i <= 0x0039; i++) { // Digits + sb.append(i); +} +for (char i = 0x0041; i <= 0x005A; i++) { // Latin capital letters + sb.append(i); +} +sb.append(0x005F); // Underscore +for (char i = 0x0061; i <= 0x007A; i++) { // Latin small letters + sb.append(i); +} + +// Convert to character array and set as alphabet range +char[] characters = new char[sb.length()]; +sb.getChars(0, sb.length(), characters, 0); +index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); +``` + +**4️⃣ ทำดัชนีเอกสาร** +เพิ่มไฟล์ทั้งหมดจากโฟลเดอร์ต้นฉบับเข้าสู่ดัชนีที่กำหนดค่าใหม่. + +```java +index.add(documentFolder); +``` + +### ฟีเจอร์ 2 – ตัวอักษรผสม + +#### ภาพรวม +ตัวอักษรผสม (เช่น เครื่องหมายขีดกลาง) มักเชื่อมคำสองคำ. การทำเครื่องหมายเป็น *ผสม* จะบอกเครื่องมือให้รักษาโทเคนรอบข้างไว้ด้วยกันระหว่างการทำดัชนี. + +#### การดำเนินการแบบขั้นตอน + +**1️⃣ ตั้งค่าเส้นทาง** + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ สร้างและกำหนดค่าดัชนี** + +```java +Index index = new Index(indexFolder); +``` + +**3️⃣ กำหนดตัวอักษรผสม** +ที่นี่เราบอกพจนานุกรมว่าเครื่องหมายขีดกลางควรถือเป็นตัวอักษรผสม. + +```java +index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); +``` + +**4️⃣ ทำดัชนีเอกสาร** + +```java +index.add(documentFolder); +``` + +## การประยุกต์ใช้งานจริง + +### กรณีใช้งาน 1 – การจัดการเอกสารทางกฎหมาย +ไฟล์กฎหมายมักมีหมายเลขคดีเช่น `2023-AB-456`. ด้วยการกำหนดค่าเครื่องหมายขีดล่างและขีดกลาง, การค้นหาจะคืนผลลัพธ์ที่ตรงกันโดยไม่แยกตัวระบุออกเป็นส่วน ๆ. + +### กรณีใช้งาน 2 – ที่เก็บโค้ดต้นฉบับ +นักพัฒนาต้องการค้นส่วนของโค้ดที่เครื่องหมายขีดล่าง (`my_variable`) และเครื่องหมายขีดกลาง (`my-function`) มีความหมาย. การรับรู้ตัวอักษรที่กำหนดเองทำให้เครื่องมือค้นหาเคารพสัญลักษณ์เหล่านี้. + +### กรณีใช้งาน 3 – ชุดข้อมูลหลายภาษา +เมื่อทำงานกับภาษาที่ใช้อักษรเพิ่มเติม, คุณสามารถขยายชุดตัวอักษรปกติให้รวมช่วง Unicode เหล่านั้น, เพื่อรับประกันผลการค้นหาที่แม่นยำข้ามภาษา. + +## พิจารณาด้านประสิทธิภาพ + +- **การจัดการทรัพยากร** – ตรวจสอบการใช้ heap; ดัชนีขนาดใหญ่จะได้ประโยชน์จากการคอมมิตแบบเพิ่มส่วน. +- **Garbage Collection** – ปล่อยอ็อบเจกต์ `Index` เมื่อเสร็จเพื่อให้ JVM สามารถคืนหน่วยความจำ. +- **การปรับแต่งดัชนี** – เรียก `index.optimize()` อย่างสม่ำเสมอ (หากมี) เพื่อบีบอัดดัชนีและเพิ่มความเร็วของการค้นหา. + +## สรุป + +คุณได้เรียนรู้วิธี **สร้างดัชนีการค้นหาที่กำหนดเอง** ที่แยกแยะระหว่างตัวอักษรปกติและตัวอักษรผสมโดยใช้ GroupDocs.Search สำหรับ Java. การควบคุมระดับละเอียดนี้ช่วยให้คุณสร้างโซลูชันการค้นหาที่รับรู้ OCR, มีประสิทธิภาพสูง, และปรับให้เหมาะกับสภาพแวดล้อมทางกฎหมาย, การพัฒนา, หรือหลายภาษาได้อย่างเต็มที่. + +**ขั้นตอนต่อไป** +- ทดลองเพิ่มช่วง Unicode สำหรับอักษรที่ไม่ใช่ละติน. +- ผสานการกำหนดค่าตัวอักษรกับฟีเจอร์อื่นของ GroupDocs.Search เช่น stemming หรือ synonyms. +- รวมดัชนีเข้ากับ REST API เพื่อเปิดเผยความสามารถการค้นหาให้กับแอปพลิเคชันฝั่งหน้า. + +## คำถามที่พบบ่อย + +**Q:** *วัตถุประสงค์ของ `CharacterType.Letter` คืออะไร?* +**A:** มันบอกดัชนีให้ถืออักขระที่ระบุเป็นตัวอักษรปกติ, ดังนั้นจะถูกแยกเป็นโทเคนแยกกันระหว่างการทำดัชนี. + +**Q:** *ฉันสามารถผสมตัวอักษรปกติและตัวอักษรผสมในดัชนีเดียวกันได้หรือไม่?* +**A:** ได้—เพียงเรียก `setRange` สำหรับแต่ละประเภท; พจนานุกรมจะจัดการการกำหนดค่าทั้งสองพร้อมกัน. + +**Q:** *ต้องสร้างดัชนีใหม่หลังจากเปลี่ยนแปลงอัลฟาเบตหรือไม่?* +**A:** จำเป็นอย่างยิ่ง. การเปลี่ยนแปลงพจนานุกรมตัวอักษรส่งผลต่อการแยกโทเคน, ดังนั้นคุณต้องทำดัชนีเอกสารใหม่เพื่อให้กฎใหม่มีผล. + +**Q:** *มีขีดจำกัดจำนวนตัวอักษรที่กำหนดเองได้หรือไม่?* +**A:** ไลบรารีรองรับช่วง Unicode ทั้งหมด; ประสิทธิภาพอาจลดลงหากเพิ่มชุดตัวอักษรขนาดใหญ่มาก, ดังนั้นควรจำกัดไว้ที่ตัวอักษรที่คุณต้องการจริง ๆ. + +**Q:** *การกำหนดค่านี้ส่งผลต่อความแม่นยำของ OCR อย่างไร?* +**A:** โดยการทำให้ชุดตัวอักษรของดัชนีสอดคล้องกับผลลัพธ์ของเครื่องมือ OCR, คุณจะลดจำนวน false negatives และเพิ่มความเกี่ยวข้องของผลการค้นหาโดยรวม. + +--- + +**อัปเดตล่าสุด:** 2026-01-11 +**ทดสอบกับ:** GroupDocs.Search 25.4 สำหรับ Java +**ผู้เขียน:** GroupDocs \ No newline at end of file diff --git a/content/thai/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/thai/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md new file mode 100644 index 00000000..1b7574d1 --- /dev/null +++ b/content/thai/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -0,0 +1,184 @@ +--- +date: '2026-01-11' +description: เรียนรู้วิธีใช้ GroupDocs for Java OCR indexing ร่วมกับ Aspose.OCR เพื่อเปิดใช้งานความสามารถการค้นหาเอกสารที่ทรงพลังในไฟล์ + PDF, รูปภาพ และไฟล์สแกน. +keywords: +- Java OCR indexing +- document searchability +- OCR with GroupDocs +title: วิธีใช้ GroupDocs สำหรับ Java ในการทำดัชนี OCR ด้วย Aspose +type: docs +url: /th/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/ +weight: 1 +--- + +# วิธีใช้ GroupDocs สำหรับ OCR Indexing ด้วย Java และ Aspose + +ในคู่มือนี้คุณจะได้ค้นพบ **วิธีใช้ GroupDocs** เพื่อเพิ่มการค้นหาที่ขับเคลื่อนด้วย OCR ให้กับแอปพลิเคชัน Java ของคุณ โดยการผสานรวม GroupDocs.Search กับ Aspose.OCR คุณสามารถแปลงเนื้อหาที่เป็นรูปภาพให้เป็นข้อความที่สามารถค้นหาได้ ทำให้ระบบจัดการเอกสารมีประโยชน์มากยิ่งขึ้น เราจะอธิบายขั้นตอนการตั้งค่า การทำดัชนี การค้นหา และการผสานรวม OCR แบบกำหนดเอง พร้อมตัวอย่างที่ชัดเจนเป็นขั้นตอน + +## Quick Answers +- **ไลบรารีใดที่ให้การทำดัชนี OCR?** GroupDocs.Search คู่กับ Aspose.OCR. +- **ต้องการเวอร์ชัน Java ใด?** JDK 8 หรือสูงกว่า. +- **ต้องการไลเซนส์หรือไม่?** มีการทดลองใช้ฟรี; ต้องมีไลเซนส์แบบชำระเงินสำหรับการใช้งานในผลิตภัณฑ์. +- **สามารถทำดัชนีรูปภาพแยกและฝังได้หรือไม่?** ได้, เปิดใช้งานทั้งสองตัวเลือกใน `IndexingOptions`. +- **รองรับการทำงานแบบหลายเธรดหรือไม่?** ได้, คุณสามารถทำการทำดัชนีแบบขนานสำหรับชุดข้อมูลขนาดใหญ่. + +## OCR Indexing กับ GroupDocs คืออะไร? +OCR indexing จะสกัดข้อความจากรูปภาพ (รวมถึง PDF ที่สแกน) แล้วเก็บไว้ในดัชนีที่สามารถค้นหาได้ GroupDocs.Search ดูแลการทำดัชนีและการดำเนินการค้นหา ส่วน Aspose.OCR ทำการจดจำอักขระจริง + +## ทำไมต้องใช้ GroupDocs สำหรับ OCR indexing ด้วย Java? +- **ความแม่นยำสูง** ด้วยเครื่องมือ OCR ขั้นสูงของ Aspose. +- **การผสานรวมกับ Java อย่างไร้รอยต่อ** ผ่าน Maven หรือ JAR โดยตรง. +- **การกำหนดค่าที่ยืดหยุ่น** สำหรับรูปภาพแยกหรือฝัง. +- **ประสิทธิภาพที่ขยายได้** ด้วยการทำงานหลายเธรดและการปรับแต่งหน่วยความจำ. + +## ข้อกำหนดเบื้องต้น +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR** (รุ่นล่าสุด) +- JDK 8+ และ IDE (IntelliJ, Eclipse, NetBeans) +- ความรู้พื้นฐาน Java; Maven มีประโยชน์แต่ไม่จำเป็น + +## การตั้งค่า GroupDocs.Search สำหรับ Java +### ใช้ Maven +เพิ่ม repository และ dependency ลงในไฟล์ `pom.xml` ของคุณ: + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +### ดาวน์โหลดโดยตรง +หรือคุณสามารถดาวน์โหลดเวอร์ชันล่าสุดของ GroupDocs.Search สำหรับ Java ได้จาก [GroupDocs releases](https://releases.groupdocs.com/search/java/). + +### การรับไลเซนส์ +- **Free Trial** – ทดลองใช้ทุกฟีเจอร์โดยไม่มีค่าใช้จ่าย. +- **Temporary License** – ระยะเวลาทดสอบต่อเนื่อง. +- **Purchase** – จำเป็นสำหรับการใช้งานในสภาพแวดล้อมการผลิต. + +### การเริ่มต้นและตั้งค่าเบื้องต้น +สร้างโฟลเดอร์สำหรับดัชนีและเริ่มต้นอ็อบเจกต์ `Index`: + +```java +import com.groupdocs.search.Index; +// Specify the directory where the index will be stored. +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +// Create an instance of Index class at the specified location. +Index index = new Index(indexFolder); +``` + +## วิธีใช้ GroupDocs สำหรับ OCR Indexing +### การสร้างดัชนี +ขั้นแรกตั้งค่าโฟลเดอร์ที่จะเก็บไฟล์ดัชนี: + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +Index index = new Index(indexFolder); +``` + +### การตั้งค่า OCR Indexing Options +เปิดใช้งาน OCR สำหรับรูปภาพแยกและฝัง พร้อมเชื่อมต่อ OCR แบบกำหนดเอง: + +```java +import com.groupdocs.search.options.IndexingOptions; +IndexingOptions options = new IndexingOptions(); +options.getOcrIndexingOptions().setEnabledForSeparateImages(true); +options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); +// Set a custom OCR connector. +options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); +``` + +### การทำดัชนีเอกสาร +เพิ่มเอกสารต้นทางของคุณ (PDF, ไฟล์ Word, รูปภาพ ฯลฯ) ลงในดัชนี: + +```java +String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; +index.add(documentsFolder, options); +``` + +### การค้นหาในดัชนี +ดำเนินการค้นหาด้วย query ต่อเนื้อหาที่ทำดัชนีแล้ว: + +```java +import com.groupdocs.search.results.SearchResult; +String query = "water"; +SearchResult result = index.search(query); +``` + +### การทำ OCR Connector +ใช้ Aspose.OCR เพื่อจดจำข้อความจากรูปภาพ. Implement อินเทอร์เฟซ `IOcrConnector` ตามตัวอย่าง: + +```java +import com.groupdocs.search.options.IOcrConnector; +import com.groupdocs.search.options.OcrContext; +import java.awt.image.BufferedImage; +import javax.imageio.ImageIO; +import com.aspose.ocr.AsposeOCR; + +public class OcrConnector implements IOcrConnector { + @Override + public final String recognize(OcrContext context) { + if (null == context.getImageLocation()) { + throw new RuntimeException("The image type is not supported: " + context.getImageLocation()); + } + + BufferedImage image = ImageIO.read(context.getImageLocation().toFile()); + AsposeOCR api = new AsposeOCR(); + String text = api.RecognizePage(image); + return text; + } +} +``` + +## การประยุกต์ใช้งานจริง +1. **Document Management Systems** – การดึงเอกสารที่มีรูปภาพสแกนอย่างรวดเร็ว. +2. **Archival Retrieval** – ค้นหารายการบันทึกประวัติในคลังข้อมูลขนาดใหญ่. +3. **Legal Document Analysis** – ค้นหาสัญญาและหลักฐานที่มีลายเซ็นหรือแผนภาพสแกน. +4. **Medical Records Search** – ทำดัชนีแบบฟอร์มผู้ป่วย, ผลการตรวจแลบ, และหมายเหตุบนภาพ X‑ray. + +## การพิจารณาประสิทธิภาพ +- **ขนาดดัชนี** – ลบเมตาดาต้าที่ไม่จำเป็นเพื่อให้ดัชนีมีขนาดเล็ก. +- **Multi‑Threading** – ประมวลผลชุดข้อมูลขนาดใหญ่แบบขนานเพื่อเร่งความเร็วการทำดัชนี. +- **การจัดการหน่วยความจำ** – ติดตาม heap ของ JVM เมื่อจัดการรูปภาพความละเอียดสูง. + +## ปัญหาที่พบบ่อยและวิธีแก้ไข +- **License Errors** – ตรวจสอบให้แน่ใจว่าไฟล์ไลเซนส์ที่ถูกต้องอยู่ในไดเรกทอรีทำงานของแอปพลิเคชัน. +- **Missing Images** – ยืนยันว่าเส้นทางรูปภาพเข้าถึงได้และเป็นฟอร์แมตที่รองรับ (PNG, JPEG, BMP). +- **Out‑Of‑Memory** – เพิ่มขนาด heap ของ JVM (`-Xmx`) หรือทำการประมวลผลเอกสารเป็นชุดเล็กลง. + +## คำถามที่พบบ่อย +**Q: จะจัดการกับปัญหาไลเซนส์ของ GroupDocs.Search อย่างไร?** +A: รับไลเซนส์ชั่วคราวจาก [GroupDocs website](https://purchase.groupdocs.com/temporary-license/) เพื่อเปิดใช้งานฟีเจอร์ทั้งหมด. + +**Q: วิธีที่ดีที่สุดในการทำดัชนีเอกสารขนาดใหญ่คืออะไร?** +A: ใช้การทำงานหลายเธรดและการประมวลผลเป็นชุดเพื่อเพิ่มประสิทธิภาพและลดภาระหน่วยความจำ. + +**Q: สามารถปรับแต่งการตั้งค่า OCR เพิ่มเติมใน GroupDocs.Search ได้หรือไม่?** +A: ได้, `IndexingOptions` ให้คุณปรับจูนพฤติกรรม OCR เช่น การเลือกภาษาและการเตรียมรูปภาพล่วงหน้า. + +**Q: มีเคล็ดลับการแก้ไขปัญหาที่พบบ่อยเมื่อใช้ GroupDocs.Search อย่างไร?** +A: ตรวจสอบเส้นทางไดเรกทอรีอีกครั้ง, ยืนยันว่าขึ้นต่อ dependencies ทั้งหมดอยู่, และตรวจสอบ log เพื่อหาไฟล์ที่หายไป. + +**Q: จะผสานรวม Aspose.OCR กับแอปพลิเคชัน Java ที่มีอยู่ได้อย่างไร?** +A: Implement อินเทอร์เฟซ `IOcrConnector` ตามที่แสดงด้านบน, โดยให้แน่ใจว่าจัดการอินพุตของรูปภาพอย่างถูกต้อง. + +## แหล่งข้อมูล +- [GroupDocs.Search Documentation](https://docs.groupdocs.com/search/java/) +- [API Reference](https://reference.groupdocs.com/search/java/) + +--- + +**อัพเดตล่าสุด:** 2026-01-11 +**ทดสอบกับ:** GroupDocs.Search 25.4, Aspose.OCR รุ่นล่าสุด +**ผู้เขียน:** GroupDocs \ No newline at end of file diff --git a/content/turkish/java/ocr-image-search/_index.md b/content/turkish/java/ocr-image-search/_index.md new file mode 100644 index 00000000..19d2f425 --- /dev/null +++ b/content/turkish/java/ocr-image-search/_index.md @@ -0,0 +1,98 @@ +--- +date: 2026-01-11 +description: GroupDocs.Search kullanarak OCR uygulama, Java ile görüntülerden metin + çıkarma ve ters görüntü arama için adım adım öğreticiler. +title: Ters Görüntü Arama Java – GroupDocs.Search OCR Eğitimleri +type: docs +url: /tr/java/ocr-image-search/ +weight: 7 +--- + +# Reverse Image Search Java – GroupDocs.Search OCR Eğitimleri + +Bu rehberde, GroupDocs.Search ile **reverse image search java** çözümleri oluşturmak için bilmeniz gereken her şeyi adım adım göstereceğiz. Görsel aramayı içerik açısından zengin bir portalınıza ekliyor olun ya da taranmış varlıklardan aranabilir metin çekmeniz gerekiyor olsun, OCR nasıl yapılandırılır, **extract text from images Java** nasıl çıkarılır ve ters görüntü aramaları nasıl yapılır—hepsi net, üretim‑hazır örneklerle. + +## Hızlı Yanıtlar +- **reverse image search Java ne yapar?** GroupDocs.Search kullanarak indekslenmiş bir koleksiyonda görsel olarak benzer görüntüleri bulur. +- **Hangi OCR motoru önerilir?** GroupDocs.Search, yüksek doğrulukta metin çıkarımı için Aspose.OCR ile bütünleşir. +- **Bir lisansa ihtiyacım var mı?** Test için geçici bir lisans çalışır; üretim için tam lisans gereklidir. +- **Ana önkoşullar nelerdir?** Java 8+, GroupDocs.Search for Java ve isteğe bağlı olarak Aspose.OCR. +- **Uygulama ne kadar sürer?** Temel bir kurulum bir saatten kısa sürede tamamlanabilir. + +## Reverse Image Search Java Nedir? +Reverse image search Java, benzer görünen veya aynı görsel içeriğe sahip görüntüleri bulmanızı sağlar. Anahtar kelimelerle arama yapmak yerine, motor görüntü özelliklerini analiz eder, bunları indeksler ve bir sorgu görüntüsü gönderildiğinde eşleşmeleri döndürür. + +## Neden Görüntü ve OCR Görevleri için GroupDocs.Search Kullanmalısınız? +- **Unified API** – Tek bir kütüphane üzerinden metin ve görüntü indekslemesini yönetin. +- **High performance** – Büyük koleksiyonlar ve hızlı arama süreleri için optimize edilmiştir. +- **Extensible** – Gerekirse özel OCR motorları veya görüntü özelliği çıkarıcıları ekleyin. +- **Cross‑platform** – Masaüstünden buluta, Java uyumlu herhangi bir ortamda çalışır. + +## Önkoşullar +- Java 8 veya daha yeni bir sürüm yüklü. +- Projenize GroupDocs.Search for Java kütüphanesini ekleyin (Maven/Gradle). +- (Opsiyonel) En iyi OCR doğruluğu için Aspose.OCR for Java. +- İndekslemek ve aramak istediğiniz bir dizi görüntü. + +## Adım‑Adım Kılavuz + +### Adım 1: Arama İndeksini Kurun +`SearchIndex` adlı yeni bir örnek oluşturun ve indeks dosyalarının saklanacağı bir klasöre işaret edin. Bu klasör hem metin hem de görüntü meta verilerini tutacaktır. + +### Adım 2: Görüntü Dosyaları için OCR'ı Yapılandırın +İndeksleme seçeneklerinde OCR'ı etkinleştirin, böylece indekse eklenen her görüntü metin çıkarımı için işlenir. İşte ikincil anahtar kelime **extract text from images java**'nin devreye girdiği yer. + +### Adım 3: Görüntülerinizi İndeksleyin +Her görüntü dosyasını indekse ekleyin. Bu işlem sırasında GroupDocs.Search, ters arama için görsel özellikleri çıkarır ve gömülü metni çekmek için OCR çalıştırır. + +### Adım 4: Ters Görüntü Araması Yapın +`search` metoduna bir sorgu görüntüsü sağlayın. Motor, görsel parmak izlerini karşılaştırır ve indeksden benzer görüntülerin sıralı bir listesini döndürür. + +### Adım 5: OCR Metnini Alın (Gerekirse) +Görüntüler içinde bulunan metin içeriğine de ihtiyacınız varsa, standart anahtar kelime aramasıyla OCR‑çıkarılmış metni indeksten sorgulayın. + +## Yaygın Sorunlar ve Çözümler +- **Sonuç dönmedi:** Görüntü özellik çıkarıcısının etkin olduğundan ve yeni görüntüler eklendikten sonra indeksin yeniden oluşturulduğundan emin olun. +- **OCR metni eksik:** OCR motorunun proje bağımlılıklarınızda doğru şekilde referans alındığını ve görüntü formatının desteklendiğini (ör. PNG, JPEG, TIFF) doğrulayın. +- **Performans yavaşlaması:** Büyük görüntü koleksiyonlarını birden fazla indekse bölmeyi veya arama sürelerini düşük tutmak için artımlı indekslemeyi kullanmayı düşünün. + +## Sıkça Sorulan Sorular + +**Q: reverse image search Java'ı bulut platformlarında kullanabilir miyim?** +**A:** Evet, kütüphane platform‑agnostic ve Java destekleyen herhangi bir ortamda, AWS, Azure ve Google Cloud dahil, çalışır. + +**Q: Farklı diller için OCR çıkarımı ne kadar doğrudur?** +**A:** Aspose.OCR 60'tan fazla dili destekler; daha iyi doğruluk için OCR seçeneklerinde dili belirtebilirsiniz. + +**Q: Anahtar kelime aramasını görüntü benzerliğiyle birleştirmek mümkün mü?** +**A:** Kesinlikle. Önce anahtar kelime sorgusuyla sonuçları filtreleyebilir, ardından kalan öğeleri görsel benzerliğe göre sıralayabilirsiniz. + +**Q: Görüntü indeksleme için hangi dosya formatları desteklenir?** +**A:** JPEG, PNG, BMP ve TIFF gibi yaygın formatlar kutudan çıkar çıkmaz tam olarak desteklenir. + +**Q: Görüntüler değiştiğinde indeksi nasıl güncellerim?** +**A:** Değiştirilen görüntüleri yeniden işlemek için `update` metodunu kullanın veya indeksi güncel tutmak için silip yeniden ekleyin. + +## Ek Kaynaklar + +### Mevcut Eğitimler + +#### [GroupDocs.Search for Java'da Karakter Tanıma Yapılandırması: Bir OCR & Görüntü Arama Kılavuzu](./groupdocs-search-java-character-recognition/) +GroupDocs.Search for Java kullanarak karakter tanımayı nasıl yapılandıracağınızı öğrenin, normal ve birleşik karakterlere odaklanarak. Belge yönetiminizi gelişmiş arama yetenekleriyle geliştirin. + +#### [Aspose ve GroupDocs ile Java OCR İndeksleme Kılavuzu: Belge Arama Yeteneğini Artırın](./java-ocr-indexing-aspose-groupdocs-search/) +GroupDocs.Search ve Aspose.OCR kullanarak güçlü Java OCR indekslemesini nasıl uygulayacağınızı öğrenin ve belge arama yeteneklerini artırın. + +### Faydalı Bağlantılar +- [GroupDocs.Search for Java Belgeleri](https://docs.groupdocs.com/search/java/) +- [GroupDocs.Search for Java API Referansı](https://reference.groupdocs.com/search/java/) +- [GroupDocs.Search for Java İndir](https://releases.groupdocs.com/search/java/) +- [GroupDocs.Search Forum](https://forum.groupdocs.com/c/search) +- [Ücretsiz Destek](https://forum.groupdocs.com/) +- [Geçici Lisans](https://purchase.groupdocs.com/temporary-license/) + +--- + +**Son Güncelleme:** 2026-01-11 +**Test Edilen Versiyon:** GroupDocs.Search for Java 23.11 +**Yazar:** GroupDocs \ No newline at end of file diff --git a/content/turkish/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/turkish/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md new file mode 100644 index 00000000..ab36842a --- /dev/null +++ b/content/turkish/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -0,0 +1,231 @@ +--- +date: '2026-01-11' +description: GroupDocs.Search for Java kullanarak özel arama dizini oluşturmayı, gelişmiş + OCR ve görüntü araması için normal ve karışık karakterleri yapılandırmayı öğrenin. +keywords: +- GroupDocs.Search Java +- Java OCR character recognition +- search library Java +title: Karakter Tanıma ile Özel Arama Dizini Oluşturma – GroupDocs.Search Java +type: docs +url: /tr/java/ocr-image-search/groupdocs-search-java-character-recognition/ +weight: 1 +--- + +# Karakter Tanıma ile GroupDocs.Search for Java Kullanarak Özel Arama Dizini Oluşturma + +Modern belge‑ağırlıklı uygulamalarda, **özel bir arama dizini oluşturmak**, metninizin inceliklerini—tireler, alt çizgiler veya dile özgü semboller gibi—anlayan bir indeks, hızlı ve doğru geri getirme için gereklidir. Bu öğretici, **GroupDocs.Search for Java** içinde karakter tanımasını yapılandırmayı, hem normal karakterleri (harfler, rakamlar, alt çizgiler) hem de birleşik karakterleri (ör. tire) kapsayacak şekilde adım adım gösterir. Sonunda, OCR veya görüntü‑arama senaryonuzun tam ihtiyaçlarına uygun bir indeks oluşturabileceksiniz. + +## Hızlı Yanıtlar +- **“Özel arama dizini oluşturmak” ne anlama geliyor?** Belirli sembolleri harf ya da birleşik karakter olarak ele alacak şekilde bir indeks yapılandırmak, bunları yok saymamak demektir. +- **Hangi kütüphane kullanılıyor?** GroupDocs.Search for Java (yazım zamanı v25.4). +- **Lisans gerekli mi?** Geliştirme için ücretsiz deneme çalışır; üretim için ücretli lisans gerekir. +- **Hem PDF hem de görüntüleri indeksleyebilir miyim?** Evet—GroupDocs.Search, doğru yapılandırıldığında görüntüler ve PDF’lerde OCR’ı destekler. +- **Maven gerekli mi?** Maven, bağımlılık yönetimi için önerilen yoldur, ancak Gradle ya da manuel JAR’lar da kullanılabilir. + +## Özel Arama Dizini Nedir? +Özel bir arama dizini, arama motorunun karakterleri nasıl yorumladığını tanımlamanıza izin verir. Varsayılan olarak birçok sembol yok sayılır; bu da `ABC-123` gibi dava numaraları ya da `my_variable` gibi kod parçacıkları için eşleşmelerin kaçırılmasına yol açabilir. Alfabe sözlüğünü ayarlayarak, motorun arama yapılabilir metin olarak neyi kabul edeceği üzerinde tam kontrol sahibi olursunuz. + +## Normal ve Birleşik Karakterleri Neden Yapılandırmalıyız? +- **Normal karakterler** (harfler, rakamlar, alt çizgiler) bağımsız tokenlar olarak ele alınır, tam eşleşme aramalarını iyileştirir. +- **Birleşik karakterler** (tireler, eğik çizgiler) kelimeleri birleştirir; bunları yapılandırmak, istenmeyen token bölünmesini önler ve bu durum yasal referanslar, ürün kodları veya kaynak‑kod indekslemesi için kritiktir. + +## Ön Koşullar +- **JDK 8** veya daha yeni bir sürüm yüklü olmalı. +- **Maven** bağımlılık yönetimi için gerekli. +- **GroupDocs.Search for Java** kütüphanesine erişim (Maven üzerinden ya da resmi siteden indirilebilir). + +### Gerekli Kütüphaneler ve Bağımlılıklar +`pom.xml` dosyanıza aşağıdaki depo ve bağımlılık girdilerini ekleyin. XML bloğu değiştirilmemelidir. + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +Ayrıca en yeni JAR’ları [GroupDocs.Search for Java releases](https://releases.groupdocs.com/search/java/) adresinden indirebilirsiniz. + +### Lisans Edinme +- **Ücretsiz Deneme** – erken denemeler için idealdir. +- **Geçici Lisans** – daha uzun geliştirme döngüleri için kullanışlıdır. +- **Üretim Lisansı** – ticari dağıtımda zorunludur. + +Resmi portal üzerinden lisans alın: [GroupDocs](https://purchase.groupdocs.com/temporary-license/). + +### Temel Başlatma +Aşağıdaki kod parçacığı, boş bir indeks oluşturmak için gereken minimum kodu gösterir. Değiştirmeden bırakın; ilerleyen bölümlerde üzerine ekleyeceğiz. + +```java +import com.groupdocs.search.*; + +public class GroupDocsSearchSetup { + public static void main(String[] args) { + String indexFolder = "YOUR_OUTPUT_DIRECTORY"; + String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; + + Index index = new Index(indexFolder); + + System.out.println("GroupDocs.Search setup completed!"); + } +} +``` + +## GroupDocs.Search for Java Kurulumu + +### Maven ile Kurulum +*Ön Koşullar* bölümündeki Maven yapılandırması ihtiyacınız olan tek şeydir. Ekledikten sonra `mvn clean install` komutunu çalıştırarak ikili dosyaları indirin. + +### Ortam Kurulum Gereksinimleri +- **İndeks klasörü** ve **belge klasörü** diskte mevcut olmalı. +- Mutlak yollar kullanın ya da IDE’nizin göreli yolları doğru çözümleyecek şekilde ayarlandığından emin olun. + +## Uygulama Kılavuzu + +Aşağıda iki ayrı özelliği adım adım inceliyoruz: **normal karakterler** ve **birleşik karakterler**. Her özellik aynı desen izler—yolları tanımla, indeksi oluştur, karakter sözlüğünü ayarla ve sonunda belgelerini indeksle. + +### Özellik 1 – Normal Karakterler + +#### Genel Bakış +Normal karakterler bağımsız tokenlar olarak ele alınır. Bu, rakamların, harflerin ve alt çizgilerin tam olarak göründükleri gibi aranabilir olmasını istediğinizde idealdir. + +#### Adım‑Adım Uygulama + +**1️⃣ Yolları Ayarla** +İndeksin nerede saklanacağını ve kaynak belgelerinizin nerede bulunduğunu tanımlayın. + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ İndeksi Oluştur ve Yapılandır** +İndeksi örnekleyin ve önceden var olan alfabe yapılandırmasını temizleyin. + +```java +Index index = new Index(indexFolder); +index.getDictionaries().getAlphabet().clear(); +``` + +**3️⃣ Normal Karakterleri Tanımla** +Rakamları, Latin harflerini ve alt çizgiyi içeren bir karakter dizisi oluşturun. + +```java +StringBuilder sb = new StringBuilder(); +for (char i = 0x0030; i <= 0x0039; i++) { // Digits + sb.append(i); +} +for (char i = 0x0041; i <= 0x005A; i++) { // Latin capital letters + sb.append(i); +} +sb.append(0x005F); // Underscore +for (char i = 0x0061; i <= 0x007A; i++) { // Latin small letters + sb.append(i); +} + +// Convert to character array and set as alphabet range +char[] characters = new char[sb.length()]; +sb.getChars(0, sb.length(), characters, 0); +index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); +``` + +**4️⃣ Belgeleri İndeksle** +Kaynak klasörden tüm dosyaları yeni yapılandırılmış indekse ekleyin. + +```java +index.add(documentFolder); +``` + +### Özellik 2 – Birleşik Karakterler + +#### Genel Bakış +Birleşik karakterler (tire gibi) genellikle iki kelimeyi birleştirir. Bunları *birleşik* olarak işaretlemek, motorun indeksleme sırasında çevredeki tokenları bir arada tutmasını sağlar. + +#### Adım‑Adım Uygulama + +**1️⃣ Yolları Ayarla** + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ İndeksi Oluştur ve Yapılandır** + +```java +Index index = new Index(indexFolder); +``` + +**3️⃣ Birleşik Karakterleri Tanımla** +Burada sözlüğe tire karakterinin birleşik karakter olarak ele alınması gerektiğini söylüyoruz. + +```java +index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); +``` + +**4️⃣ Belgeleri İndeksle** + +```java +index.add(documentFolder); +``` + +## Pratik Uygulamalar + +### Kullanım Durumu 1 – Hukuki Belge Yönetimi +Hukuki dosyalarda genellikle `2023-AB-456` gibi dava numaraları bulunur. Alt çizgi ve tireleri yapılandırarak, aramalar bu tanımlayıcıları bölmeden tam eşleşme döndürür. + +### Kullanım Durumu 2 – Kaynak‑Kod Depoları +Geliştiriciler, alt çizgi (`my_variable`) ve tire (`my-function`) gibi sembollerin anlamlı olduğu kod parçacıklarını aramak zorundadır. Özel karakter tanıma, arama motorunun bu sembolleri korumasını sağlar. + +### Kullanım Durumu 3 – Çok Dilli Veri Setleri +Ek alfabeler kullanan dillerle çalışırken, normal karakter kümesini bu Unicode aralıklarını içerecek şekilde genişletebilir, böylece çapraz‑dil arama sonuçlarının doğruluğunu garantileyebilirsiniz. + +## Performans Düşünceleri + +- **Kaynak Yönetimi** – Yığın kullanımına dikkat edin; büyük indeksler artımlı commit’lerden faydalanır. +- **Çöp Toplama** – İşiniz bittiğinde `Index` nesnelerini serbest bırakın, böylece JVM belleği geri kazanabilir. +- **İndeks Optimizasyonu** – Mümkünse periyodik olarak `index.optimize()` (varsa) çağırarak indeksi sıkıştırın ve sorgu hızını artırın. + +## Sonuç + +Artık **GroupDocs.Search for Java** kullanarak normal ve birleşik karakterleri ayırt eden **özel bir arama dizini** oluşturmayı biliyorsunuz. Bu ince ayar, OCR‑bilinçli, yüksek performanslı arama çözümlerini yasal, geliştirme veya çok dilli ortamlara göre özelleştirmenizi sağlar. + +**Sonraki Adımlar** +- Latin dışı alfabeler için ek Unicode aralıklarıyla deneyler yapın. +- Karakter yapılandırmasını, stemming ya da eş anlamlılar gibi diğer GroupDocs.Search özellikleriyle birleştirin. +- İndeksi bir REST API’ye entegre ederek arama yeteneklerini ön‑uç uygulamalarına sunun. + +## Sıkça Sorulan Sorular + +**S:** *`CharacterType.Letter` ne amaçla kullanılır?* +**C:** Sağlanan karakterleri normal harfler olarak ele almasını söyler; böylece indeksleme sırasında ayrı tokenlar olarak işlenir. + +**S:** *Aynı indekste normal ve birleşik karakterleri karıştırabilir miyim?* +**C:** Evet—her tip için `setRange` metodunu çağırmanız yeterlidir; sözlük her iki yapılandırmayı aynı anda yönetir. + +**S:** *Alfabe değiştirildikten sonra indeksi yeniden oluşturmak gerekir mi?* +**C:** Kesinlikle. Karakter sözlüğü değişiklikleri tokenizasyonu etkiler, bu yüzden yeni kuralları uygulamak için belgeleri yeniden indekslemelisiniz. + +**S:** *Tanımlayabileceğim özel karakter sayısında bir sınırlama var mı?* +**C:** Kütüphane tam Unicode aralığını destekler; çok büyük bir set eklemek performansı düşürebilir, bu yüzden yalnızca ihtiyacınız olan karakterleri ekleyin. + +**S:** *Bu, OCR doğruluğunu nasıl etkiler?* +**C:** İndeksin karakter setini OCR motorunun çıktısıyla hizalayarak yanlış negatifleri azaltır ve genel arama alaka düzeyini artırır. + +--- + +**Son Güncelleme:** 2026-01-11 +**Test Edilen Versiyon:** GroupDocs.Search 25.4 for Java +**Yazar:** GroupDocs \ No newline at end of file diff --git a/content/turkish/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/turkish/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md new file mode 100644 index 00000000..5b4cadb3 --- /dev/null +++ b/content/turkish/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -0,0 +1,185 @@ +--- +date: '2026-01-11' +description: Aspose.OCR ile GroupDocs for Java OCR indekslemesini nasıl kullanacağınızı + öğrenin; PDF'ler, görüntüler ve taranmış dosyalar arasında güçlü belge arama yeteneklerini + etkinleştirir. +keywords: +- Java OCR indexing +- document searchability +- OCR with GroupDocs +title: Aspose ile GroupDocs for Java OCR İndeksleme Nasıl Kullanılır +type: docs +url: /tr/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/ +weight: 1 +--- + +# Java OCR Dizinlemesi için GroupDocs'i Aspose ile Nasıl Kullanılır + +Bu rehberde **GroupDocs'i nasıl kullanacağınızı** keşfedecek ve Java uygulamalarınıza OCR destekli arama ekleyeceksiniz. GroupDocs.Search ile Aspose.OCR'ı birleştirerek, görüntü tabanlı içeriği aranabilir metne dönüştürebilir ve belge yönetim sistemlerini çok daha kullanışlı hâle getirebilirsiniz. Kurulum, indeksleme, arama ve özel OCR entegrasyonu adımlarını, net adım‑adım örneklerle ele alacağız. + +## Hızlı Yanıtlar +- **OCR indekslemesini sağlayan kütüphane nedir?** GroupDocs.Search paired with Aspose.OCR. +- **Hangi Java sürümü gereklidir?** JDK 8 or higher. +- **Bir lisansa ihtiyacım var mı?** A free trial is available; a paid license is required for production. +- **Ayrı ve gömülü görüntüleri aynı anda indeksleyebilir miyim?** Yes, enable both options in `IndexingOptions`. +- **Çoklu iş parçacığı (multi‑threading) destekleniyor mu?** Yes, you can parallelize indexing for large data sets. + +## GroupDocs ile OCR İndekslemesi Nedir? +OCR indekslemesi, görüntülerden (tar scanned PDF'ler dahil) metin çıkarır ve bunu aranabilir bir indeks içinde saklar. GroupDocs.Search indeksleme ve sorgu yürütmeyi yönetirken, Aspose.OCR gerçek karakter tanıma işlemini gerçekleştirir. + +## Java OCR indekslemesi için GroupDocs'i neden kullanmalısınız? +- **Yüksek doğruluk** Aspose'un gelişmiş OCR motoru sayesinde. +- **Sorunsuz Java entegrasyonu** Maven veya doğrudan JAR'lar aracılığıyla. +- **Esnek yapılandırma** ayrı veya gömülü görüntüler için. +- **Ölçeklenebilir performans** çoklu iş parçacığı ve bellek optimizasyonlarıyla. + +## Prerequisites +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR** (latest version) +- JDK 8+ and an IDE (IntelliJ, Eclipse, NetBeans) +- Temel Java bilgisi; Maven faydalı ancak zorunlu değil + +## GroupDocs.Search'ü Java için Kurma +### Using Maven +`pom.xml` dosyanıza depoyu ve bağımlılığı ekleyin: + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +### Direct Download +Alternatif olarak, GroupDocs.Search'ün Java için en son sürümünü [GroupDocs releases](https://releases.groupdocs.com/search/java/) adresinden indirin. + +### License Acquisition +- **Ücretsiz Deneme** – tüm özellikleri ücretsiz keşfedin. +- **Geçici Lisans** – uzatılmış test süresi. +- **Satın Alma** – üretim dağıtımları için gereklidir. + +### Basic Initialization and Setup +Bir indeks klasörü oluşturun ve `Index` nesnesini başlatın: + +```java +import com.groupdocs.search.Index; +// Specify the directory where the index will be stored. +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +// Create an instance of Index class at the specified location. +Index index = new Index(indexFolder); +``` + +## OCR İndekslemesi için GroupDocs Nasıl Kullanılır +### Creating an Index +İlk olarak, indeks dosyalarını tutacak klasörü ayarlayın: + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +Index index = new Index(indexFolder); +``` + +### Setting OCR Indexing Options +Ayrı ve gömülü görüntüler için OCR'ı etkinleştirin ve özel bir OCR bağlayıcısı ekleyin: + +```java +import com.groupdocs.search.options.IndexingOptions; +IndexingOptions options = new IndexingOptions(); +options.getOcrIndexingOptions().setEnabledForSeparateImages(true); +options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); +// Set a custom OCR connector. +options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); +``` + +### Indexing Documents +Kaynak belgelerinizi (PDF'ler, Word dosyaları, görüntüler vb.) indeks'e ekleyin: + +```java +String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; +index.add(documentsFolder, options); +``` + +### Searching in an Index +İndekslenmiş içerik üzerinde bir arama sorgusu çalıştırın: + +```java +import com.groupdocs.search.results.SearchResult; +String query = "water"; +SearchResult result = index.search(query); +``` + +### Implementing an OCR Connector +Görüntülerden metin tanımak için Aspose.OCR'ı kullanın. Aşağıda gösterildiği gibi `IOcrConnector` arayüzünü uygulayın: + +```java +import com.groupdocs.search.options.IOcrConnector; +import com.groupdocs.search.options.OcrContext; +import java.awt.image.BufferedImage; +import javax.imageio.ImageIO; +import com.aspose.ocr.AsposeOCR; + +public class OcrConnector implements IOcrConnector { + @Override + public final String recognize(OcrContext context) { + if (null == context.getImageLocation()) { + throw new RuntimeException("The image type is not supported: " + context.getImageLocation()); + } + + BufferedImage image = ImageIO.read(context.getImageLocation().toFile()); + AsposeOCR api = new AsposeOCR(); + String text = api.RecognizePage(image); + return text; + } +} +``` + +## Pratik Uygulamalar +1. **Belge Yönetim Sistemleri** – taranmış görüntüler içeren belgelerin hızlı alınması. +2. **Arşiv Erişimi** – büyük arşivlerde tarihsel kayıtları bulma. +3. **Hukuki Belge Analizi** – taranmış imzalar veya diyagramlar içeren sözleşme ve delilleri arama. +4. **Tıbbi Kayıt Arama** – hasta formları, laboratuvar sonuçları ve röntgen notlarını indeksleme. + +## Performans Düşünceleri +- **İndeks Boyutu** – indeksin hafif kalması için gereksiz meta verileri dışarıda bırakın. +- **Çoklu İş Parçacığı** – indekslemeyi hızlandırmak için büyük partileri paralel işleyin. +- **Bellek Yönetimi** – yüksek çözünürlüklü görüntülerle çalışırken JVM yığınını izleyin. + +## Yaygın Sorunlar ve Çözümler +- **Lisans Hataları** – doğru lisans dosyasının uygulamanın çalışma dizinine yerleştirildiğinden emin olun. +- **Eksik Görüntüler** – görüntü yollarının erişilebilir ve desteklenen formatlarda (PNG, JPEG, BMP) olduğundan emin olun. +- **Bellek Yetersizliği** – JVM yığınını (`-Xmx`) artırın veya belgeleri daha küçük partilerde işleyin. + +## Sıkça Sorulan Sorular +**Q: GroupDocs.Search ile lisans sorunlarını nasıl çözerim?** +**A:** Tam özellikleri açmak için [GroupDocs web sitesinden](https://purchase.groupdocs.com/temporary-license/) geçici bir lisans edinin. + +**Q: Büyük belge indekslemesini yönetmenin en iyi yolu nedir?** +**A:** Performansı artırmak ve bellek baskısını azaltmak için çoklu iş parçacığı ve toplu işleme kullanın. + +**Q: GroupDocs.Search içinde OCR ayarlarını daha da özelleştirebilir miyim?** +**A:** Evet, `IndexingOptions` OCR davranışını, dil seçimi ve görüntü ön işleme gibi detayları ayarlamanıza izin verir. + +**Q: GroupDocs.Search kullanırken yaygın sorun giderme ipuçları nelerdir?** +**A:** Dizin yollarını iki kez kontrol edin, tüm bağımlılıkların mevcut olduğunu doğrulayın ve eksik dosyalar için günlük çıktısını inceleyin. + +**Q: Aspose.OCR'ı mevcut Java uygulamama nasıl entegre edebilirim?** +**A:** Yukarıda gösterildiği gibi `IOcrConnector` arayüzünü uygulayın ve görüntü girişini doğru şekilde işlediğinizden emin olun. + +## Resources +- [GroupDocs.Search Documentation](https://docs.groupdocs.com/search/java/) +- [API Reference](https://reference.groupdocs.com/search/java/) + +--- + +**Son Güncelleme:** 2026-01-11 +**Test Edilen Versiyon:** GroupDocs.Search 25.4, Aspose.OCR son sürüm +**Yazar:** GroupDocs \ No newline at end of file diff --git a/content/vietnamese/java/ocr-image-search/_index.md b/content/vietnamese/java/ocr-image-search/_index.md new file mode 100644 index 00000000..bcd82b5d --- /dev/null +++ b/content/vietnamese/java/ocr-image-search/_index.md @@ -0,0 +1,99 @@ +--- +date: 2026-01-11 +description: Hướng dẫn từng bước để triển khai OCR, trích xuất văn bản từ hình ảnh + Java và tìm kiếm ngược hình ảnh Java bằng GroupDocs.Search. +title: Tìm kiếm hình ảnh ngược Java – Hướng dẫn OCR GroupDocs.Search +type: docs +url: /vi/java/ocr-image-search/ +weight: 7 +--- + +# Tìm Kiếm Hình Ảnh Ngược Java – Hướng Dẫn OCR GroupDocs.Search + +Trong hướng dẫn này, chúng tôi sẽ hướng dẫn bạn mọi thứ cần biết để xây dựng các giải pháp **reverse image search java** với GroupDocs.Search. Cho dù bạn đang thêm tìm kiếm hình ảnh vào một cổng thông tin nội dung phong phú hay cần trích xuất văn bản có thể tìm kiếm từ các tài sản đã quét, chúng tôi sẽ chỉ cho bạn cách cấu hình OCR, **extract text from images Java**, và thực hiện **reverse image look‑ups** — tất cả với các ví dụ rõ ràng, sẵn sàng cho môi trường sản xuất. + +## Câu trả lời nhanh +- **reverse image search Java làm gì?** Nó tìm các hình ảnh tương tự về mặt trực quan trong một bộ sưu tập đã được lập chỉ mục bằng GroupDocs.Search. +- **Engine OCR nào được khuyến nghị?** GroupDocs.Search tích hợp với Aspose.OCR để trích xuất văn bản độ chính xác cao. +- **Tôi có cần giấy phép không?** Một giấy phép tạm thời hoạt động cho việc thử nghiệm; giấy phép đầy đủ là bắt buộc cho môi trường sản xuất. +- **Các yêu cầu trước tiên là gì?** Java 8+, GroupDocs.Search for Java, và tùy chọn Aspose.OCR. +- **Thời gian triển khai mất bao lâu?** Một cấu hình cơ bản có thể hoàn thành trong vòng chưa đầy một giờ. + +## Reverse Image Search Java là gì? +Reverse image search Java cho phép bạn tìm các hình ảnh có ngoại hình giống nhau hoặc chứa cùng nội dung trực quan. Thay vì tìm kiếm bằng từ khóa, engine phân tích các đặc trưng của hình ảnh, lập chỉ mục chúng và trả về các kết quả phù hợp khi một hình ảnh truy vấn được gửi. + +## Tại sao nên sử dụng GroupDocs.Search cho các tác vụ hình ảnh và OCR? +- **Unified API** – Quản lý việc lập chỉ mục văn bản và hình ảnh thông qua một thư viện duy nhất. +- **High performance** – Tối ưu cho các bộ sưu tập lớn và thời gian tra cứu nhanh. +- **Extensible** – Có thể tích hợp các engine OCR tùy chỉnh hoặc bộ trích xuất đặc trưng hình ảnh nếu cần. +- **Cross‑platform** – Hoạt động trên bất kỳ môi trường tương thích Java nào, từ máy tính để bàn đến đám mây. + +## Yêu cầu trước +- Java 8 hoặc mới hơn đã được cài đặt. +- Thư viện GroupDocs.Search for Java đã được thêm vào dự án của bạn (Maven/Gradle). +- (Optional) Aspose.OCR for Java nếu bạn muốn độ chính xác OCR tốt nhất. +- Một tập hợp các hình ảnh bạn muốn lập chỉ mục và tìm kiếm. + +## Hướng dẫn từng bước + +### Bước 1: Thiết lập chỉ mục tìm kiếm +Tạo một thể hiện `SearchIndex` mới trỏ tới thư mục nơi các tệp chỉ mục sẽ được lưu trữ. Thư mục này sẽ chứa cả siêu dữ liệu văn bản và hình ảnh. + +### Bước 2: Cấu hình OCR cho các tệp hình ảnh +Bật OCR trong các tùy chọn lập chỉ mục để bất kỳ hình ảnh nào được thêm vào chỉ mục đều được xử lý để trích xuất văn bản. Đây là nơi từ khóa phụ **extract text from images java** đóng vai trò. + +### Bước 3: Lập chỉ mục các hình ảnh của bạn +Thêm mỗi tệp hình ảnh vào chỉ mục. Trong quá trình này, GroupDocs.Search trích xuất các đặc trưng trực quan cho reverse search và chạy OCR để lấy bất kỳ văn bản nhúng nào. + +### Bước 4: Thực hiện tìm kiếm hình ảnh ngược +Cung cấp một hình ảnh truy vấn cho phương thức `search`. Engine so sánh các dấu vân tay trực quan và trả về danh sách xếp hạng các hình ảnh tương tự từ chỉ mục. + +### Bước 5: Lấy văn bản OCR (nếu cần) +Nếu bạn cũng cần nội dung văn bản được tìm thấy bên trong hình ảnh, truy vấn chỉ mục để lấy văn bản đã được OCR‑trích xuất bằng tìm kiếm từ khóa tiêu chuẩn. + +## Các vấn đề thường gặp và giải pháp +- **No results returned:** Kiểm tra xem bộ trích xuất đặc trưng hình ảnh đã được bật chưa và chỉ mục đã được xây dựng lại sau khi thêm hình ảnh mới chưa. +- **OCR text is missing:** Đảm bảo engine OCR được tham chiếu đúng trong các phụ thuộc dự án và định dạng hình ảnh được hỗ trợ (ví dụ: PNG, JPEG, TIFF). +- **Performance slowdown:** Xem xét chia các bộ sưu tập hình ảnh lớn thành nhiều chỉ mục hoặc sử dụng lập chỉ mục tăng dần để duy trì thời gian tìm kiếm ngắn. + +## Câu hỏi thường gặp + +**Q: Tôi có thể sử dụng reverse image search Java trên các nền tảng đám mây không?** +A: Có, thư viện không phụ thuộc vào nền tảng và hoạt động trên bất kỳ môi trường nào hỗ trợ Java, bao gồm AWS, Azure và Google Cloud. + +**Q: Độ chính xác của việc trích xuất OCR cho các ngôn ngữ khác nhau như thế nào?** +A: Aspose.OCR hỗ trợ hơn 60 ngôn ngữ; bạn có thể chỉ định ngôn ngữ trong các tùy chọn OCR để có độ chính xác tốt hơn. + +**Q: Có thể kết hợp tìm kiếm từ khóa với độ tương đồng hình ảnh không?** +A: Chắc chắn. Bạn có thể đầu tiên lọc kết quả bằng truy vấn từ khóa và sau đó xếp hạng các mục còn lại dựa trên độ tương đồng trực quan. + +**Q: Các định dạng tệp nào được hỗ trợ cho việc lập chỉ mục hình ảnh?** +A: Các định dạng phổ biến như JPEG, PNG, BMP và TIFF đều được hỗ trợ đầy đủ ngay từ đầu. + +**Q: Làm thế nào để cập nhật chỉ mục khi hình ảnh thay đổi?** +A: Sử dụng phương thức `update` để xử lý lại các hình ảnh đã sửa đổi, hoặc xóa và thêm lại chúng để giữ chỉ mục luôn cập nhật. + +## Tài nguyên bổ sung + +### Các hướng dẫn có sẵn + +#### [Cấu hình nhận dạng ký tự trong GroupDocs.Search cho Java: Hướng dẫn OCR & Tìm kiếm Hình ảnh](./groupdocs-search-java-character-recognition/) +Tìm hiểu cách cấu hình nhận dạng ký tự bằng GroupDocs.Search cho Java, tập trung vào các ký tự thường và kết hợp. Nâng cao quản lý tài liệu của bạn với khả năng tìm kiếm nâng cao. + +#### [Hướng dẫn lập chỉ mục OCR Java với Aspose và GroupDocs: Nâng cao khả năng tìm kiếm tài liệu](./java-ocr-indexing-aspose-groupdocs-search/) +Tìm hiểu cách triển khai lập chỉ mục OCR Java mạnh mẽ bằng GroupDocs.Search và Aspose.OCR để nâng cao khả năng tìm kiếm tài liệu. + +### Liên kết hữu ích + +- [Tài liệu GroupDocs.Search cho Java](https://docs.groupdocs.com/search/java/) +- [Tham chiếu API GroupDocs.Search cho Java](https://reference.groupdocs.com/search/java/) +- [Tải xuống GroupDocs.Search cho Java](https://releases.groupdocs.com/search/java/) +- [Diễn đàn GroupDocs.Search](https://forum.groupdocs.com/c/search) +- [Hỗ trợ miễn phí](https://forum.groupdocs.com/) +- [Giấy phép tạm thời](https://purchase.groupdocs.com/temporary-license/) + +--- + +**Last Updated:** 2026-01-11 +**Tested With:** GroupDocs.Search for Java 23.11 +**Author:** GroupDocs \ No newline at end of file diff --git a/content/vietnamese/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md b/content/vietnamese/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md new file mode 100644 index 00000000..6455cc83 --- /dev/null +++ b/content/vietnamese/java/ocr-image-search/groupdocs-search-java-character-recognition/_index.md @@ -0,0 +1,231 @@ +--- +date: '2026-01-11' +description: Tìm hiểu cách tạo chỉ mục tìm kiếm tùy chỉnh bằng GroupDocs.Search cho + Java, cấu hình các ký tự thường và hỗn hợp cho OCR và tìm kiếm hình ảnh nâng cao. +keywords: +- GroupDocs.Search Java +- Java OCR character recognition +- search library Java +title: Tạo chỉ mục tìm kiếm tùy chỉnh với nhận dạng ký tự – GroupDocs.Search Java +type: docs +url: /vi/java/ocr-image-search/groupdocs-search-java-character-recognition/ +weight: 1 +--- + +# Tạo chỉ mục tìm kiếm tùy chỉnh với nhận dạng ký tự bằng GroupDocs.Search cho Java + +Trong các ứng dụng hiện đại có lượng tài liệu lớn, **việc tạo chỉ mục tìm kiếm tùy chỉnh** có khả năng hiểu các chi tiết tinh tế của văn bản—như dấu gạch ngang, dấu gạch dưới hoặc các ký hiệu đặc thù của ngôn ngữ—là điều cần thiết để truy xuất nhanh chóng và chính xác. Hướng dẫn này sẽ chỉ cho bạn cách cấu hình nhận dạng ký tự trong **GroupDocs.Search cho Java**, bao gồm cả ký tự thường (chữ cái, chữ số, dấu gạch dưới) và ký tự kết hợp (ví dụ: dấu gạch ngang). Khi hoàn thành, bạn sẽ có thể tùy chỉnh một chỉ mục phù hợp với nhu cầu chính xác của kịch bản OCR hoặc tìm kiếm hình ảnh. + +## Câu trả lời nhanh +- **What does “create custom search index” mean?** Nó có nghĩa là cấu hình một chỉ mục để xử lý các ký hiệu cụ thể như là chữ cái hoặc ký tự kết hợp, thay vì bỏ qua chúng. +- **Which library is used?** GroupDocs.Search for Java (v25.4 tại thời điểm viết). +- **Do I need a license?** Bản dùng thử miễn phí hoạt động cho phát triển; giấy phép trả phí cần thiết cho môi trường sản xuất. +- **Can I index both PDFs and images?** Có—GroupDocs.Search hỗ trợ OCR trên hình ảnh và PDF khi được cấu hình đúng. +- **Is Maven required?** Maven là cách được khuyến nghị để quản lý các phụ thuộc, nhưng bạn cũng có thể sử dụng Gradle hoặc các JAR thủ công. + +## Chỉ mục tìm kiếm tùy chỉnh là gì? +Một chỉ mục tìm kiếm tùy chỉnh cho phép bạn xác định cách công cụ tìm kiếm diễn giải các ký tự. Theo mặc định, nhiều ký hiệu bị bỏ qua, điều này có thể dẫn đến việc không khớp được các trường hợp như số vụ án (`ABC-123`) hoặc đoạn mã (`my_variable`). Việc điều chỉnh từ điển bảng chữ cái cho phép bạn kiểm soát hoàn toàn những gì công cụ coi là văn bản có thể tìm kiếm. + +## Tại sao cần cấu hình ký tự thường và ký tự kết hợp? +- **Regular characters** (letters, digits, underscores) được xử lý như các token độc lập, cải thiện khả năng tìm kiếm khớp chính xác. +- **Blended characters** (hyphens, slashes) nối các từ; việc cấu hình chúng ngăn ngừa việc tách token không mong muốn, điều này quan trọng đối với các tham chiếu pháp lý, mã sản phẩm hoặc việc lập chỉ mục mã nguồn. + +## Yêu cầu trước +- **JDK 8** hoặc phiên bản mới hơn đã được cài đặt. +- **Maven** để quản lý phụ thuộc. +- Truy cập vào thư viện **GroupDocs.Search for Java** (tải về qua Maven hoặc trang chính thức). + +### Thư viện và phụ thuộc cần thiết +Thêm các mục repository và dependency vào file `pom.xml` của bạn (như được hiển thị bên dưới). Khối XML phải được giữ nguyên. + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +Bạn cũng có thể tải các JAR mới nhất từ [GroupDocs.Search for Java releases](https://releases.groupdocs.com/search/java/). + +### Cách lấy giấy phép +- **Free Trial** – hoàn hảo cho việc thử nghiệm ban đầu. +- **Temporary License** – hữu ích cho các chu kỳ phát triển dài hơn. +- **Production License** – cần thiết cho triển khai thương mại. + +Nhận giấy phép từ cổng thông tin chính thức: [GroupDocs](https://purchase.groupdocs.com/temporary-license/). + +### Khởi tạo cơ bản +Đoạn mã dưới đây hiển thị code tối thiểu cần thiết để khởi tạo một chỉ mục trống. Giữ nguyên như hiện tại; chúng ta sẽ xây dựng tiếp sau. + +```java +import com.groupdocs.search.*; + +public class GroupDocsSearchSetup { + public static void main(String[] args) { + String indexFolder = "YOUR_OUTPUT_DIRECTORY"; + String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; + + Index index = new Index(indexFolder); + + System.out.println("GroupDocs.Search setup completed!"); + } +} +``` + +## Cài đặt GroupDocs.Search cho Java + +### Cài đặt qua Maven +Cấu hình Maven từ phần *Prerequisites* là tất cả những gì bạn cần. Sau khi thêm, chạy `mvn clean install` để tải các binary. + +### Yêu cầu thiết lập môi trường +- Đảm bảo **thư mục chỉ mục** và **thư mục tài liệu** tồn tại trên đĩa. +- Sử dụng đường dẫn tuyệt đối hoặc cấu hình IDE của bạn để giải quyết đúng các đường dẫn tương đối. + +## Hướng dẫn triển khai + +Dưới đây chúng tôi sẽ hướng dẫn qua hai tính năng riêng biệt: **regular characters** và **blended characters**. Mỗi tính năng tuân theo cùng một mẫu—định nghĩa đường dẫn, tạo chỉ mục, thiết lập từ điển ký tự, và cuối cùng là lập chỉ mục cho tài liệu của bạn. + +### Tính năng 1 – Ký tự thường + +#### Tổng quan +Ký tự thường được xử lý như các token độc lập. Điều này lý tưởng khi bạn muốn các chữ số, chữ cái và dấu gạch dưới có thể tìm kiếm chính xác như chúng xuất hiện. + +#### Triển khai từng bước + +**1️⃣ Set Up Paths** +Xác định nơi sẽ lưu trữ chỉ mục và nơi các tài liệu nguồn của bạn nằm. + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/RegularCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Create and Configure Index** +Tạo một thể hiện của chỉ mục và xóa bất kỳ cấu hình bảng chữ cái nào đã tồn tại trước đó. + +```java +Index index = new Index(indexFolder); +index.getDictionaries().getAlphabet().clear(); +``` + +**3️⃣ Define Regular Characters** +Xây dựng một mảng ký tự bao gồm các chữ số, chữ Latin và dấu gạch dưới. + +```java +StringBuilder sb = new StringBuilder(); +for (char i = 0x0030; i <= 0x0039; i++) { // Digits + sb.append(i); +} +for (char i = 0x0041; i <= 0x005A; i++) { // Latin capital letters + sb.append(i); +} +sb.append(0x005F); // Underscore +for (char i = 0x0061; i <= 0x007A; i++) { // Latin small letters + sb.append(i); +} + +// Convert to character array and set as alphabet range +char[] characters = new char[sb.length()]; +sb.getChars(0, sb.length(), characters, 0); +index.getDictionaries().getAlphabet().setRange(characters, CharacterType.Letter); +``` + +**4️⃣ Index Documents** +Thêm tất cả các tệp từ thư mục nguồn vào chỉ mục mới cấu hình. + +```java +index.add(documentFolder); +``` + +### Tính năng 2 – Ký tự kết hợp + +#### Tổng quan +Ký tự kết hợp (như dấu gạch ngang) thường nối hai từ. Đánh dấu chúng là *blended* sẽ yêu cầu engine giữ các token xung quanh lại với nhau trong quá trình lập chỉ mục. + +#### Triển khai từng bước + +**1️⃣ Set Up Paths** + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/CharacterTypes/BlendedCharacters"; +String documentFolder = "YOUR_DOCUMENT_DIRECTORY"; +``` + +**2️⃣ Create and Configure Index** + +```java +Index index = new Index(indexFolder); +``` + +**3️⃣ Define Blended Characters** +Ở đây chúng ta thông báo cho từ điển rằng dấu gạch ngang nên được xử lý như một ký tự kết hợp. + +```java +index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended); +``` + +**4️⃣ Index Documents** + +```java +index.add(documentFolder); +``` + +## Ứng dụng thực tiễn + +### Trường hợp sử dụng 1 – Quản lý tài liệu pháp lý +Các tài liệu pháp lý thường chứa các số vụ án như `2023-AB-456`. Bằng cách cấu hình dấu gạch dưới và dấu gạch ngang, việc tìm kiếm sẽ trả về các kết quả khớp chính xác mà không tách biệt định danh. + +### Trường hợp sử dụng 2 – Kho mã nguồn +Các nhà phát triển cần tìm kiếm các đoạn mã nơi dấu gạch dưới (`my_variable`) và dấu gạch ngang (`my-function`) có ý nghĩa. Nhận dạng ký tự tùy chỉnh đảm bảo công cụ tìm kiếm tôn trọng các ký hiệu này. + +### Trường hợp sử dụng 3 – Bộ dữ liệu đa ngôn ngữ +Khi làm việc với các ngôn ngữ sử dụng bảng chữ cái bổ sung, bạn có thể mở rộng tập ký tự thường để bao gồm các dải Unicode đó, đảm bảo kết quả tìm kiếm chính xác qua các ngôn ngữ. + +## Các cân nhắc về hiệu năng + +- **Resource Management** – Giám sát việc sử dụng heap; các chỉ mục lớn hưởng lợi từ các commit tăng dần. +- **Garbage Collection** – Giải phóng các đối tượng `Index` khi hoàn thành để JVM thu hồi bộ nhớ. +- **Index Optimization** – Thỉnh thoảng gọi `index.optimize()` (nếu có) để nén chỉ mục và cải thiện tốc độ truy vấn. + +## Kết luận + +Bạn đã biết cách **tạo một chỉ mục tìm kiếm tùy chỉnh** phân biệt giữa ký tự thường và ký tự kết hợp bằng cách sử dụng GroupDocs.Search cho Java. Kiểm soát chi tiết này cho phép bạn xây dựng các giải pháp tìm kiếm hiệu suất cao, hỗ trợ OCR, phù hợp với môi trường pháp lý, phát triển hoặc đa ngôn ngữ. + +**Next Steps** +- Thử nghiệm các dải Unicode bổ sung cho các bảng chữ cái không phải Latin. +- Kết hợp cấu hình ký tự với các tính năng khác của GroupDocs.Search như stemming hoặc synonyms. +- Tích hợp chỉ mục vào một REST API để cung cấp khả năng tìm kiếm cho các ứng dụng front‑end. + +## Câu hỏi thường gặp + +**Q:** *What is the purpose of `CharacterType.Letter`?* +**A:** Nó cho phép chỉ mục xử lý các ký tự được cung cấp như là các chữ cái thường, vì vậy chúng được tách token riêng biệt trong quá trình lập chỉ mục. + +**Q:** *Can I mix regular and blended characters in the same index?* +**A:** Có—chỉ cần gọi `setRange` cho mỗi loại; từ điển sẽ xử lý cả hai cấu hình đồng thời. + +**Q:** *Do I need to rebuild the index after changing the alphabet?* +**A:** Chắc chắn. Các thay đổi trong từ điển ký tự ảnh hưởng đến việc tách token, vì vậy bạn phải lập chỉ mục lại các tài liệu để áp dụng các quy tắc mới. + +**Q:** *Is there a limit to the number of custom characters I can define?* +**A:** Thư viện hỗ trợ toàn bộ dải Unicode; hiệu năng có thể giảm nếu bạn thêm một tập hợp rất lớn, vì vậy hãy giới hạn chỉ những ký tự bạn thực sự cần. + +**Q:** *How does this affect OCR accuracy?* +**A:** Bằng cách đồng bộ bộ ký tự của chỉ mục với đầu ra của engine OCR, bạn giảm các kết quả âm tính giả và cải thiện độ liên quan chung của tìm kiếm. + +--- + +**Last Updated:** 2026-01-11 +**Tested With:** GroupDocs.Search 25.4 for Java +**Author:** GroupDocs \ No newline at end of file diff --git a/content/vietnamese/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md b/content/vietnamese/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md new file mode 100644 index 00000000..afa9218f --- /dev/null +++ b/content/vietnamese/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/_index.md @@ -0,0 +1,185 @@ +--- +date: '2026-01-11' +description: Tìm hiểu cách sử dụng GroupDocs for Java OCR indexing cùng Aspose.OCR, + cho phép khả năng tìm kiếm tài liệu mạnh mẽ trên các tệp PDF, hình ảnh và tài liệu + đã quét. +keywords: +- Java OCR indexing +- document searchability +- OCR with GroupDocs +title: Cách sử dụng GroupDocs cho Java để đánh chỉ mục OCR với Aspose +type: docs +url: /vi/java/ocr-image-search/java-ocr-indexing-aspose-groupdocs-search/ +weight: 1 +--- + +# Cách Sử Dụng GroupDocs cho Java OCR Indexing với Aspose + +Trong hướng dẫn này, bạn sẽ khám phá **cách sử dụng GroupDocs** để thêm tìm kiếm dựa trên OCR vào các ứng dụng Java của mình. Bằng cách kết hợp GroupDocs.Search với Aspose.OCR, bạn có thể chuyển nội dung dựa trên hình ảnh thành văn bản có thể tìm kiếm, làm cho hệ thống quản lý tài liệu trở nên hữu ích hơn rất nhiều. Chúng tôi sẽ hướng dẫn qua việc cài đặt, lập chỉ mục, tìm kiếm và tích hợp OCR tùy chỉnh, tất cả với các ví dụ rõ ràng, từng bước. + +## Câu trả lời nhanh +- **Thư viện nào cung cấp OCR indexing?** GroupDocs.Search kết hợp với Aspose.OCR. +- **Phiên bản Java nào được yêu cầu?** JDK 8 hoặc cao hơn. +- **Tôi có cần giấy phép không?** Có bản dùng thử miễn phí; giấy phép trả phí cần thiết cho môi trường sản xuất. +- **Tôi có thể lập chỉ mục cả hình ảnh riêng lẻ và nhúng không?** Có, bật cả hai tùy chọn trong `IndexingOptions`. +- **Có hỗ trợ đa luồng không?** Có, bạn có thể song song hoá việc lập chỉ mục cho các tập dữ liệu lớn. + +## OCR Indexing là gì với GroupDocs? +OCR indexing trích xuất văn bản từ hình ảnh (bao gồm PDF đã quét) và lưu trữ nó trong một chỉ mục có thể tìm kiếm. GroupDocs.Search chịu trách nhiệm lập chỉ mục và thực thi truy vấn, trong khi Aspose.OCR thực hiện việc nhận dạng ký tự thực tế. + +## Tại sao nên sử dụng GroupDocs cho Java OCR indexing? +- **Độ chính xác cao** nhờ vào engine OCR tiên tiến của Aspose. +- **Tích hợp Java liền mạch** qua Maven hoặc JAR trực tiếp. +- **Cấu hình linh hoạt** cho hình ảnh riêng lẻ hoặc nhúng. +- **Hiệu năng mở rộng** với đa luồng và tối ưu bộ nhớ. + +## Yêu cầu trước +- **GroupDocs.Search** ≥ 25.4 +- **Aspose.OCR** (phiên bản mới nhất) +- JDK 8+ và một IDE (IntelliJ, Eclipse, NetBeans) +- Kiến thức Java cơ bản; Maven hữu ích nhưng không bắt buộc + +## Cài đặt GroupDocs.Search cho Java +### Sử dụng Maven +Thêm repository và dependency vào file `pom.xml` của bạn: + +```xml + + + repository.groupdocs.com + GroupDocs Repository + https://releases.groupdocs.com/search/java/ + + + + + com.groupdocs + groupdocs-search + 25.4 + + +``` + +### Tải trực tiếp +Hoặc, tải phiên bản mới nhất của GroupDocs.Search cho Java từ [GroupDocs releases](https://releases.groupdocs.com/search/java/). + +### Nhận giấy phép +- **Free Trial** – khám phá tất cả tính năng mà không tốn phí. +- **Temporary License** – thời gian thử nghiệm kéo dài. +- **Purchase** – cần thiết cho triển khai sản xuất. + +### Khởi tạo và Cài đặt Cơ bản +Tạo thư mục chỉ mục và khởi tạo đối tượng `Index`: + +```java +import com.groupdocs.search.Index; +// Specify the directory where the index will be stored. +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +// Create an instance of Index class at the specified location. +Index index = new Index(indexFolder); +``` + +## Cách Sử Dụng GroupDocs cho OCR Indexing +### Tạo một Index +Đầu tiên, thiết lập thư mục sẽ chứa các tệp chỉ mục: + +```java +String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport"; +Index index = new Index(indexFolder); +``` + +### Cài đặt tùy chọn OCR Indexing +Bật OCR cho cả hình ảnh riêng lẻ và nhúng, và tích hợp một connector OCR tùy chỉnh: + +```java +import com.groupdocs.search.options.IndexingOptions; +IndexingOptions options = new IndexingOptions(); +options.getOcrIndexingOptions().setEnabledForSeparateImages(true); +options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true); +// Set a custom OCR connector. +options.getOcrIndexingOptions().setOcrConnector(new OcrConnector()); +``` + +### Lập chỉ mục tài liệu +Thêm các tài liệu nguồn của bạn (PDF, tệp Word, hình ảnh, v.v.) vào chỉ mục: + +```java +String documentsFolder = "YOUR_DOCUMENT_DIRECTORY"; +index.add(documentsFolder, options); +``` + +### Tìm kiếm trong Index +Thực hiện truy vấn tìm kiếm trên nội dung đã lập chỉ mục: + +```java +import com.groupdocs.search.results.SearchResult; +String query = "water"; +SearchResult result = index.search(query); +``` + +### Triển khai OCR Connector +Sử dụng Aspose.OCR để nhận dạng văn bản từ hình ảnh. Triển khai giao diện `IOcrConnector` như sau: + +```java +import com.groupdocs.search.options.IOcrConnector; +import com.groupdocs.search.options.OcrContext; +import java.awt.image.BufferedImage; +import javax.imageio.ImageIO; +import com.aspose.ocr.AsposeOCR; + +public class OcrConnector implements IOcrConnector { + @Override + public final String recognize(OcrContext context) { + if (null == context.getImageLocation()) { + throw new RuntimeException("The image type is not supported: " + context.getImageLocation()); + } + + BufferedImage image = ImageIO.read(context.getImageLocation().toFile()); + AsposeOCR api = new AsposeOCR(); + String text = api.RecognizePage(image); + return text; + } +} +``` + +## Ứng dụng Thực tiễn +1. **Document Management Systems** – truy xuất nhanh các tài liệu chứa hình ảnh đã quét. +2. **Archival Retrieval** – tìm kiếm hồ sơ lịch sử trong các kho lưu trữ lớn. +3. **Legal Document Analysis** – tìm kiếm hợp đồng và bằng chứng có chứa chữ ký hoặc sơ đồ đã quét. +4. **Medical Records Search** – lập chỉ mục các mẫu bệnh nhân, kết quả xét nghiệm và chú thích X‑ray. + +## Các yếu tố hiệu năng +- **Index Size** – loại bỏ siêu dữ liệu không cần thiết để giữ chỉ mục gọn nhẹ. +- **Multi‑Threading** – xử lý các lô lớn song song để tăng tốc độ lập chỉ mục. +- **Memory Management** – giám sát heap JVM khi xử lý hình ảnh độ phân giải cao. + +## Các vấn đề thường gặp và giải pháp +- **License Errors** – đảm bảo tệp giấy phép đúng được đặt trong thư mục làm việc của ứng dụng. +- **Missing Images** – kiểm tra đường dẫn hình ảnh có thể truy cập và định dạng được hỗ trợ (PNG, JPEG, BMP). +- **Out‑Of‑Memory** – tăng heap JVM (`-Xmx`) hoặc xử lý tài liệu theo các lô nhỏ hơn. + +## Câu hỏi thường gặp +**Q: Làm thế nào để giải quyết vấn đề giấy phép với GroupDocs.Search?** +A: Nhận giấy phép tạm thời từ [GroupDocs website](https://purchase.groupdocs.com/temporary-license/) để mở khóa đầy đủ tính năng. + +**Q: Cách tốt nhất để xử lý việc lập chỉ mục tài liệu lớn là gì?** +A: Sử dụng đa luồng và xử lý theo lô để cải thiện hiệu năng và giảm áp lực bộ nhớ. + +**Q: Tôi có thể tùy chỉnh thêm cài đặt OCR trong GroupDocs.Search không?** +A: Có, `IndexingOptions` cho phép bạn tinh chỉnh hành vi OCR, như lựa chọn ngôn ngữ và tiền xử lý hình ảnh. + +**Q: Một số mẹo khắc phục sự cố thường gặp khi sử dụng GroupDocs.Search là gì?** +A: Kiểm tra lại đường dẫn thư mục, xác nhận rằng tất cả các phụ thuộc đã có, và xem lại log để tìm các tệp bị thiếu. + +**Q: Làm thế nào tôi có thể tích hợp Aspose.OCR vào ứng dụng Java hiện tại của mình?** +A: Triển khai giao diện `IOcrConnector` như đã minh họa ở trên, đảm bảo bạn xử lý đầu vào hình ảnh đúng cách. + +## Tài nguyên +- [Tài liệu GroupDocs.Search](https://docs.groupdocs.com/search/java/) +- [Tham chiếu API](https://reference.groupdocs.com/search/java/) + +--- + +**Cập nhật lần cuối:** 2026-01-11 +**Đã kiểm tra với:** GroupDocs.Search 25.4, Aspose.OCR latest release +**Tác giả:** GroupDocs \ No newline at end of file