مسح وتحويل الصور إلى نص مع OCR ، التعرف الضوئي على الحروف

2016-09-02 11:42:19
رئيسي·البرمجيات·مسح وتحويل الصور إلى نص مع OCR ، التعرف الضوئي على الحروف

ليس من غير المعروف أنك قد تتلقى مستندًا عبر البريد الإلكتروني تم إرساله إليك في نموذج صورة أو ربما كملف PDF وتحتاج إلى أن تكون قادرًا على التحرير أو أن يكون النص في شكل قابل للتحرير. في بعض الأحيان قد تضطر إلى مسح بعض المستندات ضوئيًا عبر ماسح ضوئي وتحتاج إلى القدرة على تحريرها من معالج النصوص الخاص بك.

تحرير صورة أو مسحها ضوئيًا مباشرةً في الملف غير ممكن في حد ذاته ، وما لم يكن لديك الوقت لتجنيب ، فلن ترغب في كتابة كل شيء بنفسك. ما تحتاجه هو شيء كان موجودًا منذ فترة يدعى التعرف البصري على الأحرف (OCR) والذي يترجم النص في الصور إلى نص يمكنك تحريره. بعض من أفضل حزم برامج OCR هي Omnipage و FineReader ولكنها تكلف أموالًا كبيرة. إليك مجموعة مختارة من الطرق المجانية في الغالب لتحويل نصك إلى شكل قابل للتحرير. 1. FreeOCR

FreeOCR هو برنامج OCR يعتمد على محرك Tesseract مفتوح المصدر والذي تحتفظ به Google ويعتبر دقيق للغاية. يمكنه قبول الإدخال مباشرة من ماسح ضوئي وملف PDF والعديد من أنواع مختلفة من تنسيقات الصور بما في ذلك ملفات TIFF متعددة الصفحات أثناء دعم التحويل باستخدام 11 لغة مختلفة. يمكنك أيضًا تحديد أجزاء معينة من مستند الإدخال للتحويل وهو أمر مفيد لكتل ​​أو أعمدة نصية متعددة ويمكن تصدير الإخراج مباشرة إلى Word أو بتنسيق نص منسق.

انتبه أثناء التثبيت حيث يستخدم البرنامج Install Manager ليقدم لك عددًا قليلاً من برامج الإعلانات. يعمل FreeOCR على Windows XP إلى Windows 8 ، مطلوب تثبيت .NET Framework v2 لمستخدمي XP. يُسمح باستخدام FreeOCR أيضًا للاستخدام التجاري والشخصي.

تنزيل FreeOCR


2. SimpleOCR

برنامج SimpleOCR مجاني للاستخدام الشخصي والتعليمي والتجاري ويقبل الإدخال من ماسح ضوئي و JPG و BMP وصور TIFF متعددة الصفحات. يمكن حفظ النص الناتج كملف نصي قياسي أو مستند Word. بعد التثبيت ، عند تشغيل SimpleOCR للمرة الأولى ، تأكد من تحديد الخيار "Machine Print" العلوي المجاني ، الخيار السفلي هو عرض تجريبي لمدة 14 يومًا من البرنامج الأكثر تقدمًا. ثم اختر واحدة من اللغات الأربع لملفك الشخصي وانقر على تحديد.

يمكن إضافة عدة صفحات عن طريق النقر على زر إضافة صفحة وتحويلها باستخدام تحويل إلى نص. بعد اكتمال التعرف على الأحرف ، سيتم عرض النص الناتج في النافذة السفلية بكلمات ملونة لإبلاغك بالمشكلات المحتملة في التهجئة. الأزرق هو كلمات مشبوهة ، الأحمر هو كلمات غير موجودة في قاموس البرنامج إلخ ، ويمكن التحقق من كل من هذه الكلمات بقائمة منسدلة من البدائل المقدمة.

تنزيل SimpleOCR


3. i2OCR

i2OCR عبارة عن خدمة تحويل OCR مجانية وغير محدودة عبر الإنترنت من Sciweavers.org تقبل الإدخال من صور تنسيقات TIF و JPG و PNG و BMP و GIF و PBM و PGM و PPM. هناك دعم ل 33 لغة ضخمة وعلى الرغم من أن الحد الأقصى لحجم الملف يقتصر على 10 ميجا بايت ، فيجب أن يكون كافيًا لمعظم الاستخدامات العامة.

الاستخدام بسيط للغاية ، ما عليك سوى تحديد الزر للتصفح بحثًا عن ملف على جهاز الكمبيوتر الخاص بك ، أو يمكن لخيار URL الحصول على ملف مباشرة من موقع عبر الإنترنت مثل Dropbox وما إلى ذلك. اختر لغتك من القائمة المنسدلة وانقر فوق الزر الكبير للتحويل الملف ، كان وقت التحويل فقط مسألة ثوان عند اختباره. تبدو دقة التحويل ممتازة على الرغم من أنها نص عادي فقط ، وستظهر جنبًا إلى جنب مع الصورة الأصلية أسفل النافذة التي يمكنك بعد ذلك النقر عليها لتمييزها ونسخها إلى مستند أو حفظها مباشرة كملف Word .DOC . يحتوي Sciweavers أيضًا على العديد من أدوات تحويل التنسيق المفيدة الأخرى بما في ذلك تحويل الملفات إلى PDF.

قم بزيارة i2OCR


4. التعرف الضوئي على الحروف عبر الإنترنت

Free OCR Online لديه خدمة مجانية ومدفوعة ، الخدمة المجانية التي تمكنك من تحويل ما يصل إلى 15 صفحة في الساعة. وهذا يشمل تحميل ملفات JPG و BMP و TIF و PNG و PCX و GIF و PDF متعدد الصفحات للمعالجة إلى واحدة من 32 لغة معروفة بحجم يصل إلى 4 ميجا بايت لكل منها. يمكن أن يكون الناتج إما مستند Word (DOC) أو جدول بيانات Excel (XLS) أو ملف نص عادي (TXT).

اختر ملفك المحلي للتحميل ، انقر فوق الزر تحميل ، وأدخل كلمة التحقق المرقمة وقم بتعيين اللغة المطلوبة وتنسيق الإخراج. ثم انقر فوق التعرف وانتظر بضع ثوان أثناء التحويل. سيظهر النص الناتج أسفله مع زر لتنزيله بتنسيق الملف المختار.

زيارة OCR عبر الإنترنت


5. OCR مجاني على الإنترنت

تدعم هذه الخدمة عبر الإنترنت تحميل تنسيقات الصور الأكثر شيوعًا لـ JPG و GIF و BMP و PNG و TIFF وأيضًا دعم تحويل OCR لمستندات PDF. بعد التحويل ، يمكن أيضًا إخراج النص الناتج إلى بعض التنسيقات المختلفة لـ Word DOC و Richtext RTF و TXT العادي وأيضًا مستند PDF متعدد الطبقات. يبذل البرنامج أيضًا قصارى جهده للحفاظ على تنسيق النص وتنسيقه بالقرب من النسخة الأصلية قدر الإمكان.

لاستخدام الخدمة ، ما عليك سوى اختيار ملفك للتحميل وتحميل التنسيق الذي تريد حفظه به ، ثم النقر فوق الزر. ستحصل على مقياس تقدم جيد للنظر إليه أثناء التحويل وسيظهر زر التنزيل بمجرد اكتماله. يبدو أن Free OCR Online يعمل بشكل جيد ويحافظ على أحجام الخطوط والتنسيق في معظم الحالات. الخدمة مجانية للاستخدام ولكن لا يوجد ذكر لحجم الملف أو حدود الاستخدام وهو أمر محير بعض الشيء لأننا لا نعرف ما إذا كانت غير محدودة حقًا أم أنهم لم يذكروا ما هي القيود ...

قم بزيارة Free OCR Online


6. NewOCR

من المؤكد أن خدمة OCR المجانية عبر الإنترنت لديها الكثير من دعم تنسيق الإدخال. هناك 9 تنسيقات صور شائعة ، ودعم للصور داخل أرشيفات Zip ، ومستندات متعددة الصفحات مثل PDF و TIFF و DjVu ، وكذلك ملفات DOCX و ODT. قائمة الإخراج أصغر لكنها لا تزال مفيدة مع توفير ملفات TXT و DOC و PDF. يتم التعامل مع التعرف من خلال محركات Tesseract و Cuneiform ويمكن التعرف على ما مجموعه 58 لغة بالإضافة إلى نص متعدد الأعمدة وكذلك صور منخفضة الجودة.

لاستخدام NewOCR ، ما عليك سوى تحديد ملفك المحلي أو ملف واحد مباشر من عنوان URL ، واختيار لغة التعرف ثم الضغط على زر معاينة. سيؤدي ذلك إلى تحميل صفحة معاينة وتحت ذلك ، يتم عرض نص OCR المحول. إذا لم تتمكن من رؤية النص ، فاضغط على الزر OCR الأزرق. يمكن تصدير النص بطرق متنوعة بما في ذلك التنزيل القياسي إلى أحد تنسيقات الملفات الثلاثة ، والنسخ إلى الحافظة ، ووضعها من خلال مترجم Google أو Bing ، واللصق عبر الإنترنت إلى Pastebin أو Pastie وحتى إرسال مباشرة إلى محرر مستندات Google. يحتوي NewOCR على تحميلات غير محدودة ولا يتطلب أي تسجيل.

قم بزيارة NewOCR


7. تصوير مستندات Microsoft Office

كما نعلم ، فإن Microsoft Office ليس منتجًا مجانيًا ولكن من المحتمل أن يكون هناك عدد كبير من المستخدمين مثبتين عليه. يمكن لأداة تصوير مستندات Office إجراء OCR على مستند والنتائج جيدة جدًا ، ولكن للأسف لا تتوفر بسهولة على جميع إصدارات Office. يجب أن يكون Office 2003 مضمنًا في التثبيت افتراضيًا ، وسيتعين على مستخدمي Office 2007 إضافته يدويًا من خيار إضافة المكونات ، ولن يكون موجودًا في Office 2010 بشكل افتراضي. يمكن العثور على إرشادات حول كيفية إضافة MODI إلى Office 2010 على Microsoft.com.

يمكن العثور على خيار Microsoft Office Document Imaging في قائمة ابدأ -> البرامج -> Microsoft Office -> أدوات Microsoft Office. إنه يتعرف فقط على صور TIFF كمصدر إدخال ، لذا ستحتاج على الأرجح إلى تحويل مستنداتك مسبقًا. افتح الملف وانقر على أيقونة العين في شريط الأدوات المسمى "التعرف على النص باستخدام OCR". ثم انقر فوق الزر الموجود على يمينه لإرسال النص مباشرة إلى Word.

ملاحظة المحرر: OCROnline كانت خدمة مجانية أخرى تم اختبارها ولكن ليس لديك سوى 5 تحويلات مجانية لصفحة واحدة في الأسبوع وهي مقيدة بعض الشيء ، ويجب عليك أيضًا إنشاء حساب. جودة التحويل جيدة جدًا على الرغم من أنك تحتاج فقط إلى الصفحة الفردية بين الحين والآخر.

يحتوي محرر مستندات Google أيضًا على خيار لتحويل ملفات PDF والصور إلى مستندات عبر OCR. انتقل إلى Google Drive وانقر على الخيارات -> إعدادات التحميل -> تحويل النص من ملفات PDF والصور التي تم تحميلها ، وحدد أيضًا خيار التأكيد. سيطلب منك ذلك بعد ذلك ما إذا كنت تريد التعرف على صورة أو ملف PDF عند تحميل ملف إلى Google Drive.

اختيار المحرر