علمت Yandex الشبكات العصبية فك تشفير السجلات الأرشيفية باستخدام تهجئة معقدة
Miscellanea / / April 03, 2023
يتم تحويل المخطوطات التاريخية ، التي يصعب على الشخص تحليلها ، على الفور تقريبًا بواسطة الذكاء الاصطناعي إلى نص مطبوع.
أطلقت Yandex خدمة جديدة تسمى Archive Search ، والتي تستخدم الشبكات العصبية لفك تشفير السجلات الأرشيفية باستخدام تهجئة معقدة قبل الثورة.
توفر الخدمة الوصول إلى أكثر من 2.5 مليون صفحة من الوثائق التاريخية مع النصوص النصية. تأخذ الخوارزمية الخاصة بها ، المبنية على أساس نظام التعرف الضوئي على الأحرف ، في الاعتبار خصوصيات الكتابة اليدوية ، وتتعرف على الحروف التي فقدت أهميتها ، وتتفهم البنية الخاصة للوثائق الأرشيفية.
قام متخصصو الشركة بتدريب الشبكة العصبية على مجموعة بيانات من مئات الآلاف من الخطوط المكتوبة بخط اليد من نصوص حقيقية من القرنين الثامن عشر والتاسع عشر وعشرات الملايين من الأمثلة التي تم إنشاؤها.
المخطوطات التي يصعب على شخص غير مستعد تحليلها ، تتحول تقنية Yandex على الفور تقريبًا إلى نص مطبوع. بفضل هذا ، في قاعدة بيانات الخدمة ، يمكنك العثور بسرعة على المستندات مع ذكر اسم العائلة أو المنطقة أو أي كلمات أخرى.
سيزيد "البحث في الأرشيف" من كفاءة عمل المؤرخين وعلماء الاجتماع وعلماء الديموغرافيا وعلماء الأنساب وسيساعد أولئك الذين يبحثون عن معلومات عن أسرهم.
كان أول صندوق تم تقديمه في الخدمة هو الأرشيف الرئيسي لموسكو - حيث قام المطورون بتدريب الشبكة العصبية على مواده. تحتوي قاعدة البيانات أيضًا على وثائق من أرشيف منطقتي أورينبورغ ونوفغورود. بمرور الوقت ، سيزداد عدد المخازن والملفات الممسوحة ضوئيًا المتاحة.
يمكنك البحث عن مواد من القرن الثامن عشر إلى أوائل القرن العشرين ، وهي أكثر شيوعًا بين المستخدمين. هذه هي سجلات الأبرشيات ، وصحائف الاعترافات وحكايات المراجعة مع نتائج التعداد السكاني. يمكن العثور على المستندات في الكتالوج أو من خلال شريط البحث. هناك عوامل تصفية بالسنوات والمحفوظات والصناديق والمخزونات.
بجانب فحص كل صفحة ، يتم عرض فك ترميز سطريًا بواسطة الشبكات العصبية. إذا قمت بالمرور فوق الجزء المطلوب ، فسيتم تمييزه على الفور على النسخة الرقمية.