البحث في الانترنت | مدونة الفائدة

البحث في الانترنت

البحث في الانترنت
http://www.akhbar-tech.com/sites/akhbar-tech.com/files/articleImages/
ماهية البحث في الانترنت
عندما نسمع عن البحث بواسطة الانترنت أو عن محركات البحث ماذا يعني لنا موقع بحث أو محرك بحث؟

محرك البحث (search engine) هو برنامج يتيح للمستخدمين البحث عن كلمات محددة ضمن مصادر الإنترنت المختلفة (مواقع الويب ومواقع FTP ) .

من أهم الخدمات التي تقدمها شبكة الإنترنت هي محركات البحث (Search Engines) والتي تتيح للمستخدم الحصول على المعلومة التي يريدها بسهولة  وسرعة متناهية  حيث تبحر تلك المحركات في ثنايا هذه الشبكة المتشعبة المترامية الأطراف وتغوص في أعماقها وتأتيك في ثوانٍ معدودة بما تريد .
وإذا كانت محركات البحث تأتي في مقدمة الأولويات بالنسبة لمستخدمي الشبكة أهمية واستخداماً فإنها عند المستخدم العربي تحتل مرتبة متأخرة جدا ويعود ذلك لسببين أولهما : أن معظم تلك المحركات لا تدعم اللغة العربية وثانيهما أن أغلب المواقع العربية غير مضافة لتلك المحركات والمضاف منها غير مصنف تصنيفاً دقيقاً.
والبحث يتحول من كونه وسيلة لإشباع الفضول وحب الاستطلاع إلى  ضرورة وذلك حين يتعلق الأمر بإعداد بحث  الحصول على تعريف لمصطلح أو شخصية أو مكان أو حادثة
أو معلومة طبية أو هندسية أو اجتماعية.

ولا يكتسب محتوى الإنترنت أهمية كبرى إلا إذا لبى متطلبات أكبر عدد ممكن من مستخدمي الإنترنت. فالمستخدم العربي مثلا سيقول أن الإنترنت لا تقدم الكثير إذا لم يجد ضالته بذاتها فيها، وهنا فهو يتوقع توفر مواقع عربية تقدم معلومات ومحتوى غني له. وكذلك هو الحال مع المختصين من المستخدمين العرب كالمهندسين وغيرهم من أصحاب الاهتمامات العملية المحددة. فإذا وجدوا ما يهمهم بالذات فسيقيمون الإنترنت بدرجة أعلى.
لذلك فإن قيمة الإنترنت تنبع من تفعيل البحث فيها وتحسين نتائج البحث، وقد سمعنا على الأرجح أن كثيرين تراجعوا عن استخدام الإنترنت بل تخلوا عنها بعد مدة من اتساع شعبيتها على نطاق واسع.
 ويمكن أن نقول أن سبب عزوف هؤلاء عن استخدام الإنترنت هو المتاهات التي واجهتهم فيها دون أن يصلوا إلى ضالتهم. ولذلك نكرس هذا المقال لغاية تحسين نتائج البحث ومهاراته بالاعتماد على الأدوات المتوفرة حاليا مثل محركات البحث وبرامج مشابهة يعتمدها المستخدم في كمبيوتره.
طريقة عمل محركات البحث

يتألف محرك البحث من ثلاثة أجزاء رئيسة هي:
1-  برنامج العنكبوت (Spider Program).
2-  برنامج المفهرس (Indexer Program).
3-  برنامج محرك البحث.

   شرح وظيفة البرامج المكونة لمحرك البحث:
  1- برنامج العنكبوت:
تستخدم محركات البحث برنامج العنكبوت (spider) لإيجاد صفحات جديدة على الويب لإضافتها، ويسمى هذا البرنامج أيضاً الزاحف (crawler) لأنه يبحر في الإنترنت بهدوء لزيارة صفحات الويب والاطلاع على محتوياتها، ويأخذ هذا البرنامج مؤشرات المواقع من عنوان الصفحة (title)، والكلمات المفتاحية(keywords) التي تحويها، إضافة إلى محتويات محدِّدات الميتا (Meta tags) فيها. ولا تقتصر زيارة برنامج العنكبوت على الصفحة الأولى للموقع بل يتابع البرنامج تعقب الروابط (links) الموجودة فيها لزيارة صفحات أخرى. أما الغاية من هذه الزيارات فهي وضع النصوص المنتقاة في نظام الفهارس لمحرك البحث، ليتمكن المحرك من العودة إليها فيما بعد، ولم تغب فكرة تغير المحتوى في الموقع عن بال مصممي محرك البحث، إذ ينظم محرك البحث زيارات دورية للمواقع الموجودة في الفهرس للتأكد من التعديلات التي تصيب المواقع المفهرسة.

2- برنامج المفهرس:
يمثل برنامج المفهرس (index program)، الكتالوج (catalogue) أحياناً، قاعدة بيانات (database) ضخمة توصف صفحات الويب، وتعتمد في هذا التوصيف على المعلومات التي حصلت عليها من برنامج العنكبوت (spider)  كما تعتمد على بعض المعايير مثل الكلمات الأكثر تكراراً من غيرها، وتختلف محركات البحث عن بعضها في هذه المعايير، إضافة إلى اختلافها في خوارزميات المطابقة (ranking algorithms).

3- برنامج محرك البحث:
يبدأ دور برنامج محرك البحث (search engine program) عند كتابة كلمة مفتاحية (keyword) في مربع البحث(search box)  إذ يأخذ هذا البرنامج الكلمة المفتاحية ويبحث عن صفحات الويب التي تحقق الاستعلام الذي كونه برنامج المفهرس في قاعدة بيانات الفهرس (index database)، ثم تعرض نتيجة البحث المتمثلة بصفحات الويب التي طلبها المستخدم في نافذة المستعرض .(browser window)
في الوقت الراهن تقوم معظم أدوات البحث بفهرسة وبحث الوثائق الاعتيادية مثل النصوص وملفات تحرير النص كوورد وملفات أدوبي PDF، وهي محركات بحث نصية بدون بنية خاصة بينما تقدم لغة XML حلا لتخزين البيانات ذات البنى يمكن اعتمادها في قواعد البيانات ولتقديم طرق متطورة للوصول لتلك البيانات. وحينها سيكون بالإمكان الحصول على البيانات مهما كانت صغيرة أو معقدة لتقديم تقارير تجيب عن أسئلة وعمليات بحث كثيرة مثل الاستفسار في شركة عن عدد سلع معينة تم بيعها في شهر محدد من العام المنصرم.
إذا فالبحث عن النص يدور حول الوثائق بصورة كليا أما لغات الاستفسار query languages في قواعد البيانات فتسعى خلف أنواع أخرى من البيانات مثل حقل مفرد بعلامة برمجية معينة TAG أو سجل يضم حقولا متعددة. كما أن البحث في النص يجلب قائمة من الوثائق تحمل في طياتها معلومات هي نتيجة البحث، بينما تجلب لغات الاستفسار بيانات استخلصت من وثيقة مثل حقل معلم أو سجلات متعددة.

وتقوم لغات الاستفسار بإجراء عمليات حوسبة وتنسيق تحويلي للمواد التي تعثر عليها وتجمع البيانات من مصادر متعددة بل وتقوم بتحديث الوثائق تلقائيا، ولا تقوم عمليات البحث عن النص بأي من هذه.

وأصبحت لغات الاستفسار query languageالمعتمدة في قواعد البيانات وسيلة قريبة للعمل على الويب،وتتيح جهود تطوير البحث بالاعتماد على لغة (XML Query) تأمين طرق مرنة لاستخلاص البيانات من الويب لتؤمن التعامل السلس بين عالم الويب وعالم قواعد البيانات ليصبح في النهاية الوصول لملفات XMLوكأنها قواعد بيانات ولدعم استفسارات لغة xml في البحث على الويب تتوفر لغة معيارية واحدة على الأقل تعتمد XML وستدعمها محركات البحث بصورة محدودة لتأمين بحث بالنص للوصول للوثائق المفهرسة دون الحاجة لكي يتعلم محرك البحث الخارجي على تعلم تحليل لغة XML.لكن محركات البحث لا تحتاج لانتظار لغة استفسار لتأمين الوصول لوثائق XML بل يمكنها العمل بفرز وبحث الفهارس لديها عن هرميات العلامات البرمجية. وعلى الويب هناك أعراف عديدة يعتمدها مطورو الصفحات ومحركات البحث للتحكم بالفهرسة.

وتختلف محركات البحث عن بعضها في أسلوب العمل، فمثلاً: تحتفظ قاعدة بيانات ألتافيستا  (AltaVista) بكل تفاصيل صفحة الويب المخزنة، أما غيرها من آليات البحث الأخرى فقد يحتفظ  بالعناوين الرئيسة للصفحة فقط، مما يؤدي إلى اختلاف نتائج شكل ودقة نتائج البحث الظاهرة للمُستخدم.

آليات البحث:

تتطلب عملية البحث في أي مكتبة دليلا أو أسلوبا محددا للبحث لكن في حال الإنترنت وشبكات الكمبيوتر الداخلية لا تتوفر على الأغلب أدوات فعالة وجاهز للبحث والاستكشاف ضمن مواد ضخمة تتراوح بين النصوص والصور والوسائط المتعددة أحيانا.ففي مؤسسة أو دائرة حكومية تشكل الوثائق الورقية والمعلومات الرقمية عبأ كبيرا عند البحث فيها للوصول لمعلومة محددة موجودة بصورة أكيدة لكن العثور عليها كالبحث عن إبرة في كومة قش.

ذكرنا سابقاً أن محركات البحث تستخدم في بحثها عن مواقع الويب ما يدعى الكلمات المفتاحية (keywords) التي يمكن أن تكون كلمة أو عبارة(phrase). وتَستخدِم آليات البحث عادةً بعض المعاملات (operators)، مع هذه الكلمات المفتاحية، لتوفير خيارات إضافية لعملية البحث. حيث تتغير معالم الإنترنت بصورة مستمرة فتغيب مواقع وتظهر أخرى بتقنيات جديدة مثل اعتمادها على قواعد البيانات وغيرها من التقنيات التي دخلت عالم مواقع وصفحات الإنترنت. ولذلك فإن مهارات البحث على الإنترنت تحتاج إلى صقل الأسلوب وتجديد الأدوات أي محركات البحث بغرض الوصول إلى المعلومات المطلوبة والتي يستهدفها البحث.
سنفترض أن المستخدم يدرك أن عليه في معظم الأحوال أن يبحث عن الكلمات الرئيسية في الموضوع الذي يبحث عنه، ويفضل عدم استخدام جمل مفيدة أو عبارات كثيرة بل يجب في معظم الأحوال البحث عن كلمة أو كلمتين في موضوع معين. ونذكر بطريقة البحث بالمنطق الجبري Boolean باستخدام عبارات تحديد نتائج البحث.
نعرض بعض المعاملات هنا
1-  "" يستخدم هذا للبحث عن عبارة محددة مع مراعاة ترتيب الكلمات.
2-+  و  AND يستخدم مع مجموعة من الكلمات للبحث عن المواقع التي تحتويها جميعاً أو أحدها فمثلاً عند البحث بواسطة Computer + technology تعرض عندها المواقع والصفحات التي تحتوي كلمة computer وكلمة technology ولكن ليس بالضرورة أن توجد الكلمتان مع بعضهما في الموقع نفسه.
3-OR يستخدم مع مجموعة من الكلمات للبحث عن كل هذه الكلمات المفتاحية على حدة فمثلاً عند البحث بواسطة Computer OR technology تعرض المواقع التي تحتوي كلمة Computer   بمفردها والمواقع التي تحوي كلمة Technology بمفردها مع مراعاة ترك مسافة بين كلمة OR و الكلمات الأخرى.
4- *النجمة تستخدم للبحث عن كلمة أحد مقاطعها معروف مثلاً *Com   يعرض المواقع التي تحوي الكلمات Company   و Computer.
ويمكن استعمال كل هذه المعاملات مع بعضها لتشكيل جمل بحث متقدمة.

اعتبارات خاصة في البحث:
1-  البحث تبعاً لتواريخ محددة:
تتيح بعض محركات البحث مثل Google إمكانية البحث بواسطة تاريخ إنشاء الصفحة أو الموقع على الويب أو تاريخ التحديث وتفيد هذه الميزة في عمليات البحث عن آخر المستجدات، وفي عمليات البحث عن المصطلحات والبحث الطويلة.
2-  البحث تبعاً لوسائط عرض المواد.
أضيف إلى العديد من محركات البحث على الإنترنت إمكانية البحث عن المواد المخزنة بإحدى صيغ الوسائط المتعددة مثل: الفيديو، والصوت، وملفات، والصور وغيرها.
3-  تحسس حالة الأحرف.
تعرض بعض محركات البحث التي تتحسس حالة الأحرف نتائج البحث التي تحتوي التعابير المُطابقة تماماً.

تنمو محتويات شبكة إنترنت بسرعة هائلة تفوق كثيراً إمكانيات محركات البحث الراهنة، التي باتت عاجزة عن الوصول إلى أعمال الشبكة العالمية. فمحرك البحث    www.Google.com الذي يعتبر أكثر محركات البحث تغطية لمحتويات إنترنت، لا يفهرس حالياً سوى مليار وثلاثمائة وست وأربعين مليون صفحة إنترنت. في حين يشير بعض المحللين إلى أن عدد صفحات إنترنت الفعلية يفوق هذا العدد بمئات المرات. وهذا يعني أننا لا نرى من إنترنت سوى المحتويات الطافية على السطح.
وعلى الرغم من هذه المفارقة التقنية، تبقى كمية المحتويات الذي يمكننا الوصول إليها كبيرة جداً. لكن كيف نعثر ضمن هذا الكم الهائل على المعلومة التي نتطلع إليها؟
محركات البحث العالمية:
 إذا كنا نبحث عن نصوص تتضمن كلمات أو عبارات محدد باللغة الإنجليزية فإننا نستخدم محركات البحث التالية Google و Altavistaو Alltheweb  مع أن هذا المحرك متوفر ضمن بوابة عجيب وباللغة العربية.
محركات البحث العربية:
يوجد حالياً حوالي 70 ألف موقع في البلدان العربية، أو موجه لها، يستخدم قسم من هذه المواقع اللغة العربية. ويعد محرك البحث الذي توفره بوابة عجيب أفضل وسيلة للبحث عن النصوص العربية.
ويأتي محرك البحث الذي توفره مؤسسة الإمارات للإنترنت والملتيميديا في المرتبة الثانية في هذا المجال بناءا على رأيي الشخصي.
3- محركات بحث متخصصة.

 
محركات البحث العربية

عندما نتكلم عن البحث العربي يجدر التحدث عن التواجد العربي على الانترنت من مواقع ومستخدمين فبالنسبة للمستخدمين العرب وصل عدد مستخدمي الإنترنت في العالم العربي مليوني فرد، وهو رقم قد يكون ضخماً، إلا أنه مقارنة بالعالم رقم أقل من الطبيعي. واكب هذا العدد الكبير من مستخدمي الإنترنت عدد كبير أيضاً من المواقع العربية المتعددة الاتجاهات وذات الشخصيات المتعددة.. وأصبح فضاء الإنترنت مليئًا بالمواقع العربية الشخصية والمؤسسية الهادفة للربح وغير الهادفة للربح. بما يعكس تأثيراً على الثقافة العربية ينبغي رصده باستمرار وصولاً لاستخدام أمثل لما أصبح يعرف بلعبة الإنترنت التي أصبحت تدير رؤوس الكثيرين.
الحديث في هذا الموضوع كبير جداً (المواقع العربية وانتشارها)  ومناسبة الحديث هذا في بحثنا هو عندما نبحث باللغة العربية هو أننا نبحث عن هذه المواقع.
لكن ما هي إحصائيات هذه المواقع والتواجد العربي على الانترنت "قال نائب رئيس فريق الأمم المتحدة لتكنولوجيا المعلومات طلال أبو غزالة أننا أصبحنا الآن أمام خيارين إما أن تصبح لغة الانترنت هي الإنجليزية أو أن يتاح للغات العالم الدخول والتخاطب بأحرف لغتها ومنها لغتنا العربية هذا إذا أردنا بناء مجتمع المعرفة العالمي كما أن حجم مواقع الانترنت العربية لم تتجاوز الصفر فعدد مستخدمي الانترنت في العالم العربي لا يزيد عن 1% - على حد قولة - وهم المستخدمين الذين يمتلكون e-mail في الوقت ذاته فقد وصل عدد المواقع العربية لا يزيد عن 0.001 من إجمالي الموقع العالمية فهناك مواقع عربية هزيلة تحتوى على صفحة أو صفحتين فقط في حين البعض الآخر الذي يتجاوز ألاف الصفحات فحجمنا كدول عربية يصل إلى 200 مليون نسمة وعدد المستخدمين الدائمين قليلون بسبب غياب المحتوى العربي وعدم التمكن من استعمال الكمبيوتر والانترنت ونحن في انتظار المستخدم الذكي العربي للانترنت والذي يستخدمها في أغراض التجارة والتعليم والتعامل اليومي وهذه النسبة لن تتحسن إلا إذا فرضنا اللغة العربية كلغة تداول عبر الانترنت – فاللغة الصينية مثلا بدأ الصينيون يتوسعون في استخدام الانترنت وأصبح النمو في استعمال الانترنت باللغة الصينية اكبر من استعمالها باللغة الإنجليزية نظرا لان الصينيون يمثلون ثلث سكان العالم ولهم حجمهم عالميا على العكس منا كدول عربية والذي لا يزيد تعدادها عن 200 مليون نسمة فإمكانياتنا وحجمنا لا يدفعنا إلى الانعزال عن العالم الخارجي وعمل نظام انترنت عربي خاص بنا .
وهناك إحصائيات أخرى تقول أنه يوجد 14 مليون مستخدم للإنترنت من أصل 200 مليون عربي.

أما عن تصميم المواقع العربية ومشاكلها مع المتصفحات فله عدد من السمات الأساسية التي تميزها ومنها أن تصميم الموقع بلغة غير العربية، وهو من الأخطاء التصميمية المنتشرة في كثير من المواقع العربية، وهو أول مؤثر تغريبي يصبغ العقل العربي بثقافة أجنبية، فالقصد من إنشاء صفحة على الإنترنت هو إيصال فكرة أو معلومة أو ترويج منتج معين لأكبر مجموعة من الناس، ويبدو أن هذا الأمر يغيب عن كثير من أصحاب المواقع العربية الذين إما يعتبرون وجود صفحات بلغة غير عربية أمراً "راقياً"!! أو أنهم يفتقرون إلى المعرفة التي تسمح لهم بإنشاء صفحات عربية بسبب عدم إلمامهم بلغتهم، أو لتكليفهم جهة لا تقدم صفحات عربية مهمة إنشاء الموقع.
من الأخطاء أيضاً للمواقع العربية الاعتماد في تصميم الصفحات على نوع واحد من المتصفحات مثل إكسبلورر أو نيتسكاب متناسين أن مستخدمي الإنترنت يتقاسمون استخدام هذين المتصفحين مناصفة، وأن الكثير من المواصفات يدعمها أحد المتصفحين ويهملها الآخر. ويؤدي هذا إلى ظهور الصفحة بشكل سليم في أحد المتصفحات وظهور بعض الخلل فيها لدى الطرف الآخر.
ومن المشاكل التي واجهتنا في البداية أنها لا تعرض بشكل جيد على المتصفحات.لقد كانت تبدو عبارات غير مفهومة وعلامات استفهام ومربعات غامضة.
 وكان الحل في إيجاد متصفح عربي مثلاً سندباد وحل آخر لجأ المصممون العرب إلى حيلة الصور حيث  حولوا نصوص المواقع إلى صور يمكن عرضها في كافة الحواسيب.. ولكن المشكلة كانت في بطء التحميل.
أما الآن ومع التطور الكبير الذي شهدته الانترنت في العالم العربي أصبحت المواقع تصمم بلغة html وهي لغة سهلة وواضحة جعلت من المواقع العربية في طليعة الركب الحضاري.

البحث بالعربية
من أكبر التحديات التي يواجهها الباحث العربي على وجه التحديد أن محركات البحث لا تبحث إلا عن الكلمات المطابقة مطابقة تامة لكلمات البحث. والسبب في ذلك أن مصممو محركات البحث يعتقدون أن عملية البحث هذه أنجح، وذات فائدة أكبر بالنسبة للمستخدم حين يكون البحث بالنص الحرفي فقط. ويقولون إذا وسّعنا مجال البحث من غير قيود فقد يؤدي ذلك إلى نتائج بعيدة عن قصد المستخدم. لكن ذلك يعني أن على المستخدم نفسه التفكير بالأشكال المختلفة التي يمكن أن تَرِد فيها كلمات البحث وتجريبها كلاً على حدة.
وينبغي أن تستخدم عدداً مختلفاً منمحركات البحث، وخاصة إذا أردت بحثاً شاملاً إذ نادراً ما تجد النتائج نفسها في جميع محركات البحث. وهي كثيرة جداً، نذكر منها Alltheweb وmsnوهما محركا بحث عالميان يدعمان العربية بشكل جيد. أما بالنسبة لمحركات البحث العربية فيأتي في مقدمتها Ajeeb ، وهوأكثر محركات البحث العربية تطوراً، ويحوي بحثا متقدما، ويقدم خيارات اللواصق والمشتقات والمترادفات والمتضادات والمعاني والبحث على مستوى الجذر. كما يعالج محرك البحثArabVista في موقع البحار مثل هذه المسائل العربية. والباحث المستقصي يلزمه أيضاً مراجعة محركات البحث والأدلة العربية الأخرى
مثل Ayna وnaseej وفي كل منها نجد نتائج ربما لا نجدها في غيرها.
ظهر مؤخراً بعض محركات البحث التي تدعم البحث باللغة العربية، ويكمن السبب في قلة هذه المحركات وتأخر ظهورها إلى التقنيات المعقدة التي يحتاجها البحث باللغة العربية. إذ تختلف طبيعة اللغة العربية عن الإنجليزية، فاللغة العربية لغة صَرفية (morphological)، بينما الإنجليزية لغة لصقية (affixational). ومن هنا كان لا بد للشركات التي تطرح محركات بحث عربية قوية أن تمتلك التقنيات اللازمة لمعالجة اللغة العربية آلياً.
وقد ظهر أثر ذلك في محركات البحث الموجودة التي انقسمت إلى مجموعتين:
المجموعة الأولى:

قلدت هذه المجموعة محركات البحث الإنجليزية ولذلك فقد جاءت نتائجها ضعيفة لاعتمادها في البحث على المطابقة الحرفية لكلمات البحث، مما يتسبب في حجب الكثير من المعلومات التي تتوافق مع الكلمات المراد البحث عنها (التي قد تختلف بأحرف زائدة بسيطة).

 
المجموعة الثانية:

اعتمدت هذه المجموعة من محركات البحث على تقنيات متقدمة لمعالجة اللغة العربية، ومن أبرز الأمثلة عليها: أراب فيستا والإدريسي الذي أنتجته شركة صخر.
تتميز المجموعة الثانية بإمكانات إضافية مثلا البحث باللواصق والبحث بالمشتقات. وقد استفاد محرك الإدريسي من التقنيات المتقدمة التي ابتكرتها شركة صخر في معالجة اللغة العربية، فتميز عن غيره بعدة أمور مثل :
1- البحث بالمترادفات: تستخدم للبحث عن نصوص عربية متشابهة المعنى كما يلي:
البحث عن كلمة مساعدة سيعطي من بين نتائج البحث كل الصفحات التي تحتوي كلمات عربية مثل مساعدة مؤازرة ومعونة الخ.
2 - البحث بالمعاني والترجمة: تستخدم للبحث عن نصوص انجليزية عن طريق كلمة عربية يجهل المستخدم معناها.
مثال: البحث عن كلمة "مساعدة" سيعطي من بين النتائج كل الصفحات التي تحوي كلمات إنجليزية مثل help و assistance.

3- إمكانية التعامل مع التشكيل بشكل جيد.
ومن الجدير بالذكر أن معظم محركات البحث العربية تقوم بعد معالجة الكلمة أو العبارة المراد البحث عنها بترجمتها إلى اللغة الإنجليزية، ليجري البحث عنها بعدة لغات في مواقع الويب المُفهرسة لديه.

خصائص اللغة العربية ومشاكل البحث بالعربية
عند الحديث عن محركات البحث العربية يجدر بنا التحدث عن خصائص اللغة العربية وهي:
1-  اللغة العربية لغة اشتقاقية أي أنها تعتمد على الجذر مثل الكلمات (دارس، دراسة، مدرسة....) تعود إلى الجذر درس.
2-  تكتب من اليمين إلى اليسار.
3-  اتصال الحروف ببعضها لتكوين الكلمة.
4-  الحرف الواحد له أكثر من شكل حسب موقعه من المقطع.
5-  وجود علامات الضبط بالشكل (فتحة ضمة كسرة تنوين).
6-  كثرة المترادفات في اللغة العربية (مساعدة، دعم).
7-  هناك حروف قد تكتب بأكثر من شكل في نفس الموقع.
8-  إمكانية التراكب الرأسي.
9-  عرض بعض الحروف أكبر من الآخر.
10- الكلمة في اللغة العربية كلمة مركبة، حيث يدخل ضمن الكلمة الجنس، و صفة المخاطب، والعدد، والزمان، وغيرها.
11-  هناك كلمات بها حروف تنطق ولا تكتب مثل الرحمن.
هذه بعض الخصائص في اللغة العربية أغلبها يؤثر على عملية البحث وبعضها لا يؤثر.

البحث باللغة العربية أصعب من البحث باللغة الانجليزية وذلك أولاً بسبب أن اللغة العربية لغة اشتقاقية بينما اللغة الانجليزية لغة لصقية فمثلا عند البحث عن كلمة "طالب" من المفترض أن يتم الحصول على الكلمات "طلبة" و "طلاب" و "طالبات" وغيرها من الكلمة المشتقة من فعل "طلب" وهذا بالطبع من الصعب برمجته في محرك البحث لأنه يتطلب إرجاع الكلمة إلى جذرها اللغوي ومن ثم اشتقاق جميع الكلمات منه ومن ثم البحث عن هذه الكلمات المشتقة. أما اللغة الإنجليزية فهي لغة إلحاقية أو لصقية حيث أن جميع مشتقات الكلمة عبارة عن إلحاق حروف معينة بها مثل"er" و"ed" وغيرها من الملحقات الأخرى (مع وجود بعض الاستثناءات البسيطة).

أيضاً محركات البحث الحالية لا يمكنها أن تفهم اللغة العربية كما تفهم اللغة الانجليزية مثلا عند البحث بكلمة عربية فيها خطأ إملائي لا يصححها محرك البحث بل يأخذها كما هي بينما إذا أخطأت في كتابة كلمة إنجليزية فإن محرك البحث يحاول تصححيها فمثلاً ابحث عن كلمة linox ستجد أن جوجل يصحح لك الخطأ الإملائي ويقترح عليك الكلمة الصحيحة وهي  Linux، لماذا لا يصحح لنا جوجل أو أي محرك بحث أخطائنا الإملائية.

وأيضاً الهمزات محركات البحث لا تستطيع التفريق بين الهمزات أو لا تستطيع فهم أن كلمة أحمد هي نفسها احمد أو إحمد لكن المستخدم أخطأ، لذلك هي تقدم نتائج مختلفة ولا تستطيع اقتراح الكلمة الصحيحة.

وهناك مشكلة أخرى وهي الـ التعريف، الكثير من كلماتنا العربية تبدأ بحرفي التعريف، ومن الخطأ تصنيف كلمة الحضارة تحت الحرف ألف ثم لام ثم حاء، بل يجب تجاهل حرفي التعريف وتصنيف الكلمة مباشرة تحت حرف الحاء، محركات البحث لا تفهم هذه القاعدة.

أيضاً هناك الكثير من المواقع تضيف حروفاً على الكلمات، فمثلاً البعض يمد الكلمة هكذا (أحـــــــــــــــمد) وحرف المد هذا يجعل عملية إيجاد النتائج عملية مستحيلة، لنتصور أن موقعاً ما اسمه (التــــعـــريـــــــب) وهذا الموقع يضع اسمه في العنوان (title) بهذا الشكل: التــــعـــريـــــــب.
إذا بحثنا عن جملة: التعريب، فلن يجد الموقع، بل عليه أن يبحث عن كلمة: التــــعـــريـــــــب بالضبط لكي يجد الموقع، وهذه مشكلة، الكثير من المواقع تضع حروفاً وأشكالاً كثيرة في روابطها وأسمائها (مثل الفتحة والضمة والتنوين) ويجب على محركات البحث أن تتجاهل مثل هذه الحروف والأشكال، فتصبح كلمة التعريب هي نفسها كلمة التــــعـــريـــــــب ، لكن محركات البحث الآن لا تفهم ذلك.

وأيضا جوجل يتجاهل الكلمات الشائعة في الإنجليزية مثل the وon وhow وغيرها، لدينا في العربية كلمات مماثلة مثل في ومن وأين، لكنه لا يتجاهلها لأنه لا يفهم العربية، وكذلك محركات البحث الأخرى.

هذه مجموعة من المشاكل التي أراها في محركات البحث، لو تم حلها بنجاح يمكننا أن ننتقل إلى مرحلة أكبر وأكثر تعقيداً وهي تتعلق بالنحو والإملاء والصرف في اللغة العربية، ويعني ذلك أننا استطعنا حل جزء كبير من مشكلة محركات البحث مع لغتنا.
هناك حلول مقترحة وهي:
1-  تجاهل حرف أ واعتبار أن أ هو نفسه ا أو إ.
2- إنشاء قاموس إملائي يقترح الكلمة الصحيحة على الباحث في حال أخطأ الباحث في الإملاء، ويجب أن يعطي الباحث أقرب كلمة لما يبحث عنه، فلو بحث عن كلمة علمئ فعليه أن يقترح عليه كلمة صحيحة وهي: علماء.
3-  تجاهل الحركات والتنوين والحروف الغريبة مثل حرف الـــــمد والنجوم وغيرها: ^&*$#@ّ!:"،
4-  تجاهل ال التعريف، فكلمة العلماء يجب أن تكون هي نفسها كلمة علماء لدى محرك البحث.
5- تجاهل الكلمات التي تستخدم كثيراً مثل من وأين وحرف الواو حينما يسبق الكلمة (مثال: وقال لي فلان كلمة قال هنا يجب أن يتجاهل محرك البحث حرف الواو الذي يسبقها فيتعامل مع كلمة وقال مثل ما يتعامل مع كلمة قال.

أعتقد أن أكثر الحلول تعتمد على تجاهل الحروف أو معاملتها بالمثل، فكما قلت من قبل يجب أن يفهم محرك البحث أن أ هو نفسه ا أو إ لكن الباحث قد يخطأ، وللمزيد من الدقة لا بد من دراسة النحو والصرف وفنون اللغة الأخرى لإنشاء محرك بحث يفهم العربية بشكل كبير.

أعتقد أن شركة صخر قادرة على فعل شيء في هذا المجال، فلديهما أبحاث تتعلق باللغة وقامت بإنتاج الكثير من المنتجات والخدمات التي تقدمها الآن لشركات عالمية مثل IBM وإنتل، لكن نحن كمجموعة من الأفراد علينا ألا نعول على شركة يجب أن نعمل بأنفسنا.


والله الموفق.......
Share on Google Plus

About Unknown

This is a short description in the author block about the author. You edit it by entering text in the "Biographical Info" field in the user admin panel.
    Blogger Comment
    Facebook Comment

0 comments :

Post a Comment