در آزمایش های این قسمت از مجموعه ای از 50 شبکه بیزین دینامیک شامل 100 گره که درجه خروجی در آن ها از قانون توانی پیروی کرده استفاده شده است. برای تولید این 50 شبکه فرآیندی که در بخش (4-2) توضیح داده شد به کار گرفته شده است. بیشینه تعداد یال های ورودی به هر |
در آزمایش های این قسمت از مجموعه ای از 50 شبکه بیزین دینامیک شامل 100 گره که درجه خروجی در آن ها از قانون توانی پیروی کرده استفاده شده است. برای تولید این 50 شبکه فرآیندی که در بخش (4-2) توضیح داده شد به کار گرفته شده است. بیشینه تعداد یال های ورودی به هر گره در فرآیند تولید شبکه ها 2 در نظر گرفته شده است. از هر کدام از شبکه های تولید شده 5 سری زمانی به طول 50 و 5 سری زمانی به طول 100 نمونه گیری شده است. سری های زمانی که طول یکسانی داشتند با هم ترکیب شده اند تا دو مجموعه داده های آموزشی، یکی شامل 250 سری زمانی با طول 50 و دیگری شامل 250 سری زمانی با طول 100، بدست آیند. باید توجه شود که طول سری های زمانی بیان ژن در عمل اغلب کمتر از 100 است. بنابر این سری های زمانی در داده های آموزشی این آزمایش از لحاظ طول نماینده خوبی برای سری های بیان ژن واقعی هستند.
برای یادگیری شبکه های بیزین دینامیک از داده های آموزشی از متدها و توابع امتیاز دهی مختلفی استفاده گردیده است که در جداول 1 و2 مشخص شده اند.
پارامتر ها برای روش هایی که در این آزمایش استفاده شدند بدین گونه تنظیم شده اند: در روش ارائه شده، برابر با 05/0 و برابر با 5/0 در نظر گرفته شده است. در روش GlobalMIT پارامتر برابر 999/0 قرار داده شده است. برای روش BDe+P از ترکیب تابع امتیاز دهی BDe و توزیع احتمالی بر روی ساختار شبکه ها استفاده شده است. در این فرمول تعداد کل یال های شبکه است و پارامتر برابر با 05/0 در نظر گرفته شده است.
بعد از فرآیند یادگیری، شبکه استنتاج شده به وسیله هر متد با شبکه اصلی مقایسه شده است و مقادیر Recall، Precision و F-Measure برای شبکه استنتاج شده محاسبه شده اند. از نتایج بدست آمده هر روش بر روی 250 سری زمانی در هر یک از مجموعه داده های آموزشی میانگین گیری شده است. این میانگین به همراه انحراف از معیار مربوطه برای هر روش در جدول (4-1) برای داده های آموزشی با طول 50، و در جدول (4-2) برای داده های آموزشی با طول 100 نمایش داده شده اند.
همان گونه که در جدول ها مشخص است الگوریتم ارائه شده بر روی هر دو مجموعه داده آموزشی بالاترین مقدار Recall و F-Measure را بدست آورده است. آنالیز مقادیر بدست آورده شده نشان می دهد که اختلاف بین F-Measure الگوریتم ارائه شده و بقیه روش ها از لحاظ آماری significant است.
نکته قابل توجه دیگر این است که میزان اختلاف F-Measure الگوریتم ارائه شده با بقیه روش ها در نتایجی که بر روی داده های آموزشی با طول 50 بدست آمده اند در مقایسه با میزان اختلاف نتایج بدست آمده بر روی داده های آموزشی با طول 100 بیشتر است. این رفتار قابل انتظار است چون هر اندازه که داده های آموزشی اطلاعات کمتری را برای استنتاج شبکه در اختیار ما قرار دهند، اثر دیگر منابع اطلاعاتی مثل دانش اولیه در مورد شبکه و یا اطلاعات مربوط به ساختار شبکه در فرآیند یادگیری نقش بیشتری ایفا می کنند. در واقع اگر طول سری زمانی که به عنوان داده آموزشی استفاده می شود به اندازه کافی بزرگ باشد، نقش سایر منابع اطلاعاتی به صفر میل می کند.
این واقعیت که الگوریتم ارائه شده می تواند در مواردی که داده های آموزشی ناکافی هستند باعث افزایش قابل توجه شبکه استنتاج شده شود بسیار مطلوب است چون همان گونه که قبلاً توضیح داده شد، کوتاه بودن طول سری های زمانی بیان ژن که برای استنتاج شبکه های تنظیمات ژنی استفاده می شوند از عمده ترین مشکلات در بازسازی این گونه شبکه ها می باشد و باعث کاهش شدید کیفیت شبکه های استنتاج شده می شود.
فرم در حال بارگذاری ...
[شنبه 1399-09-22] [ 05:29:00 ق.ظ ]
|