بینش زیستی رایانه
عطا کالیراد. پژوهشگر زیستشناسی تکاملی مؤسسه ماکسپلانک برای زیستشناسی تکوینی، آلمان
نتایج چهاردهمین دوره مسابقه سنجش نقادانه پیشبینی ساختار پروتئین، به اختصار 1CASP، در نوامبر ۲۰۲۰ میلادی منتشر شد و براساس آن برنامه AlphaFold 2، محصول شرکت فناوریهای DeepMind، زیرمجموعهای از کمپانی گوگل، بهترین ساختار را برای ۸۸ پروتئین، از میان ۹۷ پروتئین، پیشبینی کرد. نتیجه این رقابت زیستشناسان و شیمیدانانی را که سالیان سال درپی تشخیص بهتر و آسانتر ساختار پروتئینها بودهاند، به شور افکند. تیتر خبر نشریه نِیچِر در باب این واقعه شکی در باب اهمیت آن باقی نمیگذاشت: «این نتیجه همهچیز را متحول خواهد کرد»2. در متن همین خبر، «آندری لوپاس»، از متخصصان بنام تکامل پروتئین و از دستاندرکاران CASP، اهمیت نتیجه دوره چهاردهم این مسابقه را چنین توصیف کرد: «این نتیجه پزشکی را متحول خواهد کرد، پژوهش را متحول خواهد کرد، مهندسی زیستی را متحول خواهد کرد، همهچیز را متحول خواهد کرد». برای فهم بهتر اهمیت موفقیت برنامه
AlphaFold 2 در پیشبینی ساختار پروتئین، باید اندکی به ماهیت و اهمیت پروتئین بپردازیم. ریشه واژه پروتئین، pritos یونانی، به معنای نخستین و اولین است. این نام عمیقا شایسته این درشتمولکولها به نظر میآید چراکه تصور دنیای زنده بدون این درشتمولکولها ناممکن است. تمامی عملکردهای زیستی یک موجود زنده را میتوان به پروتئینها نسبت داد. کانالهای پروتئین در غشای سلول وظیفه ترابری مولکولهای دیگر را برعهده دارند، گیرندههای پروتئین در سطح سلول محرکهای محیطی -شیمیایی یا مکانیکی- را دریافت میکنند و واکنشهای درون سلول با کمک آنزیمهایی از جنس پروتئین میسر میشود. فهرست کارکرد پروتئینها در موجودات زنده چنان طولانی است که تنها در دهه ۴۰ و ۵۰ میلادی و به کمک آزمایشهای زیرکانه افرادی چون «هِرشی» و «چِیس»3 بود که نقش نگهداری و انتقال اطلاعات ژنتیکی از این فهرست حذف شد و به DNA نسبت داده شد. کارکردهای متنوع پروتئینها به سبب اشکال متنوع آنان ممکن است. یک پروتئین چگونه شکل سهبعدی خاص خود را مییابد؟ اطلاعات مربوط به ساخت پروتئین در قالب رمز ژنتیکی در ژنها وجود دارند. با خواندن این اطلاعات، میتوان ترتیب خطی
آمینواسیدها (واحدهای سازنده پروتئین) را در پروتئین دانست. به عنوان مثال رمز ژنتیکی GGUGAAUUU، اگر از چپ به راست خوانده شود، به ترتیب به آمینواسیدهای گلایسین (GGU)، گلوتامیک اسید (GAA) و فِنیلآلانین (UUU) ترجمه خواهد شد. طول میانگین پروتئینها در گونه انسان ۳۷۵ آمینواسید است. با توجه به آنکه اطلاعات ژنوم انسان را میدانیم، میتوانیم رمز ژنتیکی پروتئینهای انسان را بخوانیم، اما دانستن ترتیب خطی آمینواسیدها در یک پروتئین، که ساختار نخست آن خوانده میشود، اطلاعات اندکی در باب ساختار سهبعدی پروتئین به ما میدهد. ساختار دوم پروتئین براثر شکلگیری پیوندهای هیدروژنی بین رشتههای پروتئین پدید میآید و به پدیدآمدن اشکال مارپیچی یا صفحهای میانجامد. برهمکنشهای میان این مارپیچها و صفحاتی در فضای سهبعدی ساختار سوم پروتئین را پدید میآورد. برخی پروتئینها، مانند هموگلوبین که وظیفه اکسیژنرسانی در خون ما را بر عهده دارد، از کنار هم قرارگرفتن چند رشته پروتئین مجزا پدید میآیند و ساختار سهبعدی این واحدهای مجزا ساختار چهارم پروتئین خوانده میشود. البته با دانستن ماهیت آمینواسیدهای موجود در ساختار یک پروتئین
میتوان پیشبینیهای کلی در باب ساختار سهبعدی پروتئین کرد. به عنوان مثال، آمینواسیدها را میتوان براساس آبدوستی یا آبگریزی یا بار الکترومغناطیسی تقسیم کرد. اما چنین گروهبندیهای کلی نمیتواند به مشخصکردن ساختار سهبعدی پروتئینی خاص بینجامد. ساختار پروتئینها را میتوان با بررسی مستقیم ساختار بلوری آن شناخت؛ به مدد بلورشناسی اشعه ایکس یا طیفشناسی تشدید مغناطیسی هستهای. در دهه ۱۹۵۰ میلادی، نخستین ساختارهای کامل پروتئینی به مدد تاباندن اشعه ایکس به بلورهای پروتئین و بررسی چگونگی افتراق اشعه در برخورد با بلور میسر شد؛ مثل اینکه بخواهید براساس سایه یک فرد، قامت او را ترسیم کنید. اما این روشها عمیقا وقتگیر هستند و در عین حال بسیار از پرسشهای زیستی جذاب نیازمند پیشبینی ساختار پروتئینهای پرتعدادی است. برای مثال، فهم و پیشبینی روند تکامل در زیستشناسی تکاملی نیازمند تخمین شایستگی زیستی اشکال مختلف مولکولهای زیستی است. به عنوان نمونه، برای پیشبینی چگونگی تکامل پروتئینی خاص باید اثر جهشهای ژنتیکی بر ساختار پروتئین را بدانیم، در غیر این صورت از پیشبینی دقیق روند تکامل این پروتئین ناتوان خواهیم
بود. دشواری روشهای آزمایشگاهی برای مشخصکردن ساختار فضایی پروتئینها، پژوهشگران را به استفاده از روشهای محاسباتی و یاریگرفتن از رایانه برای پیشبینی ساختار پروتئین کشاند. اگرچه جستوجو درپی یافتن روشهای محاسباتی تخمین ساختار فضایی پروتئینها از دهه ۱۹۸۰ میلادی آغاز شد، اما بهزودی مشخص شد که پیشبینی ساختار پروتئین با روشهای محاسباتی به این آسانی نیست. به همین دلیل پژوهشهای تکاملی در این باب به جای پروتئین به RNA روی آوردند چراکه پیشبینی ساختار فضای RNA بسیار بسیار آسانتر از ساختار پروتئین است. AlphaFold2 برای پیشبینی ساختار پروتئین از شیوه خاصی از یادگیری ماشین استفاده میکند. یادگیری ماشین به مجموعهای از الگوریتمها اطلاق میشود که در چارچوب آن، الگوریتمی رایانهای با بررسی حجم زیادی از دادهها الگوهایی را بر اساس داده فرامیگیرد و بر اساس «یادگیری» خود براساس این دادهها در باب دادههای تازه تصمیم میگیرد. شرکت DeepMind در سیزدهمین دوره مسابقه CASP در سال ۲۰۱۸، نرمافزار اولیه خود، AlphaFold1، را به کار گرفت که با اتکا به دادههای موجود و تخمین پایدارترین ساختار پروتئین، ساختار سهبعدی
پروتئین را پیشبینی میکرد. برای شرکت در چهاردهمین دوره CASP، پژوهشگران DeepMind الگوریتم خود را از سر تا پا دستخوش تغییر کردند و این نسخه از الگوریتم به آسانی رقبا را در این دوره کنار زد. برای درک بهتر جهشی که AlphaFold2 در تخمین ساختار سهبعدی پروتئین منجر شده است باید نگاهی به برندگان دورههای پیشین CASP انداخت: نمره همه برندگان CASP تا پیش از دوره دوازدهم زیر ۴۰ بود (به این معنا که الگوریتم زیر 40 درصد از ساختارها را به درستی پیشبینی کرده است). AlphaFold1 در دوره سیزدهم به جهشی بزرگ در پیشبینی ساختار فضایی پروتئین منجر شد و نمرهای حدود 60 درصد دریافت کرد. AlphaFold2 گام بلندتر در جهت افزایش دقت پیشبینی ساختار پروتئین برداشت و نمرهای در حوالی 90 درصد دریافت کرد. در سخنرانی با هدف توضیح دستاورد AlphaFold2، «آندری لوپاس» پیشنهاد کرد که شاید ناهمخوانی ساختار بلوری پروتئین که براساس آزمایشهای تجربی به دست آمده و پیشبینی الگوریتم شاید به سبب خطاهای آزمایشگاهی باشد و نه مشکل الگوریتم. انتقادی که اغلب به روشهای مبتنی بر یادگیری ماشین وارد میشود این است که متر و معیاری که ماشین برای تصمیمگیری
اتخاذ میکند به جعبهای سیاه شبیه است و ما اطلاعات کاملی در باب این فرایند تصمیمگیری نداریم. من نیز در موارد بسیاری با انتقاد همدل بودهام، اما در مورد AlphaFold2 نمیتوان شگفتزده نشد؛ چنین پیشرفتی در پیشبینی ساختار پروتئین به راستی تحولی اساسی در شاخههای مختلف زیستشناسی و شیمی را سبب خواهد شد. تصور اینکه این رویکرد چه تأثیری در فهم ما از تکامل پروتئینها داشته و پیشبینی اثر جهشها بر پروتئینها با استفاده از این الگوریتمها ذهن هر علمورزی را با خوشبینی انباشته میکند. دستاورد AlphaFold2 چنان شگفتانگیز است که شاید پژوهشگران حوزه زیستشناسی ساختاری را به پژوهش در باب موضوعات دیگر بکشاند چراکه موضوع اصلی مطالعه این حوزه، یعنی پیشبینی ساختار پروتئین، توسط یک الگوریتم یادگیری ماشین حل شده است. چنین پیشرفتهای محاسباتی در زیستشناسی به نسل جدید از پژوهشگران امکان میدهد که وقت کمتری را برای کارهای آزمایشگاهی دشوار صرف کنند و به پرسشهای دشوارتر و پیچیدهتر زیستی بپردازند. چنین پیشرفتی، اهمیت روشهای محاسباتی نوین، چون یادگیری ماشین، در پیشبرد پژوهشهای علمی را نیز بیش از پیش نمایان میکند. شاید
این جمله زیستشناس شهیر، «سیدنی برنر»، این روند را به خوبی توصیف کند: «پیشرفت در علم، یحتمل به ترتیب، به فناوریهای نو، کشفیات جدید و ایدههای تازه نیازمند است».
پینوشتها:
1- Critical Assessment of protein Structure Prediction
2- https://www.nature.com/articles/d41586-020-03348-4
3- Hershey AD, Chase M (May 1952). "Independent functions of viral protein and nucleic acid in growth of bacteriophage". The Journal of General Physiology. 36 (1): 39-56.