פורמט VCF

מתוך ויקיפדיה, האנציקלופדיה החופשית

פורמט Variant Call Format-VCF (פורמט רשומות משתנים) הוא מאפיין פורמט של קובץ טקסט (txt) המשמש בביואינפורמטיקה על מנת לאחסן מידע על וריאציות רצפי גנים. הפורמט פותח בד בבד עם התקדמות היכולת בגילוי השונות הגנטית ופרויקטי ריצוף הדנ"א, כמו למשל מיזם אלף הגנומים. פורמטים קיימים עבור המידע הגנטי כמו General Feature format-GFF (פורמט מאפיינים כללי) אחסנו בתוכם את כל המידע הגנטי, שחלקים רבים ממנו הם מיותרים, היות שהוא יהיה משותף לחלקים רבים בגנום. על ידי שימוש בפורמט VCF, ניתן לשמור רק את הווריאציות ויחד עימם את הקישור לגנום.

הפורמט המקובל לשימוש הוא גרסה 4.3 של הפורמט,[1][2] אף על פי שמיזם אלף הגנומים פיתח אפיון משלו עבור וריאציות מבניות, כמו דופליקציות, אשר לא מתאימות בקלות לרישום בפורמטים הקיימים.[3] בנוסף, קיים גם פורמט VCF גנומי, (gVCF-genomic VCF) אשר מרחיב את פורמט הVCF, ומוסיף אליו מידע נוסף אודות 'הבלוקים' אשר מתאימים לגנום הרפרנס ולסוגים שלו.[4] כמו כן, קיימת ערכת כלים הזמינה לעריכה ושינוי של הקבצים.[5]

דוגמה[עריכת קוד מקור | עריכה]

##fileformat=VCFv4.3
##fileDate=20090805
##source=myImputationProgramV3.1
##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta
##contig=<ID=20,length=62435964,assembly=B36,md5=f126cdf8a6e0c7f379d618ff66beb2da,species="Homo sapiens",taxonomy=x>
##phasing=partial
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency">
##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele">
##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129">
##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership">
##FILTER=<ID=q10,Description="Quality below 10">
##FILTER=<ID=s50,Description="Less than 50% of samples have data">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">
##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality">
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003
20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,.
20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 0/0:41:3
20 1110696 rs6040355 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4
20 1230237 . T . 47 PASS NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:2
20 1234567 microsat1 GTC G,GTCT 50 PASS NS=3;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3

כותרת הפורמט[עריכת קוד מקור | עריכה]

הכותרת היא בראשית הקובץ ומספקת את רשימת הנתונים המאפיינים את גוף הקובץ. שורות הכותרת מאופיינות בכך שמתחילות בתיו #. כאשר ישנו שימוש במילות מפתח מיוחדות, השורה תתחיל ב-##. מילות מפתח מומלצות הם:

  • גרסת הקובץ - fileformat
  • תאריך הקובץ - fileDate
  • רפרנסים - reference

אופציונלי: הכותרת יכולה להכיל מילות מפתח אשר יתארו סמנטית ותחבירית שדות אשר בשימוש בגוף הקובץ, בעיקר: INFO, FILTER, FORMAT. אנא ראו בהרחבה מטה על משמעות השדות.

עמודות הפורמט[עריכת קוד מקור | עריכה]

גוף פרומט הVCF יבוא לאחר הכותרת, והוא בנוי מערכים המופרדים על ידי התו <TAB>, ל:8 עמודות חובה (ראו הטבלה להלן), ומספר לא מוגבל של עמודות בחירה נוספות אשר ניתן להשתמש בהם כדי לאחסן מידע על הרשומה. כאשר משתמשים בעמודות נוספות מעבר לעמודות החובה, העמודה האופציונלית הראשונה משמשת לתיאור הפורמט של העמודות האופציונליות האחרות שיבואו אחריה.

שם פירוש הסבר מקוצר
1 CHROM כרומוזום שם הרצף (לרוב כרומוזום) אשר בו נמצאת הווריאציה. הרצף לרוב מוכר בתור 'רצף הרפרנס' אשר כנגדו ניתנת רשומת הווריאציה.
2 POS מיקום מיקום נקודתי של הוראיציה על הרצף הנתון.
3 ID ת.ז, מזהה מזהה הווריאציה, לדוגמה: dbSNP rs identifier (מזהה ממאגר הdbSNP, שונות בנוקלאוטיד נקודתי)

אם לא ידוע יסומן '.'

מספר מזהים יופרדו על ידי ';' ללא רווחים.

4 REF רפרנס בסיס ההרפרנס (או בסיסים במקרה של indel (הוספה/מחיקה של מספר בסיסים) במיקום הנתון ברצף הרפרנס.
5 ALT חילופי רשימת האללים החילופיים לנקודה זו
6 QUAL איכות ציון האיכות הקשור להופעת האללים בעמודה 5.
7 FILTER פילטר דגל, מציין אילו מהפילטרים האמורים בכותרת הרשומה עברה.

PASS אם עברה הכול.

אחרת, יופיע השם של הפילטר אשר נכשלה בו.

8 INFO מידע רשימה הניתנת להרחבה של צמדי ערך-מפתח (key-value) - המתארים את הווריאציה. אנא ראו מטה מספר שדות נפוצים.

מספר שדות לאותה רשומה יופרדו ביניהם בתיו ';' עם ערכים אופציונליים ביניהם. כך למשל, הרשומה בעמודה השמינית יכולה להראות:

<key>=<data>[,data]
9 FORMAT (אופציונלי) פורמט רשימה אופציונלית הניתנת להרחבה של שדות לתיאור הדוגמאות. אנא ראו מטה למספר שדות נפוצים
+ SAMPLEs (אופציונלי) רשומות עבור כל רשומה אשר תוארה בעמודות לפני כן, ניתן להוסיף ערכים אשרהרשום בעמודה 9 (הפורמט)

שדות מידע נפוצים אופציונליים[עריכת קוד מקור | עריכה]

להלן שדות INFO נפוצים לשימוש. ניתן להוסיפם בעמודה 8, ובכותרת קובץ הVCF. ניתן להוסיף מפתחות שרירותיתיים אשר אינם מופיעים כאן, אם כי המפתחות שכאן שמורים (גם אם אופציונליים ולא חובה לממש אותם):

שם שדה ראשי תיבות הסבר מקוצר
AA ancestral allele אלל קדום
AC allele count מספר האללים בגנוטיפ עבור כל ALT, באותו סדר כמו שנרשם
AF allele frequency תדירות האללים בכל אלל אלטרנטיבי, באותו הסדר כמו שנרשם (השתמש בזה כאשר ההערכה היא מהמידע הראשוני, לא הגנוטיפ בשימוש)
AN total number of alleles המספר הכול של האללים בגנוטיפ האמור
BQ RMS base quality at this position ממוצע השורש הריבועי (RMS) במיקום זה.
CIGAR cigar מחרוזת ה'cigar' המתארת איך להתאים אלל אלטרנטיבי לאלל הרפרנס.
DB dbSNP מספר שייכות למאגר ה-dbSNP
DP combined depth across samples, e.g. DP=154 העומק המשולב סביב הרשומות
END end position of the variant סוף המקטע השונה, המתואר ברשימה (לשימוש יחד עם אללים סמליים)
H2 hapmap2 מספר שייכות אל hapmap2
H3 hapmap3 מספר שייכות אל hapmap3
MQ RMS mapping quality, e.g. MQ=52 איכות ממוצע השורש הריבועי (RMS)
MQ0 Number of MAPQ == 0 reads covering this record מספר הקריאות אשר בהם MQ שווה ל-0 באזור זה.
NS Number of samples with data מספר הרשומות עם מידע
SB strand bias at this position הטיות הגדיל בעמדה זו.
SOMATIC סומטית סומטי, מציין שהרשומה היא מוטציה סומטית, עבור גנומיקה סרטנית
VALIDATED validated by follow-up experiment נבדק על ידי ניסוי המשך
1000G membership in 1000 Genomes הימצאות במאגר אלף הגנומים

ראו גם[עריכת קוד מקור | עריכה]

  • פורמט FASTA, המשמש לייצוג רצפים גנומיים.
  • פורמט FASTQ, המשמש לייצוג רצפי דנ"א מרוצפים, יחד עם ציון איחוצ לכל ריצוף.

אפיון הVCF כבר לא מתוחזק על ידי מיזם אלף הגנומים. הקבוצה שמובילה את התחזוק וההרחבה של הפורמט היא: Global Alliance for Genomics and Health-GA4GH,[6][7]

קישורים חיצוניים[עריכת קוד מקור | עריכה]

הערות שוליים[עריכת קוד מקור | עריכה]