ศัพท์น่ารู้เกี่ยวกับ Bioinformatic

**asylu3** · 30-09-2003, 01:08 AM

Abstract Syntax Notation (ASN,.1)
เป็นรูปแบบข้อมูลที่ถูกพัฒนาขึ้นโดยกลุ่มคนที่อยู่ในอุตสาหกรรมคอมพิวเตอร์ จากนั้น (NCBI) จึงนำมาพัฒนาต่อเพื่อใช้กับข้อมูลด้านชีววิทยา เช่น ข้อมูลลำดับนิวคลีโอไทด์หรือกรดอะมิโน แผนที่ของยีน ข้อมูลเกี่ยวกับอนุกรมวิธาน โครงสร้างของโมเลกุล ตลอดจนข้อมูลเกี่ยวกับบรรณานุกรม ทำให้โปรแกรมต่าง ๆ รู้จักข้อมูลเหล่านี้ และสะดวกแก่การนำไปวิเคราะห์ต่อไป

Accession Number
ตัวบ่งชี้เฉพาะที่ถูกกำหนดขึ้นเพื่อให้เข้าถึงข้อมูลลำดับเบสดีเอนเอหรือโปรตีนหนึ่ง ๆ ในฐานข้อมูล

Adenine
เบสชนิดหนึ่งจากทั้งหมด 4 ชนิดที่ประกอบเข้ากันเป็นสาย ดีเอ็นเอ ตัวย่อของเบสอะดีนีนคือ A ส่วนเบสตัวอื่นที่เหลือคือ กวานีน, ไซโทซีน, และ ไทมีน. เบสอะดีนีนจะจับคู่กับไทมีนเสมอ

Affine gap penalty
Gap penalty score คะแนนที่ถูกหัก (ติดลบ) เมื่อมีช่องว่าง gap โดยจะมากหรือน้อยขึ้นกับความยาวของช่องว่าง ประกอบด้วยการหักคะแนนเมื่อเปิดช่องว่าง (gap opening penalty) และการหักคะแนนเมื่อมีการขยายช่องว่าง (gap extension penalty) ซึ่งต้องคูณกับความยาวช่องว่าง การใช้ Gap penalty นี้ช่วยเพิ่มประสิทธิภาพของ dynamic programming ที่ใช้สำหรับการเปรียบเทียบสายลำดับ ค้นเพิ่มเติมที่ Gap penalty.

Algorithm
กระบวนการแก้ปัญหาหนึ่ง ๆ อย่างเป็นระบบ โดยมีจำนวนขั้นตอนแน่นอน มักประกอบด้วยการทำงานซ้ำ ๆ หลาย ๆ ครั้ง สามารถเขียนอัลกอริทึมในรูปภาษาคอมพิวเตอร์และให้ทำงานเป็นโปรแกรม

Alignment
หมายถึงกระบวนการในการเปรียบเทียบลำดับเบส 2 ชุดหรือมากกว่า โดยการตรวจหาลักษณะที่เหมือนกันในลำดับเบสนั้นๆ การเปรียบเทียบลำดับเบสทำได้ 2 ลักษณะคือ การเปรียบเทียบลำดับเบสบางส่วนและการเปรียบเทียบลำดับเบสทั้งหมด โดยทั่วไปมักใช้การเปรียบเทียบเฉพาะที่มากกว่า ค้นเพิ่มเติมที่Local และGlobal alignments.

Back to top

Alignment along a tree
เป็นการเปรียบเทียบสายลำดับเบสมากกว่า 2 ชุด (multiple alignment) โดยจะเปรียบเทียบคลัสเตอร์ (cluster) ของสายลำดับที่เกี่ยวข้องก่อน ตามด้วยการเปรียบเทียบข้อมูลอื่นของคลัสเตอร์ คลัสเตอร์ที่ได้จะเกิดจากสายลำดับที่อยู่ในกลุ่มสาขาเดียวกันในแผนภูมิอนุกรมวิธาน (Hierarchical alignment)

Alignment score
ค่าคะแนนที่เครื่องคอมพิวเตอร์คำนวณได้โดยใช้อัลกอริทึมในการเปรียบเทียบสายลำดับ ซึ่งมีค่าขึ้นกับจำนวนลำดับเบสหรือกรดอะมิโนที่ตรงกัน (matches) จำนวนเบสที่เกิดการแทนที่ substitutions, จำนวนเบสที่เกิดการแทรก insertions, และจำนวนเบสที่ถูกเอาออก deletions (gaps) ค่าคะแนนของลำดับที่ตรงกันกับลำดับที่เกิดการแทนที่ได้มาจากเมทริกซ์ของคะแนน (scoring matrix) เช่น ในกรณีการเปรียบเทียบสายลำดับโปรตีน จะใช้เมทริกซ์บลอสซัม BLOSUM หรือเมทริกซ์แพม PAM และเลือกใช้การหักคะแนนเมื่อมีการเปิดช่องว่างที่เหมาะสมกับเมทริกซ์ที่ถูกเลือก ค่าคะแนนของการเปรียบเทียบลำดับเบสจะอยู่ในหน่วย log odds มักอยู่ในรูป bit units (log ฐานสอง) ค่าคะแนนสูงแสดงว่าสายลำดับที่นำมาเปรียบเทียบมีความคล้ายกันมาก ค้นเพิ่มเติมที่ Similarity score, Distance in sequence analysis.

Alphabet
อักษรที่ใช้เป็นสัญลักษณ์แทนเบสในลำดับดีเอนเอมี 4 ตัว คือ A T G และ C และอักษรที่ใช้เป็นสัญลักษณ์แทนกรดอะมิโนในลำดับโปรตีนมี 20 ตัว คือ A, B, C, D, E, F, G, H, I, K, L, M, N, P , Q, R, S, T, U, V, W และ Y (ดู บทความ การใช้ BLAST)

Analogous
เป็นคำศัพท์ทางด้านการศึกษาระบบชาติพันธุ์ phylogenetics, หมายถึงคุณลักษณะที่สืบทอดมาจากบรรพบุรุษที่ไม่มีความเกี่ยวข้องกัน แล้วมีแนวโน้มที่จะเข้าใกล้หรือคล้ายกัน (convergent)

Annotation
การทำนายตำแหน่งของยีน genes ในจีโนม genome, ได้แก่ ตำแหน่งของสายลำดับที่มียีนซึ่งบรรจุรหัสสำหรับการสร้างโปรตีน, ลำดับกรดอะมิโนในโปรตีน และการเข้าคู่กันได้อย่างมีนัยสำคัญกับโปรตีนอื่นที่ทราบหน้าที่แล้ว รวมทั้งการทำนายตำแหน่งยีนที่ถอดรหัสเป็นอาร์เอนเอ RNA ด้วย การทำนายจะใช้แบบจำลองของยีน เช่น , hidden Markov models (HMM) ของ introns และ exons ในยีนที่ถอดรหัสเป็นโปรตีน และแบบจำลองโครงสร้างทุติยภูมิของอาร์เอนเอ

Anonymous FTP
หากบริการเอฟทีพี (FTP) ใดที่เปิดโอกาสให้ใครก็ได้สามารถเข้าสู่ระบบ (log in) แล้ว ผู้ใช้สามารถติดต่อกับเซิร์ฟเวอร์เอฟทีพีนิรนาม (anonymous FTP) ได้โดยพิมพ์คำว่า anonymous เป็นชื่อผู้ใช้ และใช้ที่อยู่อีเมล์E-mail FTP.

Back to top

Array assay
การจัดเรียงลำดับนิวคลีโอไทด์ของซีดีเอนเอ cDNA หรือนิวคลีโอไทด์สายสั้นๆ (oligonucleotide) ไว้บนพื้นผิวของวัสดุรองรับ โดย cDNA หรือ oligonucleotide จะจับเข้ากับดีเอนเอเป้าหมาย ซึ่งสามารถตรวจหาลำดับเบสที่เข้าคู่กันได้โดยการวัดการเรืองแสง

ASCII
รหัสมาตรฐานที่ใช้สำหรับการแลกเปลี่ยนข้อมูลของสหรัฐอเมริกา (ASSCII) เพื่อให้รหัสสำหรับ a-z, A-Z, ตัวเลข 0-9, เครื่องหมายวรรคตอน, ช่องว่าง และชุดควบคุมต่าง ๆ เช่น การขึ้นย่อหน้าใหม่และ การกั้นหน้าหลัง รหัส ASCII มีทั้งหมด 128 ตัวอักษร ซึ่งกำหนดค่าไว้ตั้งแต่ 0-127 มักเรียกแฟ้มข้อมูลแบบ ASCII ว่า "อักษรธรรมดา" (plain text) หมายความว่าแฟ้มข้อมูลดังกล่าวมีเพียงอักษรธรรมดา ไม่มีรหัสหรือคำสั่งพิเศษใด ๆ

BAC
ย่อมาจาก Bacterial Artificial Chromosomeโครโมโซมประดิษฐ์ของแบคทีเรีย ค้นเพิ่มเติมที่ cloning vector.

Back-propagation
ในการฝึก feed-forward neural networks จะมีการใช้อัลกอริทึมแบบ back-propagation เพื่อใช้ในการปรับปรุงน้ำหนักคะแนนของเครือข่าย (network weight) หลังจากใส่รูปแบบข้อมูลสำหรับฝึกให้แก่เครือข่ายในแต่ละครั้งแล้ว ค่าที่ได้รับ (output) จากเครือข่ายจะถูกนำไปเปรียบเทียบกับผลที่คาดหวัง แล้วทำการคำนวณหาค่าความผิดพลาด ซึ่งค่าความผิดพลาดนี้จะถูกส่งกลับเข้าสู่เครือข่ายเพื่อใช้แก้ไขค่าน้ำหนักคะแนนต่อไป ค้นเพิ่มเติมที่ Feed-forward neural network.

Base Pair (bp)
ไนโตรเจนเบส 2 ตัวที่จับกันด้วยพันธะที่มีแรง อ่อนๆ (ได้แก่ adenine จับกับ thymine หรือ guanine จับกับ cytosine) สาย ดีเอ็นเอ 2 สายจะจับกันเป็นเกลียวคู่ด้วยพันธะระหว่างคู่เบสเหล่านี้ double-helix จีโนมของมนุษย์ประกอบไปด้วยคู่เบสประมาณ 3 พันล้านคู่ มักเรียก 1 ล้านคู่เบสว่า 1 เมกะเบส (1Mb)และเรียก 1 พันคู่เบสว่า 1 กิโลเบส (1 kb)

Baum-Welch algorithm
เป็นอัลกอริทึมที่คำนวณค่าคาดหวังที่มากที่สุด (expectation maximization algorithm) ที่ใช้ใน hidden Markov models.

Back to top

Bayes? rule
รูปแบบของความน่าจะเป็นแบบมีเงื่อนไข ได้มาจากการคำนวณความเป็นไปได้ที่จะเกิดเหตุการณ์หนึ่งเมื่อกำหนดว่าจะต้องเกิดอีกเหตุการณ์หนึ่งขึ้นก่อนแล้ว (ขึ้นกับเหตุการณ์ที่เกิดขึ้นในอดีตที่มีข้อมูลย้อนหลังเกี่ยวข้อง) เขียนแทนด้วยสมการที่มีตัวแปรเป็น A และ B ความน่าจะเป็นแบบมีเงื่อนไขของ A คือความน่าจะเป็นที่จะเกิดเหตุการณ์ B เมื่อมีเหตุการณ์ A เกิดก่อนแล้ว เขียนแทนด้วย P(B/A) หารด้วยความน่าจะเป็นของ B เขียนแทนด้วย P(

, P(A) คือ ค่าการกระจายการเกิดเหตุการณ์ในอดีตของ A ส่วน P(B/A) คือค่าของบีที่ถูกทำนายขึ้นจากค่า A เฉพาะ และ P(

คือ ผลรวมของค่าที่ถูกทำนายขึ้นใหม่ของB, P(A/

จะเป็นความน่าจะเป็นที่เกิดขึ้นภายหลัง ซึ่งแทนได้ด้วยค่า A ที่เกิดขึ้นใหม่ที่มีเหตุการณ์ A เกิดขึ้นมาแล้วและการค้นพบความสัมพันธ์ใหม่ระหว่าง A และ B

Bayesian analysis
กระบวนการทางสถิติที่ใช้ประเมินตัวแปรของการกระจายที่กำลังศึกษา ซึ่งมีค่าขึ้นกับการกระจายที่สังเกตได้ ค้นเพิ่มเติมที่ Bayes rule.

Biochips
เป็นการจัดเรียงโมเลกุลชีวภาพจำนวนมากลงบนพื้นผิววัสดุขนาดเล็กบางอย่าง (เช่น กระจก) อย่างเป็นระเบียบ โดยเฉพาะนิวคลีโอไทด์สายสั้นๆ โดยถูกจัดเป็นแถวในรูปแบบที่กำหนด มักเรียกว่าDNA microarrays และBiochips.

Bioinformatics
ชีวสารสนเทศ เป็นสหวิชาที่รวมเอาศาสตร์ทางชีววิทยา วิทยาศาสตร์คอมพิวเตอร์ คณิตศาสตร์ และสถิติ มาวิเคราะห์ลำดับข้อมูลทางชีววิทยา ส่วนประกอบและการจัดเรียงตัวของยีนและจีโนม รวมถึงทำนายโครงสร้างและหน้าที่ของโมเลกุลขนาดใหญ่

Bit units
จาก information theory, หมายถึง ปริมาณข้อมูลที่ต้องการเพื่อใช้แยกสิ่ง 2 สิ่งที่มีความเป็นไปได้คล้าย ๆ กัน จำนวนบิทของข้อมูล (N) ที่ต้องการใช้ในการส่งข้อมูลที่มีความเป็นไปได้ M สามารถเขียนแทนได้ด้วยสมการ log2M = N bits

BLAST
ย่อมาจาก Basic Local Alignment Search Tool เป็นเทคนิคที่สะดวกรวดเร็วที่ใช้ในการเปรียบเทียบบางส่วนของสายลำดับที่ไม่มีช่องว่าง กับสายลำดับที่สนใจศึกษา เพื่อหาความตรงกัน

Block
ส่วนของสายลำดับโปรตีนที่พบว่ารูปแบบ (patterns) ที่พบเหมือน ๆ กันเมื่อเปรียบเทียบระหว่างสายลำดับกรดอะมิโนของโปรตีนที่มีความเกี่ยวข้องกันกลุ่มหนึ่ง โดยส่วนดังกล่าวนี้ไม่มีช่องว่าง และประกอบด้วยกรดอะมิโนความยาวประมาณ 3-60 ตำแหน่งBack to top

Back to top

Blocks database
Blocks database
ฐานข้อมูลสาธารณะที่มีข้อมูลรูปแบบของโปรตีน อันแสดงถึงบริเวณของโปรตีนที่ได้รับการอนุรักษ์ (conserved regions) มากที่สุด ฐานข้อมูลนี้ถูกนำไปใช้ในการวิเคราะห์สายลำดับกรดอะมิโนของโปรตีนโดยวิธี Block 2 bioanalysis เพื่อเปรียบเทียบกับโคลนต่าง ๆ ของ Incyte และ Wash U-Merck ซึ่งไม่ตรงกับข้อมูลในฐานข้อมูล GenBank ลิงก์สู่ BLOCKS ที่นี่

Block-indel
คำเต็มคือ The Block-Indel Cost Function/Model หมายถึงในกระบวนการเปรียบเทียบสายลำดับนั้น การช่องว่างใหม่จะมีค่า(หรือคะแนน)สูงกว่าการขยายช่องว่างที่มีอยู่แล้ว และมักเป็นคะแนนที่ถูกหักออกไป

BLOSUM matrices
ย่อมาจาก BLOcks amino acid SUbstitution Matrices) บลอสซัมเมทริกซ์ได้มาจากการเปรียบเทียบบางส่วนของสายลำดับกรดอะมิโนของโปรตีนจำนวนหลายสาย โดยสายลำดับกรดอะมิโนที่นำมาเปรียบเทียบนั้นมีความสัมพันธ์ที่ห่างไกลกันมากกว่ากลุ่มสายลำดับที่ใช้สำหรับแพมเเมทริซ์ PAM มักใช้ในการประเมินความคล้ายคลึงกันของสายลำดับกรดอะมิโนที่นำมาเปรียบเทียบ

Boltzmann distribution
อธิบายถึงจำนวนโมเลกุลที่มีระดับพลังงานสูงกว่าค่าหนึ่ง ๆ มีค่าขึ้นกับค่าคงที่ของก๊าซของ Boltzmann และอุณหภูมิสัมบูรณ์

Boltzmann probability function
ดูที่Boltzmann distribution.

Bootstrap analysis
วิธีการที่ใช้ตรวจสอบว่าชุดข้อมูลนั้นๆ สอดคล้องกับแบบจำลองที่ใช้หรือไม่ เช่น การตรวจสอบความถูกต้องของการจัดเรียงแขนงของแผนภูมิระบบชาติพันธุ์ phylogenetic tree) ที่พยากรณ์ไว้ (branch arrangement in a predicted) ได้โดยการสุ่มตัวอย่างคอลัมน์ของการเปรียบเทียบแบบหลายสายลำดับ (multiple sequence alignment) ซ้ำ ๆ เพื่อสร้างการเปรียบเทียบอันใหม่ขึ้น จากนั้นทำการตรวจสอบลักษณะแขนงที่ปรากฏในแผนภูมิระบบชาติใหม่ใหม่ที่ได้ในแต่ละครั้ง การตรวจสอบอีกวิธีหนึ่งเป็นการตัดสายลำดับใด ๆ ออกชุดที่กำลังศึกษา เพื่อดูว่าสายลำดับที่ถูกตัดออกไปนั้นมีผลต่อผมการวิเคราะห์มากน้อยเพียงใด

Branch length
ศัพท์ในการวิเคราะห์ลำดับเบส หมายถึงจำนวนของสายลำดับที่เปลี่ยนไปในแขนงหนึ่ง ๆ ในแผนภูมิระบบชาติพันธุ์phylogenetic tree.

Back to top

Browser
โปรแกรมที่ใช้เข้าสู่เวบไซต์ต่าง ๆ ในเวิลด์ไวด์เว็บ World Wide Webโดยมีภาษาเอชทีเอ็มแอล(HTML) เป็นตัวช่วยให้บราวเซอร์แสดงผลของเว็บเพจโดยอิสระจากระบบที่คอมพิวเตอร์ใช้อยู่

Candidate gene
ยีน gene ที่อยู่ในบริเวณส่วนใดส่วนหนึ่งของโครโมโซมchromosome ส่วนที่สงสัยว่ามีความเกี่ยวข้องกับการก่อโรค โดยมีโปรตีนที่สร้างจากยีนนั้นเป็นตัวบ่งชี้ว่าอาจเป็นยีนก่อโรคtion.

Carrillo-lipman bound
Carillo-Lipman Bound จะให้ค่าขอบเขตบนของคะแนนที่ได้จากการเปรียบเทียบสายลำดับจำนวนหลายสายที่เหมาะสม โดยพิจารณาคะแนนที่ได้จากการการเปรียบเทียบสายลำดับสายหลายบางส่วนที่ให้คะแนนที่ดีที่สุด ด้วยวิธีนี้จึงทำให้ไม่จำเป็นต้องทำการคำนวณหาคะแนนจาก dynamic programming hyperlattice ทั้งตาราง

cDNA
ย่อมาจาก complementary DNA เป็นดีเอนเอที่เข้าคู่กับเมสเซนเจอร์อาร์เอนเอ (เอ็มอาร์เอนเอ,mRNA ) ซึ่งสามารถนำมาเพิ่มจำนวนและหาลำดับเบสได้ง่าย

cDNA library
"ห้องสมุด cDNA" แหล่งรวบรวมลำดับดีเอนเอที่สร้างจากเอ็มอาร์เอนเอ mRNA ซึ่งมีดีเอนเอเฉพาะที่มีรหัสสำหรับสร้างโปรตีนเท่านั้น (ยีน)(genes) ไม่นำส่วนที่ไม่มีรหัสโปรตีนมารวมอยู่ด้วย

CentiMorgan (cM)
หน่วยที่ใช้ในการทำแผนที่พันธุกรรม genetic mapโดยในการจัดทำแผนที่พันธุกรรมนั้น จะวัดระยะทางระหว่างตำแหน่งเครื่องหมาย markers ที่กำหนด 2 ตำแหน่ง โดยวัดจากอัตราการเกิด meiotic recombination ซึ่งจะมีค่าเพิ่มขึ้นเป็นสัดส่วนโดยตรงกับระยะทางระหว่างตำแหน่งทั้งสอง นิยามของ cM คือความยาวจะเป็นของช่วงที่จะเกิด recombination เท่ากับ 1% โดยเฉลี่ยแล้วจะให้ 1 cM จะมียาวประมาณความยาวของดีเอนเอ 1 Mb อย่างไรก็ตามระยะนี้อาจเปลี่ยนแปลงได้ขึ้นกับโอกาสที่จะเกิด recombination ว่ามีมากหรือน้อยเพียงใด (hot and cold spots of recombination)

Cell
หน่วยย่อยที่สุดของสิ่งมีชีวิตที่สามารถดำรงชีวิตได้อย่างอิสระ

Back to top

CentiRay (cR)
หน่วยของระยะทางของแผนที่พันธุกรรม genetic map โดยเป็นความยาวของช่วงที่มีความน่าจะเป็นที่รังสีเอ็กซ์จะเหนี่ยวนำให้เกิดการแตกพันธะเท่ากับ 1% ทั้งนี้ต้องระบุปริมาณรังสีที่ใช้ในหน่วย rads (เช่น cR8000) จึงจะถือว่าสมบูรณ์ เนื่องจากปริมาณรังสีมีผลต่อการแตกพันธะ

Characters and character states
ในการศึกษาระบบชาติพันธุ์ phylogenetics, คุณสมบัติ (character) หมายถึงลักษณะที่เหมือนกันในสิ่งมีชีวิตต่างชนิดกัน ส่วนสภาพที่แท้จริงของลักษณะหนึ่ง ๆ ในสิ่งมีชีวิตนั้นจะเรียกว่า สถานสมบัติ (character state) ยกตัวอย่างเช่น คุณสมบัติ "สีขน" อาจมีสถานสมบัติเป็น "สีทอง" "สีแดง" หรือ "สีเหลือง" หรือในระดับอณูชีววิทยา สถานสมบัติอาจหมายถึงเบส 1 ใน 4 ชนิด (A, C, T, G) หรือกรดอะมิโน 1 ใน 20 ชนิดเป็นต้น ผู้แต่งบางท่านอาจให้ความหมายของคุณสมบัติเหมือนกับสถานะสมบัติ

Chebyshev?s inequality
ความน่าจะเป็นที่ตัวแปรสุ่มที่มีค่าสูงกว่าค่าเฉลี่ย จะไม่มากกว่ากำลังสองของเศษหนึ่งส่วนค่าเบี่ยงเบนมาตรฐาน

Chromosome
โครงสร้างของดีเอนเอDNA และ protein ที่พบในนิวเคลียสของเซลล์ cell nucleus. โครโมโซมแต่ละอันประกอบด้วยยีนgenes เป็นร้อยเป็นพันยีน ซึ่งสืบทอดมาจากบรรพบุรุษ มนุษย์มีโครโมโซมทั้งหมด 23 คู่ (ในแต่ละคู่ได้มาจากมาจากพ่อและแม่อย่างละอัน) ประกอบด้วยยีนทั้งหมด 50,000-100,000 ยีน

Client
คอมพิวเตอร์หรือโปรแกรมที่ทำงานบนคอมพิวเตอร์ ซึ่งมีปฏิสัมพันธ์กับคอมพิวเตอร์อื่นที่อยู่ไกลออกไป (server) client แตกต่างจาก user

Clone ID
รหัสประจำหรือตัวเลขจำเพาะที่ใช้ในการระบุโคลนของ LifeSeq โดยใน 1 clone ID อาจมี sequence ID ที่เกี่ยวข้องมากกว่า 1 อันก็ได้

Clones
กลุ่มเซลล์ที่ได้จากบรรพบุรุษหนึ่งๆ (single ancestor)

Back to top

Cloning vector
โมเลกุลของดีเอนเอDNA ที่ได้มาจากยีสต์, แบคทีเรีย, ไวรัส, พลาสมิด plasmid,คอสมิด cosmid,หรือ ฝาจ (phage) และมีชิ้นส่วนดีเอนเอแปลกปลอมแทรกอยู่ สามารถถูกเหนี่ยวนำเข้าสู่เซลล์เจ้าบ้าน (host cell) และเพิ่มจำนวนในเซลล์เจ้าบ้านได้

Clustal alignment
เป็นการเปรียบเทียบสายลำดับหลายสายพร้อมกัน (multiple alignment) โดยใช้ชุดโปรแกรม Clustal โดยทำการเปรียบเทียบไล่ไปตามแขนงของแผนภูมิ (alignment along a tree) แผนภูมิจะภูกสร้างขึ้นจากคะแนนที่ได้จากการเปรียบเทียบสายลำดับทีละคู่ (pairwise alignment) สามารถดาวน์โหลดโปรแกรม Clustalx ได้ที่นี่here.

Cluster
กลุ่มโคลนที่เกี่ยวข้องกันโดยมีความคล้ายคลึงกันของสายลำดับ (sequence homology) แต่ละ cluster จะมีรหัสประจำ (cluster ID number) เฉพาะเป็นของตัวเองภายใต้เงื่อนไขหนึ่ง

Cluster analysis
วิธีการที่ใช้จัดกลุ่มวัตถุที่มีความเกี่ยวข้องสัมพันธ์กันให้อยู่ในกลุ่มเดียวกัน ความสัมพันธ์ขึ้นกับเกณฑ์ที่ใช้ในการพิจารณาความคล้ายคลึงหรือความแตกต่าง ในการวิเคราะห์สายลำดับนั้นจะใช้คะแนนความคล้ายคลึง (similarity score) หรือคะแนนความแตกต่าง (distance score) หรือผลจากการประเมินทางสถิติของคะแนนเหล่านี้

Cobbler
สายลำดับหนึ่ง ๆ ที่มีบริเวณที่ได้รับการอนุรักษ์ (conserved region) มากที่สุดจากการเปรียบเทียบสายลำดับหลายเส้นพร้อมกัน เซิร์ฟเวอร์ BLOCKS จะใช้ลำดับ cobbler เพื่อทำการเปรียบเทียบเพื่อค้นหาความคล้ายคลึงกันในฐานข้อมูล เพื่อให้ได้สายลำดับที่มีความหลากหลายมากกว่าที่ได้จากการใช้สายลำดับ 1 เส้นในการเปรียบเทียบ

Coding system
Coding system จำเป็นต้องได้รับการออกแบบเพื่อใช้ในการแสดงค่า input และ output ของ neural networksระดับความสำเร็จในการฝึกแบบจำลองส่วนหนึ่งขึ้นกับคุณภาพของ Coding system ระบบที่เลือกใช้

Codon
ลำดับเบสของDNA 3 ตัวที่แปลรหัสได้กรดอะมิโน 1 ตัว

Codon usage
การวิเคราะห์ codon ที่มักใช้เฉพาะในยีนgene หรือสิ่งมีชีวิตชนิดหนึ่ง

Back to top

COG
กลุ่มของ orthologous (กลุ่มของสายลำดับเบสจากสิ่งมีชีวิตคนละชนิด ที่มีความคล้ายคลึงกัน) ในบรรดาสายลำดับที่มีความเกี่ยวข้องกันจุลชีพและยีสต์ (S. cerevisiae) สามารถพบกลุ่มดังกล่าวนี้ได้โดยทำการเปรียบเทียบ proteome ทั้งหมดและรวมถึง orthologs และ paralogs ค้นเพิ่มเติมที่ Orthologs และ Paralogs.

Combinatorial chemistry
เทคโนโลยีในการสังเคราะห์สารชนิดใหม่โดยใช้การผสมสานโมเลกุลของสารตั้งต้นหลาย ๆ ชนิด

Combinatorial library
ฐานข้อมูลหรือการเก็บรวบรวมข้อมูลของสารประกอบที่ใช้ในการทดสอบกับเป้าหมายของยา

Comparative genomics
การเปรียบเทียบจำนวน ตำแหน่งและหน้าที่ทางชีวภาพของgeneในgenomes ของสิ่งมีชีวิตต่าง ๆ จุดประสงค์เพื่อบ่งชี้กลุ่มของยีนที่ทำหน้าที่ทางชีวภาพอันเป็นลักษณะเฉพาะในสิ่งมีชีวิตหนึ่ง ๆ

Complexity (of an algorithm)
เป็นคำที่อธิบายจำนวนขั้นตอนที่ต้องใช้ในอัลกอริทมเพื่อแก้ปัญหา โดยขึ้นกับปริมาณของข้อมูล เช่น ความยาวของสายลำดับที่นำมาเปรียบเทียบ

Conditional probability
ความน่าจะที่จะเกิดผลลัพธ์อย่างหนึ่ง (หรือค่าหนึ่งของตัวแปร) ภายใต้เหตุการณ์หรือเงื่อนไขอย่างหนึ่งหรือมากกว่า (หรือภายใต้ค่าใด ๆ ของตัวแปรอื่น ๆ)

Consensus
สายลำดับเส้นหนึ่งที่แสดงความผันแปร ณ คอลัมน์ใด ๆ ซึ่งได้จากการเปรียบเทียบสายลำดับพร้อมกันหลายเส้น multiple sequence alignment.

Context-free grammars
A recursive set of production rules for generating patterns of strings. These consist of a set of terminal characters that are used to create strings, a set of nonterminal symbols that correspond to rules and act as placeholders for patterns that can be generated using terminal characters, a set of rules for replacing nonterminal symbols with terminal characters, and a start symbol.

Back to top

Contig
กลุ่มโคลนclonesที่สามารถประกอบกันเป็นเส้นสายได้
แผนที่โครโมโซม chromosome ที่แสดงตำแหน่งของบริเวณต่าง ๆ ในโครโมโซมที่เกิดการเหลื่อมกัน (overlap) ของชึ้นส่วนดีเอนเอ DNA แผนที่ contig สามารถเพิ่มขีดความสามารถในการศึกษาบริเวณใดบริเวณหนึ่งของจีโนม genome หรือทั้งจีโนมได้อย่างสมบูรณ์ โดยตรวจสอบโคลนต่าง ๆ ที่มีการเหลื่อมกันและได้เป็นข้อมูลที่มีความต่อเนื่องของบริเวณนั้น

CORBA
ย่อมาจาก The Common Object Request Broker Architecture (CORBA) คือมาตรฐานอุตสาหกรรมแบบเปิด ที่ใช้กับ distributed objects CORBA ได้รับพัฒนาโดย The Object Management Group CORBA ยอมให้มีการติดต่อกันระหว่าง object และโปรแกรมคอมพิวเตอร์โดยไม่คำนึงถึงภาษาคอมพิวเตอร์ สถาปัตยกรรมของของเครื่อง หรือตำแหน่งเชิงภูมิศาสตร์ของเครื่องคอมพิวเตอร์

Correlation coefficient
ค่าตัวเลขระหว่าง -1 ถึง 1 ใช้บ่งบอกระดับความสัมพันธ์เชิงเส้นระหว่างตัวแปร 2 ตัว ค่าบวกแสดงความสัมพันธ์ไปในทิศทางเดียวกัน ส่วนค่าลบแสดงความสัมพันธ์ในทิศทางตรงกันข้าม และหากมีค่าใกล้ศูนย์แสดงว่าไม่มีความสัมพันธ์ใด ๆ ระหว่างตัวแปร 2 ตัวนั้น

Cosmid
cloning vector cที่ประดิษฐ์ขึ้น (artificial cloning vector) ประกอบด้วย cos gene ของ lambda phage (ซึ่งใช้ในการ infect E. coli) cosmid สามารถรับชิ้นส่วนดีเอนเอที่มีความยาวถึง 45 กิโลเบสเข้าไปได้ ซึ่งชิ้นส่วนดีเอนเอที่แทรกไปใน cosmid นี้ยาวกว่าที่ใช้กับ plasmid

Covariation (in sequences)
การเปลี่ยนแปลงบนสายลำดับที่มีความเกี่ยวข้องกัน 2 ตำแหน่งหรือมากกว่า ซึ่งเกิดขึ้นพร้อมกัน โดยอาจมีผลทำให้โครงสร้างทุติยภูมิของอาร์เอนเอหรือโปรตีนเปลี่ยนแปลงไป

Cytosine
เบสชนิดหนึ่งจากทั้งหมด 4 ชนิดที่ประกอบกันเป็นสายดีเอนเอ (A T C G) ตัวย่อของcytosine คือ C ส่วนตัวอื่นคือ adenine guanine และ thymine เบส cytosine จะจับคู่กับ guanine เสมอ ค้นเพิ่มเติมที่ Adenine, Guanine และ Thymine.

Back to top

Database
แหล่งเก็บรวบรวมข้อมูลบนคอมพิวเตอร์ที่สามารถเรียบเรียง เพิ่ม ลบและเปลี่ยนแปลงแก้ไขข้อมูลได้ ตามวิธีมาตรฐาน ค้นเพิ่มเติมที่ Object-oriented database, Relational database.

dbEST
ข้อมูลสายลำดับรวมทั้งข้อมูลอื่น ๆ ของ cDNA ที่ได้จากการแปล mRNA ของสิ่งมีชีวิตชนิดต่าง ๆ แบบ single-pass ดู ETS.

dbGSS
ข้อมูลจีโนมแบบ single-pass, สายลำดับในระดับจีโนมที่มีแต่ exon (exon-trapped genomic sequences) และสายลำดับจาก PCR (Alu PCR sequences) GSS มีความคล้ายคลึงกับ dbEST แต่แตกต่างกันตรงที่สายลำดับของ GSS เป็นจีโนม ส่วนใน dbEST เป็น cDNA ดู GSS.

dbSNP
ศูนย์กลางเก็บรวบรวมข้อมูลยีนที่มีลักษณะ polymorphism ซึ่งเกิดการแทนที่ของนิวคลีโอไทด์เพียงหนึ่งตำแหน่ง การเกิด deletion และการเกิด insertion สายสั้นๆ ดู SNP.

dbSTS
ข้อมูลสายลำดับเบสและข้อมูลแผนที่บนสายลำดับจีโนมสายสั้น ๆ ที่มีตำแหน่งสำคัญ (landmarks) แสดงอยู่ด้วย ดู STS.

Deletion
การกลายพันธุ์รูปแบบหนึ่ง โดยเกิดจากการที่ชิ้นส่วนดีเอนเอหายไปจากโครโมโซม การหายไปของยีนหรือบางส่วนของยีนซึ่งอาจทำให้เกิดโรคหรือเกิดความผิดปกติต่าง ๆ ได้

Dendogram
แผนภูมิกี่งที่ใช้แสดงวัตถุที่ถูกนำมาเปรียบเทียบในแนวตั้ง (เช่น สายลำดับหรือยีนในการทำ microarray analysis) วัตถุที่สัมพันธ์กันจะถูกเชื่อมโยงกันด้วยกิ่งที่แตกออกไปและขนานไปทางด้านข้างของวัตถุนั้น

Deoxyribonucleic acid
ดูที่ DNA

Back to top

Descriptor
ข้อมูลของสายลำดับหรือกลุ่มของสายลำดับที่มีขอบเขตขึ้นกับตำแหน่งในบันทึก descriptor มักถูกบันทึกไว้กับชุดของสายลำดับ เพื่อลดการบันทึกข้อมูลที่มากมายเกินความจำเป็นอันเนื่องมาจากความซ้ำซ้อนของข้อมูล

Diploid
จำนวนโครโมโซมchromosomes ในเซลล์ทั่วไปยกเว้นเซลล์สืบพันธุ์ ในมนุษย์มีจำนวน diploid เท่ากับ 46

Dirichlet mixtures
The conjugational prior of a multinomial distribution. One usage is for predicting the expected pattern of amino acid variation found in the match state of a hidden Markov model (representing one column of a multiple sequence alignment of proteins), base on prior distributions found in conserved protein domains (blocks).

Distance in sequence analysis
จำนวนการเปลี่ยนแปลงที่สังเกตได้ในการเปรียบเทียบสายลำดับ 2 เส้น โดยไม่นับรวมช่องว่างที่อยู่ในสายลำดับนั้น

Distance matrix
ตารางคะแนนที่ได้จากการเปรียบเทียบสายลำดับเป็นคู่ที่เหมาะสม (optimal pairwise alignment - เรียกอีกอย่างหนึ่งว่า edit distance)สนามเมทริกซ์ (i, j) ประกอบด้วยค่าคะแนนการเปรียบเทียบลำดับเบสที่เหมาะสมของ 2 ตัวอักษรในสายลำดับทั้ง 2 เส้นไปเรื่อย ๆ จนถึงตำแหน่ง i และ j และทำการคำนวณจากตำแหน่งใกล้เคียงกันที่อยู่ด้านซ้ายบนโดยใช้สมการ recursive equation (Dynamic Programming Matrix)

Distance measure
คือฟังก์ชันที่เชื่อมโยงค่าตัวเลขที่ไม่เป็นลบกับ(คู่)ของสายลำดับเข้าด้วยกัน โดยถือว่าที่ระยะที่สั้นกว่าหมายความว่ามีความคล้ายกันมากกว่า ปกติ distance measures จะสอดคล้องกับกฏทางคณิตศาสตร์ของเมทริกซ์ distance measure เป็นฟังก์ชันที่ใช้ในการให้คะแนนชนิดหนึ่ง

DNA
Deoxyribonulceic acid หรือโมเลกุลที่เป็นสาย 2 สายเชื่อมกันด้วยพันธะอ่อนๆ ระหว่างคู่เบสที่แตกต่างกัน 4 ชนิด (A, T, C, G)DNA เป็นแหล่งเก็บข้อมูลพันธุกรรมสำหรับการเจริญเติบโต การพัฒนา และการจำลองแบบ (replication)

Back to top

DNA chip
นิวคลีโอไทด์สายสั้นๆ ที่ถูกพิมพ์อยู่บนผิวของแข็งอย่างเป็นระเบียบ ใช้เพื่อบ่งชี้สายลำดับดีเอนเอที่อยู่ติดฉลากด้วยสารเรืองแสง ค้นเพิ่มที่ Biochip.

DNA microarray
ดู DNA chip

DNA replication
กระบวนการที่เกลียวคู่ของสายดีเอนเอคลายออก และเกิดการทำจำลองตัวมันเองขึ้นเหมือนเดิมทุกประการ

DNA sequencing
การหาลำดับเบสที่ถูกต้องในชิ้นส่วนดีเอ็นเอ

Domain name
หมายถึงระดับหนึ่งในหลาย ๆ ระดับของการจัดองค์กรในเครือข่ายอินเตอร์เน็ต Internetมีไว้เพื่อแยกและระบุเครื่องที่ทำหน้าที่เป็นเจ้าบ้านหรือโฮสต์ (host machines) ส่วนชื่อโดเมนในระดับสูงสุด (top level domain name) จะใช้บ่งชี้ชนิดของไซต์หรือประเทศที่โฮสต์นั้นตั้งอยู่

Dot matrix
แผนภาพ dot matrix แสดงวิธีการที่ใช้ในการเปรียบเทียบสายลำดับ 2 เส้น สายลำดับเส้นแรกจะถูกเขียนในแนวนอนที่ส่วนบนของกราฟ ส่วนอีกเส้นจะเขียนในแนวตั้งทางซ้ายมือของกราฟ จุดในกราฟแสดงตำแหน่งที่ทั้งสายลำดับ 2 เส้นนั้นมีอักษรเหมือนกัน เส้นทแยงมุมในกราฟแสดงถึงส่วนที่เหมือนหรือคล้ายหรือเข้ากันได้ (alignment) ตารางที่ได้อาจถูกนำไปผ่านการกรองเพื่อหาบริเวณที่มีความคล้ายคลึงกันมากที่สุด โดยกำหนดค่าขั้นต่ำที่ตำแหน่งบนสายลำดับสองเส้นจะต้องเหมือนกันภายในความยาวหรือขอบเขตหน้าต่างที่กำหนด

Double helix
การจัดเรียงโครงสร้าง DNAที่ดูคล้ายกับบันไดลิงยาว ๆ ที่บิดเป็นเกลียวหรือเป็นขด ด้านข้างของ "บันได" ประกอบด้วยโมเลกุลน้ำตาลและฟอสเฟตรวมตัวเป็น backbone ส่วนขั้นบันไดเป็นเบสที่จับกันด้วยแรงพันธะอ่อน ๆ ที่เรียกว่าพันธะไฮโดรเจน เบส น้ำตาล และฟอสเฟต รวมตัวกันเป็นนิวคลีโอไทด์ ดังนั้นนิวคลีโอไทด์หลายจึงต่อ ๆ กับเป็นสาย และ 2 สายจับคู่กันเป็นดีเอนเอ

Download
การส่งถ่ายข้อมูลจากคอมพิวเตอร์โฮสต์หรือเจ้าบ้านที่อยู่ไกลออกไป ไปยังเครื่องคอมพิวเตอร์ที่ใช้งานอยู่ โดยมากจะส่งผ่านทาง FTP.

Back to top

Duplication
การกลายพันธุ์รูปอย่างหนึ่ง mutationเกิดจากมีชิ้นส่วนดีเอนเอที่ซ้ำกันเพิ่มขึ้น 1 ส่วนหรือมากกว่า หมายรวมถึงยีนและแม้แต่โครโมโซมทั้งหมดด้วย

Dynamic programming
อัลกอริทึมแบบ dynamic programming ทำการแก้ปัญหาโดยการแบ่งออกเป็นปัญหาย่อย ๆ (sub-problems) จากนั้นทำการคำนวณเพื่อแก้ปัญหา แล้วนำคำตอบที่คำนวณได้บันทึกลงในตารางหรือเมทริกซ์ Dynamic programming มักใช้ในการแก้ปัญหาที่มีคำตอบที่น่าจะเป็นไปได้หลายคำตอบและจำเป็นต้องได้คำตอบที่เหมาะสมที่สุด อัลกอริทมนี้ถูกใช้เพื่อหาการเปรียบเทียบสายลำดับที่เหมาะสม โดยใช้ระบบการให้คะแนนจากการเปรียบเทียบสายลำดับหลาย ๆ แบบ

Dynamic programming hyperlattice
The Dynamic Programming Hyperlattice ของการเปรียบเทียบสายลำดับหลายเส้น สามารถทำให้มองเห็นการเปรียบเทียบสายลำดับที่น่าจะเป็นไปได้ผ่านโครงข่ายในหลายๆมิติ ขึ้นกับจำนวนของสายลำดับที่ถูกนำมาเปรียบเทียบ (Dynamic Programming Hypercube)

E-value
หมายถึง จำนวนความเหมือน (hits) ที่คาดหวังว่าจะพบด้วยความบังเอิญ ในการสืบค้นฐานข้อมูล และได้ค่าคะแนนหนึ่ง ๆ หรือดีกว่า ค่า E-value ขึ้นกับขนาดของฐานข้อมูลที่สืบค้น ค่า E-value ยิ่งต่ำคะแนนที่ได้ยิ่งมีความน่าเชื่อถือ ค้นเพิ่มเติมที่ P-value.

e-mail
ย่อมาจาก Electronic mail หรือจดหมายอิเล็กทรอนิกส์ หมายถึงข้อความที่สร้างขึ้นบนคอมพิวเตอร์และส่งผ่านอินเทอร์เน็ตไปยังที่ไกลออกไปได้ภายในระยะเวลาไม่กี่วินาที (คำตรงข้าม: snail mail, postal mail)

EBI
ย่อมาจาก European Bioinformatics Institute (เครือข่ายของ EMBL) ข้อมูลเพิ่มเติมติดต่อที่http://www.ebi.ac.uk/.

Edit distance
คือค่าคะแนนที่ได้จากการเปรียบเทียบที่เหมาะสมของสายลำดับสองเส้น optimal pairwise alignment.

Edit operation
คือการแทนที่ การแทรก หรือการลบอักษรออก 1 ตำแหน่ง (หมายถึงตัวอักษรในสายลำดับ) Matches (การแทนที่ตัวอักษรด้วยตัวมันเอง) จัดเป็น edit operation แบบหนึ่ง

Back to top

Electronic Northern
การทำงานอย่างหนึ่งของฐานข้อมูลลำดับยีน Lifeseq และ Zooseq และการแสดงออกของยีนด้วย การวิเคราะห์แบบนี้จะแสดงการมีอยู่ของยีนและปริมาณของยีนที่แสดงออกในกลุ่มที่ศึกษา คำนี้มาจากการเทคนิค Northern Blot ในห้องปฏิบัติการ

EMBL
ห้องปฏิบัติการทางชีววิทยาโมเลกุลแห่งยุโรป (European Molecular Biology Laboratory) ตั้งอยู่ที่ไฮเดลเบิร์กประเทศเยอรมัน ข้อมูลเพิ่มเติม http://www.embl-heidelberg.de/.

EMBnet
เครือข่ายชีววิทยาโมเลกุลแห่งยุโรป (European Molecular Biology network)

Entrez
แหล่งข้อมูลออนไลน์ที่จัดทำขึ้นโดยศูนย์ข้อมูลทางเทคโนโลยีชีวภาพแห่งชาติ (NCBI)ซึ่งมีฐานข้อมูลสายลำดับของ GenBank ที่สามารถเชื่อมโยงข้อมูลเหล่านั้นไปยังเอกสารที่ตีพิมพ์ข้อมูลของยีนที่สืบค้นได้ ลิงก์ไป here ที่นี่

Entropy
จากทฤษฎีสารสนเทศ information theory หมายถึง การวัดธรรมชาติที่ทำนายไม่ได้ของหน่วย (elements) ที่เป็นไปได้ชุดหนึ่ง ถ้าชุดนั้นมีระดับความผันแปรภายในมากก็จะยิ่งมีเอนโทรปีมาก

Enzyme
โปรตีนที่ทำหน้าที่เร่งปฏิกิริยาชีวเคมี ปกติมักทำให้อัตราเร็วของปฏิกิริยาเพิ่มขึ้น สิ่งมีชีวิตไม่สามารถดำรงอยู่ได้หากไม่มีเอนไซม์

Erdos and Renyi law
ในการทอยเหรียญ (fair coin) สามารถคาดเดาจำนวนเหตุการณ์ที่จะเกิดหัวติดต่อกันได้เท่ากับล็อกฐานสองของจำนวนครั้งที่โยนเหรียญ กฎนี้ใช้ได้กับเหตุการณ์ที่ให้ผลที่เป็นไปได้มากกว่า 2 เหตุการณ์ โดยเปลี่ยนเลขฐานของลอการิทึมให้เท่ากับจำนวนผลของเหตุการณ์ที่เกิดได้ มักใช้กฎนี้ในการวิเคราะห์จำนวนยีนที่เหมือนและไม่เหมือนกันในสายลำดับแบบสุ่ม เพื่อคำนวณคะแนนของการเปรียบเทียบสายลำดับที่มีนัยสำคัญทางสถิติ

EST
Expressed Sequence Tag (ESTs) คือสายลำดับเบสสายสั้นๆ มีความยาวประมาณ 300-500 คู่เบส ที่แปลมาจาก mRNA แล้วได้สายลำดับ cDNA ซึ่งมักมีจำนวนมาก ๆ EST แสดงให้เห็นการแสดงออกของยีนต่าง ๆ ณ เวลาหนึ่ง ๆ ในเนื้อเยื่อที่ศึกษา หรือในช่วงใดช่วงหนึ่งของการเจริญเติบโตและพัฒนาการ EST จะมีฉลาก (tags) ของยีนกำกับ รวมทั้งอาจมีฉลากอื่น ๆ ที่ไม่เกี่ยวกับยีนด้วย บันทึกแบบนี้มีข้อมูลประกอบน้อย และมีเฉพาะข้อมูลทางด้าน library และ biosource เท่านั้น สามารถสืบค้น EST ได้จากฐานข้อมูหลายแห่ง เช่น DDBJ/EMBL/GenBank, dbEST และ Unigene หาข้อมูลเพิ่มเติมได้ที่ http://www.ncbi.nlm.nih.gov/dbEST// หรือดูที่ Expressed sequence tag

Exons
ส่วนของยีนgeneที่มีรหัสสำหรับการสร้างเป็นโปรตีน แต่ละ exon มีรหัสซึ่งจะถูกแปลเป็นส่วนหนึ่งของโปรตีน ในสิ่งมีชีวิตบางสปีชีส์ (รวมทั้งมนุษย์) exon ต่าง ๆ ของยีนจะถูกแยกออกจากกันโดยดีเอนเอสายยาวเรียกว่า introns หรือที่บางครั้งเรียกว่า ดีเอ็นเอขยะ (junk DNA) ซึ่งยังไม่ทราบหน้าที่ที่แน่ชัด ดู introns

Back to top

Expect Value
ดูที่ E-value

Expectation maximization (sequence analysis)
อัลกอริทึม algorithm ที่ใช้สำหรับหาตำแหน่งของรูปแบบหนึ่ง ๆ ของสายลำดับ (sequence pattern) ที่เหมือนกันในชุดของสายลำดับ โดยมักจ

Thread: ศัพท์น่ารู้เกี่ยวกับ Bioinformatic

Thread Tools

ศัพท์น่ารู้เกี่ยวกับ Bioinformatic

Members who have read this thread : 0

Tags for this Thread

Posting Permissions