ฟื้นฟู URL (หรือ canonicalization URL) ซึ่งเป็นกระบวนการโดย URL ที่ จะแก้ไขและมาตรฐานในลักษณะที่สอดคล้อง
The goal of the normalization process is to transform a URL into a normalized or canonical URL so it is possible to determine if two syntactically different URLs are equivalent.
กระบวนการฟื้นฟูเป้าหมายของการที่จะเปลี่ยน URL ลงหรือปกติ บัญญัติ URL ดังนั้นจึงเป็นไปได้ที่จะตรวจสอบว่า URL ที่แตกต่างกันสอง syntactically เทียบเท่า
Search engines employ URL normalization in order to assign importance to web pages and to reduce indexing of duplicate pages. Web crawlers perform URL normalization in order to avoid crawling the same resource more than once. Web browsers may perform normalization to determine if a link has been visited or to determine if a page has been cached.
เครื่องมือค้นหา จ้างฟื้นฟู URL เพื่อกำหนดความสำคัญกับหน้าเว็บและลดการสร้างดัชนีของหน้าเว็บซ้ำ ซอฟต์แวร์รวบรวมข้อมูลเว็บ การฟื้นฟู URL เพื่อหลีกเลี่ยงการรวบรวมข้อมูลทรัพยากรเดียวกันมากกว่าหนึ่งครั้ง เว็บเบราเซอร์ อาจดำเนินการฟื้นฟูเพื่อตรวจสอบว่าการเชื่อมโยงได้ เยี่ยมชมหรือเพื่อตรวจสอบว่าหน้าได้รับการเก็บไว้
Contents
เนื้อหาสาระ





Normalization process


There are several types of normalization that may be performed:
มีหลายประเภทบรรทัดฐานที่อาจดำเนินการดังนี้

  • Converting the scheme and host to lower case. The scheme and host components of the URL are case-insensitive.
    แปลงโครงการและพื้นที่ลดกรณี . โครงการและส่วนประกอบโฮสต์ของ URL ที่มีกรณีตาย
    Most normalizers will convert them to lowercase.
    normalizers ส่วนใหญ่จะแปลงตัวพิมพ์เล็ก
    Example:
    ตัวอย่างเช่น

HTTP://www.Example.com/Example Web Page
  • Adding trailing / Directories are indicated with a trailing slash and should be included in URLs.
    เพิ่มต่อท้าย / นามจะแสดงต่อท้ายด้วยเฉือนและควรจะรวมอยู่ใน URL ที่
    Example:
    ตัวอย่างเช่น

Example Web PageExample Web Page
  • Removing directory index. Default directory indexes are generally not needed in URLs.
    ลบดัชนี directory . Default ดัชนี directory โดยทั่วไปไม่จำเป็นต้องใน URL ที่
    Examples:
    ตัวอย่าง :

http://www.example.com/default.aspExample Web Page http://www.example.com/a/index.htmlhttp://www.example.com/a/
  • Capitalizing letters in escape sequences. All letters within a percent-encoding triplet (eg, "%3A") are case-insensitive, and should be capitalized.
    capitalizing ตัวอักษรในลำดับหนี . ตัวอักษรทั้งหมดภายใน เปอร์เซ็นต์การเข้ารหัส แฝด (เช่น"3A%") เป็นกรณีตายและควรเป็นตัวพิมพ์ใหญ่
    Example:
    ตัวอย่างเช่น

http://www.example.com/a%c2%b1bhttp://www.example.com/a%C2%B1b
  • Removing the fragment. The fragment component of a URL is usually removed.
    ลบส่วน . ส่วนประกอบส่วนของ URL จะถูกลบออก
    Example:
    ตัวอย่างเช่น

http://www.example.com/bar.html#section1http://www.example.com/bar.html
  • Removing IP. Check if the IP address is the same as its domain name.
    ลบ IP . ตรวจสอบว่า ที่อยู่ IP จะเหมือนกับชื่อโดเมนของ
    Example:
    ตัวอย่างเช่น

http://208.77.188.166/Example Web Page
  • Limiting protocols. Limiting different application layer protocols.
    โปรโตคอลการ จำกัด . การ จำกัด ต่าง ชั้นใช้ โปรโตคอล
    For example, the “https” scheme could be replaced with “http”.
    ตัวอย่างเช่น"โครงการ"https จะถูกแทนที่ด้วย http"
    Example:
    ตัวอย่างเช่น

https://www.example.com/Example Web Page
  • Removing the default port. The default port (port 80 for the “http” scheme) may be removed from (or added to) a URL.
    ลบพอร์ตเริ่มต้น . port เริ่มต้น (80 พอร์ตสำหรับ http"โครงการ) อาจถูกลบออกจาก (หรือเพิ่ม) URL
    Example:
    ตัวอย่างเช่น

http://www.example.com:80/bar.htmlhttp://www.example.com/bar.html
  • Removing duplicate slashes Paths which include two adjacent slashes should be converted to one.
    ลบซ้ำ slashes หนึ่งเส้นทางซึ่งรวมถึงติดสอง slashes จะถูกแปลงเป็น
    Example:
    ตัวอย่างเช่น

http://www.example.com/foo//bar.htmlhttp://www.example.com/foo/bar.html
  • Removing dot-segments. The segments “..” and “.” are usually removed from a URL according to the algorithm described in RFC 3986 (or a similar algorithm).
    ลบจุดกลุ่ม - . ส่วน".. "และ". "ถูกลบปกติจาก URL ตาม วิธี ที่อธิบายใน RFC 3986 (หรือวิธีที่คล้ายกัน)
    Example:
    ตัวอย่างเช่น

http://www.example.com/../a/c/./d.htmlhttp://www.example.com/a/c/d.html
  • Removing “www” as the first domain label. Some websites operate in two Internet domains: one whose least significant label is “www” and another whose name is the result of omitting the least significant label from the name of the first.
    www"ลบ"เป็นโดเมนป้ายแรก . บางเว็บไซต์ที่ดำเนินการในสองโดเมน Internet : หนึ่งที่มีป้ายเป็นอย่างน้อยที่สำคัญ"www"และอื่น ๆ ที่มีชื่อในผลของการไม่ใส่อย่างน้อยอย่างมีนัยสำคัญป้ายชื่อจากครั้งแรก
    For example, Example Web Page and Example Web Page may access the same website.
    ตัวอย่างเช่น Example Web Page และ Example Web Page สามารถเข้าถึงเว็บไซต์เดียวกัน
    Although many websites redirect the user to the non-www address (or vice versa), some do not.
    แม้ว่าเว็บไซต์ที่เปลี่ยนเส้นทางผู้ใช้ไปยัง non - www ที่อยู่ (หรือกลับกัน) บางคนไม่
    A normalizer may perform extra processing to determine if there is a non-www equivalent and then normalize all URLs to the non-www prefix.
    normalizer อาจดำเนินการเพิ่มเติมเพื่อตรวจสอบว่ามีเทียบเท่า non - www แล้วธรรมดา URL ทั้งหมดที่คำนำหน้า non - www
    Example:
    ตัวอย่างเช่น

Example Web PageExample Web Page
  • Sorting the variables of active pages. Some active web pages have more than one variable in the URL.
    เรียง ลำดับตัวแปรของหน้างาน . บางหน้าเว็บที่ใช้งานได้มากกว่าหนึ่งตัวแปรใน URL
    A normalizer can remove all the variables with their data, sort them into alphabetical order (by variable name), and reassemble the URL.
    normalizer สามารถลบตัวแปรทั้งหมดที่มีข้อมูลที่จัดเรียงไว้ในลำดับตัวอักษร (ชื่อตัวแปร) และรวมกันอีกครั้ง URL
    Example:
    ตัวอย่างเช่น

http://www.example.com/display?lang=en&article=fredhttp://www.example.com/display?article=fred&lang=en
  • Removing arbitrary querystring variables. An active page may expect certain variables to appear in the querystring; all unexpected variables should be removed.
    ลบ ตัวแปรสตริงการสืบค้น arbitrary . หน้างานอาจคาดหวังบางตัวแปรปรากฏในสตริงการสืบค้นนั้นทุกตัวแปรที่ไม่คาดคิด ควรลบ
    Example:
    ตัวอย่างเช่น

http://www.example.com/display?id=123&fakefoo=fakebarhttp://www.example.com/display?id=123
  • Removing default querystring variables. A default value in the querystring will render identically whether it is there or not.
    ลบเริ่มต้น สำหรับสตริงการสืบค้นตัวแปร . ค่าเริ่มต้นในสตริงการสืบค้นนั้นจะแสดงผลเหมือนกันไม่ว่าจะมีหรือไม่
    When a default value appears in the querystring, it can be removed.
    เมื่อค่าเริ่มต้นจะปรากฏในสตริงการสืบค้นที่สามารถออก
    Example:
    ตัวอย่างเช่น

http://www.example.com/display?id=&sort=ascendinghttp://www.example.com/display
  • Removing the "?"
    ลบ"?"
    when the querystring is empty. When the querystring is empty, there is no need for the "?".
    เมื่อสตริง การสืบค้นนี้ว่าง . เมื่อสตริงการสืบค้นนี้ว่างมี"ไม่จำเป็นที่จะต้อง?
    Example:
    ตัวอย่างเช่น

http://www.example.com/display?http://www.example.com/display
  • Standardizing character encoding. When the URL contains special characters such as a slash, dot, or space, check to see if the encoded forms such as "%2F" and the unencoded forms such as "/" are the same.
    มาตรฐานการเข้ารหัสอักขระ . เมื่อ URL มีอักขระพิเศษเช่นเฉือนเป็นจุดหรือพื้นที่ตรวจสอบเพื่อดูว่ารูปแบบการเข้า รหัสเช่น"2F%"และรูปแบบ unencoded เช่น"/"เหมือนกัน
    Example:
    ตัวอย่างเช่น

http://www.example.com/display?category=foo/bar+bazhttp://www.example.com/display?category=foo%2Fbar%20baz <h2>
[ <a href="http://translate.googleusercontent.com/translate_c?hl=th&ie=UTF-8&sl=en&tl=th&u=http://en.wikipedia.org/w/index.php%3Ftitle%3DURL_normalization%26action%3Dedit%26section%3D2&prev=_t&rurl=translate.google.com&twu=1&usg=ALkJrhhpn3nj-MbFkxN-c-text" style="direction: ltr; text-align: left;">Some normalization rules may be developed for specific websites by examining URL lists obtained from previous crawls or web server logs. กฎฟื้นฟูอาจจะพัฒนาเว็บไซต์ที่ระบุโดยตรวจสอบรายชื่อ URL ที่ได้จากก่อนหน้านี้รวบรวมข้อมูลหรือเว็บเซิร์ฟเวอร์ล็อก
For example, if the URL
ตc-text" style="direction: ltr; text-align: left;">Some normalization rules may be developed for specific websites by examining URL lists obtained from previous crawls or web server logs. กฎฟื้นฟูอาจจะพัฒนาเว็บไซต์ที่ระบุโดยตรวจสอบรายชื่อ URL ที่ได้จากก่อนหน้านี้รวบรวมข้อมูลหรือเว็บเซิร์ฟเวอร์ล็อก
For example, if the URL
ตัวอย่างเช่นหาก URL </p> 404 - Not Found
appears in a crawl log several times along with
ปรากฏในการรวบรวมข้อมูลเข้าสู่ระบบหลายครั้งพร้อมกับ
404 - Not Found
we may assume that the two URLs are equivalent and can be normalized to one of the URL forms.
เราอาจคิดว่าทั้งสอง URLs เทียบเท่าและสามารถปกติหนึ่งในรูปแบบ URL
Schonfeld et al.
et al Schonfeld
(2006) present a heuristic called DustBuster for detecting DUST (different URLs with similar text) rules that can be applied to URL lists.
(2006) ปัจจุบันเรียกว่า heuristic DustBuster สำหรับตรวจจับฝุ่น (URL ที่แตกต่างกันกับข้อความที่คล้ายกัน) กฎที่สามารถใช้กับรายการ URL
They showed that once the correct DUST rules were found and applied with a canonicalization algorithm, they were able to find up to 68% of the redundant URLs in a URL list.
พวกเขาพบว่าเมื่อกฎฝุ่นถูกต้องพบและใช้กับวิธี canonicalization ให้พวกเขาสามารถหาได้ถึง 68% ของ URL ที่ซ้ำซ้อนในรายการ URL


Source: URL normalization - Wikipedia, the free encyclopedia (google translated)


**Hidden Content: To see this hidden content your post count must be 20 or greater.**