DATA COMPRESSION

Huỳnh Chiếu Đẳng

 

            Có một thân hữu đi du lịch xa, mang về khá nhiều h́nh ảnh kỷ niệm chụp bằng máy digital camera. Để gởi cho bạn bè và thân nhân qua email, vị nầy mới dùng computer (Photoshop) resize ảnh nhỏ lại, như vậy file h́nh sẽ nhỏ đi để gởi và nhận cho nhanh. Ai cũng biết là muốn in h́nh đẹp th́ phải chụp ảnh lớn tối đa, đó là lư do tại sao đa số chọn mua máy 5 Megapixel thay v́ 3 Megapixel rẽ hơn, thâm tâm thân hữu nầy nghĩ là khi cần in th́ resize các tấm ảnh nầy cho lớn lên lại, đâu có khó chi. Tiếc thay những tấm ảnh kỷ niệm đẹp mắt chỉ có một lần trong đời bị đă bị hư v́ bị resize. Thưa quí bạn một khi thu nhỏ ảnh rồi th́ không c̣n cách chi làm cho nó lớn lại như ảnh nguyên thuỷ cả. Tôi muốn mượn câu chuyện có thực nầy để mở đầu cho một bài ngắn nhắc nhở quí bạn đôi điều về compress computer file, tên chung là data compression, như h́nh ảnh, như nhạc, và các document, text file…. Tôi có cái nhận xét là có một số người thường dùng computer không biết là có hai cách compress các computer file cho nên dùng compression rất là tuỳ tiện.

 

            Nhưng trước tiên có lẽ tôi nói thêm là tại sao cần tới compression. Các computer file nhiều khi khá lớn do đó chứa đựng chúng tốn chỗ lắm, tốn hard disk, mà truyền đi vào network, thí dụ gởi qua email, cũng mất nhiều thời gian. Do vậy người ta t́m cách thu nhỏ (tức là compress, nén) các computer file lại càng nhỏ càng tốt. Tới đây tôi nhớ có bằng hữu nghĩ cái hard disk trong computer chứa càng nhiều data th́ máy computer càng chạy chậm lại v́ nặng, do vậy có vị mua cái hard disk thật lớn, để chơi thôi chớ chẳng dám chứa ǵ trong đó cả, và cái key delete là cái key được xài nhiều nhất. Không phải vậy đâu, data vô h́nh vô trọng lượng. Hard disk không phải là chiếc xe hàng, mà data cũng không phải là hàng hoá. Chứa nhiều hay ít chẳng ảnh hưởng chi cả tới vận tốc chạy của cái computer. Chỉ có một điều duy nhất nên lưu ư là data (thí dụ một bản nhạc) có thể bị chia làm ba bốn phần nằm rải rác cùng khắp trong hard disk, khi cần tới nó th́ đầu máy read của hard disk phải chạy đi t́m từng đoạn mà ráp lại. Tuy vậy cũng chẳng tốn th́ giờ nhiều đáng kể đâu. Windows có cái utility gọi là defragment hard disk để thu xếp chuyện nầy, nhớ đừng có dùng, chạy mất nguyên 1 ngày cũng chưa xong. Bây giờ xin trở lại, có hai loại data compression.

 

            1. Loss-less compression: Đây là cách thu nhỏ độ lớn của của data file mà không bỏ mất data. Nó được dùng để compress bất cứ computer file nào từ Word document cho tới EXE file. Độ thu nhỏ có khi tới 50% hay hơn tuỳ loại data, có khi chỉ thu nhỏ thêm chừng vài phần trăm như trường hợp các EXE file hay DLL file. Cái nguyên tắt compression nầy dựa vào sự trùng lập các ASCII (các bytes). Thí dụ muốn compress bài viết nầy người ta t́m cách thay thế một chữ dài bằng một chữ ngắn hơn (chi đó) mà sau nầy cần dạng nguyên thuỷ th́ lập lại được ngay. Nói cho dễ hiểu th́ đây là kiểu viết tốc kư, thay chữ dài thành chữ ngắn (mà không hề nhầm lẫn khi cần viết lại nguyên văn). Các vị chuyên viên chớ có cười, xưa nay tôi không thích dùng chữ và cách diễn tả trường ốc khó hiểu của quí vị. C̣n nhiều cách lắm, thí dụ trên dùng minh họa cho dễ hiều thôi.

            Quí vị có thể dùng kiểu loss-less compression nầy mà không thắc mắc chi cả v́ nó trả lại dạng nguyên thuỷ dễ dàng khi cần. Windows có cái option khá hay là cái “compression hard drive to save disk space” nầy mà. Cái utility nầy compress data trước khi viết vô hard disk, khi đọc th́ nó de-compress data trở lại dạng nguyên thuỷ. Tôi nhớ không lầm là người ta đă làm sw dùng cho việc nầy từ trên 15 năm nay, giờ đây Microsoft mới bắt chước (Cách enable option nầy như sau: righ click hard diskà propertiesàgeneralàghi check mark ở ô compression hard drive to save disk spaceàOK, mất cả ngày trời nghe quí vị, may là quí vị cancel nửa chừng sau làm tiếp cũng được)

            Các dạng Loss-less compression nầy thường gặp là ZIP, RAR, ICE, SIT…hơn một chục cách. Chớ có lầm ZIP drive của hảng Iomega, tên ZIP drive nầy chẳng ăn chịu chị với cách ZIP compression cả (chớ có mua ZIP drive, lỗi thời rồi). Cách compress bằng ZIP có sẳn (built-in) trong Windows XP, quí vị dùng compress và de-compress một Zip file được ngay, mà không cần thêm sw ǵ cả (dùng send toà)

 

            2. Loss-compression : Xin các bạn chú trọng tới cái nầy, nó nguy hiễm lắm. Các file nhạc (âm thanh), h́nh ảnh, movie… tự bản thân của nó rất lớn, nên người ta buộc phải dùng cách nầy. Cách loss-less không đủ hiệu quả.

 

                        a. Âm thanh: Một bản nhạc 5 phút lớn khoảng 50 MB. Xin nhắc là một chữ như a, b, c… là một byte, 1 KB=1000 bytes, 1 MB=1000 KB=1.000.000 bytes, (bài nầy viết tới ngang đây là 34 KB) Một quyển tiều thuyết thật dầy chưa tới 1MB, nhưng 1 phút âm thanh cũng chiếm chỗ bằng một quyển tiều thuyết dầy. Một bản nhạc 5 phút truyền qua email cho người dùng modem dial-up (56.6 Kpps) mất chừng 2.4 tiếng đồng hồ (2 giờ 30 phút), trong khi nhận một quyển sách thật to chỉ mất chừng 3 phút. V́ file âm thanh quá lớn nên người ta t́m cách compress nó lại. Dạng quen thuộc được nhiều người dùng và là dạng dở nhất là MP3. Nếu compress theo standard là 128 Kbps th́ file âm thanh nguyên thuỷ PCM (wav) được rút nhỏ đi 10 lần, 5 phút nhạc MP3 (standard) chiếm chừng 5MB.

            Nguyên tắc của cách compress nầy là loại bỏ đi data âm thanh không nghe được (nhưng không có nghĩa là không cần thiết). Thí dụ với một đoạn nhạc phát cùng lúc tiếng trống thật to và tiếng violon nhỏ nhẹ, th́ người ta nghĩ là tiếng violon ngang chỗ nầy không cần đâu, v́ tai bị tiếng trống quá mạnh che khuất rồi đâu có nghe được, vứt bỏ nó đi cho trống chỗ. Thí dụ như đoạn nhạc có bổng tần số trên 16000Hz, người ta cho rằng tai người không nghe qua khỏi 16000 Hz, nên cũng vất bỏ những nốt phát cao trên 16 KHz…. (quí vị lưu ư là không nghe được nhưng không phải là không cần thiết đâu nghe). Và cứ như vậy th́ cuối cùng bản nhạc 10 phần data chỉ c̣n giử lại 1 phần mà thôi. Data bị bỏ đi thường không nghe được nhưng, lại nhưng, không có nghĩa là không cần thiết để những tinh tế trong bản nhạc khỏi mất đi. Có nhiều cở compress một audio file thành MP3 như thu nhỏ tới hơn 20 lần (âm thanh giống như tḥ đầu vô cái lu mà hát), tới 10 lần (128 Kpps, standard, nghe được được, như khi đi trên xe, mở nhạc đệm, như khi nghe đọc truyện)…. cho tới 5 lần thu nhỏ (320 Kpps, nghe có vẽ là nhạc, nếu test A-B th́ đa số người nghe không phân biệt được giửa hai bản nhạc nguyên thuỷ và nhạc đă compress) và các mức thu nhỏ khác ở khoảng giửa. Nói thêm là người ta có thể dùng cả năm bảy chục cái sw khác nhau (như Roxio, Nero, CoolEdit, Sound Forge… ) để compress audio file.

            Có nhiều cách (gần vài chục cách) compress audio file. Những cái thường dùng là OGG (Ogg Vorbis), MP3, WMA, RA… theo dư luận th́ OGG hay nhất, kế đó th́ MWA (mediaplayer của Windows) và RA (realplay), ATRAC (Sony)…mà h́nh như cách dở nhất là MP3. Hai cách MWA và RA có thể thu nhỏ độ lớn audio file c̣n phân nửa MP3 file mà vẫn giữ được cùng phẫm chất âm thanh như MP3. Ở đây tôi không vô sâu chi tiết kỷ thuật, quí vị đâu cần, nhưng chỉ muốn nói với quí bạn là khi compress bản nhạc như vậy th́ data đă mất. sau nầy quí bạn convert nó trở lại thành PCM (wav) th́ âm thanh cũng xấu y như ở dạng MP3 mà thôi, data nhạc đă bị vút bỏ rồi, đâu tạo lại được.

            Các bạn sẽ hỏi tại sao MP3 lan tràn mà cho là dở. Lư do là MP3 không giử bàn quyền, cho xài chùa trong thời gian đầu khá dài. Xài mấy thứ c̣n lại th́ người ta (như nhà sản xuất máy digital player, thí dụ Ipod, nhà bán nhạc compress, thí dụ Nasper, nhà làm sw compress nhạc và play nhạc…) phải trả royalty fee. V́ MP3, do một hảng sw của người Đức sáng tác, ra đời khá sớm nên thành công sớm. Khi tŕnh độ thưởng thức âm nhạc của bà con lên cao, th́ MP3 sẽ bị đào thải để thay dần bằng các dạng compress hay hơn, OGG rất có tương lai, ngoài ra Mac (Apple) cũng có một dạng compress audio file rất hay (mấy năm sau nầy MP3 cũng đ̣i royalty fee). Sau nầy khi chuyện truyền data đi được đủ nhanh, và các storage device (hard disk, flash memory…) đủ lớn th́ người ta không thèm compress audio file hay bất cứ computer file nào cả.

            Ghi chú: Với các tay chơi nhạc siêu việt th́ họ không thèm nghe mấy thứ audio compressed vưà bàn đâu, cũng không thích nghe digital audio, tức là AudioCD c̣n gọi là compact disc, dầu cho đó là dạng nguyên thuỷ hay nhất nhóm digital audio. Tôi có nói chuyện với vài người “cầu kỳ” nầy, th́ họ cho là analoge audio (như dĩa 33 tours, như băng cassette…) nghe “ngọt” “ấm” hơn nhiều. Theo tôi h́nh như điều nầy đúng mới chết. Digital audio file h́nh như “đứt đoạn” không ngọt, không ấm, không hay so với analogue có sound liên tục. Đôi khi nghe lại dĩa analogue (33, 45) và băng cassette nhạc sao thấy h́nh như nó hay hơn. Đáng lẽ c̣n dài lắm, nhưng tôi e quí bạn mất th́ giờ vô ích, chỉ cần chút khái niệm mà thôi.

 

                        b. H́nh ảnh: Cũng vậy, file h́nh chiếm chỗ rất nhiều, không thua chi âm thanh, có khi lớn hơn. Mấy tay nhiếp ảnh nhà nghề chụp tấm ảnh với máy 8 Megapixel dưới dạng RAW ra tấm ảnh chiếm chừng hàng chục MB. Ở đây tôi không nói nhiều về ảnh, v́ có rất ít người chơi ảnh chuyên nghiệp, trong khi đó có quá đông tài tử “nghiệp dư” karaoke và quá đông người nghe nhạc (nhóm nầy có tôi). Trở lại với tấm ảnh kỷ niệm cưới hỏi tiệc tùng, du lịch th́ dạng compress JPG là tốt rồi. Trừ hai dạng nguyên thuỷ là TIFF và dạng RAW (c̣n nguyên thuỷ hơn nửa) và và́ dạng riêng tư do các hảng máy ảnh sáng chế th́ tất cả các dạng compress h́nh ảnh đều là loss-compression. Nguyên tắc compress h́nh cũng tương tợ như âm thanh, người ta lựa những data ảnh bị che lấp lẩn nhau và nghĩ rằng mắt chẳng thấy được để bó bớt chúng đi. Một khi data h́nh ảnh bị bỏ đi rồi th́ dù quí vị có convert nó trở về dạng loss-less là TIFF đi nửa th́ cũng như không, nước đă đổ rồi làm sao hốt lại được.

            Do vậy với h́nh kỷ niệm, mà bao giờ chũng là duy nhất, quí bạn đừng có edit nguyên bản mà nên copy nó ra, rồi edit trên bản copy. Mỗi lần quí bạn save một tấm ảnh sau khi edit là mỗi lần mất thêm data, save 20 lấn dưới dạng JPG th́ tấm ảnh tệ thấy rơ. Cũng như vậy, khi quí bạn resize (cho nhỏ) tấm ảnh th́ cũng đừng nghĩ là sau nầy resize lớn trở lại là xong. Không đâu, nguyên tắc của resize ảnh là bỏ bớt pixel. Buồn cựi là khi mua máy người ta t́m mua máy càng chụp được càng nhiều Megapixel càng tốt. Máy 3 Megapixel không thèm nh́n, máy 4 Megapixel cũng cho de, ít ra cũng 5 Megapixel mới ưng. Vậy mà khi chụp hà tiện memory chỉ chụp 800x600 chưa tới 1Megapixel nửa (= 0,480Megapixel), để chụp được nhiều tấm ảnh trên cùng một card memory. Về nhà lại c̣n thu nhỏ tới 640x480 (= 0,307Megapixel) để gởi email, cứ nghĩ sau nầy cần th́ resize nó lên 2400x1800 (4.3Megapixel) cũng được. Quí bạn đâu có thể lấy không khí làm thành bánh ḿ được. Lấy không làm có th́ vô phương, quí bạn chỉ tạo ra data tưởng tưọng. Chuyện mua máy ảnh to, rồi lại chụp ành nhỏ, nghe y như một ông Hoàng ở Phi Châu mua chiếc Roll Royce đem về xứ, mỗi lần đi dâu th́ leo lên ngồi rồi bắt thần dân khiêng chiếc xe đi (có thực). Tưởng nên nói thêm, tôi đang xài máy ảnh chỉ chụp được tối đa là 3.2 Megapixel, có nhiều h́nh gởi đi trong chuyện vui buổi sáng do người ta chụp từ máy 2 Megapixel.Tôi không muốn bàn về ảnh, xin để dịp khác, nên xin nói qua qua mà thôi.

            Tất cả file movie quí bạn xem hàng ngày dưới bất cứ kiểu nào trên TV hay màn ảnh của máy rọi digital cũng đều đă được compressed. Dạng film 35mm hay 70mm chiếu trong rạp là không compressed. Hôm nào đẹp trời qúi bạn vào đó xem thử coi cho phân biệt vàng thau. Nhưng theo chỗ tôi biết hiện nay các rạp cũng chiếu phim dưới dạng digital. Về file movie th́ cũng xin để khi khác

 

            Tóm lại tất cả các data file (h́nh ảnh, âm thanh, document…) đều có thể dùng loss-less compression để thu nhỏ bớt phần nào một cách vô hại, v́ có thể tạo lại file nguyên thuỷ mà không mất data. Nhưng nếu dùng loss-compression như MP3, như JPG th́ nên giử bản chính và nhớ rằng các kiểu compress nầy chỉ dùng tạm khi cần chớ nó làm mất phẫm chất nhiều, không ưng ư những người mang máu nghệ sĩ cầu toàn đâu. Xin góp ư ở huy017@Juno.com.

                                                                        Huỳnh Chiếu Đẳng (viết lần đầu 23-Dec-04)

           

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Make your own free website on Tripod.com