내 응용 프로그램에서 텍스트 파일 인 로그를 압축해야합니다.
그 같다 bzip2
와 gzip
같은 압축비를 갖는다.
그 맞습니까?
답변
일반적으로 bz2는 더 나은 압축률과 더 나은 복구 기능을 제공합니다.
OTOH, gz가 빠릅니다.
xz는 bz2보다 낫다고 말하지만 타이밍 동작을 모르겠습니다.
답변
마지막 갱신 maximumcompression.com는 유월 2011입니다 (10 월 2015 년 업데이트 답)
따라서이 웹 사이트는 언급하지 않는
현재의 세계 챔피언 텍스트 압축기 :
cmix
대회 / 벤치 마크 :
- enwiki6 1MB 텍스트 파일의
압축 18.2 % enwik6 - 캘거리 말뭉치 14 개 파일의 캘거리
17.6 % 압축(3GB tar 파일) - HUTTER 수상
의 15.7 % 압축 메가 바이트 텍스트 파일 enwik8은
(그러나cmix
너무 많은 RAM을 필요로하기 때문에 더 20기가바이트보다 승자가되지 않습니다) - 실 레시아 오픈 소스 압축 벤치 마크 202MB 실 레시아 코퍼스
의 15.7 % 압축 - 큰 텍스트 압축 벤치 마크 1GB 텍스트 파일 enwik9
의 12.4 % 압축
세부 정보 :
Byron Knoll 은 cmix
2013 년부터 Matt Mahoney의 Data Compressioned Explained 를 기반으로 2013 년부터 libre 소프트웨어 (GPL)로 적극적으로 개발 하고 있습니다. Matt Mahoney는 또한 위의 벤치 마크 중 일부를 유지 관리 하고 명령 줄 증분 아카이브 인 ZPAQ ( WP )를 제안합니다 .
더 많은 표준 도구를 원한다면 (더 적은 RAM 필요) 다음을 권장합니다.
lrzip
lrzip
의 진화 rzip
에 의해 콘 콜리 바스 . Long Range ZIP 및 Lzma RZIP의
lrzip
두 가지 이름을 나타냅니다 . 종종 (다른 인기있는 압축 도구) 보다 낫습니다 . Alexander Riccio 또한 추천 합니다.
lrzip
xz
lrzip
내가 가장 좋아하는 것은 :
zpaq
“아카이브 전문가” , 매트 마호니는 집중적에 근무하고있다 PAQ의 10 년 동안 알고리즘과 CPU / 메모리 리소스 및 압축 수준 사이의 최고의 타협을 제공합니다.
그러나, 마지막 zpaq
버전은 종종 포장되지 않은 / 가능한 최근의 배포판에 🙁
나는 새로운 기계를 가지고 있고 아주 좋은 압축기를 필요로 할 때 항상 소스에서 컴파일 : https://github.com/zpaq/zpaq
clone https://github.com/zpaq/zpaq
cd zpaq
g++ -O3 -march=native -Dunix zpaq.cpp libzpaq.cpp -pthread -o zpaq
답변
답변
나는 다음을 압축하기 위해 테스트 할 벤치 마크를 만들었습니다 :
204MB 폴더 (1,600 HTML 파일 포함)
결과
7zip => 2.38 MB
winrar => 49.5 MB
zip => 50.8 MB
gzip => 51.9 MB
그래서 7zip은 그중에서 최고입니다.
http://www.7-zip.org/
답변
bz2는 압축률이 높고 알고리즘은 압축 할 중복성을 찾는 옵션이 더 많습니다.
gzip은 훨씬 더 많은 도구를 사용하며 더 많은 플랫폼을 지원합니다. 더 많은 Windows 도구가 .gz 파일을 처리 할 수 있습니다. http의 일부이므로 웹 브라우저조차도 이해할 수 있습니다.
Linux에는 압축 파일을 직접 작업 할 수있는 도구가 있습니다. zgrep 및 bzgrep는 압축 파일을 검색 할 수 있습니다.
리눅스에서만 압축 비율을 약간 높이기 위해 bzip2를 사용합니다.
답변
xz는 bz2보다 훨씬 잘 압축되지만 시간이 더 걸립니다. 따라서 최대 압축이 목표이고 하드 드라이브의 공간이 프리미엄 인 경우 (파일 시스템을 재구성하는 동안 하나의 드라이브가 98 % 찼을 때의 경우) 스크립트를 실행하여 작업을 수행 할 수 있습니다 -휴식을 취하고 5 분 후에 다시 오십시오.
unxz는 내 경험에서 압축을 풀기 매우 빠릅니다. 이것은 매일 저에게 좋은 것입니다.
bz2는 xz보다 압축 속도가 빠르지 만 xz의 압축 결과를 달성하지 못하는 것으로 보입니다.
이러한 평가를 수행 할 수있는 유일한 방법은 일반적으로 압축 / 압축 해제 할 공통 파일 조합에 대해 벤치 마크를 실행하고 매개 변수를 변경하여 어떤 파일이 나오는지 확인하는 것입니다.