To najprawdopodobniej kwestia kodowania dokumentu. W przypadku plików .doc
i catdoc
powinno dać się to rozwiązać przez odpowiednie ustawienie flag -d
i -s
. Pozostaje tylko kwestia ustalenia jak został zakodowany ten plik (żeby nie było za łatwo, lista możliwych formatów jest niestety dość długa, iconv -l
). docx2txt
nie ma żadnych opcji do ustawienia, więc tu nic się nie poradzi.
Najprostszym, moim zdaniem, sposobem by było przekonwertowanie wszystkich dokumentów, jakie masz na Unicode. Pytanie tylko, czy jest na to jakiś prosty sposób, bo jak na razie nie trafiłem na nic konkretnego