::: 델파이 Tip&Trick :::

델파이 Tip&Trick 성격에 맞지 않는 광고,비방,질문의 글은 즉시 삭제하며
내용을 복사하여 사용할 경우 반드시 이곳(http://www.howto.pe.kr)을 출처로 명시하여 주세요


Category

  김영대(2004-09-04 15:03:47, Hit : 4964, Vote : 1117
 http://www.howto.pe.kr
 두 문자열의 유사도 검사하기

unit Unit1;

interface

uses
  Windows, Messages, SysUtils, Variants, Classes, Graphics, Controls, Forms,
  Dialogs, StdCtrls, Math;

type
  TForm1 = class(TForm)
    Edit1: TEdit;
    Edit2: TEdit;
    Button1: TButton;
    procedure Button1Click(Sender: TObject);
  private
    { Private declarations }
  public
    { Public declarations }
  end;

var
  Form1: TForm1;

implementation

{$R *.dfm}

// Levenshtein matching gives the number of steps (single character replacement or addition)
// needed to transform StringA into String B.
function CompareStrings_Levenshtein(const A, B: String; CaseSensitive: Boolean = False): Integer;
  function Minimum3(x, y, z: Integer): Integer;
  begin
    Result := Min(x, y);
    Result := Min(Result, z);
  end;
  function iff(bool: Boolean; x, y: Integer): Integer;
  begin
    if bool then
      Result := x
    else
      Result := y;
  end;

var
  D: array of array of Integer;
  n, m, i, j, Cost: Integer;
  AI, BJ: char;
  A1, B1: String;
begin
  n := Length(A);
  m := Length(B);
  if (n = 0) then
    Result := m
  else if m = 0 then
    Result := n
  else
  begin
    if CaseSensitive then
      A1 := A
    else
      A1 := UpperCase(A);

    if CaseSensitive then
      B1 := B
    else
      B1 := UpperCase(B);

    Setlength(D, n + 1, m + 1);
    for i := 0 to n do
      D[i, 0] := i;

    for j := 0 to m do
      D[0, j] := j;

    for i := 1 to n do
    begin
      AI := A1[i];

      for j := 1 to m do
      begin
        BJ := B1[j];

        Cost := iff(AI = BJ, 0, 1);
        D[i, j] := Minimum3(D[i - 1][j] + 1,
                            D[i][j - 1] + 1,
                            D[i - 1][j - 1] + Cost);
      end;
    end;
    Result := D[n, m];
  end;
end;

// Ratcliffe matching gives the percentage of possible character matches between StringA and
// StringB, based on the longest matching sequences and subsequences between the two strings
function CompareStrings_Ratcliff(const A, B: String; CaseSensitive: Boolean = False): Double;
var
  A1, B1: String;
  LenA, LenB: Integer;

  function CSR_Sub(StartA, EndA, StartB, EndB: Integer): Integer;
  var
    a, b, i, Matches, NewStartA, NewStartB: Integer;
  begin
    Result := 0;
    NewStartA := 0;
    NewStartB := 0;

    if (StartA > EndA) or (StartB > EndB) or (StartA <= 0) or (StartB <= 0) then
      Exit;

    for a := StartA to EndA do
    begin
      for B := StartB to EndB do
      begin
        Matches := 0;

        i := 0;

        while (a + i <= EndA) and (b + i <= EndB) and (A1[a + i] = B1[b + i]) do
        begin
          Inc(Matches);

          if Matches > Result then
          begin
            NewStartA := a;
            NewStartB := b;
            Result := Matches;
          end;

          Inc(i);
        end;
      end;
    end;

    if Result > 0 then
    begin
      Inc( Result, CSR_Sub(NewStartA + Result, EndA, NewStartB + Result, EndB) );
      Inc( Result, CSR_Sub(StartA, NewStartA - 1, StartB, NewStartB - 1) );
    end;
  end;

begin
  if CaseSensitive then
    A1 := A
  else
    A1 := UpperCase(A);

  if CaseSensitive then
    B1 := B
  else
    B1 := UpperCase(B);

  LenA := Length(A1);
  LenB := Length(B1);

  if A1 = B1 then
    Result := 100
  else if (LenA = 0) or (LenB = 0) then
    Result := 0
  else
    Result := CSR_Sub(1, LenA, 1, LenB) * 200 / (LenA + LenB);
end;

procedure TForm1.Button1Click(Sender: TObject);
begin
  ShowMessage(IntToStr(CompareStrings_Levenshtein(Edit1.Text, Edit2.Text, True))+'개의 틀린 부분이 있습니다');
  ShowMessage(FloatToStr(CompareStrings_Ratcliff(Edit1.Text, Edit2.Text, True))+'% 일치합니다');
end;

end.





891   [COM/OLE] 떠있는 모든 Internet Explorer 를 강제 Refresh 시키기  김영대 2004/09/20 4789 1228
890   [일반/컴포넌트] 개행문자를 인식하여 출력하는 StringGrid 예제  김영대 2004/09/18 4946 1081
889   [알고리즘] String ELF Hash 함수  김영대 2004/09/17 4435 1131
888   [알고리즘] String Hash 함수  김영대 2004/09/17 4360 1146
887   [알고리즘] 32bit CRC (cyclic redundancy check)  김영대 2004/09/17 4642 1124
886   [시스템] 실행중인 모든 프로세스의 "CPU 시간"/시작 시간 구하기  김영대 2004/09/15 5790 1297
885   [시스템] 실행중인 모든 프로세스의 "메모리 사용" 구하기  김영대 2004/09/15 6086 1394
884   [시스템] 프로세스가 사용하는 모듈(DLL) 리스트 구하기  김영대 2004/09/15 5639 1232
883   [일반/컴포넌트] PageControl 에서 미리 이동하려는 Sheet 알아내어 제어하기  김영대 2004/09/13 4669 1183
882   [일반/컴포넌트] 다른 윈도우의 PageControl(TabControl) 상태 알아내기  김영대 2004/09/13 4733 1295
881   [일반/컴포넌트] StringGrid 를 텍스트파일(csv)로 저장하고 불러오기  김영대 2004/09/11 5262 1134
880   [윈도우즈 API] 표준 콤포넌트에 사용자정의 Property 만들기  김영대 2004/09/10 4426 1164
879   [윈도우즈 API] 다른 프로그램에 마우스/키보드 이벤트 발생시키기  김영대 2004/09/07 7993 1294
878   [일반/컴포넌트] TStringGrid 의 모든 행에 행선택 CheckBox 두기  김영대 2004/09/06 5101 1064
877   [시스템] 조합중인 한글 얻기  김영대 2004/09/06 5924 1315
876   [시스템] IME 입력 시스템 정보  김영대 2004/09/06 6021 1658
875   [일반/컴포넌트] 실행시 StringGrid 에 ComboBox 올리기  김영대 2004/09/04 5899 1035
  [알고리즘] 두 문자열의 유사도 검사하기  김영대 2004/09/04 4964 1117
873   [일반/컴포넌트] TRichEdit 를 disable 할 때 배경색과 폰트 바꾸기  김영대 2004/09/02 6115 1751
872   [일반/컴포넌트] 문자가 영문/숫자/영숫자/한글 인지 검사하기  김영대 2004/08/31 6831 1473
871   [알고리즘] 문자열에서 순방향/역방향 단어 찾기  김영대 2004/08/31 3967 1034
870   [일반/컴포넌트] TEdit 의 입력시 소/대문자 강제 변환  김영대 2004/08/30 4453 1089
869   [일반/컴포넌트] TListBox 에 여러개의 컬럼 두기  김영대 2004/08/30 4162 1050
868   [시스템] 윈도우즈 재시작  김영대 2004/08/30 4375 1118
867   [윈도우즈 API] 윈도우즈 시작의 "실행" 화면 띄우기2  김영대 2004/08/30 4243 1181
866   [시스템] 윈도우즈 Registry 변경여부 감시하기  김영대 2004/08/26 5491 1235
865   [윈도우즈 API] 아이콘 변경 화면 띄우기  김영대 2004/08/26 4292 1146
864   [일반/컴포넌트] little/big endian 변환 함수  김영대 2004/08/25 5535 1470
863   [일반/컴포넌트] 파일을 클립보드로 복사하기  김영대 2004/08/25 4069 1008
862   [일반/컴포넌트] 절대경로와 상대경로 결합  김영대 2004/08/25 4895 1378
861   [윈도우즈 API] '알려진 파일 형식의 파일 확장명 숨김' 여부  김영대 2004/08/25 4796 1197
860   [윈도우즈 API] Active Desktop 활성화 여부  김영대 2004/08/25 4449 1162
859   [시스템] NTFS 파일 시스템 사용 여부  김영대 2004/08/25 5026 1317
858   [네트웍/인터넷] 공유기(NAT,마스커레이딩)사용시 Public IP 구하기  김영대 2004/08/18 6097 1220
857   [COM/OLE] 현재 IE 의 HTML 소스 코드 읽어오기  김영대 2004/08/18 5599 1310
856   [네트웍/인터넷] 스팸(spam) IP 인지 검사하기  김영대 2004/08/17 4816 1204
855   [시스템] 프로세스에 할당된 memory page 구하기  김영대 2004/08/17 4710 1249
854   [일반/컴포넌트] 숫자만 입력받는 TEdit 만들기  김영대 2004/08/17 4535 1222
853   [일반/컴포넌트] INI file 에서 section 단위로 읽기  김영대 2004/08/17 4472 1099
852   [일반/컴포넌트] 실행파일에서 잃어버린 DFM 파일 뽑아내기  김영대 2004/08/17 4996 1324

[1][2] 3 [4][5][6][7][8][9][10]..[25] [다음 10개]
 

Copyright 1999-2019 Zeroboard / skin by zero